03/04/2023

AI文轉圖混戰！微軟、Adobe、Canva三雄並起，Midjourney生成效果逼真引發假圖泛濫

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　繼Bing AI搜尋功能後，微軟宣布推出AI繪圖服務《Bing Image Creator》預覽版。圖像編輯軟件巨頭Adobe不甘示弱，同日發表生成式AI模型集「Firefly」，容許《Photoshop》與《Illustrator》用戶輸入文字提示，快速生成各式圖像素材。網上設計平台Canva也推出了一系列AI製圖工具，以作抗衡。似乎AI技術競賽的戰火已從生成文案，蔓延至「文字生成圖像」領域！

微軟、Adobe競推AI繪圖工具

　　2023年3月21日，微軟（Microsoft）宣布，將OpenAI的文轉圖技術「DALL-E」移植至Bing搜索引擎和《Edge》網頁瀏覽器的預覽版。用戶輸入文字提示後，AI會自動生成4張不同設計的縮圖以供選擇。接著，用戶點選其中一張圖片，即可輸出1024 x 1024像素的圖片。

《Bing Image Creator》背後所用的生成式AI技術是來自OpenAI旗下的文轉圖功能「DALL-E」。（圖片來源：Bing官網）

《Bing Image Creator》的介面上雖然有中文介紹，但實際上現時只支援英文輸入。用戶鍵入提示詞後，AI便會自動生成4張不同設計的縮圖。（圖片來源：Bing官網）

用戶選取其中一張縮圖後，便可以將生成好的圖片下載下來。每張圖片的左下角會加入Bing標誌的浮水印。（圖片來源：Bing官網）

　　目前這項功能提供免費試用，暫時只能選擇「富有創意」模式來產製圖片，但日後會增設「平衡」與「準確」模式，讓用戶揀選不同的製圖取向。微軟表示，《Bing Image Creator》已整合OpenAI的內容安全機制，當AI偵測到提示文字可能會產生危害性的圖片內容時，即會阻止該提示語生成圖像，並警告用戶。

　　同一天，圖像編輯軟件龍頭Adobe也宣布推出生成式 AI 模型集「Firefly」，以鞏固其市場地位。在Firefly模型的加持下，用戶在操作Adobe圖像編輯工具時，可以使用自己的語言直接向AI下指示，生成相關的圖片、影片、音效、或3D圖像。用戶在設計圖像時，只要在對話框中輸入：「將畫筆換成藍色，加入漸變效果」，AI即會自動調整畫筆設定，有助縮減製作時間。

在Firefly模型的加持下，Adobe用戶可以使用自然語言要求AI幫你在海面下加入「An underwater city」（水底城市）。（圖片來源：Adobe官網）

Adobe表示，藉助Firefly，Adobe可以把AI驅動生成的「創意成分」直接導入用戶的工作流程，提升創作者的生產力。（圖片來源：Adobe官網）

　　Adobe已在3月21日推出商業測試版本，首階段只提供圖像生成與文字效果功能。首批結合Firefly模型的軟件，包括：《Photoshop》、《Illustrator》、《Express》、《Experience Manager》等；日後用戶將可以在整套《Creative Cloud》、《Document Cloud》、以及《Experience Cloud》系列的軟件中用到Firefly功能。

Adobe Firefly具備防偷圖設定

　　近期有愈來愈多數碼藝術家與插畫師擔心，自己的作品會被AI抓取作訓練數據，然後再生成帶有其作品元素的AI畫作。有鑑於此，Adobe提供「Do Not Train」的設定選項，讓用戶決定是否容許作品被用來訓練AI模型。當用戶在作品中選取「Do Not Train」的標籤後，AI在抓取訓練數據時便會自動跳過該畫作。

　　另一方面，不少企業亦憂慮，利用AI製圖一旦涉及侵權問題，將會破壞品牌形像。針對此問題，Adobe強調由Firefly模型產製的作品均可合法用於商業用途，理由是該模型所用的訓練數據全是來自Adobe Stock素材庫、公開許可的版權內容、以及已過期的公用領域作品。此外，當用戶輸入文字生成圖像時，可以自行選擇指定的數據來源，免去版權問題的困擾。

　　被視為Adobe最強挑戰者的網上設計平台Canva也加入AI繪圖戰團，3月23日發表了一系列冠以「Magic」之名的AI製圖工具，讓它不但可以文轉圖，還可以「圖轉圖」。在「Magic Design」工具中，用戶只需上傳一張圖片，再選取一種風格，AI即會自動挑選出獨特的設計模板，跟著用戶基於此模板進行修改，便可以製作出心儀的海報或生日賀卡。

透過Magic Design功能，Canva用戶只要上傳圖片再選定風格，AI即可為用戶生成個性化的專屬設計模板。（圖片來源：Canva官網）

　　在「Magic Edit」中，Canva用戶只要選定圖像中要添加或替換內容的位置，AI就會自動進行修改，為圖片添加或替換當中的任何內容。在「Magic Replace」中，用戶只需點擊一下按鍵，AI即可為所有設計作品快速更換過時的商標或品牌圖形。在「Magic Eraser」中，AI更可以幫助用戶刪除圖片背景中的任何人或物件。

Midjourney V5畫質像真度倍增

　　面對眾多新挑戰者進場，AI繪圖界領頭羊Midjourney亦已於2023年3月15日釋出最新版本《Midjourney V5》，務求在技術上拋離對手。Midjourney創辦人大衛．霍爾茲（David Holz）指出，相比起前幾代，《V5》可被視為「專業模式」，採用限制較少的全新演算法，能夠提供更多樣化的製圖效果。

　　《V5》輸出圖像的畫質提高了兩倍，達到1,024×1,024像素，惟AI製圖時間也隨之而倍增。在舊版本中，用戶輸入提示詞時，通常要以逗號分開不同的描述詞彙；來到《V5》版本，《Midjourney》終於真正支援「自然語言」，用戶可以用一句說話來當作提示，惟暫時只支援英文輸入。

　　《Midjourney》一直容許以圖片或文字當作提示方式，而《V5》則新增權衡圖片提示和文字提示比重的功能，可以控制生成圖像是偏向圖片提示、還是文字提示。同時，《V5》更打破了輸出圖片長寬比只有1:2或2:1的限制，可讓用戶自訂任何長寬比例。

　　更重要的是，《V5》解決了生成人像時手指數量或姿勢不對的問題，除不再出現六指或畸形手指外，還能按照人物特徵畫出不同年紀和狀態的手部細節。盡管有些時候仍是會生成解剖學上不合理的四肢構造，惟作為AI製圖的最明顯線索已大大減少，讓人愈來愈難判斷圖片是出自AI、還是人類手筆。

AI繪圖工具一直無法畫好人像中的手指，但來到《Midjourney V5》卻完全解決了這個問題，不僅能夠畫出比例正常的五指，甚至連光影下的手指紋路也可以完美呈現。（圖片來源：Twitter@TheCartelDel帳戶）

Midjourney被濫用於假圖製作

　　不過，《Midjourney V5》輸出的圖片著實太逼真了，因而很容易被濫用，造成假資訊流竄的問題。英國記者艾略特·希金斯（Eliot Higgins）使用《V5》偽造了美國前總統當勞·特朗普（Donald Trump）被捕的圖片，並上傳至社交媒體，結果有不少網民信以為真，爭相在網上瘋傳這些圖片，迫使紐約警方不得不出面闢謠。

　　其實，只要仔細察看希金斯用《V5》所生成的50張「特朗普被捕」圖片，不難發現當中破綻百出，譬如特朗普有3隻腳，腰部纏上警察腰帶等。希金斯表示，原本以為網民可以留意到圖片的不合理之處，可是最終卻有不少人相信它們是真的，這證明了現今教育制度欠缺批判思維的訓練。

英國記者希金斯使用《Midjourney V5》創作了一系列的特朗普被捕與逃獄的圖片；其中特朗普與警方對峙的AI製圖中，只要仔細一看，便可以發現圖中的特朗普有3隻腳，並圍上了警察腰帶，可說是破綻百出。（圖片來源：Twitter@EliotHiggins帳戶）

希金斯還利用《Midjourney V5》製作了特朗普從下水道逃獄的情境圖。（圖片來源：Twitter@EliotHiggins帳戶）

　　事件發生後，希金斯的《Midjourney》帳戶已被停用，同時「被捕」（arrested）這個提示詞也被禁用。3月28日，Midjourney更宣布暫時停止開放免費帳戶使用。霍爾茲解釋，近日大量用戶湧入開設一次性帳號來產製免費圖片，導致伺服器不堪負荷；為保障付費用戶的使用權益，所以要關閉免費帳戶。

　　《華盛頓郵報》認為，從這宗事件可見，政府與企業均欠缺對利用AI來製作和散播假訊息的相關管制。有意見認為，應該在AI生成圖片上加入浮水印，以便他人識別。微軟表示，《Bing Image Creator》輸出的照片已加註標籤，表明是由Bing AI產製。

暫停AI研究公開信震動科技界

　　然而，有些人認為這樣還是不夠。2023年3月30日，網上出現了一封由特斯拉（Tesla）執行長伊隆·馬斯克（Elon Musk）帶頭簽署的「暫停AI研究」公開信，震動整個科技界。這封公開信是由非牟利組織「生命未來研究所」（Future of Life Institute）撰寫，而馬斯克是該組織的支持者，曾於2015年向它捐贈1,000萬美元（約7,800萬港元）。

　　這封公開信寫道：「我們呼籲所有AI實驗室立即暫停訓練比GPT-4更強大的AI模型至少6個月……AI實驗室和獨立專家應該利用這段暫停時間，共同開發和實施一套適用於高級AI設計和開發的共享安全協議，這些協議應由獨立的外部專家嚴格審核和監督。」

Tesla執行長馬斯克、Apple共同創辦人Steve Wozniak、以及多位知名的AI研究人員連署公開信，呼籲所有AI實驗室暫停訓練比GPT-4更先進的模型起碼6個月，避免發展過快的AI對人類造成威脅。（圖片來源：生命未來研究所官網）

　　其他知名的聯署人士包括：Apple聯合創辦人史蒂夫．沃茲尼亞克（Steve Wozniak）、2018年圖靈獎得主約書亞·本吉奧（Yoshua Bengio）、AI圖像生成初創Stability AI執行長伊馬德·穆斯塔克（Emad Mostaque）、以及Pinterest聯合創辦人埃文．夏普（Evan Sharp）等。截至3月31日為止，聯署人數已逾2,400人。

要求FTC暫停GPT-4商業發展

　　另一非牟利組織「人工智能及數碼政策中心」（Center for AI and Digital Policy，CAIDP）亦已於3月30日向美國聯邦貿易委員會（Federal Trade Commission，FTC）提交訴狀，要求調查OpenAI，以及暫停GPT-4等大型語言模型的商業發展。

　　該中心認為，OpenAI既違反了FTC法例第五條有關遏制不公平、詐欺商業行為的規定，又沒有遵循FTC對AI產品的指導原則，即是「透明、可解釋、公平、可經驗證、以及負責任的」。

　　因此，CAIDP建議，FTC應要求OpenAI以後推出GPT相關產品前，要先行建立獨立評估機制，審查產品可能帶來的風險。同時，FTC亦應對生成式AI制定監管法規，並創建GPT-4公共意外通報系統。

　　在生成式AI技術的高速發展下，未來AI生成假圖的像真度將會更高，遲早會完全跨過假想與真實之間的鴻溝，致使社會要求監管AI的呼聲會愈來愈大。以後各國政府針對AI規管將會有甚麼新政策出台？OpenAI、Microsoft、以及Google等AI科技巨頭又會有甚麼回應呢？往後事態發展如何，仍有待觀望。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

《說說心理話》親友自殺離世遺屬如何自處？身邊親友應該怎樣陪他們走出人生最低谷？► 即睇