壹沓AI觀察：DALL-E——人工智能讓“達利”再世

譯文贊收藏1 評論

舉報 2021-01-18

掃描,分享朋友圈

2021新年伊始，OpenAI又在AI行業(yè)投下一枚重磅炸彈，DALL-E系統(tǒng)橫空出世，繼去年1700億參數(shù)量的GPT-3文本創(chuàng)意能力技驚四座，甚至傳出“威脅”碼農(nóng)的生計能自動搭建Html乃至Javascript代碼的說法，現(xiàn)在又新增了直接從文本提示“按需創(chuàng)造”風(fēng)格多樣的圖形設(shè)計之超能力，就已經(jīng)發(fā)布的DEMO圖樣來看秒殺50%的設(shè)計行業(yè)打工人應(yīng)該是沒有問題的，而且是質(zhì)量和速度雙重意義上的“秒殺”。

DALL-E系統(tǒng)根據(jù)文字““牛油果型的扶手椅”自動創(chuàng)作的部分圖像

那么，DALL-E的誕生會讓設(shè)計師面臨下崗的風(fēng)險么？

壹沓科技的回答：并不會，而且DALL-E類似系統(tǒng)的發(fā)展會大大加速設(shè)計師、藝術(shù)家的創(chuàng)作過程，幫助專業(yè)人士多快好省地交付成果，正如壹沓科技的愿景——AI會將人類從既有的低層次簡單勞動中徹底解放出來，讓我們的時間可以更多地傾注在真正有創(chuàng)造性和意義的事情中去。

壹沓科技的人工智能團隊也正加入Google Bert與OpenAI GPT這樣的業(yè)界潮流，著力在海量互聯(lián)網(wǎng)大數(shù)據(jù)文本挖掘基礎(chǔ)上的通用模型研究。同時，在面向軟件機器人業(yè)務(wù)體系的過程中也高度重視大規(guī)模領(lǐng)域數(shù)據(jù)的無監(jiān)督學(xué)習(xí)，無論是在新詞挖掘，詞對發(fā)現(xiàn)，還是情感短語評價方面均已取得領(lǐng)先行業(yè)的水平；而CV和NLP的模型融合，通過NLP糾正及增強OCR結(jié)果也已經(jīng)在實際業(yè)務(wù)場景顯現(xiàn)出令人印象深刻的效果。在2021年，我們將進一步加大投入，開展前沿研究，通過圖像識別對接用戶界面操作及內(nèi)容的分析進行用戶意圖理解，在流程自動化與文檔智能領(lǐng)域開拓出AI技術(shù)的一片新天地。

DALL-E究竟是什么？

DALL-E是OpenAI于2021年1月5日最新推出的深度學(xué)習(xí)算法模型，DALL-E含有120億參數(shù)的神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)可以直接從簡單的提示文字中創(chuàng)建高質(zhì)量的既符合描述又充滿創(chuàng)意的合成圖像。OpenAI直言DALL-E 的名字就來源于現(xiàn)代主義藝術(shù)家大師薩爾瓦多·達利（Salvador Dalí）（諧音梗玩到飛起），同時詞型結(jié)構(gòu)上又明顯在向皮克斯（Pixar）動畫名片 WALL-E（機器人總動員）致敬。一語雙關(guān)，“DALL-E”寓意這項工作既能夠模仿藝術(shù)大師隨性創(chuàng)作出極具想象力和奇異風(fēng)格的作品，同時作為機器學(xué)習(xí)從業(yè)人員，我們仿佛也看到了在此背后，人工智能就像可愛的WALL-E機器人從數(shù)以PB計的文山圖海的原始數(shù)據(jù)中不辭辛苦進行計算挖掘，最終堆疊出巨大的模型，而人們則可以選擇仰望星空，面對未來。

在DALL-E發(fā)布之前，OpenAI在2020年中已經(jīng)發(fā)布了一個巨大的有著1700億參數(shù)的模型GPT-3，該模型震驚了世界因為它可以產(chǎn)生類似于人類書寫出來句子，詩歌，甚至是計算機代碼。DALL-E是GPT-3的擴展，DALL-E 是基于transformer 的多模態(tài)機器學(xué)習(xí)模型，通過海量的圖庫和文本描述的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，它目前已經(jīng)可以根據(jù)輸入的簡單文本指示而生成符合語義的圖片。DALL-E產(chǎn)生圖片的方式與搜索引擎式搜索完全不同，它能夠根據(jù)輸入的文本和圖片即時“繪制”出從來未被人類創(chuàng)作過的全新圖片。難怪很多飽受甲方凌虐的乙方設(shè)計師已經(jīng)高呼DALL-E簡直就是“甲方克星、乙方福音，從此再也不用擔(dān)心甲方爸爸提需求啦”，專門針對愛提古怪IDEA的甲方老板，直接輸入文字分分鐘得到一打效果圖。

比如輸入 a male mannequin dressed in an orange and black flannel shirt and black jeans(一個男模特穿著橙色和黑色的法蘭絨襯衫和黑色的牛仔褲)，生成的圖片如下。

DALL-E如果能應(yīng)用于服裝設(shè)計行業(yè)，設(shè)計師可以少死多少腦細胞，壓縮不靠譜的方案又能節(jié)省下多少布料，減少多少二氧化碳排放??！

DALL-E還學(xué)會了什么？

DALL-E甚至可以在已有的圖片基礎(chǔ)上繼續(xù)按照文字想法開展創(chuàng)作。

文字輸入：the exact same cat on the top as a sketch on the bottom（與圖片頂部的貓完全相同的手繪草圖系統(tǒng)生成的圖片）

畫家、漫畫家、藝術(shù)家應(yīng)該能從生成的圖片中受到一定啟發(fā)，幫助他們收集創(chuàng)作靈感。

文字輸入：由豎琴制成的帶有豎琴紋理的蝸牛

DALL-E的前景看起來非常廣闊，每句話在真實世界的含義都可以被可視化成一張張栩栩如生的圖片。同樣，真實世界的知識同樣也可以被可視化表示出來，DALL-E或許奠定了讓機器理解真實世界的基礎(chǔ)。

DALL-E是如何進行計算的？

為了能讓DALL-E根據(jù)文字畫圖，OpenAI的研究者們用各種“文本-圖像”對組合來訓(xùn)練DALL-E。DALL·E以單數(shù)據(jù)流的形式，一次性接收1280個字符（token），其中256個字符分配給文字，其余的1024個則分配給圖像。然后DALL-E將對這些輸入信息進行建模，利用自注意力層的注意力遮罩，確保每一個輸入的圖像字符，都與所有輸入的文字字符關(guān)聯(lián)。之后，DALL-E就可以根據(jù)文本，通過極大似然估計，逐個字符地生成圖像。它不僅從能文字中生成圖像，也可以重新生成圖像中任何一塊矩形區(qū)域。到這里，DALL-E就可以根據(jù)文本生成圖像了，但怎么判別圖像的好壞呢？也就是說怎么對這些圖像進行評估排名呢？
OpenAI引入了之前開發(fā)的模型CLIP，CLIP（Contrastive Language-Image Pre-Training）是在各種（圖像，文本）對上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。它可以用自然語言指示來預(yù)測給定圖像的最相關(guān)的文本片段，而無需直接針對任務(wù)進行優(yōu)化，類似于GPT-2和GTP-3的zero-shot。CLIP對生成的圖片行進排名，就可以看到最匹配的幾個結(jié)果。

"我們發(fā)現(xiàn)，CLIP與GPT類似，在前期訓(xùn)練中可以學(xué)習(xí)執(zhí)行一系列廣泛的任務(wù)，包括物體字符識別（OCR）、地理定位、動作識別等。我們通過在超過30個現(xiàn)有數(shù)據(jù)集上對CLIP的zero-shot轉(zhuǎn)移性能進行基準(zhǔn)測試來衡量，發(fā)現(xiàn)它可以與之前的特定任務(wù)監(jiān)督模型相媲美。"12位OpenAI合作者關(guān)于該模型的論文中寫道。

DALL-E的誕生對AI產(chǎn)業(yè)意味著什么？

圖文結(jié)合的多模態(tài)學(xué)習(xí)大勢所趨

OpenAI先后發(fā)布了兩個重量級模型CLIP（Connecting Text and Images）和 DALL-E，這兩個模型體現(xiàn)了深度學(xué)習(xí)、機器學(xué)習(xí)領(lǐng)域的一個趨勢——多模態(tài)融合。越來越多的研究者關(guān)注到多模態(tài)的研究中，比如文檔和語言的結(jié)合任務(wù)有表單理解、表單識別，代表模型是微軟LayoutLM。又比如說視頻和語言的結(jié)合，相關(guān)的任務(wù)有視頻理解、圖文/視頻搜索，以及生成文字描述任務(wù)中有不錯的前景。
研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表征進行研究，以便加速這一領(lǐng)域的發(fā)展。OpenAI首席科學(xué)家Ilya Sutskever最近也表示，多模態(tài)模型將在2021年成為機器學(xué)習(xí)的主要趨勢。而谷歌AI負(fù)責(zé)人Jeff Dean也在2020年做出了類似的預(yù)測。

無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)方興未艾

NLP（自然語言處理技術(shù)）經(jīng)歷了第一代的基于規(guī)則的 NLP；第二代的基于統(tǒng)計的 NLP；五年前進入到基于神經(jīng)網(wǎng)絡(luò)的第三代 NLP（NN-NLP），在大數(shù)據(jù)、大模型、神經(jīng)網(wǎng)絡(luò)框架下取得了很好的進展，形成了一整套的技術(shù)。而現(xiàn)在更進一步，在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上將無監(jiān)督學(xué)習(xí)與圖像融合的結(jié)果，又讓我們感到眼前一亮。

當(dāng)然，面向真正可以落地的人工智能，目前仍然有很多困難標(biāo)注數(shù)據(jù)的稀缺和昂貴就是難題之一。CV（計算機視覺）和NLP一樣，都面對著標(biāo)注信息的不足的問題，人工輸入的標(biāo)簽已經(jīng)不能更優(yōu)指導(dǎo)學(xué)習(xí)過程，越來越多的基于DL的機器視覺已經(jīng)到了足以質(zhì)疑人工標(biāo)簽的程度，這些標(biāo)簽的價值也即將被榨干；因為人工標(biāo)注永遠無法模擬人腦的推理過程，僅能提供一些間接、局部有效的信息。我們知道無標(biāo)簽數(shù)據(jù)的增長是超線性（甚至指數(shù)級）的，但是受到人力成本約束，有標(biāo)簽的訓(xùn)練數(shù)據(jù)的增長只能是線性的。這也就意味著，隨著時間的推移，將來的學(xué)習(xí)算法必然會面臨無標(biāo)簽數(shù)據(jù)遠多于有標(biāo)簽數(shù)據(jù)的情況。

圖靈獎得主深度學(xué)習(xí)先驅(qū)Hilton 也曾經(jīng)說過: “未來AI系統(tǒng)主要是無監(jiān)督的；無監(jiān)督學(xué)習(xí)可以從未標(biāo)記、未分類的測試數(shù)據(jù)中提取知識——在學(xué)習(xí)共性和對共性是否存在做出反應(yīng)的能力方面，無監(jiān)督學(xué)習(xí)的能力幾乎達到人類水平。比如在人類視覺皮層尋找啟發(fā)：人類的視覺采用一種重建的方法來學(xué)習(xí)，事實證明，機器視覺系統(tǒng)中的重建技術(shù)增強了它們抵抗對抗性攻擊的能力。然而，如果你采用一個擁有數(shù)十億參數(shù)的系統(tǒng)，對某個目標(biāo)函數(shù)執(zhí)行隨機梯度下降，它的效果會比你想象的好得多，規(guī)模越大，效果越好。這讓一種說法變得更合理：即大腦計算某些目標(biāo)函數(shù)的梯度，并根據(jù)梯度更新神經(jīng)突觸的強度。我們只需要弄清楚它是如何得到梯度的，以及目標(biāo)函數(shù)是什么?！?/p>

關(guān)于壹沓科技

壹沓科技成立于2016年11月，聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用，公司核心業(yè)務(wù)包括壹沓數(shù)字機器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM，已經(jīng)為多個行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。

我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機器人流程自動化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力，已獲得軟件知識產(chǎn)權(quán)數(shù)十個。

總部位于上海，在北京、深圳設(shè)有分公司，已獲得高新技術(shù)企業(yè)、雙軟及專精特新企業(yè)等專業(yè)認(rèn)證。核心團隊來自于多家知名上市公司，在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過10年，擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載，授權(quán)事宜請聯(lián)系作者本人，侵權(quán)必究。