壹沓AI觀察:DALL-E——人工智能讓“達利”再世

2021新年伊始,OpenAI又在AI行業(yè)投下一枚重磅炸彈,DALL-E系統(tǒng)橫空出世,繼去年1700億參數(shù)量的GPT-3文本創(chuàng)意能力技驚四座,甚至傳出“威脅”碼農(nóng)的生計能自動搭建Html乃至Javascript代碼的說法,現(xiàn)在又新增了直接從文本提示“按需創(chuàng)造”風(fēng)格多樣的圖形設(shè)計之超能力,就已經(jīng)發(fā)布的DEMO圖樣來看秒殺50%的設(shè)計行業(yè)打工人應(yīng)該是沒有問題的,而且是質(zhì)量和速度雙重意義上的“秒殺”。

DALL-E系統(tǒng)根據(jù)文字““牛油果型的扶手椅”自動創(chuàng)作的部分圖像
那么,DALL-E的誕生會讓設(shè)計師面臨下崗的風(fēng)險么?
壹沓科技的回答:并不會,而且DALL-E類似系統(tǒng)的發(fā)展會大大加速設(shè)計師、藝術(shù)家的創(chuàng)作過程,幫助專業(yè)人士多快好省地交付成果,正如壹沓科技的愿景——AI會將人類從既有的低層次簡單勞動中徹底解放出來,讓我們的時間可以更多地傾注在真正有創(chuàng)造性和意義的事情中去。
壹沓科技的人工智能團隊也正加入Google Bert與OpenAI GPT這樣的業(yè)界潮流,著力在海量互聯(lián)網(wǎng)大數(shù)據(jù)文本挖掘基礎(chǔ)上的通用模型研究。同時,在面向軟件機器人業(yè)務(wù)體系的過程中也高度重視大規(guī)模領(lǐng)域數(shù)據(jù)的無監(jiān)督學(xué)習(xí),無論是在新詞挖掘,詞對發(fā)現(xiàn),還是情感短語評價方面均已取得領(lǐng)先行業(yè)的水平;而CV和NLP的模型融合,通過NLP糾正及增強OCR結(jié)果也已經(jīng)在實際業(yè)務(wù)場景顯現(xiàn)出令人印象深刻的效果。在2021年,我們將進一步加大投入,開展前沿研究,通過圖像識別對接用戶界面操作及內(nèi)容的分析進行用戶意圖理解,在流程自動化與文檔智能領(lǐng)域開拓出AI技術(shù)的一片新天地。
DALL-E究竟是什么?
DALL-E是OpenAI于2021年1月5日最新推出的深度學(xué)習(xí)算法模型,DALL-E含有120億參數(shù)的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)可以直接從簡單的提示文字中創(chuàng)建高質(zhì)量的既符合描述又充滿創(chuàng)意的合成圖像。OpenAI直言DALL-E 的名字就來源于現(xiàn)代主義藝術(shù)家大師薩爾瓦多·達利(Salvador Dalí)(諧音梗玩到飛起),同時詞型結(jié)構(gòu)上又明顯在向皮克斯(Pixar)動畫名片 WALL-E(機器人總動員)致敬。一語雙關(guān),“DALL-E”寓意這項工作既能夠模仿藝術(shù)大師隨性創(chuàng)作出極具想象力和奇異風(fēng)格的作品,同時作為機器學(xué)習(xí)從業(yè)人員,我們仿佛也看到了在此背后,人工智能就像可愛的WALL-E機器人從數(shù)以PB計的文山圖海的原始數(shù)據(jù)中不辭辛苦進行計算挖掘,最終堆疊出巨大的模型,而人們則可以選擇仰望星空,面對未來。


在DALL-E發(fā)布之前,OpenAI在2020年中已經(jīng)發(fā)布了一個巨大的有著1700億參數(shù)的模型GPT-3,該模型震驚了世界因為它可以產(chǎn)生類似于人類書寫出來句子,詩歌,甚至是計算機代碼。DALL-E是GPT-3的擴展,DALL-E 是基于transformer 的多模態(tài)機器學(xué)習(xí)模型,通過海量的圖庫和文本描述的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),它目前已經(jīng)可以根據(jù)輸入的簡單文本指示而生成符合語義的圖片。DALL-E產(chǎn)生圖片的方式與搜索引擎式搜索完全不同,它能夠根據(jù)輸入的文本和圖片即時“繪制”出從來未被人類創(chuàng)作過的全新圖片。難怪很多飽受甲方凌虐的乙方設(shè)計師已經(jīng)高呼DALL-E簡直就是“甲方克星、乙方福音,從此再也不用擔(dān)心甲方爸爸提需求啦”,專門針對愛提古怪IDEA的甲方老板,直接輸入文字分分鐘得到一打效果圖。
比如輸入 a male mannequin dressed in an orange and black flannel shirt and black jeans(一個男模特穿著橙色和黑色的法蘭絨襯衫和黑色的牛仔褲),生成的圖片如下。

DALL-E如果能應(yīng)用于服裝設(shè)計行業(yè),設(shè)計師可以少死多少腦細胞,壓縮不靠譜的方案又能節(jié)省下多少布料,減少多少二氧化碳排放??!
DALL-E還學(xué)會了什么?
DALL-E甚至可以在已有的圖片基礎(chǔ)上繼續(xù)按照文字想法開展創(chuàng)作。

文字輸入:the exact same cat on the top as a sketch on the bottom(與圖片頂部的貓完全相同的手繪草圖系統(tǒng)生成的圖片)
畫家、漫畫家、藝術(shù)家應(yīng)該能從生成的圖片中受到一定啟發(fā),幫助他們收集創(chuàng)作靈感。

文字輸入:由豎琴制成的帶有豎琴紋理的蝸牛
DALL-E的前景看起來非常廣闊,每句話在真實世界的含義都可以被可視化成一張張栩栩如生的圖片。同樣,真實世界的知識同樣也可以被可視化表示出來,DALL-E或許奠定了讓機器理解真實世界的基礎(chǔ)。
DALL-E是如何進行計算的?
為了能讓DALL-E根據(jù)文字畫圖,OpenAI的研究者們用各種“文本-圖像”對組合來訓(xùn)練DALL-E。DALL·E以單數(shù)據(jù)流的形式,一次性接收1280個字符(token),其中256個字符分配給文字,其余的1024個則分配給圖像。然后DALL-E將對這些輸入信息進行建模,利用自注意力層的注意力遮罩,確保每一個輸入的圖像字符,都與所有輸入的文字字符關(guān)聯(lián)。之后,DALL-E就可以根據(jù)文本,通過極大似然估計,逐個字符地生成圖像。它不僅從能文字中生成圖像,也可以重新生成圖像中任何一塊矩形區(qū)域。到這里,DALL-E就可以根據(jù)文本生成圖像了,但怎么判別圖像的好壞呢?也就是說怎么對這些圖像進行評估排名呢?
OpenAI引入了之前開發(fā)的模型CLIP,CLIP(Contrastive Language-Image Pre-Training)是在各種(圖像,文本)對上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。它可以用自然語言指示來預(yù)測給定圖像的最相關(guān)的文本片段,而無需直接針對任務(wù)進行優(yōu)化,類似于GPT-2和GTP-3的zero-shot。CLIP對生成的圖片行進排名,就可以看到最匹配的幾個結(jié)果。

"我們發(fā)現(xiàn),CLIP與GPT類似,在前期訓(xùn)練中可以學(xué)習(xí)執(zhí)行一系列廣泛的任務(wù),包括物體字符識別(OCR)、地理定位、動作識別等。我們通過在超過30個現(xiàn)有數(shù)據(jù)集上對CLIP的zero-shot轉(zhuǎn)移性能進行基準(zhǔn)測試來衡量,發(fā)現(xiàn)它可以與之前的特定任務(wù)監(jiān)督模型相媲美。"12位OpenAI合作者關(guān)于該模型的論文中寫道。
DALL-E的誕生對AI產(chǎn)業(yè)意味著什么?
圖文結(jié)合的多模態(tài)學(xué)習(xí)大勢所趨
OpenAI先后發(fā)布了兩個重量級模型CLIP(Connecting Text and Images)和 DALL-E,這兩個模型體現(xiàn)了深度學(xué)習(xí)、機器學(xué)習(xí)領(lǐng)域的一個趨勢——多模態(tài)融合。越來越多的研究者關(guān)注到多模態(tài)的研究中,比如文檔和語言的結(jié)合任務(wù)有表單理解、表單識別,代表模型是微軟LayoutLM。又比如說視頻和語言的結(jié)合,相關(guān)的任務(wù)有視頻理解、圖文/視頻搜索,以及生成文字描述任務(wù)中有不錯的前景。
研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表征進行研究,以便加速這一領(lǐng)域的發(fā)展。OpenAI首席科學(xué)家Ilya Sutskever最近也表示,多模態(tài)模型將在2021年成為機器學(xué)習(xí)的主要趨勢。而谷歌AI負(fù)責(zé)人Jeff Dean也在2020年做出了類似的預(yù)測。
無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)方興未艾
NLP(自然語言處理技術(shù)) 經(jīng)歷了第一代的基于規(guī)則的 NLP;第二代的基于統(tǒng)計的 NLP;五年前進入到基于神經(jīng)網(wǎng)絡(luò)的第三代 NLP(NN-NLP),在大數(shù)據(jù)、大模型、神經(jīng)網(wǎng)絡(luò)框架下取得了很好的進展,形成了一整套的技術(shù)。而現(xiàn)在更進一步,在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上將無監(jiān)督學(xué)習(xí)與圖像融合的結(jié)果,又讓我們感到眼前一亮。
當(dāng)然,面向真正可以落地的人工智能,目前仍然有很多困難標(biāo)注數(shù)據(jù)的稀缺和昂貴就是難題之一。CV(計算機視覺)和NLP一樣,都面對著標(biāo)注信息的不足的問題,人工輸入的標(biāo)簽已經(jīng)不能更優(yōu)指導(dǎo)學(xué)習(xí)過程,越來越多的基于DL的機器視覺已經(jīng)到了足以質(zhì)疑人工標(biāo)簽的程度,這些標(biāo)簽的價值也即將被榨干;因為人工標(biāo)注永遠無法模擬人腦的推理過程,僅能提供一些間接、局部有效的信息。我們知道無標(biāo)簽數(shù)據(jù)的增長是超線性(甚至指數(shù)級)的,但是受到人力成本約束,有標(biāo)簽的訓(xùn)練數(shù)據(jù)的增長只能是線性的。這也就意味著,隨著時間的推移,將來的學(xué)習(xí)算法必然會面臨無標(biāo)簽數(shù)據(jù)遠多于有標(biāo)簽數(shù)據(jù)的情況。
圖靈獎得主深度學(xué)習(xí)先驅(qū)Hilton 也曾經(jīng)說過: “未來AI系統(tǒng)主要是無監(jiān)督的;無監(jiān)督學(xué)習(xí)可以從未標(biāo)記、未分類的測試數(shù)據(jù)中提取知識——在學(xué)習(xí)共性和對共性是否存在做出反應(yīng)的能力方面,無監(jiān)督學(xué)習(xí)的能力幾乎達到人類水平。比如在人類視覺皮層尋找啟發(fā):人類的視覺采用一種重建的方法來學(xué)習(xí),事實證明,機器視覺系統(tǒng)中的重建技術(shù)增強了它們抵抗對抗性攻擊的能力。然而,如果你采用一個擁有數(shù)十億參數(shù)的系統(tǒng),對某個目標(biāo)函數(shù)執(zhí)行隨機梯度下降,它的效果會比你想象的好得多,規(guī)模越大,效果越好。這讓一種說法變得更合理:即大腦計算某些目標(biāo)函數(shù)的梯度,并根據(jù)梯度更新神經(jīng)突觸的強度。我們只需要弄清楚它是如何得到梯度的,以及目標(biāo)函數(shù)是什么?!?/p>
關(guān)于壹沓科技
壹沓科技成立于2016年11月,聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用,公司核心業(yè)務(wù)包括壹沓數(shù)字機器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM,已經(jīng)為多個行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。
我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機器人流程自動化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力,已獲得軟件知識產(chǎn)權(quán)數(shù)十個。
總部位于上海 ,在北京、深圳設(shè)有分公司,已獲得高新技術(shù)企業(yè)、雙軟及專精特新企業(yè)等專業(yè)認(rèn)證 。核心團隊來自于多家知名上市公司,在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過10年,擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗。

轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。




評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)