久久人妻牲爱视频,亚洲无码视频区,黑人操人妻一区二区,aaa在线视频,日产精品久久久久久久,99熟妇诱惑视频,激情只爱无码,国产精品日韩一区二区,超碰成人三级在线

壹沓AI觀察:CKG如何讓人工智能擁有常識(shí)

舉報(bào) 2020-11-06


        壹沓科技的愿景就是讓人工智能技術(shù)廣泛落地實(shí)際商業(yè)應(yīng)用場(chǎng)景,從枯燥繁復(fù)的信息處理工作中解放人類員工。面向各行各業(yè)的具體流程,AI文本處理需要在遍歷文檔的同時(shí)能夠理解每個(gè)關(guān)鍵字段的概念含義,才可能象人一樣,從中準(zhǔn)確獲取所需信息。例如:從紛繁蕪雜的物流行業(yè)貨運(yùn)托付流程表單中,經(jīng)常存在表頭簡(jiǎn)稱、非對(duì)齊項(xiàng)、實(shí)際填表中的同格值填寫(xiě)、冗余備注項(xiàng)矛盾等各類具體問(wèn)題,人類員工可以憑借工作經(jīng)驗(yàn)和常識(shí)準(zhǔn)確推斷各項(xiàng)非規(guī)則的信息項(xiàng),確保業(yè)務(wù)流程執(zhí)行,而目前的OCR及智能表單識(shí)別AI對(duì)此類問(wèn)題往往無(wú)能為力。

       如何有效構(gòu)建和應(yīng)用知識(shí)圖譜來(lái)增強(qiáng)文檔挖掘過(guò)程,并且讓AI具備人類信息處理常識(shí)已經(jīng)成為行業(yè)重要命題。壹沓科技AI部門(mén)在人工智能研究過(guò)程中發(fā)現(xiàn)目前中文互聯(lián)網(wǎng)目前尚無(wú)常識(shí)性知識(shí)圖譜的專題文章,希望通過(guò)本文能夠首次整體性地描繪常識(shí)知識(shí)圖譜技術(shù)的發(fā)展脈絡(luò)。

       知識(shí)圖譜(Knowledge Graph,KG)是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),其建立發(fā)端于海量信息的獲取,是對(duì)人類知識(shí)的歸納和總結(jié)。自Google在2012年提出知識(shí)圖譜的概念以后,知識(shí)圖譜技術(shù)快速發(fā)展,除了伴隨谷歌大腦產(chǎn)生的百科全書(shū)式的通用知識(shí)圖譜(Encyclopedia Knowledge Graph,EKG),更多為領(lǐng)域知識(shí)圖譜(Domin Knowledge Graph),例如阿里巴巴的商品知識(shí)圖譜,其數(shù)據(jù)來(lái)源于淘寶、天貓等多個(gè)市場(chǎng),以商品、標(biāo)準(zhǔn)產(chǎn)品、標(biāo)準(zhǔn)品牌等為核心,利用實(shí)體識(shí)別、語(yǔ)義推理等技術(shù),整合關(guān)聯(lián)多領(lǐng)域信息三元組,形成巨大的商品知識(shí)網(wǎng)。為此,阿里的商品搜索引擎幫助品牌商透視全局?jǐn)?shù)據(jù),幫助消費(fèi)者準(zhǔn)確定位商品。

       又如美團(tuán)大腦的餐飲娛樂(lè)知識(shí)圖譜,包含了遍布全球超過(guò)3000多萬(wàn)商戶及1.4億的店菜,用于幫助更好的在餐飲領(lǐng)域幫助用戶滿足需求,提供更加智能的生活服務(wù)。

何為常識(shí)圖譜?

  • 隨著人工智能應(yīng)用不斷深入更多場(chǎng)合,傳統(tǒng)的知識(shí)圖譜已不能完全滿足訴求,例如在自然語(yǔ)言理解領(lǐng)域,需要將特定單詞映射到概念空間得到其含義,例如在“The engineer is eating an apple”中,基于傳統(tǒng)知識(shí)圖譜的工具會(huì)將“engineer”和“apple”結(jié)合,將apple認(rèn)定為IT公司,但如果知識(shí)圖譜中接入上下文信息,將apple映射到概念空間后,結(jié)合“eating”場(chǎng)景下對(duì)“apple“進(jìn)行理解推理,則會(huì)得到apple代表水果。為此,需要使機(jī)器能夠真正理解人類常識(shí)并進(jìn)行思考,賦予機(jī)器人性化。為此,出現(xiàn)了常識(shí)知識(shí)圖譜(Commonsense Knowledge Graph,CKG),也可稱為常識(shí)性知識(shí)圖譜。微軟亞洲研究院在通用知識(shí)圖譜Probase的基礎(chǔ)上提出了常識(shí)知識(shí)圖譜Concept Graph的研究路線,并針對(duì)常識(shí)知識(shí)圖譜提出了概念化模型,使其能夠支持例如文本標(biāo)注、命名圖識(shí)別、會(huì)話推薦等應(yīng)用

  • 圖靈獎(jiǎng)得主“人工智能之父”馬文·明斯基就曾一針見(jiàn)血地指出“問(wèn)題就在于常識(shí)性知識(shí)對(duì)于人類而言是如此顯而易見(jiàn),以至于我們從未考慮過(guò)要去記錄它們”。常識(shí)知識(shí)圖譜是已存在普遍社會(huì)共識(shí)的集合體,常識(shí)作為普遍接受的認(rèn)知,具有明顯、常見(jiàn)等特點(diǎn),這使得基于常識(shí)的知識(shí)從未有過(guò)詳細(xì)統(tǒng)一且格式化的記錄,這也造成了如今CKG構(gòu)建的困難和數(shù)據(jù)的短缺。

        壹沓科技從成立以來(lái),對(duì)知識(shí)圖譜的積累和應(yīng)用高度重視,對(duì)常識(shí)知識(shí)圖譜的應(yīng)用探索也一直在持續(xù)進(jìn)行,我們已經(jīng)通過(guò)海量大數(shù)據(jù)文本挖掘積累的千萬(wàn)級(jí)別詞條的通用分類標(biāo)簽關(guān)系圖譜和高精度的互聯(lián)網(wǎng)媒體傳播內(nèi)容的情感極性詞庫(kù),同時(shí)面向物流、電商行業(yè)的領(lǐng)域知識(shí)圖譜也伴隨項(xiàng)目落地得到全面的梳理和構(gòu)建。

       我們關(guān)注在文本挖掘和文本推理應(yīng)用中結(jié)合通用知識(shí)圖譜和常識(shí)知識(shí)圖譜的最新研究成果,樂(lè)于分享相關(guān)技巧和認(rèn)知,并堅(jiān)信基于大規(guī)模知識(shí)圖譜的人工智能算法能夠大大推進(jìn)行業(yè)應(yīng)用落地時(shí)的“冷啟動(dòng)”和“零學(xué)習(xí)”的訴求滿足。

  • 傳統(tǒng)知識(shí)圖譜,例如亞馬遜的產(chǎn)品知識(shí)圖譜,醫(yī)學(xué)知識(shí)圖譜等,更加注重于事實(shí)及顯性知識(shí),具有確定性、模式簡(jiǎn)單等特點(diǎn),其實(shí)體格式化、確定性高,關(guān)系單一、嚴(yán)謹(jǐn)且具有事實(shí)性?;陬I(lǐng)域工作的嚴(yán)謹(jǐn)性和確定性,使得傳統(tǒng)知識(shí)圖譜具有高置信度和高準(zhǔn)確度的特點(diǎn)。例如微軟的Probase,每條知識(shí)被表示為一個(gè)SPO三元組(Subject-Predicate-Object)。傳統(tǒng)知識(shí)圖譜的構(gòu)建已經(jīng)形成了規(guī)范化的構(gòu)建途徑,大都采用自底向上的構(gòu)建方式,且需要多種智能信息處理技術(shù)的支持,通過(guò)信息抽取、知識(shí)融合等,形成高質(zhì)量的知識(shí)庫(kù)。



  • 而CKG注重于上下文、多模態(tài)數(shù)據(jù)以及實(shí)體之間的語(yǔ)義關(guān)系,其實(shí)體多為自由化格式的文本,且在構(gòu)建階段不易發(fā)現(xiàn),其之間的關(guān)系多為語(yǔ)言關(guān)系,且具有不同的等級(jí)。這也為CKG帶來(lái)了概率特征,例如自行車的實(shí)體節(jié)點(diǎn),其屬性可設(shè)置為“兩個(gè)輪胎”;對(duì)象的常識(shí)為“自行車比汽車慢”;常識(shí)序列可為“騎自行車”、“推自行車”等。


  • 不僅于此,CKG概念網(wǎng)中實(shí)體的關(guān)系更是呈現(xiàn)多樣、復(fù)雜的特點(diǎn),例如廚房和汽車的概念網(wǎng),其邊的概念存在有”useFor”、”typeOf”、”MadeOf”等關(guān)系,大大超越通用知識(shí)圖譜的“isA”,“hasA”,“partOf”典型關(guān)系,且其權(quán)重的類型可為距離、頻率、順序等,汽車在事實(shí)、社會(huì)和物理子集中的常識(shí)知識(shí)網(wǎng)更是預(yù)示著CKG構(gòu)建的復(fù)雜性。


  • 實(shí)體及關(guān)系的定義呈現(xiàn)出多樣化、個(gè)性化等特點(diǎn),這給CKG的構(gòu)建和維護(hù)帶來(lái)了極大的代價(jià),例如流行的FB15K-237常識(shí)圖譜實(shí)體節(jié)點(diǎn)的平均度數(shù)是通用圖譜的10倍以上。

  • CKG的構(gòu)建和維護(hù)需要昂貴的代價(jià),但同時(shí)這也預(yù)示著CKG技術(shù)還有很大的發(fā)展?jié)摿?,隨著研究人員的努力,常識(shí)知識(shí)圖譜已在不少領(lǐng)域取得重大進(jìn)展。

常識(shí)圖譜推動(dòng)AI發(fā)展

  • 壹沓發(fā)現(xiàn),通過(guò)CKG來(lái)提高機(jī)器對(duì)自然語(yǔ)言的理解漸成AI行業(yè)最新發(fā)展熱點(diǎn),通過(guò)將深度學(xué)習(xí)在CKG沿著實(shí)體關(guān)系的多條路徑上進(jìn)行研究,未來(lái)的機(jī)器在一定程度上能夠理解常識(shí)并推理文字內(nèi)在的含義,對(duì)于行業(yè)應(yīng)用所需的高度自動(dòng)化的流程處理具有重要意義。

  • 盡管CKG的構(gòu)建十分困難,但并未阻擋研究者的熱情,Luminoso的ConceptNet常識(shí)知識(shí)圖譜起源于麻省理工的實(shí)驗(yàn)室,發(fā)展至今,吸收來(lái)自大量其他眾包資源、專家創(chuàng)造的資源和有目的的知識(shí),已包括10種主要語(yǔ)言3400萬(wàn)條知識(shí)關(guān)系,已經(jīng)可以幫助機(jī)器初步理解人類語(yǔ)言并進(jìn)行推理。(下圖為在ConceptNet上對(duì)“自行車”的查詢結(jié)果展示)

  • 為了能拓寬常識(shí)知識(shí)圖在對(duì)抗性概念方面的應(yīng)用,AllenAI的研究者最近也推出了Atomic2020,其包含日常生活相關(guān)實(shí)體和時(shí)間概念的推理知識(shí),用于補(bǔ)充在當(dāng)前語(yǔ)言模型的常識(shí)性知識(shí)編碼。Atomic2020包含了23種常識(shí)關(guān)系類型,例如物理和日常事件的常識(shí)方面,最大的兩個(gè)關(guān)系為“對(duì)象使用“和”阻礙“類型,例如爆米花桶,可以用來(lái)裝爆米花或放東西。而對(duì)于阻礙關(guān)系,通過(guò)收集目標(biāo)的阻礙,可以用來(lái)推理反事實(shí)的任務(wù),例如某人對(duì)貓過(guò)敏,則該人在養(yǎng)貓時(shí)的愿望就會(huì)受阻,這將迫使該人在未來(lái)采取相應(yīng)的行動(dòng)(例如養(yǎng)別的寵物)。Atomic2020收集了超過(guò)13萬(wàn)關(guān)于對(duì)象使用和10萬(wàn)的阻礙事件。另外還從ConceptNet中提取常識(shí)性元組以擴(kuò)充常識(shí)元組。Atomic2020在知識(shí)圖譜檢索的質(zhì)量評(píng)測(cè)對(duì)比中在精度指標(biāo)上獲得了最好的性能。

  • 在國(guó)內(nèi)機(jī)構(gòu)中,騰訊AI實(shí)驗(yàn)室率先提出了基于CKG的故事補(bǔ)全技術(shù),利用常識(shí)知識(shí)圖譜提出一個(gè)整合敘述線索、情感演變的神經(jīng)網(wǎng)絡(luò)模型,用來(lái)補(bǔ)全故事的結(jié)尾。模型通過(guò)給定的長(zhǎng)度固定的故事,在兩個(gè)給定的候選答案中,利用常識(shí)知識(shí)圖譜,使得選定的結(jié)尾與給定故事合理可信并一致。騰訊在公開(kāi)數(shù)據(jù)集上取得了先進(jìn)的性能,并證明了引入常識(shí)對(duì)于機(jī)器所帶來(lái)的顯著性能提升。

  • 頂會(huì)ACL2020上,清華大學(xué)聯(lián)合微軟發(fā)表了基于CKG的概念流引導(dǎo)對(duì)話生成系統(tǒng)ConceptFlow,為了讓開(kāi)放對(duì)話看起來(lái)更加自然隨和,利用常識(shí)知識(shí)圖譜對(duì)會(huì)話流建模。模型通過(guò)將會(huì)話與常識(shí)知識(shí)圖譜結(jié)合,利用潛在的會(huì)話信息遍歷知識(shí)圖中的相關(guān)路徑,并以圖注意力為導(dǎo)向,通過(guò)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),利用會(huì)話話語(yǔ)、常識(shí)關(guān)系尋找更遙遠(yuǎn)但仍有意義的概念,來(lái)引導(dǎo)生成器生成更多信息和更相關(guān)的對(duì)話回答。與GPT2的標(biāo)準(zhǔn)模型相比,生成的對(duì)話更符合人類的習(xí)慣并且對(duì)上下文話題核心的響應(yīng)也更加清晰。

  • 知識(shí)推理運(yùn)用于知識(shí)發(fā)現(xiàn)、沖突與異常檢測(cè),是知識(shí)精細(xì)化工作和決策分析的主要實(shí)現(xiàn)方式。目前的知識(shí)推理已經(jīng)廣泛應(yīng)用在各行各業(yè)如企業(yè)投資風(fēng)險(xiǎn)研究、信貸風(fēng)控、智能投顧、挖掘政府人員的人際關(guān)系、農(nóng)作物價(jià)格預(yù)測(cè)和動(dòng)態(tài)屬性生成等方面?;谥R(shí)圖譜的知識(shí)推理應(yīng)用領(lǐng)域隨著研究的深入將愈加廣泛。

       現(xiàn)階段,基于中文的常識(shí)知識(shí)圖譜尚處于起步階段,國(guó)內(nèi)在該領(lǐng)域的研究和積累剛剛開(kāi)展,而壹沓科技高度關(guān)注對(duì)常識(shí)知識(shí)圖譜技術(shù)并結(jié)合行業(yè)落地多任務(wù)場(chǎng)景下的應(yīng)用進(jìn)行了探索,并已經(jīng)在信息抽取、表格OCR等應(yīng)用場(chǎng)景下進(jìn)行特定實(shí)驗(yàn)中取得了高精度結(jié)果,AI團(tuán)隊(duì)將通過(guò)進(jìn)一步的努力,以知識(shí)圖譜賦能品牌方程和數(shù)字機(jī)器人產(chǎn)品線,在不遠(yuǎn)的未來(lái)建成全面超越人類員工水平的自動(dòng)化信息處理平臺(tái)。


關(guān)于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用,公司核心業(yè)務(wù)包括壹沓數(shù)字機(jī)器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM,已經(jīng)為多個(gè)行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。

我們?cè)谧匀徽Z(yǔ)言處理-NLP、圖像文字識(shí)別-OCR、知識(shí)圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機(jī)器人流程自動(dòng)化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力,已獲得軟件知識(shí)產(chǎn)權(quán)數(shù)十個(gè)。

總部位于上海 ,在北京、深圳設(shè)有分公司, 已獲得高新技術(shù)企業(yè)、雙軟及專精特新企業(yè)等專業(yè)認(rèn)證 。核心團(tuán)隊(duì)來(lái)自于多家知名上市公司,在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過(guò)10年,擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗(yàn)。

本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場(chǎng)。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_(kāi)頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場(chǎng)。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場(chǎng)。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。

    評(píng)論

    文明發(fā)言,無(wú)意義評(píng)論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評(píng)論

    評(píng)論

    文明發(fā)言,無(wú)意義評(píng)論將很快被刪除,異常行為可能被禁言
    800

    推薦評(píng)論

    暫無(wú)評(píng)論哦,快來(lái)評(píng)論一下吧!

    全部評(píng)論(0條)

    汪清县| 高雄县| 普陀区| 新河县| 庆城县| 正阳县| 孝义市| 仁寿县| 涟水县| 高阳县| 祁东县| 晋州市| 固始县| 巩留县| 阜阳市| 萨嘎县| 慈溪市| 蒙自县| 静安区| 宁远县| 沧源| 都昌县| 伽师县| 新建县| 凤冈县| 额济纳旗| 平塘县| 黔西| 全椒县| 琼结县| 武川县| 新干县| 辰溪县| 定边县| 页游| 六安市| 灵山县| 泽库县| 房山区| 大石桥市| 德兴市|