久久人妻牲爱视频,亚洲无码视频区,黑人操人妻一区二区,aaa在线视频,日产精品久久久久久久,99熟妇诱惑视频,激情只爱无码,国产精品日韩一区二区,超碰成人三级在线

壹沓AI探索:Office流程智能慧眼 —— 通用文檔理解何時可期?

原創(chuàng) 收藏 評論
舉報 2021-03-12


文檔理解(Document Understanding)是計算機(jī)視覺和自然語言處理的交叉研究領(lǐng)域,在當(dāng)前數(shù)據(jù)驅(qū)動的時代下,讓計算機(jī)代替人工自動從最為常見的非結(jié)構(gòu)化商業(yè)文件中準(zhǔn)確地提取出所需內(nèi)容以及內(nèi)容間的關(guān)系逐漸變得可行。

壹沓科技的NLP專家在20年前投身行業(yè)之初就已經(jīng)認(rèn)識到統(tǒng)計機(jī)器學(xué)習(xí)在文本內(nèi)容處理方面的強(qiáng)大能力——當(dāng)時,SVM算法對報刊內(nèi)容主題分類任務(wù)在數(shù)萬篇?dú)v史內(nèi)容的訓(xùn)練下可以達(dá)到98%以上的準(zhǔn)確率,而分類任務(wù)又可以認(rèn)為是一切NLP任務(wù)中的最小算法單元。進(jìn)入互聯(lián)網(wǎng)的時代,海量文本數(shù)據(jù)和算法的結(jié)合可以說為機(jī)器智能在特定任務(wù)中達(dá)到乃至超越人類水平投來了一束希望之光。

壹沓團(tuán)隊自2016年就開始以搜索引擎技術(shù)每天從互聯(lián)網(wǎng)上獲得TB級別的文本素材,通過大文本挖掘技術(shù)的研發(fā)過程,對非結(jié)構(gòu)化數(shù)據(jù)的清洗、識別、抽取、分析積累了大量的經(jīng)驗。面向文檔智能的NLP任務(wù),我們在原有技術(shù)基礎(chǔ)上,成功研發(fā)了面向多個領(lǐng)域的復(fù)雜表單關(guān)鍵字段抽取,PDF非可視部分抽取,低質(zhì)文檔OCR增強(qiáng)等智能化算法。解決方案型的通用文檔理解技術(shù),我們也已經(jīng)提上研究日程。

壹沓科技預(yù)言,愿意率先擁抱相關(guān)智能技術(shù)的企業(yè),其業(yè)務(wù)運(yùn)營效率的提升將在未來幾年內(nèi)成倍體現(xiàn)。我們的AI團(tuán)隊利用海量行業(yè)文檔數(shù)據(jù)開展相關(guān)課題的研究表明,在通用表格鍵名抽取,鍵值配對,OCR識別糾錯等方面無監(jiān)督學(xué)習(xí)可以高度自動化地完成領(lǐng)域適應(yīng)性建模,相信不久之后就能在真實落地業(yè)務(wù)中幫助客戶快速提升企業(yè)競爭力。

在目前辦公和企業(yè)運(yùn)營領(lǐng)域,需要處理的文檔可能是電子格式文件,也可能是掃描件,一些常見的商業(yè)文件,例如發(fā)票,稅單,訂單,財務(wù)報告等等。文檔內(nèi)容抽取對文檔的邏輯和語義分析,并抽取人可以理解的信息轉(zhuǎn)換成機(jī)器可讀的格式。抽取的信息不僅僅是時間,姓名或者身份證號這些文本層面的內(nèi)容,還有文本間的邏輯結(jié)構(gòu)。目前的傳統(tǒng)信息抽取技術(shù)可以處理自然語言中的信息,但是非結(jié)構(gòu)化文檔同時包含文本和排版的信息,文本被分成了塊,段,表等等。非結(jié)構(gòu)化表格的提取難點在于,版面結(jié)構(gòu)和語義關(guān)系的結(jié)合。非結(jié)構(gòu)化表格雖然都是文字,但是用傳統(tǒng)的關(guān)系抽取方法是不可行的,因為表格內(nèi)容很多是短語、單詞而不是一句話。

目前國際前沿的研究工作都已經(jīng)開始著手如何將語義信息和結(jié)構(gòu)信息結(jié)合,大量開展計算機(jī)視覺和知識表征技術(shù)聯(lián)合學(xué)習(xí)來提升計算機(jī)對于文檔結(jié)構(gòu)的理解準(zhǔn)確率,按照目前的趨勢,該項技術(shù)將很有可能如人臉識別等AI應(yīng)用一樣在短期內(nèi)成熟,開始大規(guī)模進(jìn)入商用領(lǐng)域。

 

 

文檔理解技術(shù)前傳

 

l 結(jié)構(gòu)化——文檔理解的初心


在上世紀(jì)九十年代,文檔理解的概念逐漸流行起來,當(dāng)時研究對象是雜志或者刊物上的文章排版(如下圖所示)。研究內(nèi)容聚焦在文檔的分塊以及塊與塊之間的邏輯架構(gòu)層。雖然當(dāng)時的研究方向不是現(xiàn)在的主流方向,但是這個時期論文提出了很重要的兩點:文檔分析是從文檔中提取出幾何關(guān)系;文檔理解是把幾何關(guān)系映射到邏輯結(jié)構(gòu)。這也是之后文檔內(nèi)容抽取工作的主要思路。


圖片2.png

 

l 面向商用——聚焦表單理解


在21世紀(jì)初,研究方向開始投向更復(fù)雜的文檔(如下圖),開始偏向于考慮真實的商業(yè)應(yīng)用。在Making Documents Work: Challenges for Document Understanding里,作者Dengel詳細(xì)地闡述了當(dāng)時流行的研究方法——主要是基于特征學(xué)習(xí)。對于表格的結(jié)構(gòu)抽取,大多數(shù)論文是定義了一些模板來指導(dǎo)表格分析過程,但這樣的缺點是不能通用地適應(yīng)海量表格。對于沒有明顯表格結(jié)構(gòu)的表單,只依賴于文本坐標(biāo)自下而上的塊聚類,完全忽略了表格中的行列概念,甚至列元素不需要對齊。對于表格的內(nèi)容理解,多數(shù)方法引入了外部知識,對于特定領(lǐng)域的字段會有固定知識庫。為了提取所有的相關(guān)信息,知識的引入起到十分重要的作用,尤其是當(dāng)一些字段不常用且有特殊意義時。


圖片3.png

 

l 曙光初露——統(tǒng)計學(xué)習(xí)方法


在2010年左右,隨著統(tǒng)計學(xué)習(xí)的流行,文檔理解也引入了概率方法。在A probabilistic approach to printed document understanding一文中,作者Bartoli依然是從文本和坐標(biāo)兩個角度入手,但是是用統(tǒng)計的方法計算板塊之前的相關(guān)性。如下圖所示,作者通過比較坐標(biāo),文本框大小,距離百分比等等來精細(xì)化文檔抽取。但是由于數(shù)據(jù)集的局限性,作者的測試數(shù)據(jù)集只有800多份。僅是基于統(tǒng)計學(xué)習(xí)在小樣本上學(xué)習(xí)還無法支撐更多類型的樣本。


圖片4.png

 

大數(shù)據(jù)+深度學(xué)習(xí)=大突破

 


雖然文檔理解領(lǐng)域已經(jīng)研究了二十多年,但是因為準(zhǔn)確度不夠高以及商業(yè)落地遲遲未能展現(xiàn),而伴隨大型數(shù)據(jù)集的發(fā)布,深度學(xué)習(xí)技術(shù)開始發(fā)力,最近幾年,該領(lǐng)域連續(xù)取得了突破性的進(jìn)展。2015年,卡耐基梅隆大學(xué)發(fā)布了數(shù)據(jù)集RVL_CDIP,它包含16種類型文檔,每種類型25000張圖片,它可以用于研究某一固定領(lǐng)域或者是文檔分類。

 圖片5.png

2019年,洛桑聯(lián)邦理工學(xué)院信號處理實驗室發(fā)布了數(shù)據(jù)集FUNSD,它包含199篇包含大量噪聲的掃描件文檔(如下圖)。

 圖片6.png

并標(biāo)注了其中的文本塊,語義實體和實體關(guān)系,下圖是一個文本分區(qū)的樣本。

圖片7.png

隨著深度學(xué)習(xí)的廣泛應(yīng)用,神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于文檔理解。尤其是BERT提出后,在多項文本理解的任務(wù)中,橫掃NLP傳統(tǒng)方法,這為文檔智能研究者通過語義表征和預(yù)訓(xùn)練方法的嘗試帶來了重大啟示。

 

l 預(yù)訓(xùn)練模型橫空出世


2020年六月微軟發(fā)布了模型LayoutLM,針對文檔理解的文本和版面預(yù)訓(xùn)練模型,如下圖所示,論文的研究對象面向所有格式的文檔。作者Yiheng Xu和Minghao Li使用其OCR或者PDF解析以及Faster R-CNN得到的圖像embeddings來做預(yù)訓(xùn)練。

圖片8.png

同年七月,微軟發(fā)布了TableBank數(shù)據(jù)集,包含了一共417234個被標(biāo)注過的高質(zhì)量表格,涉及多個領(lǐng)域,專門用于研究表格定位和表格識別,里面包含了大量的復(fù)雜表格(如下圖所示)。

圖片9.png同年九月IBM Research也發(fā)布了一個預(yù)訓(xùn)練框架:Towards a Multi-model, Multi-task Learning based Pre-training Framework for Document Representation Learning,作者Pramanik測試了文本分類,信息抽取,文檔抽取三個下游任務(wù)(如圖所示)。這篇文章改善了LayoutLM中沒有把圖片信息和文本信息一起訓(xùn)練,只是把圖片信息和文本信息相加的問題。值得一提的是,與LayoutLM一百多萬的預(yù)訓(xùn)練數(shù)據(jù)集相比,IBM Research只用了11000個預(yù)訓(xùn)練數(shù)據(jù),而LayoutLM的性能只比IBM Research高了1%,這篇文章證明了在相對較小樣本數(shù)據(jù)集上的預(yù)訓(xùn)練也可以達(dá)到很好的效果。

圖片10.png


同時該模型還在另一項文檔分類任務(wù)中大幅超越了單純基于內(nèi)容結(jié)果BERT分類模型,達(dá)到驚人的98.93%

圖片11.png

 

l 針對具體應(yīng)用場景的表示學(xué)習(xí)研究


圖片12.png

去年七月份Google Research發(fā)表了Representation Learning for Information Extraction

From Form-Like Documents。與上面兩篇論文不同的是,作者M(jìn)ajumder并沒有使用圖像信息嵌入,而是只用OCR結(jié)果中自帶的文本坐標(biāo)來進(jìn)行排版的編碼。這篇論文旨在針對某一特定領(lǐng)域的表單,通過少量人工標(biāo)注樣本的學(xué)習(xí),去抽取更多其他格式未曾見到過的文檔。這篇文章結(jié)合了先驗知識,基本常識以及神經(jīng)網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)每一個文本塊的表征。文章中提出了三個對于表單的基本認(rèn)知:每一個字段往往匹配一個顯而易見的類別,例如invoice_date只會匹配日期,不會匹配到金額;字段之間有明顯的視覺關(guān)系,當(dāng)一個表中有多個日期時,我們很輕松地可以辨別它們分別屬于哪個字段;大多數(shù)key word都來自一個特定領(lǐng)域的小型詞表。基于這三點認(rèn)知,文章結(jié)合語義關(guān)系和位置關(guān)系對每個字段的候選項進(jìn)行打分來匹配鍵值對。

這篇論文的發(fā)現(xiàn)在于結(jié)合了之前的研究方法提出了一個可以解決實際商業(yè)問題的模型,但它的局限性也很明顯,只研究了發(fā)票和收據(jù)兩個領(lǐng)域,盡管實驗結(jié)果分?jǐn)?shù)很高,但是實驗本身提取的字段較少,支票提取了七個字段,收據(jù)只提取了兩個字段,并且提取的都是日期,金額,單號這樣特征明顯且都是單行的文本。此外,盡管論文的目的是從小樣本中學(xué)習(xí),但實驗用到了一萬多份人工標(biāo)注樣本,前期的數(shù)據(jù)準(zhǔn)備也有不小的投入。


l 圖神經(jīng)網(wǎng)絡(luò)的嘗試


除了預(yù)訓(xùn)練框架學(xué)習(xí)文檔表征之外,圖神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于學(xué)習(xí)文本和圖像的聯(lián)合表征。去年ICPR會議論文Named Entity Recognition and Relation Extraction with Graph Neural Networks in Semi Structured Documents一文中作者Carbonell根據(jù)文檔的版面特性,把一個個文本框當(dāng)作一個節(jié)點,節(jié)點之間的線如果標(biāo)為1則表示兩個節(jié)點有關(guān)系,生成的圖送入GNN中訓(xùn)練,因此關(guān)系抽取問題變成了一個節(jié)點二分類問題。

 圖片13.png圖片14.png

作者除了研究現(xiàn)代文檔,還嘗試使用相同的手段針對古代手寫文檔(如上圖文件3)進(jìn)行信息抽取,希望在將來能夠?qū)I(yè)歷史研究者提供文獻(xiàn)分析的機(jī)器智能的幫助。

 

2021文檔智能落地進(jìn)行時

 

文檔智能的研究從版面分析,結(jié)構(gòu)統(tǒng)計,深度學(xué)習(xí)一路走來。盡管通用文檔理解乃至文檔智能處理仍是一個十分有挑戰(zhàn)的任務(wù),但我們十分高興地看到一年來微軟和IBM等企業(yè)研究團(tuán)隊都推出了具有突破性意義的預(yù)訓(xùn)練網(wǎng)絡(luò)模型,將相關(guān)研究的進(jìn)程得以加速推進(jìn)。

 

然而壹沓的AI團(tuán)隊也深深意識到,這些成果與能夠廣泛運(yùn)用于企業(yè)實際場景的軟件還有很大的距離,但也正因如此,我們的算法工程師和業(yè)務(wù)專家滿懷激情,勇于挑戰(zhàn)IT行業(yè)巨頭,正通過扎實而深入的工作,在這個領(lǐng)域取得進(jìn)步并超越競爭對手。在未來幾個月內(nèi),壹沓科技將為我們服務(wù)的客戶提供基于深度學(xué)習(xí)與知識圖譜技術(shù)融合的文檔智能解決方案。

 

2021 —— 壹沓文檔智能,由您見證

 


關(guān)于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用,公司核心業(yè)務(wù)包括壹沓數(shù)字機(jī)器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM,已經(jīng)為多個行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。

我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機(jī)器人流程自動化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力,已獲得軟件知識產(chǎn)權(quán)數(shù)十個。

總部位于上海 ,在北京、深圳設(shè)有分公司,已獲得高新技術(shù)企業(yè)、雙軟及專精特新企業(yè)等專業(yè)認(rèn)證 。核心團(tuán)隊來自于多家知名上市公司,在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過10年,擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗。


本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點,不代表數(shù)英立場。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點,不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點,不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    克东县| 仁怀市| 南昌县| 瑞丽市| 通渭县| 刚察县| 兴义市| 南木林县| 三都| 轮台县| 贡嘎县| 阳春市| 信宜市| 灌南县| 彰化县| 博罗县| 潢川县| 海宁市| 高清| 五指山市| 东平县| 元朗区| 龙州县| 军事| 赫章县| 诸暨市| 拉萨市| 太湖县| 阿克陶县| 潢川县| 府谷县| 朝阳市| 桐柏县| 咸阳市| 阿拉善盟| 海南省| 西吉县| 绥化市| 韶山市| 定西市| 保德县|