壹沓AI探索:Office流程智能慧眼 —— 通用文檔理解何時可期？

原創(chuàng) 贊收藏評論

舉報 2021-03-12

掃描,分享朋友圈

文檔理解（Document Understanding）是計算機(jī)視覺和自然語言處理的交叉研究領(lǐng)域，在當(dāng)前數(shù)據(jù)驅(qū)動的時代下，讓計算機(jī)代替人工自動從最為常見的非結(jié)構(gòu)化商業(yè)文件中準(zhǔn)確地提取出所需內(nèi)容以及內(nèi)容間的關(guān)系逐漸變得可行。

壹沓科技的NLP專家在20年前投身行業(yè)之初就已經(jīng)認(rèn)識到統(tǒng)計機(jī)器學(xué)習(xí)在文本內(nèi)容處理方面的強(qiáng)大能力——當(dāng)時，SVM算法對報刊內(nèi)容主題分類任務(wù)在數(shù)萬篇?dú)v史內(nèi)容的訓(xùn)練下可以達(dá)到98%以上的準(zhǔn)確率，而分類任務(wù)又可以認(rèn)為是一切NLP任務(wù)中的最小算法單元。進(jìn)入互聯(lián)網(wǎng)的時代，海量文本數(shù)據(jù)和算法的結(jié)合可以說為機(jī)器智能在特定任務(wù)中達(dá)到乃至超越人類水平投來了一束希望之光。

壹沓團(tuán)隊自2016年就開始以搜索引擎技術(shù)每天從互聯(lián)網(wǎng)上獲得TB級別的文本素材，通過大文本挖掘技術(shù)的研發(fā)過程，對非結(jié)構(gòu)化數(shù)據(jù)的清洗、識別、抽取、分析積累了大量的經(jīng)驗。面向文檔智能的NLP任務(wù)，我們在原有技術(shù)基礎(chǔ)上，成功研發(fā)了面向多個領(lǐng)域的復(fù)雜表單關(guān)鍵字段抽取，PDF非可視部分抽取，低質(zhì)文檔OCR增強(qiáng)等智能化算法。解決方案型的通用文檔理解技術(shù)，我們也已經(jīng)提上研究日程。

壹沓科技預(yù)言，愿意率先擁抱相關(guān)智能技術(shù)的企業(yè)，其業(yè)務(wù)運(yùn)營效率的提升將在未來幾年內(nèi)成倍體現(xiàn)。我們的AI團(tuán)隊利用海量行業(yè)文檔數(shù)據(jù)開展相關(guān)課題的研究表明，在通用表格鍵名抽取，鍵值配對，OCR識別糾錯等方面無監(jiān)督學(xué)習(xí)可以高度自動化地完成領(lǐng)域適應(yīng)性建模，相信不久之后就能在真實落地業(yè)務(wù)中幫助客戶快速提升企業(yè)競爭力。

在目前辦公和企業(yè)運(yùn)營領(lǐng)域，需要處理的文檔可能是電子格式文件，也可能是掃描件，一些常見的商業(yè)文件，例如發(fā)票，稅單，訂單，財務(wù)報告等等。文檔內(nèi)容抽取對文檔的邏輯和語義分析，并抽取人可以理解的信息轉(zhuǎn)換成機(jī)器可讀的格式。抽取的信息不僅僅是時間，姓名或者身份證號這些文本層面的內(nèi)容，還有文本間的邏輯結(jié)構(gòu)。目前的傳統(tǒng)信息抽取技術(shù)可以處理自然語言中的信息，但是非結(jié)構(gòu)化文檔同時包含文本和排版的信息，文本被分成了塊，段，表等等。非結(jié)構(gòu)化表格的提取難點在于，版面結(jié)構(gòu)和語義關(guān)系的結(jié)合。非結(jié)構(gòu)化表格雖然都是文字，但是用傳統(tǒng)的關(guān)系抽取方法是不可行的，因為表格內(nèi)容很多是短語、單詞而不是一句話。

目前國際前沿的研究工作都已經(jīng)開始著手如何將語義信息和結(jié)構(gòu)信息結(jié)合，大量開展計算機(jī)視覺和知識表征技術(shù)聯(lián)合學(xué)習(xí)來提升計算機(jī)對于文檔結(jié)構(gòu)的理解準(zhǔn)確率，按照目前的趨勢，該項技術(shù)將很有可能如人臉識別等AI應(yīng)用一樣在短期內(nèi)成熟，開始大規(guī)模進(jìn)入商用領(lǐng)域。

文檔理解技術(shù)前傳

l 結(jié)構(gòu)化——文檔理解的初心

在上世紀(jì)九十年代，文檔理解的概念逐漸流行起來，當(dāng)時研究對象是雜志或者刊物上的文章排版（如下圖所示）。研究內(nèi)容聚焦在文檔的分塊以及塊與塊之間的邏輯架構(gòu)層。雖然當(dāng)時的研究方向不是現(xiàn)在的主流方向，但是這個時期論文提出了很重要的兩點：文檔分析是從文檔中提取出幾何關(guān)系；文檔理解是把幾何關(guān)系映射到邏輯結(jié)構(gòu)。這也是之后文檔內(nèi)容抽取工作的主要思路。

圖片2.png

l 面向商用——聚焦表單理解

在21世紀(jì)初，研究方向開始投向更復(fù)雜的文檔（如下圖），開始偏向于考慮真實的商業(yè)應(yīng)用。在Making Documents Work: Challenges for Document Understanding里，作者Dengel詳細(xì)地闡述了當(dāng)時流行的研究方法——主要是基于特征學(xué)習(xí)。對于表格的結(jié)構(gòu)抽取，大多數(shù)論文是定義了一些模板來指導(dǎo)表格分析過程，但這樣的缺點是不能通用地適應(yīng)海量表格。對于沒有明顯表格結(jié)構(gòu)的表單，只依賴于文本坐標(biāo)自下而上的塊聚類，完全忽略了表格中的行列概念，甚至列元素不需要對齊。對于表格的內(nèi)容理解，多數(shù)方法引入了外部知識，對于特定領(lǐng)域的字段會有固定知識庫。為了提取所有的相關(guān)信息，知識的引入起到十分重要的作用，尤其是當(dāng)一些字段不常用且有特殊意義時。

圖片3.png

l 曙光初露——統(tǒng)計學(xué)習(xí)方法

在2010年左右，隨著統(tǒng)計學(xué)習(xí)的流行，文檔理解也引入了概率方法。在A probabilistic approach to printed document understanding一文中，作者Bartoli依然是從文本和坐標(biāo)兩個角度入手，但是是用統(tǒng)計的方法計算板塊之前的相關(guān)性。如下圖所示，作者通過比較坐標(biāo)，文本框大小，距離百分比等等來精細(xì)化文檔抽取。但是由于數(shù)據(jù)集的局限性，作者的測試數(shù)據(jù)集只有800多份。僅是基于統(tǒng)計學(xué)習(xí)在小樣本上學(xué)習(xí)還無法支撐更多類型的樣本。

圖片4.png

大數(shù)據(jù)+深度學(xué)習(xí)=大突破

雖然文檔理解領(lǐng)域已經(jīng)研究了二十多年，但是因為準(zhǔn)確度不夠高以及商業(yè)落地遲遲未能展現(xiàn)，而伴隨大型數(shù)據(jù)集的發(fā)布，深度學(xué)習(xí)技術(shù)開始發(fā)力，最近幾年，該領(lǐng)域連續(xù)取得了突破性的進(jìn)展。2015年，卡耐基梅隆大學(xué)發(fā)布了數(shù)據(jù)集RVL_CDIP，它包含16種類型文檔，每種類型25000張圖片，它可以用于研究某一固定領(lǐng)域或者是文檔分類。

圖片5.png

2019年，洛桑聯(lián)邦理工學(xué)院信號處理實驗室發(fā)布了數(shù)據(jù)集FUNSD，它包含199篇包含大量噪聲的掃描件文檔（如下圖）。

圖片6.png

并標(biāo)注了其中的文本塊，語義實體和實體關(guān)系，下圖是一個文本分區(qū)的樣本。

圖片7.png

隨著深度學(xué)習(xí)的廣泛應(yīng)用，神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于文檔理解。尤其是BERT提出后，在多項文本理解的任務(wù)中，橫掃NLP傳統(tǒng)方法，這為文檔智能研究者通過語義表征和預(yù)訓(xùn)練方法的嘗試帶來了重大啟示。

l 預(yù)訓(xùn)練模型橫空出世

2020年六月微軟發(fā)布了模型LayoutLM，針對文檔理解的文本和版面預(yù)訓(xùn)練模型，如下圖所示，論文的研究對象面向所有格式的文檔。作者Yiheng Xu和Minghao Li使用其OCR或者PDF解析以及Faster R-CNN得到的圖像embeddings來做預(yù)訓(xùn)練。

圖片8.png

同年七月，微軟發(fā)布了TableBank數(shù)據(jù)集，包含了一共417234個被標(biāo)注過的高質(zhì)量表格，涉及多個領(lǐng)域，專門用于研究表格定位和表格識別，里面包含了大量的復(fù)雜表格（如下圖所示)。

圖片9.png 同年九月IBM Research也發(fā)布了一個預(yù)訓(xùn)練框架：Towards a Multi-model, Multi-task Learning based Pre-training Framework for Document Representation Learning，作者Pramanik測試了文本分類，信息抽取，文檔抽取三個下游任務(wù)（如圖所示）。這篇文章改善了LayoutLM中沒有把圖片信息和文本信息一起訓(xùn)練，只是把圖片信息和文本信息相加的問題。值得一提的是，與LayoutLM一百多萬的預(yù)訓(xùn)練數(shù)據(jù)集相比，IBM Research只用了11000個預(yù)訓(xùn)練數(shù)據(jù)，而LayoutLM的性能只比IBM Research高了1%，這篇文章證明了在相對較小樣本數(shù)據(jù)集上的預(yù)訓(xùn)練也可以達(dá)到很好的效果。

圖片10.png

同時該模型還在另一項文檔分類任務(wù)中大幅超越了單純基于內(nèi)容結(jié)果BERT分類模型，達(dá)到驚人的98.93%

圖片11.png

l 針對具體應(yīng)用場景的表示學(xué)習(xí)研究

圖片12.png

去年七月份Google Research發(fā)表了Representation Learning for Information Extraction

From Form-Like Documents。與上面兩篇論文不同的是，作者M(jìn)ajumder并沒有使用圖像信息嵌入，而是只用OCR結(jié)果中自帶的文本坐標(biāo)來進(jìn)行排版的編碼。這篇論文旨在針對某一特定領(lǐng)域的表單，通過少量人工標(biāo)注樣本的學(xué)習(xí)，去抽取更多其他格式未曾見到過的文檔。這篇文章結(jié)合了先驗知識，基本常識以及神經(jīng)網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)每一個文本塊的表征。文章中提出了三個對于表單的基本認(rèn)知：每一個字段往往匹配一個顯而易見的類別，例如invoice_date只會匹配日期，不會匹配到金額；字段之間有明顯的視覺關(guān)系，當(dāng)一個表中有多個日期時，我們很輕松地可以辨別它們分別屬于哪個字段；大多數(shù)key word都來自一個特定領(lǐng)域的小型詞表。基于這三點認(rèn)知，文章結(jié)合語義關(guān)系和位置關(guān)系對每個字段的候選項進(jìn)行打分來匹配鍵值對。

這篇論文的發(fā)現(xiàn)在于結(jié)合了之前的研究方法提出了一個可以解決實際商業(yè)問題的模型，但它的局限性也很明顯，只研究了發(fā)票和收據(jù)兩個領(lǐng)域，盡管實驗結(jié)果分?jǐn)?shù)很高，但是實驗本身提取的字段較少，支票提取了七個字段，收據(jù)只提取了兩個字段，并且提取的都是日期，金額，單號這樣特征明顯且都是單行的文本。此外，盡管論文的目的是從小樣本中學(xué)習(xí)，但實驗用到了一萬多份人工標(biāo)注樣本，前期的數(shù)據(jù)準(zhǔn)備也有不小的投入。

l 圖神經(jīng)網(wǎng)絡(luò)的嘗試

除了預(yù)訓(xùn)練框架學(xué)習(xí)文檔表征之外，圖神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于學(xué)習(xí)文本和圖像的聯(lián)合表征。去年ICPR會議論文Named Entity Recognition and Relation Extraction with Graph Neural Networks in Semi Structured Documents一文中作者Carbonell根據(jù)文檔的版面特性，把一個個文本框當(dāng)作一個節(jié)點，節(jié)點之間的線如果標(biāo)為1則表示兩個節(jié)點有關(guān)系，生成的圖送入GNN中訓(xùn)練，因此關(guān)系抽取問題變成了一個節(jié)點二分類問題。

圖片13.png 圖片14.png

作者除了研究現(xiàn)代文檔，還嘗試使用相同的手段針對古代手寫文檔（如上圖文件3）進(jìn)行信息抽取，希望在將來能夠?qū)I(yè)歷史研究者提供文獻(xiàn)分析的機(jī)器智能的幫助。

2021文檔智能落地進(jìn)行時

文檔智能的研究從版面分析，結(jié)構(gòu)統(tǒng)計，深度學(xué)習(xí)一路走來。盡管通用文檔理解乃至文檔智能處理仍是一個十分有挑戰(zhàn)的任務(wù)，但我們十分高興地看到一年來微軟和IBM等企業(yè)研究團(tuán)隊都推出了具有突破性意義的預(yù)訓(xùn)練網(wǎng)絡(luò)模型，將相關(guān)研究的進(jìn)程得以加速推進(jìn)。

然而壹沓的AI團(tuán)隊也深深意識到，這些成果與能夠廣泛運(yùn)用于企業(yè)實際場景的軟件還有很大的距離，但也正因如此，我們的算法工程師和業(yè)務(wù)專家滿懷激情，勇于挑戰(zhàn)IT行業(yè)巨頭，正通過扎實而深入的工作，在這個領(lǐng)域取得進(jìn)步并超越競爭對手。在未來幾個月內(nèi)，壹沓科技將為我們服務(wù)的客戶提供基于深度學(xué)習(xí)與知識圖譜技術(shù)融合的文檔智能解決方案。

2021 —— 壹沓文檔智能，由您見證

關(guān)于壹沓科技

壹沓科技成立于2016年11月，聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用，公司核心業(yè)務(wù)包括壹沓數(shù)字機(jī)器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM，已經(jīng)為多個行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。

我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機(jī)器人流程自動化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力，已獲得軟件知識產(chǎn)權(quán)數(shù)十個。

總部位于上海，在北京、深圳設(shè)有分公司，已獲得高新技術(shù)企業(yè)、雙軟及專精特新企業(yè)等專業(yè)認(rèn)證。核心團(tuán)隊來自于多家知名上市公司，在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過10年，擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨(dú)立觀點，不代表數(shù)英立場。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注：作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。