壹沓AI觀察：半結(jié)構(gòu)化文本自動抽取關鍵技術

譯文贊1 收藏評論

舉報 2020-10-16

掃描,分享朋友圈

公號前綴圖.gif

半結(jié)構(gòu)化文本又稱為視覺富文本，與純文本不同，半結(jié)構(gòu)化文本的語義結(jié)構(gòu)不僅由文本內(nèi)容決定，更與文本的排版、表格結(jié)構(gòu)、字體的表示方式等視覺元素有關。生活中常見的發(fā)票、證件、簡歷、保險單、采購單據(jù)、行業(yè)報告以及商務郵件等，均屬于半結(jié)構(gòu)化數(shù)據(jù)。這些文本數(shù)據(jù)整體離散又局部相關，人工提取信息不僅費時費力，版式的不同更是限制了當下傳統(tǒng)算法的可復用性，大大阻礙了企業(yè)運行效率的提升。

壹沓科技通過對傳統(tǒng)及最新的方法進行探索，同時對幾類主流方法的基本思想和目前行業(yè)進展進行了分析，提出以領域知識圖譜積累與深度學習預訓練網(wǎng)絡技術為方向的壹沓AI認知智能技術重點研發(fā)路徑，對接公司Cube Robot數(shù)字機器人平臺，為人工智能技術在多個行業(yè)領域落地應用實踐打下扎實的基礎。

圖片1.png

（半結(jié)構(gòu)化數(shù)據(jù)樣例）

傳統(tǒng)手段：基于模板的鍵值關系識別

在很多實際業(yè)務場景中，文檔表單的格式基本被限定在有限數(shù)量的若干種，通過對樣例文檔的模板OCR識別，可以用非常小的代價，生成高精度的識別模型?；谀０宥x的方法在固定版式和單層次簡單鍵值結(jié)構(gòu)的文檔信息抽取中是目前應用最廣泛也是最可靠的手段。
然而，隨著流程變化越來越頻繁、對接關系越來越復雜、數(shù)據(jù)量呈爆炸式增長，承載數(shù)據(jù)的版式在很多實際業(yè)務中也是難以窮盡，甚至在結(jié)構(gòu)化表單中常常混有連續(xù)文本的輸入。全自動信息抽取面臨重重挑戰(zhàn)：最大的困難在于預定義的模板很難全面覆蓋實際可能發(fā)生的樣例，在有限標注成本下抽取更多高質(zhì)量、高精度的信息成為難題。例如醫(yī)療領域經(jīng)常出現(xiàn)特例數(shù)據(jù)，往往需要擁有深厚專業(yè)知識與實踐經(jīng)驗的醫(yī)療專家才能讀懂，區(qū)分，全面人工標注的成本過高，準確識別和抽取數(shù)據(jù)關系的代價過于昂貴。

熱點趨勢：深度學習提升信息抽取能力

為了應對當下全自動高質(zhì)量信息抽取任務的需求，業(yè)內(nèi)提出多種基于深度學習及文本預訓練網(wǎng)絡的方法。阿里達摩院的StructuralLM、微軟的LayoutLM、以及騰訊的結(jié)構(gòu)化文檔重建技術，大大推動了相關領域的識別水平。
阿里達摩院NLP團隊在BERT的基礎上提出優(yōu)化模型StructBERT，能讓機器更好地掌握人類語法，加深對自然語言的理解。在此基礎上，又進一步提出融入圖像模態(tài)知識的預訓練語言模型StructVBERT，它能同時理解文本與圖像模態(tài)的信息，并挖掘二者間的關聯(lián)以進行有效推理。同樣基于StructBERT的模型還有結(jié)構(gòu)化語言模型StructuralLM。它充分利用圖片文檔數(shù)據(jù)的二維位置信息，并引入文本框位置預測的預訓練任務，幫助模型感知圖片不同位置之間詞語的關系，這對于理解真實場景中的圖片文檔十分重要。StructuralLM模型目前在Document VQA榜單上排名第一，同時在表單理解FUNSD數(shù)據(jù)集和文檔圖片分類RVL-CDIP數(shù)據(jù)集上也超過現(xiàn)有的預訓練模型。

圖片2.png

微軟研究院在現(xiàn)有的預訓練模型基礎上利用文檔的多模態(tài)信息通過2-D Position Embedding和Image Embedding分別獲取半結(jié)構(gòu)化文檔的結(jié)構(gòu)和視覺信息，提出了LayoutLM模型。2-D Position Embedding通過光學字符識別（OCR）技術得到文檔的結(jié)構(gòu)信息，Image Embedding捕獲文檔的視覺信息。兩者結(jié)合使得模型能夠有效的捕捉半結(jié)構(gòu)數(shù)據(jù)中蘊含的語義信息，并在表單理解、票據(jù)理解上均取得了不錯的成績。

圖片3.png

（LayoutLM的表單理解實驗結(jié)果）

騰訊PCG應用研究小組也在今年6月實現(xiàn)了比傳統(tǒng)OCR布局分析更完善的圖片轉(zhuǎn)文檔的重建技術。通過對拍攝或截屏的圖片，通過一系列工作（例如圖像增強、實體恢復、語義分割），進行電子文檔的重建工作。他們在該項目中使用的是 Bisenet 框架，在學習特征時并行兩條支路，一條學習空間細節(jié)信息，另一條學習高層語義信息，然后將學到的信息融合，能夠更好學習到全局信息和局部信息特征信息。

圖片4.png

（騰訊的語義分割）

展望未來：知識圖譜打造信息抽取的智能基石

壹沓科技認為，通過深度神經(jīng)網(wǎng)絡對表單內(nèi)容實現(xiàn)高精度的抽取與識別是近年來人工智能技術在圖像和文本兩大領域各自實現(xiàn)突破后帶來的技術融合大趨勢，僅僅依靠神經(jīng)網(wǎng)絡不足以解決面向行業(yè)應用高度自動化的流程需求，在實際場景中，依托知識圖譜技術增強領域半結(jié)構(gòu)化文檔的信息抽取是必經(jīng)之路。
2020年6月，在NLPCC(CCF國際自然語言處理和中文計算會議) ，搜狗杭州研究院知識圖譜組以最高F1值，擊敗多支國內(nèi)外頂尖科研機構(gòu)的參賽隊伍，榮獲Auto Information Extraction(信息抽取)任務組冠軍。團隊通過采用Bert+CRF模型，并在模型上加入了標簽路徑限制 Incomplete Annotations Training(不完全標注訓練)、 Self-training(自訓練)等多種技術策略，攻克了在未提供大量有標注的人工語料，而只提供不完全的實體詞典和大量無標注文本，以及少量有標注集合的情況下抽取高精度模型的行業(yè)難題。

壹沓科技在該方向上持續(xù)投入，通過知識圖譜的積累并結(jié)合大規(guī)模語料深度學習的預訓練模型，在信息抽取等多種任務的場景下取得前所未有的精度進步，并且在品牌方程和數(shù)字機器人領域大規(guī)模應用。同時壹沓研發(fā)團隊通過努力顯著降低場景應用的啟動門檻，在大量少樣本、無標注的實際業(yè)務推進過程中，真正使得計算機系統(tǒng)擁有專家智慧的成熟智能化系統(tǒng)，并最終實現(xiàn)超越人類水平的自動化文檔信息識別和流程處理平臺。