2024年8月30日至9月4日,國際文檔分析與識別會議International Conference on Document Analysis and Recognition(以下簡稱ICDAR)在希臘雅典舉行。今年ICDAR設(shè)立了十余項競賽,吸引了全球諸多知名科技公司和研究機(jī)構(gòu)的參與。理光中國研究院NLP團(tuán)隊在ICDAR官方比賽“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道上,斬獲“低分辨率下的單詞識別”及“頁面級別的識別與閱讀”兩項任務(wù)的冠軍。
*“頁面級別的識別與閱讀”任務(wù)冠軍獎狀
ICDAR賽事介紹
ICDAR由國際模式識別協(xié)會IAPR(International Association of Pattern Recognition)舉辦,是模式識別、計算機(jī)視覺領(lǐng)域、圖像處理領(lǐng)域最為重要的國際學(xué)術(shù)會議之一,涵蓋了文檔分析與識別領(lǐng)域的最新學(xué)術(shù)成果和前沿應(yīng)用發(fā)展趨勢。
“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道,涉及到理解和處理使用Aria 設(shè)備*采集到的文本內(nèi)容。任務(wù)目標(biāo)是開發(fā)一系列穩(wěn)健的圖像處理算法來識別整個頁面中的文字內(nèi)容,同時保持正確的閱讀順序。具體來說,包括以下兩個子過程:1)低分辨率下的單詞識別:檢測并識別來自Aria眼鏡采集圖像中的單詞文本;2)閱讀順序預(yù)測:預(yù)測從頁面中提取的單詞級文本的閱讀順序(即頁面上單詞的序列)。
*ICDAR會場上,主辦方介紹任務(wù)數(shù)據(jù)示例
*ICDAR會場上,主辦方介紹任務(wù)目標(biāo)與挑戰(zhàn)
理光的突破創(chuàng)新與應(yīng)用實踐
理解文檔是可穿戴人工智能系統(tǒng)的基本任務(wù),需要開發(fā)解決方案,賦予系統(tǒng)閱讀和理解文檔中知識的能力。除了傳統(tǒng)的文檔分析挑戰(zhàn)外,可穿戴設(shè)備圖像還受到人體姿勢的多樣性、不同的光照條件、潛在的障礙物以及其他場景中主體的影響,這些因素在獲取準(zhǔn)確的光學(xué)字符識別(OCR)時增加了額外的障礙。
理光中國研究院將自身各種技術(shù)積累有機(jī)結(jié)合,在單詞識別部分,搭建了以PARSeq(Permuted AutoRegressive Sequence)為基礎(chǔ)的模型,采用了創(chuàng)新的模型迭代訓(xùn)練方法和成熟的數(shù)據(jù)合成技術(shù),進(jìn)一步提高了識別性能。在閱讀順序預(yù)測部分,理光沒有將其定義為傳統(tǒng)的排序任務(wù)或翻譯任務(wù),而是建模為具備語義分割能力的布局解析任務(wù)。基于在表格識別和圖紙識別項目上的豐富經(jīng)驗,理光自研的語義分割框架,在任務(wù)數(shù)據(jù)上微調(diào)后,展現(xiàn)了優(yōu)秀的解析效果。
理光中國研究院在OCR技術(shù)研究和各種場景下的項目實踐經(jīng)驗方面有著深刻的理解。在基礎(chǔ)技術(shù)研究方面,理光中國研究院一直致力于圖像處理、文本檢測、文本識別、布局分析、表格識別以及與文檔理解相關(guān)的其他技術(shù)的研究,并取得了領(lǐng)先成果。在應(yīng)用方面,理光中國研究院已成功將OCR技術(shù)適配到設(shè)計圖紙、財務(wù)報告、合同、票據(jù)以及傳統(tǒng)文檔以外的其他領(lǐng)域。這些解決方案已經(jīng)成功服務(wù)于多領(lǐng)域客戶,并在特定需要的定制化適配方面積累了豐富的經(jīng)驗。
圖紙檔案數(shù)字化解決方案,可以實現(xiàn)掃描件表格文字識別,信息提取和比對,以及歸檔流程處理的自動化,有效解決海量圖紙數(shù)字化過程中大量的信息查找,手動錄入,人工審核,繁瑣歸檔的難題,實現(xiàn)了高效智能的圖紙數(shù)字化管理,90%以上流程實現(xiàn)自動化。
財務(wù)文檔數(shù)字化解決方案,可以實現(xiàn)各類財報文檔自動識別,關(guān)鍵數(shù)據(jù)提取錄入與結(jié)構(gòu)化,同時配合金融領(lǐng)域風(fēng)險評估模型,極大程度地提高了金融風(fēng)險識別的效率和準(zhǔn)確率。
合同比對解決方案,可以進(jìn)行合同文檔比對,將電子文檔,掃描件等不同版本的合同文檔進(jìn)行智能分析比對,檢測包含范本使用,文本修改,字符標(biāo)點等各類差異,極大提高比對效率并控制風(fēng)險。
合同審閱解決方案,可以對印章和關(guān)鍵內(nèi)容進(jìn)行識別和審閱:自動識別印章錯蓋漏蓋,智能提取合同關(guān)鍵信息(例如合同主體,金額,時間,特殊條款等內(nèi)容),提高復(fù)核,審批,以及自動化歸檔管理效率。
理光將繼續(xù)秉承創(chuàng)新精神,不斷深化技術(shù)研究,拓展OCR技術(shù)的應(yīng)用領(lǐng)域,以滿足不斷變化的市場需求。我們期待與更多的合作伙伴攜手,將我們的技術(shù)應(yīng)用于更廣泛的行業(yè)和場景中,共同推動人工智能技術(shù)的進(jìn)步。同時,我們也將持續(xù)關(guān)注客戶的需求,通過不斷的優(yōu)化和創(chuàng)新,提供更加精準(zhǔn)、高效的解決方案,以幫助客戶解決實際問題,提升工作效率。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )