AI 行業(yè)落地一直是業(yè)界的一個難題,華為云在探索AI落地之道的過程中發(fā)現(xiàn),各個行業(yè)都有各種形態(tài)的知識,這些知識存在于不同的媒介,比如各種專業(yè)書籍記錄的學科行業(yè)知識,百科網(wǎng)站上的基本常識等。其中,許多行業(yè)知識是行業(yè)專家經(jīng)驗的沉淀,甚至是只存在于老專家腦海里的不傳之秘。這些知識代表了行業(yè)智慧,同時也是實現(xiàn)行業(yè)AI落地的關鍵。
基于在各個行業(yè)的成功實踐,2020年華為云發(fā)布了業(yè)界首個全生命周期知識計算解決方案,提供從知識獲取、建模、管理到應用的全套決方案,賦能行業(yè)用戶去構建屬于企業(yè)自己的知識計算平臺。
7月22日,華為云TechWave人工智能專題日舉辦,華為云自然語言處理專家在會上分享了從知識獲取到應用的整個流程中,包含的知識計算幾個關鍵技術:知識獲取、知識建模、知識應用。
關鍵技術一:知識獲取
知識計算首先要獲取知識,知識獲取的一個核心技術是信息抽取。信息抽取涵蓋范圍廣泛,比如實體抽取是從文本中抽取類似人名、地名等實體詞或者詞組。如果要構建知識圖譜,就需要抽取更復雜的由主語、謂詞、賓語構成的三元組。比如從《朝花夕拾》是文學家魯迅的散文集,1928年由北京未名社出版。從這個句子中可以抽取“朝花夕拾”、“出版社”、 “未名社”這個三元組,而每個三元組都代表了一個客觀事實,比如這個三元組表達的就是朝花夕拾的出版社是未名社。針對這類三元組的抽取,華為云研發(fā)了基于閱讀理解框架和級聯(lián)思想的信息抽取算法,可以用一個框架統(tǒng)一建模實體的抽取和關系的抽取,效果相比傳統(tǒng)方法有顯著提升。
實際落地過程中,往往還存在標注人力成本高,標注數(shù)據(jù)不足的情況。針對這種情況,華為云還發(fā)展了一系列小樣本信息抽取方法,可以有效降低對標注數(shù)據(jù)的依賴。比如基于meta-learning的三元組抽取方法,在部分場景中,在保證準確率基本持平的情況下,標注數(shù)據(jù)量可以從兩千條左右下降到幾十到百條。這樣就降低了知識獲取的難度,同時也就降低了用戶使用的門檻。
除了信息抽取外,知識獲取還有一個很重要的步驟是實體鏈接,因為從文本抽取到的信息往往是有歧義的,需要把信息鏈接到知識圖譜中正確的實體上。比如,李娜在澳洲公開賽打敗了齊布爾科娃,這句話中有三個實體,李娜、澳大利亞公開賽、齊布爾科娃,這些實體在知識庫都有不止一個候選實體,因為叫李娜這個名字的人很多,到底哪一個才是這個句子里說的李娜呢?
針對這種短文本中的實體鏈接問題,華為云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多輪多項選擇的閱讀理解框架?;谠摽蚣?,能很好地完成實體鏈接任務,準確率相對傳統(tǒng)方法提升了大約5個百分點。華為云提出的M3框架相關論文,發(fā)表在人工智能國際頂級學術會議AAAI 2021上。
關鍵技術二:知識建模
完成知識獲取以后,還需要對知識建模。知識建模中,知識融合/實體融合是一個非常關鍵的步驟。因為絕大多數(shù)的知識圖譜都是為特定的目的構造的,這會導致即使是相同的概念,在不同的知識圖譜中也會有不同的描述;同時相同的描述也有可能代表不同的概念。比如,在一個圖譜中蘋果是一種水果,在另外一個圖譜中,蘋果卻是一家公司。針對知識融合問題,華為云研發(fā)了多種算法和解決方案,其中包括在多模態(tài)知識圖譜實體融合方面的原創(chuàng)工作。
針對多模態(tài)知識圖譜的實體對齊問題,華為云提出了一種多模態(tài)知識嵌入方法,生成三種模態(tài)知識的表示;然后設計了一種多模態(tài)知識融合方法,以融合三種模態(tài)的知識表示。最后采用了交互訓練的方式,端到端的優(yōu)化華為云提出的MMEA模型。華為云提出的這個模型也發(fā)表在了去年知識工程的國際學術會議KSEM上,并獲得唯一的最佳論文獎。
在多模態(tài)知識嵌入模塊中,華為云提取關系、視覺、數(shù)值信息,分別對不同模態(tài)的知識做嵌入表征,去補充實體的有效特征。
多模態(tài)知識融合模塊的作用則是集成多模態(tài)的知識表示。在多模態(tài)知識融合模塊里,華為云將多模態(tài)知識嵌入從各自分離的空間中遷移到一個統(tǒng)一的空間里。統(tǒng)一空間的學習使得多模態(tài)的特征能夠互相受益,利用多模態(tài)的互補性,提升了實體對齊任務的準確率。
關鍵技術三:知識應用
完成知識建模以后,可以做多種應用,比如事理圖譜。什么是事理圖譜呢?知識圖譜是以實體為核心的,主要建模的是實體之間的關系,通過三元組來表達一些客觀事實。事理圖譜則是以事件為核心,主要建模的是事件之間的因果、順承等關系。
另外一個應用是將知識融入到預訓練模型中。預訓練模型是近兩年最熱門的技術之一,比如BERT、GPT3、華為云盤古大模型等。這些預訓練模型的一個共同特征是利用大規(guī)模的無標注的文本數(shù)據(jù),通過自監(jiān)督的方式訓練一個模型,從而使得這些模型里面蘊含了重要的先驗信息或者說知識。但是大模型使用的語料都是通用領域的,沒有行業(yè)屬性,模型設計與訓練也沒有顯式融入行業(yè)知識。針對這種情況,華為云提出了一個可以融合醫(yī)療領域知識的預訓練模型,BERT-MK,該模型可以顯式地將建模好的醫(yī)療行業(yè)知識,比如醫(yī)療行業(yè)的知識圖譜,融入到預訓練模型中。融入了行業(yè)之后,在醫(yī)療相關的下游任務上,該模型都表現(xiàn)出了比通用模型更好的效果。
有了融入了醫(yī)療知識的預訓練模型,可以進一步把它應用到醫(yī)療領域,比如醫(yī)療信息抽取?;谶@些融入了醫(yī)療行業(yè)知識的預訓練模型,華為云自研了CHIEF醫(yī)療信息抽取框架。基于該框架,華為云從相關醫(yī)療文獻里面,構建了一個醫(yī)學領域知識圖譜,即從跟新冠肺炎相關文獻中構建了一個包含新冠肺炎相關的病毒、蛋白、藥物的知識圖譜。
華為云知識計算解決方案從解決企業(yè)痛點、提升企業(yè)效率、提供知識化服務的角度全面賦能企業(yè),讓各行業(yè)的企業(yè)通過應用知識,釋放知識化帶來的紅利,全面提升企業(yè)在智能化時代的競爭力。
- 餓了么灰測“悅享會員”加碼用戶體驗,提供一系列專屬優(yōu)惠和個性化服務
- 啟信寶2025奶茶趣味報告:奶茶企業(yè)5年激增140%,40萬家共筑3500億帝國
- 《黑神話:悟空》PS5國行版將于6月18日正式發(fā)售,建議零售價268元起
- 報告:2029年美國AI搜索廣告支出將達260億美元,占比13.6%
- 重塑內(nèi)生安全體系 實現(xiàn)AI時代安全突圍 ——2025北京網(wǎng)絡安全大會(BCS)開幕
- 覆蓋上百國家!啟信慧眼全球供應鏈“風險地圖”助力中企安全“出?!?/a>
- 門禁憑證技術進化簡史:開啟更加安全和便利的未來
- Google I/O 大會:科技盛宴,引領未來創(chuàng)新潮流
- 馬蜂窩端午出行大數(shù)據(jù):短途周邊游是主流,非遺民俗關注度持續(xù)走高
- 微軟裁員6000人原因揭曉 AI沖擊首當其沖
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。