AI 行業(yè)落地一直是業(yè)界的一個(gè)難題,華為云在探索AI落地之道的過程中發(fā)現(xiàn),各個(gè)行業(yè)都有各種形態(tài)的知識,這些知識存在于不同的媒介,比如各種專業(yè)書籍記錄的學(xué)科行業(yè)知識,百科網(wǎng)站上的基本常識等。其中,許多行業(yè)知識是行業(yè)專家經(jīng)驗(yàn)的沉淀,甚至是只存在于老專家腦海里的不傳之秘。這些知識代表了行業(yè)智慧,同時(shí)也是實(shí)現(xiàn)行業(yè)AI落地的關(guān)鍵。
基于在各個(gè)行業(yè)的成功實(shí)踐,2020年華為云發(fā)布了業(yè)界首個(gè)全生命周期知識計(jì)算解決方案,提供從知識獲取、建模、管理到應(yīng)用的全套決方案,賦能行業(yè)用戶去構(gòu)建屬于企業(yè)自己的知識計(jì)算平臺。
7月22日,華為云TechWave人工智能專題日舉辦,華為云自然語言處理專家在會上分享了從知識獲取到應(yīng)用的整個(gè)流程中,包含的知識計(jì)算幾個(gè)關(guān)鍵技術(shù):知識獲取、知識建模、知識應(yīng)用。
關(guān)鍵技術(shù)一:知識獲取
知識計(jì)算首先要獲取知識,知識獲取的一個(gè)核心技術(shù)是信息抽取。信息抽取涵蓋范圍廣泛,比如實(shí)體抽取是從文本中抽取類似人名、地名等實(shí)體詞或者詞組。如果要構(gòu)建知識圖譜,就需要抽取更復(fù)雜的由主語、謂詞、賓語構(gòu)成的三元組。比如從《朝花夕拾》是文學(xué)家魯迅的散文集,1928年由北京未名社出版。從這個(gè)句子中可以抽取“朝花夕拾”、“出版社”、 “未名社”這個(gè)三元組,而每個(gè)三元組都代表了一個(gè)客觀事實(shí),比如這個(gè)三元組表達(dá)的就是朝花夕拾的出版社是未名社。針對這類三元組的抽取,華為云研發(fā)了基于閱讀理解框架和級聯(lián)思想的信息抽取算法,可以用一個(gè)框架統(tǒng)一建模實(shí)體的抽取和關(guān)系的抽取,效果相比傳統(tǒng)方法有顯著提升。
實(shí)際落地過程中,往往還存在標(biāo)注人力成本高,標(biāo)注數(shù)據(jù)不足的情況。針對這種情況,華為云還發(fā)展了一系列小樣本信息抽取方法,可以有效降低對標(biāo)注數(shù)據(jù)的依賴。比如基于meta-learning的三元組抽取方法,在部分場景中,在保證準(zhǔn)確率基本持平的情況下,標(biāo)注數(shù)據(jù)量可以從兩千條左右下降到幾十到百條。這樣就降低了知識獲取的難度,同時(shí)也就降低了用戶使用的門檻。
除了信息抽取外,知識獲取還有一個(gè)很重要的步驟是實(shí)體鏈接,因?yàn)閺奈谋境槿〉降男畔⑼怯衅缌x的,需要把信息鏈接到知識圖譜中正確的實(shí)體上。比如,李娜在澳洲公開賽打敗了齊布爾科娃,這句話中有三個(gè)實(shí)體,李娜、澳大利亞公開賽、齊布爾科娃,這些實(shí)體在知識庫都有不止一個(gè)候選實(shí)體,因?yàn)榻欣钅冗@個(gè)名字的人很多,到底哪一個(gè)才是這個(gè)句子里說的李娜呢?
針對這種短文本中的實(shí)體鏈接問題,華為云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多輪多項(xiàng)選擇的閱讀理解框架。基于該框架,能很好地完成實(shí)體鏈接任務(wù),準(zhǔn)確率相對傳統(tǒng)方法提升了大約5個(gè)百分點(diǎn)。華為云提出的M3框架相關(guān)論文,發(fā)表在人工智能國際頂級學(xué)術(shù)會議AAAI 2021上。
關(guān)鍵技術(shù)二:知識建模
完成知識獲取以后,還需要對知識建模。知識建模中,知識融合/實(shí)體融合是一個(gè)非常關(guān)鍵的步驟。因?yàn)榻^大多數(shù)的知識圖譜都是為特定的目的構(gòu)造的,這會導(dǎo)致即使是相同的概念,在不同的知識圖譜中也會有不同的描述;同時(shí)相同的描述也有可能代表不同的概念。比如,在一個(gè)圖譜中蘋果是一種水果,在另外一個(gè)圖譜中,蘋果卻是一家公司。針對知識融合問題,華為云研發(fā)了多種算法和解決方案,其中包括在多模態(tài)知識圖譜實(shí)體融合方面的原創(chuàng)工作。
針對多模態(tài)知識圖譜的實(shí)體對齊問題,華為云提出了一種多模態(tài)知識嵌入方法,生成三種模態(tài)知識的表示;然后設(shè)計(jì)了一種多模態(tài)知識融合方法,以融合三種模態(tài)的知識表示。最后采用了交互訓(xùn)練的方式,端到端的優(yōu)化華為云提出的MMEA模型。華為云提出的這個(gè)模型也發(fā)表在了去年知識工程的國際學(xué)術(shù)會議KSEM上,并獲得唯一的最佳論文獎(jiǎng)。
在多模態(tài)知識嵌入模塊中,華為云提取關(guān)系、視覺、數(shù)值信息,分別對不同模態(tài)的知識做嵌入表征,去補(bǔ)充實(shí)體的有效特征。
多模態(tài)知識融合模塊的作用則是集成多模態(tài)的知識表示。在多模態(tài)知識融合模塊里,華為云將多模態(tài)知識嵌入從各自分離的空間中遷移到一個(gè)統(tǒng)一的空間里。統(tǒng)一空間的學(xué)習(xí)使得多模態(tài)的特征能夠互相受益,利用多模態(tài)的互補(bǔ)性,提升了實(shí)體對齊任務(wù)的準(zhǔn)確率。
關(guān)鍵技術(shù)三:知識應(yīng)用
完成知識建模以后,可以做多種應(yīng)用,比如事理圖譜。什么是事理圖譜呢?知識圖譜是以實(shí)體為核心的,主要建模的是實(shí)體之間的關(guān)系,通過三元組來表達(dá)一些客觀事實(shí)。事理圖譜則是以事件為核心,主要建模的是事件之間的因果、順承等關(guān)系。
另外一個(gè)應(yīng)用是將知識融入到預(yù)訓(xùn)練模型中。預(yù)訓(xùn)練模型是近兩年最熱門的技術(shù)之一,比如BERT、GPT3、華為云盤古大模型等。這些預(yù)訓(xùn)練模型的一個(gè)共同特征是利用大規(guī)模的無標(biāo)注的文本數(shù)據(jù),通過自監(jiān)督的方式訓(xùn)練一個(gè)模型,從而使得這些模型里面蘊(yùn)含了重要的先驗(yàn)信息或者說知識。但是大模型使用的語料都是通用領(lǐng)域的,沒有行業(yè)屬性,模型設(shè)計(jì)與訓(xùn)練也沒有顯式融入行業(yè)知識。針對這種情況,華為云提出了一個(gè)可以融合醫(yī)療領(lǐng)域知識的預(yù)訓(xùn)練模型,BERT-MK,該模型可以顯式地將建模好的醫(yī)療行業(yè)知識,比如醫(yī)療行業(yè)的知識圖譜,融入到預(yù)訓(xùn)練模型中。融入了行業(yè)之后,在醫(yī)療相關(guān)的下游任務(wù)上,該模型都表現(xiàn)出了比通用模型更好的效果。
有了融入了醫(yī)療知識的預(yù)訓(xùn)練模型,可以進(jìn)一步把它應(yīng)用到醫(yī)療領(lǐng)域,比如醫(yī)療信息抽取?;谶@些融入了醫(yī)療行業(yè)知識的預(yù)訓(xùn)練模型,華為云自研了CHIEF醫(yī)療信息抽取框架?;谠摽蚣?,華為云從相關(guān)醫(yī)療文獻(xiàn)里面,構(gòu)建了一個(gè)醫(yī)學(xué)領(lǐng)域知識圖譜,即從跟新冠肺炎相關(guān)文獻(xiàn)中構(gòu)建了一個(gè)包含新冠肺炎相關(guān)的病毒、蛋白、藥物的知識圖譜。
華為云知識計(jì)算解決方案從解決企業(yè)痛點(diǎn)、提升企業(yè)效率、提供知識化服務(wù)的角度全面賦能企業(yè),讓各行業(yè)的企業(yè)通過應(yīng)用知識,釋放知識化帶來的紅利,全面提升企業(yè)在智能化時(shí)代的競爭力。
- 蘇超墊底難掩產(chǎn)業(yè)光芒:常州新能源規(guī)模超八千億,工業(yè)機(jī)器人領(lǐng)跑全國
- 馬斯克申請注冊 “宏硬” 商標(biāo),只為惡心微軟?
- 索尼起訴騰訊新游抄襲 指控其克隆經(jīng)典作品
- 星鏈因軟件故障全球中斷2.5小時(shí) 全球多地?zé)o法正常接入網(wǎng)絡(luò)
- 谷歌被判22.5億元天價(jià)賠償背后:安卓數(shù)據(jù)暗箱操作的五年拉鋸戰(zhàn)
- HDC 2025:開發(fā)者搭上“鴻蒙快車”,鴻蒙生態(tài)加速前行
- HarmonyOS 6開發(fā)者Beta正式啟動(dòng):打造無處不在的AI體驗(yàn)
- 馬蜂窩發(fā)布夏季“旅行蜂向標(biāo)”,進(jìn)山、玩水、擁抱草原是最受關(guān)注的夏季玩法
- 餓了么灰測“悅享會員”加碼用戶體驗(yàn),提供一系列專屬優(yōu)惠和個(gè)性化服務(wù)
- 啟信寶2025奶茶趣味報(bào)告:奶茶企業(yè)5年激增140%,40萬家共筑3500億帝國
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。