在11月下旬結(jié)束的自然語言處理頂級學術(shù)會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結(jié)果,來自字節(jié)跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優(yōu)勢在「中文-英語」語向翻譯項目上拿下了冠軍。
此外,火山翻譯團隊還拿下了「德語 -英語」和「德語-法語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。
39支隊伍角逐國際頂級機器翻譯大賽WMT
國際機器翻譯大賽(WMT)由國際計算語言學協(xié)會 (ACL) 舉辦,是全球?qū)W術(shù)界公認的國際頂級機器翻譯比賽,也是各大科技公司、頂尖院校與學術(shù)機構(gòu)展示自身機器翻譯實力的較量舞臺。
自2006年至今,國際機器翻譯大賽(WMT)已經(jīng)成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。
組委會根據(jù)中英、英中、英德等22個不同翻譯任務(wù)提供測試數(shù)據(jù)集,并引入科學的語言專家人工評估流程。每個參賽系統(tǒng)首先由多名經(jīng)驗豐富的語言學家進行評估,然后對最終分數(shù)進行標準化加權(quán),最后進行排名。整個評估過程歷時四個月,評價結(jié)果有非常高的置信度。
語言專家評估得分第一 火山翻譯拿下「中文-英語」語向冠軍
歷年比賽中,「中文-英語」語向的翻譯任務(wù)都是參賽隊伍最多、競爭最為激烈的機器翻譯任務(wù)之一,今年更勝往年。
火山翻譯團隊參加了非受限場景的比賽,也就是在給定測試集的情況下,可以使用任何數(shù)據(jù)和方法探索翻譯效果極限的比賽方式,組織方也引入了四個權(quán)威的在線機器翻譯商業(yè)系統(tǒng)(Online-A、G、Z、B)作為對比,這也是最能體現(xiàn)翻譯團隊數(shù)據(jù)和算法綜合能力的場景。在人工評估中,火山翻譯團隊(Volctrans) 力壓群雄,以明顯的優(yōu)勢奪得了冠軍。
(圖:WMT2020 中英翻譯前幾名系統(tǒng)得分。Ave.z代表人工評估標準化分數(shù),也是目前機器翻譯最受認可的指標。)
相比「中文-英語」,「德語-英語」在 WMT 比賽上是傳統(tǒng)項目,也是歐洲國家最關(guān)注的語向。在最后的人工評價中,火山翻譯依然表現(xiàn)出色,取得了第一名的成績。國際機器翻譯大賽組委會給出了很高的評價,“作為新的參與者,火山翻譯表現(xiàn)尤為出色(particularly well),超越了很多傳統(tǒng)隊伍”。
復旦大學計算機學院教授、EMNLP2021大會程序主席黃萱菁表示:“WMT是非常硬核的比賽,火山翻譯取得了出色成績?;鹕椒g的LightSeq、mRASP等技術(shù)讓人眼前一亮,機器翻譯有廣闊的發(fā)展空間,非常期待火山翻譯為機器翻譯的技術(shù)研究和產(chǎn)品應(yīng)用探索更多可能性。”
領(lǐng)先的背后:火山翻譯致力于打造前沿研究、產(chǎn)品研發(fā)和用戶反饋的閉環(huán)
火山翻譯(Volctrans)是由字節(jié)跳動計算機研究科學家、工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營和語言專家組成的專業(yè)團隊研發(fā),其基于自主研發(fā)的機器學習技術(shù),積累了百億多種語言語料,已支持超過50個語種、2500個語對之間的互譯,翻譯效果和速度業(yè)界領(lǐng)先。
(圖:火山翻譯官網(wǎng)??梢酝ㄟ^ https://translate.volcengine.cn/ 體驗火山翻譯,并了解更多產(chǎn)品能力。)
目前,火山翻譯具備文本翻譯、語音翻譯、圖像翻譯、語種識別四種能力,在辦公、娛樂、新聞等場景表現(xiàn)優(yōu)異。
基于這些能力,火山翻譯推出了一系列形態(tài)多樣的產(chǎn)品與服務(wù),包括機器翻譯云服務(wù)、智能視頻翻譯、智能同傳、翻譯瀏覽器插件等。此外,火山翻譯支持API、SDK、私有部署等多種接入方式,且支持垂直領(lǐng)域的快速模型定制,能夠滿足不同群體和不同行業(yè)的翻譯需求。
在視頻翻譯場景,火山翻譯提供簡單高效的視頻“轉(zhuǎn)寫-打軸-翻譯”全流程服務(wù),輕松聽譯、智能打軸、高效編輯、專業(yè)審校,集四大能力于一身,幫助創(chuàng)作者輕松高效地應(yīng)對跨語言視頻創(chuàng)作。
在語音翻譯領(lǐng)域,火山翻譯的智能同傳技術(shù)也表現(xiàn)卓越,能夠根據(jù)現(xiàn)場發(fā)言提供高品質(zhì)、低延時的實時語音識別字幕結(jié)果,同時提供人工字幕保障方案,讓會議現(xiàn)場以及直播字幕更精準流暢。
火山翻譯的技術(shù)來源于字節(jié)跳動團隊多年機器學習和自然語言處理領(lǐng)域的深耕。團隊擁有百余項技術(shù)發(fā)明專利,在人工智能頂級國際學術(shù)會議發(fā)表50余篇學術(shù)論文。在機器翻譯技術(shù)上更是獨創(chuàng)了mRASP多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調(diào)取得了44個語對的業(yè)界最佳性能,整體效果力壓Facebook研發(fā)的mBART方法。同時,火山翻譯研發(fā)的LUT和COSTT語音到文本翻譯算法,從語音輸入(例如英語)可以直接輸出目標語言文字(例如中文),減少了錯誤累積,在效果上取得了業(yè)界領(lǐng)先。
字節(jié)跳動杰出科學家、人工智能實驗室總監(jiān)李磊稱:“火山翻譯核心優(yōu)勢在打造前沿研究、產(chǎn)品研發(fā)和用戶反饋的閉環(huán),研發(fā)團隊分布全世界多個國家,工作中也在使用自己打造的產(chǎn)品來跨語言溝通,在迭代中快速進步。”
火山翻譯團隊還研發(fā)了多項機器翻譯前沿技術(shù),目前已經(jīng)集成到火山翻譯系列產(chǎn)品中,例如鏡像式生成模型MGNMT、CTNMT算法、交互式翻譯算法CAMIT、膠囊翻譯網(wǎng)絡(luò)、并行翻譯算法PNAT和GLAT等?;鹕椒g還采用了自研的高性能序列推理引擎LightSeq,推理速度業(yè)界最快,比原生系統(tǒng)提高10倍,可以達到每秒兩萬詞的翻譯速度。
李磊表示:“火山翻譯已經(jīng)為飛書、今日頭條等多款海內(nèi)外產(chǎn)品提供穩(wěn)定和高質(zhì)量的翻譯服務(wù),每天處理數(shù)億次翻譯請求,為來自全球的過億用戶群體提供優(yōu)質(zhì)的翻譯體驗。未來,火山翻譯希望為更多用戶提供服務(wù),幫助用戶更高效地實現(xiàn)國際信息無障礙交流。”
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )