中文互聯網語料3.0發(fā)布:120GB數據,大模型訓練新助力
2025年9月18日,在昆明召開的2025年國家網絡安全宣傳周人工智能安全治理分論壇上,中文互聯網基礎語料3.0正式向社會發(fā)布。這一版本由中央網信辦相關部門指導,中國網絡空間安全協會聯合國家互聯網應急中心等單位共同完成,標志著我國高質量中文語料資源建設邁入新階段。
中文互聯網基礎語料3.0的發(fā)布,是繼1.0和2.0版本之后的重要進展。項目依托中國網絡空間安全協會人工智能安全治理專委會建立的語料共建共享機制,匯聚企業(yè)、高校和科研單位的多方力量,通過系統性協作形成高質量可信數據資源。在數據處理方面,項目團隊實施了嚴格的信源篩選、內容過濾與數據去重等措施,確保語料的可靠性、合規(guī)性與可用性。
本批語料規(guī)模達到120GB,較此前版本進一步擴大了優(yōu)質中文網站的信源范圍,并加強了對違法及不良信息的過濾力度。這些語料覆蓋廣泛的中文互聯網內容,包括新聞、百科、論壇、學術文本等多種類型,具有良好的多樣性和代表性,可為大語言模型訓練、自然語言處理研究及人工智能應用開發(fā)提供重要基礎資源。
高質量語料對人工智能發(fā)展具有關鍵支撐作用。當前,以大模型為代表的人工智能技術迅猛發(fā)展,其性能高度依賴于訓練數據的規(guī)模與質量。缺乏優(yōu)質、可信、多樣化的語料,可能導致模型產生偏見、錯誤或有害輸出。中文互聯網基礎語料3.0的發(fā)布,有助于緩解當前中文語料資源相對不足的問題,推動大模型技術更加健康、可控地發(fā)展。
用戶可通過中國網絡空間安全協會官方網站(https://www.cybersac.cn/newhome)訪問“中文互聯網語料資源平臺”,完成注冊與認證流程后即可下載相關語料。這一開放舉措有助于促進學術研究、行業(yè)創(chuàng)新和產業(yè)協作,進一步推動人工智能生態(tài)共建。
中國網絡空間安全協會負責人表示,語料3.0是多方協同推進高質量中文數據資源建設的重要成果,未來協會將繼續(xù)聯合國家互聯網應急中心及各行業(yè)機構,持續(xù)加強語料資源的建設、更新與優(yōu)化,為人工智能技術創(chuàng)新與產業(yè)落地提供更加堅實的支撐。
總體來看,中文互聯網基礎語料3.0的發(fā)布,不僅擴充了高質量語料規(guī)模,也體現出我國在人工智能治理與數據基礎建設方面的系統性努力。隨著此類資源的不斷豐富與開放,預計將有效助力中文大模型的訓練與優(yōu)化,推動人工智能技術向著更安全、更可靠的方向發(fā)展。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內容經人類編輯核實事實、調整邏輯、優(yōu)化表達后完成。)
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )