久久婷婷五月综合97色直播,麻花传媒剧国产mv高清播放

極客網(wǎng)?極客觀察5月7日 自誕生以來，人工智能大模型始終被“幻覺”問題困擾。這里的“幻覺”，指的是大語言模型會將虛構(gòu)信息當作真實事實輸出。實際上，“幻覺”這一表述相當委婉，它實則暴露出AI的核心缺陷——當前的大語言模型尚未達到真正意義上的智能水平。

就在上個月，編程工具Cursor引發(fā)一場風(fēng)波。用戶收到消息稱，其使用政策將進行調(diào)整，未來僅支持在單臺電腦上使用。然而，這條消息很快被證實為假。Cursor首席執(zhí)行官兼聯(lián)合創(chuàng)始人Michael Truell迅速出面澄清：“我們并未制定類似政策，用戶完全可以在多臺設(shè)備上使用Cursor。這一錯誤信息源于一線AI機器人的錯誤回復(fù)?！?/p>

此次事件不僅讓用戶虛驚一場，更直觀展現(xiàn)了人工智能系統(tǒng)的不穩(wěn)定。

幻覺成為AI進化的攔路虎

經(jīng)過數(shù)年發(fā)展，盡管AI技術(shù)在諸多領(lǐng)域取得突破，但在判斷信息真假時仍不盡如人意。即使是OpenAI、谷歌、DeepSeek等行業(yè)頭部機構(gòu)研發(fā)的模型也存在許多錯誤輸出。

值得警惕的是，這些錯誤并未隨著時間推移而減少，反而呈現(xiàn)增多趨勢。誠然，AI在數(shù)學(xué)運算、編程領(lǐng)域有所提升，但在處理復(fù)雜事實性信息時依然存在明顯短板，難以滿足用戶需求。

今天的AI實際上是根據(jù)“復(fù)雜數(shù)學(xué)系統(tǒng)”構(gòu)建的，它們通過不斷分析海量數(shù)字數(shù)據(jù)，持續(xù)優(yōu)化自身性能。然而，算法系統(tǒng)始終存在一個根本性缺陷——無法有效區(qū)分信息真假。在一項測試中，相較于舊版AI系統(tǒng)，新版AI系統(tǒng)的“幻覺率”竟然更高，這說明AI面臨嚴峻挑戰(zhàn)。

Vectara專注于企業(yè)級AI工具開發(fā)，其首席執(zhí)行官Amr Awadallah直言：“盡管我們傾盡全力，可‘幻覺’問題還是存在，它并沒有消失?！爆F(xiàn)狀表明，即便在專業(yè)團隊的持續(xù)攻堅下，AI“幻覺”依然是難以攻克的技術(shù)頑疾。

Okahu致力于解決AI“幻覺”問題，其首席執(zhí)行官Pratik Verma也指出：“判斷AI回應(yīng)是事實還是虛假需要耗費大量時間。如果不能妥善處理這些錯誤，就無法保證人工智能系統(tǒng)發(fā)揮應(yīng)有價值，畢竟這些系統(tǒng)的設(shè)計初衷是幫助用戶自動完成各項任務(wù)?！?/p>

AI企業(yè)并非不清楚“幻覺”問題的存在，它們付出了巨大努力，但始終無法有效解決這一難題。OpenAI的內(nèi)部測試顯示，相比老系統(tǒng)，它所開發(fā)的新系統(tǒng)“幻覺率”反而更高。

在PersonQA標準測試中，o3模型在33%的回答中產(chǎn)生幻覺，幾乎是o1模型（16%）的兩倍，而最新的o4-mini模型表現(xiàn)更差，“幻覺率”高達48%。若采用SimpleQA標準測試，情況同樣不容樂觀。o3和o4-mini的“幻覺率”分別達到51%和79%，o1模型的“幻覺率”也有44%。

OpenAI指出，AI系統(tǒng)從海量數(shù)據(jù)中學(xué)習(xí)，數(shù)據(jù)量之巨遠超人類專家的理解能力，因此很難確定問題根源究竟在哪里。

人類恐怕不能解決AI幻覺

華盛頓大學(xué)及艾倫人工智能研究所研究人員Hannaneh Hajishirzi表示，他們找到一種新方法，能夠追溯AI特定行為在訓(xùn)練數(shù)據(jù)中的源頭。但由于系統(tǒng)學(xué)習(xí)的數(shù)據(jù)量過于龐大，新工具無法解釋所有情況。Hannaneh Hajishirzi坦言：“我們?nèi)匀桓悴磺暹@些模型到底是如何運行的。”

Vectara近年來持續(xù)對AI系統(tǒng)展開測試，通過讓系統(tǒng)總結(jié)新聞內(nèi)容的方式，觀察“幻覺率”的變化情況。然而，測試結(jié)果令人沮喪——“幻覺率”不僅未降低，反而呈上升趨勢。

長期以來，OpenAI認定一個理念：向AI投喂的數(shù)據(jù)越多，AI就會越聰明。但如今，AI在訓(xùn)練時幾乎耗盡所有互聯(lián)網(wǎng)英文信息，它的幻覺卻愈發(fā)嚴重。這一現(xiàn)實表明，若想突破“幻覺”困境必須探尋新的技術(shù)路徑。

當前，工程師們開始倚重“強化學(xué)習(xí)”技術(shù)。在數(shù)學(xué)、編程等領(lǐng)域，強化學(xué)習(xí)確實能通過試錯機制實現(xiàn)學(xué)習(xí)與進步，但在部分領(lǐng)域，該技術(shù)仍未帶來明顯改善。

此外，推理模型在解答復(fù)雜問題時會先進行“思考”，采用分步解決的策略。然而，每個思考步驟都潛藏著產(chǎn)生“幻覺”的風(fēng)險，思考步驟越多，累積的錯誤也就越多，這無疑給提升AI信息準確性帶來更大挑戰(zhàn)。

如今的AI能夠展示思考過程，使用戶可以看到錯誤產(chǎn)生的環(huán)節(jié)，這無疑是技術(shù)層面的一大進步。然而研究人員發(fā)現(xiàn)，AI所展示的思考步驟可能與最終答案毫無關(guān)聯(lián)。Anthropic研究人員Aryo Pradipta Gema直言：“AI系統(tǒng)聲稱自己正在思考，但它的思考有時并無必要?！?/p>

一些研究人員甚至認為，杜絕AI“幻覺”不可能實現(xiàn)，只能通過多種方法降低“幻覺率”。比如讓AI直面自身知識盲區(qū)，主動向用戶承認“我不知道”；引入“檢索增強生成”技術(shù)，促使AI通過檢索相關(guān)文檔輔助作答，而非單純依賴記憶數(shù)據(jù)直接輸出答案。

美國東北大學(xué)體驗式人工智能研究所研究人員Usama Fayyad提出，“幻覺”這一表述存在概念偏差，它過度擬人化。Usama Fayyad強調(diào)，AI生成錯誤信息與人類產(chǎn)生幻覺存在本質(zhì)差異——AI既無意圖，也無意識，應(yīng)避免用帶有情感色彩的詞匯模糊技術(shù)本質(zhì)。（小刀）

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

模型越新幻覺越重！AI幻覺扣住產(chǎn)業(yè)發(fā)展命脈

下一篇

女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

模型越新幻覺越重！AI幻覺扣住產(chǎn)業(yè)發(fā)展命脈

下一篇

模型越新幻覺越重！AI幻覺扣住產(chǎn)業(yè)發(fā)展命脈