大模型集體「掛科」 GPT-4o準確率僅6.2%

京港台:2025-5-7 02:41| 來源:量子位 | 評論( 4 )  | 我來說幾句

大模型集體「掛科」 GPT-4o準確率僅6.2%

來源:倍可親(backchina.com)

  你以為大模型已經能輕鬆「上網衝浪」了?新基準測試集BrowseComp-ZH直接打臉主流AI。BrowseComp-ZH是一項由港科大(廣州)、北大、浙大、阿里、位元組跳動、NIO等機構聯合發布的新基準測試集,讓20多個中外主流大模型集體「掛科」:

  GPT-4o在測試中準確率僅6.2%;多數國產/國際模型準確率跌破10%;即便是目前表現最好的OpenAI DeepResearch,也僅得42.9%。

  目前,BrowseComp-ZH的全部數據已開源發布。

  

  研究團隊直言:

  為什麼我們需要中文網頁能力測試?如今的大模型越來越擅長「用工具」:能連搜索引擎、能調用插件、能「看網頁」。

  但眾多評估工具都只在英文語境下建立,對中文語境、中文搜索引擎、中文平台生態考慮甚少。

  然而,中文網際網路信息碎片化嚴重、搜索入口多樣、語言表達複雜。

  中文網頁世界到底有多難?舉幾個例子你就明白了:

  信息碎片化,分散在百度百科、微博、地方政府網站、視頻號等多平台

  常見的語言結構中含有省略、典故、代指,關鍵詞檢索常常「跑偏」

  搜索引擎本身質量參差,信息「沉底」或「走丟」都是常事

  因此,英文測試集「翻譯一下」根本不夠。

  需要從中文語境原生設計,才能真正衡量大模型是否能在中文網頁上「看得懂」、「搜得到」、「推得准」。

  BrowseComp-ZH是怎麼煉成的?研究團隊採用了「逆向設計法」:從一個明確、可驗證的事實答案出發(如某個畫種、機構、影視劇名),反向構造出多個約束條件的複雜問題,確保以下三點:

  百度/Bing/Google三大搜索引擎首屏無法直接命中答案

  多個主流大模型在檢索模式下也無法直接答對

  經過人工驗證,問題結構清晰,且僅有唯一答案

  最終,他們構建了289道高難度中文多跳檢索題目,覆蓋影視、藝術、醫學、地理、歷史、科技等11大領域。

  

  

  大模型集體「翻車」?DeepResearch勉強破四成,絕大多數連10%都不到

  

  在BrowseComp-ZH的測試下,多款國內外主流大模型集體「翻車」:

  儘管這些模型在對話理解、生成表達方面已展現強大實力,但在面對中文網際網路的複雜檢索任務時,準確率普遍低得驚人:

  多數模型準確率低於10%,僅少數能突破20%

  OpenAI DeepResearch以42.9%位列第一,仍遠未「及格」

  研究者指出,這一結果說明:模型不僅需要會「查資料」,更要會「多跳推理」與「信息整合」,才能在中文網際網路中真正找到答案。

  四大發現,揭示中文網頁任務的「模型死角」1. 僅靠記憶不行,得真本事

  純靠參數記憶(無搜索)的模型準確率往往低於10%,說明「硬背」不靠譜。

  2. 有推理的模型,表現更好

  DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成為關鍵變數。

  3. 搜得多 ≠ 搜得准,多輪策略才是王道

  具備多輪檢索能力的AI搜索產品全面勝出:

  DeepResearch:42.9%

  豆包Deep Search:26.0%

  Perplexity Research模式:22.6%

  相比之下,只檢索一次的模型(如Kimi、Yuanbao)準確率低至個位數。

  4. 搜索功能「翻車」?接入反而變差

  最典型的反例是DeepSeek-R1,開啟搜索功能后準確率從23.2%斷崖式跌至7.6%。

  研究指出,模型未能將網頁檢索信息與已有知識有效融合,反而被誤導。

  數據集開放!歡迎模型開發者挑戰BrowseComp-ZH的全部數據已開源發布。

  研究者希望此基準測試能成為推動LLM在中文信息環境落地的試金石,助力構建真正「會用中文上網」的智能體。

  下一步,他們計劃擴充樣本規模,拓展問答形式,並深入分析模型推理路徑與失敗案例。

        更多科技前沿 文章    >>

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-10-7 21:44

返回頂部