Andrej karpathy在拼圖解決基准上-人工智慧-PHP中文網

解謎式基準測試的問題

當前基準測試的主要挑戰

朝著更有意義的基準測試邁進

真實世界任務模擬

長期規劃和推理

倫理和社會意識

跨領域的泛化能力

AI 基準測試的未來

結語

首頁

科技週邊

人工智慧

Andrej karpathy在拼圖解決基准上

Lisa Kudrow

Mar 14, 2025 am 10:09 AM

AI 發展評估：超越解謎式基準測試

長期以來，人工智能基準測試一直是衡量人工智能進步的標準，它提供了一種切實可行的方法來評估和比較系統能力。但這種方法真的是評估AI 系統的最佳方式嗎？ Andrej Karpathy 最近在X 平台上的一篇文章中對這種方法的充分性提出了質疑。 AI 系統在解決預定義問題方面越來越熟練，但其更廣泛的效用和適應性仍然不確定。這就引出了一個重要的問題：我們是否僅僅關註解謎式基準測試，從而阻礙了AI 的真正潛力？

我個人對這些小型解謎基準測試不太感冒，感覺又回到了雅達利時代。我更關注的基準測試更接近於AI 產品的總年收入（ARR）之和，但不確定是否存在一個更簡單/公開的指標能夠捕捉到大部分情況。我知道這句玩笑話指的是英偉達。

— Andrej Karpathy (@karpathy) 2024 年12 月23 日

解謎式基準測試的問題

像MMLU 和GLUE 這樣的LLM 基準測試無疑推動了NLP 和深度學習的顯著進步。然而，這些基準測試通常將復雜、現實世界中的挑戰簡化為具有明確目標和評估標準的明確定義的難題。雖然這種簡化對於研究來說是可行的，但它可能會掩蓋LLM 對社會產生有意義的影響所需更深層次的能力。

Karpathy 的文章強調了一個根本性問題：“基準測試正變得越來越像解謎遊戲。” 對他這一觀點的回應表明，AI 社區對此存在廣泛共識。許多評論者強調，泛化和適應新的、未定義的任務的能力遠比在狹義定義的基準測試中表現出色更為重要。

Andrej Karpathy on Puzzle-Solving Benchmarks

另請閱讀：如何評估大型語言模型(LLM)？

當前基準測試的主要挑戰

對指標的過擬合

AI 系統被優化以在特定數據集或任務上表現良好，從而導致過擬合。即使在訓練中沒有明確使用基準數據集，也可能發生數據洩露，導致模型無意中學習基準特定的模式。這會阻礙其在更廣泛的現實世界應用中的性能。 AI 系統被優化以在特定數據集或任務上表現良好，從而導致過擬合。但這並不一定轉化為現實世界的效用。

缺乏泛化能力

解決基準測試任務並不能保證AI 能夠處理類似的、略微不同的問題。例如，經過訓練來為圖像添加字幕的系統可能難以處理其訓練數據之外的細微描述。

狹隘的任務定義

基準測試通常側重於分類、翻譯或摘要等任務。這些任務並不能測試更廣泛的能力，例如推理、創造力或倫理決策。

朝著更有意義的基準測試邁進

解謎式基準測試的局限性要求我們改變評估AI 的方式。以下是重新定義AI 基準測試的一些建議方法：

真實世界任務模擬

基準測試可以採用動態的現實世界環境，而不是靜態數據集，在這些環境中，AI 系統必須適應不斷變化的條件。例如，谷歌已經通過像Genie 2 這樣的倡議（一個大型基礎世界模型）在這方面開展工作。更多詳細信息可以在他們的DeepMind 博客和Analytics Vidhya 的文章中找到。

模擬代理：在開放式環境（如Minecraft 或機器人模擬）中測試AI，以評估其解決問題的能力和適應性。
複雜場景：將AI 部署到現實世界的行業（例如醫療保健、氣候建模）中，以評估其在實際應用中的效用。

長期規劃和推理

基準測試應該測試AI 執行需要長期規劃和推理的任務的能力。例如：

需要理解隨時間推移的結果的多步驟問題解決。
涉及自主學習新技能的任務。

倫理和社會意識

隨著AI 系統越來越多地與人類互動，基準測試必須衡量倫理推理和社會理解。這包括納入安全措施和監管保障措施，以確保負責任地使用AI 系統。最近的紅隊評估為測試敏感應用中AI 的安全性和可信度提供了一個全面的框架。基準測試還必須確保AI 系統在涉及敏感數據的場景中做出公平、公正的決策，並向非專家透明地解釋其決策。實施安全措施和監管保障措施可以降低風險，同時增強對AI 應用的信任。向非專家。