目錄
目錄
解謎式基準測試的問題
當前基準測試的主要挑戰
朝著更有意義的基準測試邁進
真實世界任務模擬
長期規劃和推理
倫理和社會意識
跨領域的泛化能力
AI 基準測試的未來
結語
首頁 科技週邊 人工智慧 Andrej karpathy在拼圖解決基准上

Andrej karpathy在拼圖解決基准上

Mar 14, 2025 am 10:09 AM

AI 發展評估:超越解謎式基準測試

長期以來,人工智能基準測試一直是衡量人工智能進步的標準,它提供了一種切實可行的方法來評估和比較系統能力。但這種方法真的是評估AI 系統的最佳方式嗎? Andrej Karpathy 最近在X 平台上的一篇文章中對這種方法的充分性提出了質疑。 AI 系統在解決預定義問題方面越來越熟練,但其更廣泛的效用和適應性仍然不確定。這就引出了一個重要的問題:我們是否僅僅關註解謎式基準測試,從而阻礙了AI 的真正潛力?

我個人對這些小型解謎基準測試不太感冒,感覺又回到了雅達利時代。我更關注的基準測試更接近於AI 產品的總年收入(ARR)之和,但不確定是否存在一個更簡單/公開的指標能夠捕捉到大部分情況。我知道這句玩笑話指的是英偉達。

— Andrej Karpathy (@karpathy) 2024 年12 月23 日

目錄

  • 解謎式基準測試的問題
  • 當前基準測試的主要挑戰
  • 朝著更有意義的基準測試邁進
    • 真實世界任務模擬
    • 長期規劃和推理
    • 倫理和社會意識
    • 跨領域的泛化能力
  • AI 基準測試的未來
  • 結語

解謎式基準測試的問題

像MMLU 和GLUE 這樣的LLM 基準測試無疑推動了NLP 和深度學習的顯著進步。然而,這些基準測試通常將復雜、現實世界中的挑戰簡化為具有明確目標和評估標準的明確定義的難題。雖然這種簡化對於研究來說是可行的,但它可能會掩蓋LLM 對社會產生有意義的影響所需更深層次的能力。

Karpathy 的文章強調了一個根本性問題:“基準測試正變得越來越像解謎遊戲。” 對他這一觀點的回應表明,AI 社區對此存在廣泛共識。許多評論者強調,泛化和適應新的、未定義的任務的能力遠比在狹義定義的基準測試中表現出色更為重要。

Andrej Karpathy on Puzzle-Solving Benchmarks

另請閱讀:如何評估大型語言模型(LLM)?

當前基準測試的主要挑戰

對指標的過擬合

AI 系統被優化以在特定數據集或任務上表現良好,從而導致過擬合。即使在訓練中沒有明確使用基準數據集,也可能發生數據洩露,導致模型無意中學習基準特定的模式。這會阻礙其在更廣泛的現實世界應用中的性能。 AI 系統被優化以在特定數據集或任務上表現良好,從而導致過擬合。但這並不一定轉化為現實世界的效用。

缺乏泛化能力

解決基準測試任務並不能保證AI 能夠處理類似的、略微不同的問題。例如,經過訓練來為圖像添加字幕的系統可能難以處理其訓練數據之外的細微描述。

狹隘的任務定義

基準測試通常側重於分類、翻譯或摘要等任務。這些任務並不能測試更廣泛的能力,例如推理、創造力或倫理決策。

朝著更有意義的基準測試邁進

解謎式基準測試的局限性要求我們改變評估AI 的方式。以下是重新定義AI 基準測試的一些建議方法:

真實世界任務模擬

基準測試可以採用動態的現實世界環境,而不是靜態數據集,在這些環境中,AI 系統必須適應不斷變化的條件。例如,谷歌已經通過像Genie 2 這樣的倡議(一個大型基礎世界模型)在這方面開展工作。更多詳細信息可以在他們的DeepMind 博客和Analytics Vidhya 的文章中找到。

  • 模擬代理:在開放式環境(如Minecraft 或機器人模擬)中測試AI,以評估其解決問題的能力和適應性。
  • 複雜場景:將AI 部署到現實世界的行業(例如醫療保健、氣候建模)中,以評估其在實際應用中的效用。

長期規劃和推理

基準測試應該測試AI 執行需要長期規劃和推理的任務的能力。例如:

  • 需要理解隨時間推移的結果的多步驟問題解決。
  • 涉及自主學習新技能的任務。

倫理和社會意識

隨著AI 系統越來越多地與人類互動,基準測試必須衡量倫理推理和社會理解。這包括納入安全措施和監管保障措施,以確保負責任地使用AI 系統。最近的紅隊評估為測試敏感應用中AI 的安全性和可信度提供了一個全面的框架。基準測試還必須確保AI 系統在涉及敏感數據的場景中做出公平、公正的決策,並向非專家透明地解釋其決策。實施安全措施和監管保障措施可以降低風險,同時增強對AI 應用的信任。向非專家。

跨領域的泛化能力

基準測試應該測試AI 在多個不相關任務中進行泛化的能力。例如,單個AI 系統在語言理解、圖像識別和機器人技術方面表現良好,而無需針對每個領域進行專門的微調。

AI 基準測試的未來

隨著AI 領域的不斷發展,其基準測試也必須隨之發展。超越解謎式基準測試將需要研究人員、從業人員和政策制定者之間的合作,以設計符合現實世界需求和價值觀的基準測試。這些基準測試應該強調:

  • 適應性:處理各種未見任務的能力。
  • 影響:衡量對有意義的社會挑戰的貢獻。
  • 倫理:確保AI 符合人類價值觀和公平性。

結語

Karpathy 的觀察促使我們重新思考AI 基準測試的目的和設計。雖然解謎式基準測試已經推動了令人難以置信的進步,但它們現在可能會阻礙我們實現更廣泛、更有影響力的AI 系統。 AI 社區必須轉向測試適應性、泛化能力和現實世界效用的基準測試,以釋放AI 的真正潛力。

前進的道路並非易事,但其回報——不僅強大而且真正具有變革意義的AI 系統——是值得付出努力的。

您對此有何看法?請在下面的評論部分告訴我們!

以上是Andrej karpathy在拼圖解決基准上的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1673
14
CakePHP 教程
1429
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
如何使用AGNO框架構建多模式AI代理? 如何使用AGNO框架構建多模式AI代理? Apr 23, 2025 am 11:30 AM

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

Andrew Ng的新簡短課程 Andrew Ng的新簡短課程 Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya 火箭發射模擬和分析使用Rocketpy -Analytics Vidhya Apr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

Google揭示了下一個2025年雲上最全面的代理策略 Google揭示了下一個2025年雲上最全面的代理策略 Apr 15, 2025 am 11:14 AM

雙子座是Google AI策略的基礎 雙子座是Google AI代理策略的基石,它利用其先進的多模式功能來處理和生成跨文本,圖像,音頻,視頻和代碼的響應。由DeepM開發

您可以自己3D打印的開源人形機器人:擁抱面孔購買花粉機器人技術 您可以自己3D打印的開源人形機器人:擁抱面孔購買花粉機器人技術 Apr 15, 2025 am 11:25 AM

“超級樂於宣布,我們正在購買花粉機器人,以將開源機器人帶到世界上,” Hugging Face在X上說:“自從Remi Cadene從Tesla加入我們以來,我們已成為開放機器人的最廣泛使用的軟件平台。

DeepCoder-14b:O3-Mini和O1的開源競賽 DeepCoder-14b:O3-Mini和O1的開源競賽 Apr 26, 2025 am 09:07 AM

在AI社區的重大發展中,Agentica和AI共同發布了一個名為DeepCoder-14B的開源AI編碼模型。與OpenAI等封閉源競爭對手提供代碼生成功能

See all articles