目次
高等教育におけるマイルストーン
ワークフロー
ホームページ テクノロジー周辺機器 AI MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

Apr 12, 2023 pm 04:04 PM
openai mit 事前トレーニング済みモデル

小学校の算数の文章題を解くだけでなく、高度な算数もAIが攻略し始めています!

最近、MIT の研究者は、OpenAI Codex 事前トレーニング モデルに基づいて、数回の学習で学部レベルの数学の問題について 81% の正解率を達成することに成功したと発表しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

  • 論文リンク: https://arxiv.org/abs/2112.15594
  • コードリンク: https://github.com/idrori /mathq

最初に、単一変数関数のグラフを軸を中心に回転させることによって生成される体積の計算、ローレンツ アトラクターと射影の計算など、答えを確認するためにいくつかの小さな質問を見てみましょう。 、特異値分解 (SVD) の幾何学的形状を計算して描画すると、答えが正しいだけでなく、対応する説明も可能になります。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

本当に信じられないです。昔を振り返るといつも高得点を出していたのに、今ではAIが一発で81点も取れるようになりました。AIが人間を超えたと一方的に宣言します。 。

さらにすごいのは、この研究では、通常の機械学習モデルでは解決が難しい問題を解決できるだけでなく、このテクノロジーが大規模に推進でき、コース内で問題を解決できることも示していることです。および同様のコース。

また、単一の機械学習モデルがこのような大規模な数学的問題を解決でき、説明、描画、さらには新しい質問の生成もできるのは史上初です。

実は、この論文は今年の初めに公開されました。半年間の改訂を経て、長さは 114 ページから 181 ページに増加しました。より多くの数学的問題を解決できるようになりました。付録A から Z. Laman まで直接番号が付けられています。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

この記事の主な著者単位は 4 つあり、MIT、コロンビア大学、ハーバード大学、ウォータールー大学です。

筆頭著者の Iddo Drori は、MIT の電気工学およびコンピュータ サイエンス学部の AI 学科の講師であり、コロンビア大学工学応用科学部の非常勤准教授です。 CCAI NeurIPS 2021 Best Paper Awardを受賞しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

彼の主な研究方向は、大学レベルの数学と STEM コースを機械に解決、説明、生成させようとする教育のための機械学習と、気候科学のための機械学習です。これは、極端な気候変動を予測し、気候を監視する数千年分のデータに基づいており、長年にわたる大西洋の海洋生物地球化学の変化を予測する学際的な研究を統合しており、自動運転のための機械学習アルゴリズムなどを備えています。

彼は、ケンブリッジ大学出版局から出版された『深層学習の科学』の著者でもあります。

高等教育におけるマイルストーン

この論文が発表されるまで、ほとんどの研究者は、ニューラル ネットワークは高数の問題を処理できず、いくつかの単純な数学的問題しか解決できないと信じていました。

Transformer モデルがさまざまな NLP タスクで人間のパフォーマンスを上回っていても、数学的問題を解決するのはまだ得意ではありません。主な理由は、GPT-3 などのさまざまな大規模なモデルがテキスト データのみで動作するためです。 -トレーニング中。

その後、一部の研究者は、段階的な分析 (思考の連鎖) を通じて言語モデルを推論していくつかの単純な数学的質問に答えることができるが、高度な数学的問題を解決するのはそれほど簡単ではないことを発見しました。 。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

#ターゲットが高数値問題である場合は、まずトレーニング データの波を収集する必要があります。

著者は、MIT の 7 つのコースのそれぞれから 25 個の問題をランダムに選択しました。

  • 18.01 単一変数微積分
  • 18.02 多変数微積分
  • 18.03 微分方程式
  • 18.05 確率と統計の概要
  • 18.06 線形代数
  • 6.042 コンピューター サイエンス数学
  • コロンビア大学 COMS3251 計算線形代数

MATH データセットの場合、研究者はデータセットの 6 つのトピック (代数、計数と確率、中級代数、数論、前代数、および前代数) から 15 の質問をランダムに選択しました。

モデルによって生成された結果がトレーニング データに過剰適合していないことを確認するために、研究者らは、インターネット上で公開されていない COMS3251 コースを選択して、生成された結果を検証しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

ワークフロー

モデルはコースの質問を入力として受け取り、コンテキストを使用して自動拡張を実行し、合成されたプログラムを生成し、最後に回答と生成された説明を出力します。

質問が異なれば、出力結果も異なる場合があります。たとえば、18.01 の答えは方程式、18.02 の答えはブール値、18.03 と 18.06 の答えはグラフまたはベクトル、および18.05 の答えは数値です。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

#質問を受け取ったときの最初のステップは、モデルに質問の関連するコンテキストを見つけさせることです。研究者らは主に Codex によって生成された Python プログラムに焦点を当てていたため、質問の前に「プログラムを書いてください」というテキストを追加し、そのテキストを Python プログラムの 3 つの引用符で囲んで、プログラム内の docstring であるかのように見せかけました。

プログラムを生成した後、どのライブラリをインポートするかを指定するには、Codex プロンプトが必要です。作成者は、質問の前に「use sympy」という文字列をコンテキストとして追加することを選択し、問題を解決するために合成されたプログラムが次のとおりであることを指定しました。このパッケージを使用します。

各コースで使用される Python プログラミング パッケージを数えると、すべてのコースで NumPy と Sympy が使用されていることがわかります。 Matplotlib は、プロットが必要な問題のあるコースでのみ使用されます。コースの約半分は数学、ランダム、SciPy を使用します。実際の運用では、研究者らはインポートするパッケージとしてSymPyや描画関連のパッケージのみを指定し、インポートされたその他のパッケージは自動的に合成された。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

ゼロショット学習法では、元の問題の自動強化のみを使用して、問題の 71% を自動的に解決できます。

問題が解決されない場合、研究者は少数ショット学習を使用してそのような問題を解決しようとします。

まず、OpenAI の text-similarity-babbag-001 埋め込みエンジンを使用して、すべての問題の 2048 次元の埋め込みを取得します。次に、すべてのベクトルのコサイン類似度計算を使用して、解決済みの問題に最も類似している未解決の問題を見つけます。問題の質問。最後に、最も類似した問題とそれに対応するコードが、新しい問題の少数例として使用されます。

生成されたコードが正しい答えを出力しない場合は、次の同様の解決済み質問を使用するたびに、別の解決済み質問とコードのペアを追加します。

実際には、少数ショット学習に最大 5 つの例を使用することが最も効果的であることがわかります。自動的に解決できる問題の総数は、ゼロショット学習の 71% から 81 に増加しました。少数ショット学習の %。

残りの 19% の問題を解決するには、人間の編集者が介入する必要があります。

研究者たちは最初にすべての質問を収集しましたが、そのほとんどが曖昧 (あいまい) であるか、映画の登場人物や時事問題への言及などの冗長な情報が含まれていることがわかりました。抽出するには質問を整理する必要がありました。質問の本質。

質問の並べ替えには、主に、冗長な情報の削除、長い文構造の小さなコンポーネントへの分解、およびプロンプトのプログラミング形式への変換が含まれます。

手動介入が必要なもう 1 つの状況は、質問への回答を説明するために複数の描画ステップが必要な場合です。つまり、望ましい視覚化効果が達成されるまで、コーデックスに対話型のプロンプトを表示する必要があります。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

モデルは、答えを生成するだけでなく、その答えの理由も説明できる必要があります。研究者は、「上記のコードは次のとおりです」というプロンプトの言葉を通じてこれをガイドします。は次のことを行っています: 1.」モデルは、段階的に説明される結果を生成します。

質問に答えることができたら、次のステップは Codex を使用してコースごとに新しい質問を生成することです。

研究者らは、各クラスの生徒が書いた質問の番号付きリストを作成しました。このリストは、ランダムな数の質問の後に切り取られ、その結果は Codex に次の質問を生成するよう促すために使用されました。

このプロセスは、コースごとに十分な数の新しい質問が作成されるまで繰り返されます。

生成された質問を評価するために、研究者らはこれらのコースまたは同等のコースを受講したMITの学生を対象に調査を行い、機械で生成された質問の質と難易度を元のコースと比較しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

学生アンケートの結果から次のことが分かります:

  • 機械による採点の品質はすでに人間による質問の品質に匹敵します;
  • 難易度の点では、人間による質問の方がコースの質問として適していますが、機械によって生成された結果は若干難しいです。一部;
  • コースの質問の半分以上がモデルによって生成されたものとして学生に認識され、人間に最も近いのは 18.01 コースです。

#参考情報:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/

以上がMITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Spring Boot と OpenAI の出会いによる新しいプログラミング パラダイム Spring Boot と OpenAI の出会いによる新しいプログラミング パラダイム Feb 01, 2024 pm 09:18 PM

2023年、AI技術が注目を集め、プログラミング分野を中心にさまざまな業界に大きな影響を与えています。 AI テクノロジーの重要性に対する人々の認識はますます高まっており、Spring コミュニティも例外ではありません。 GenAI (汎用人工知能) テクノロジーの継続的な進歩に伴い、AI 機能を備えたアプリケーションの作成を簡素化することが重要かつ緊急になっています。このような背景から、AI 機能アプリケーションの開発プロセスを簡素化し、シンプルかつ直観的にし、不必要な複雑さを回避することを目的とした「SpringAI」が登場しました。 「SpringAI」により、開発者はAI機能を搭載したアプリケーションをより簡単に構築でき、使いやすく、操作しやすくなります。

データに最適なエンベディング モデルの選択: OpenAI とオープンソースの多言語エンベディングの比較テスト データに最適なエンベディング モデルの選択: OpenAI とオープンソースの多言語エンベディングの比較テスト Feb 26, 2024 pm 06:10 PM

OpenAI は最近、最新世代の埋め込みモデル embeddingv3 のリリースを発表しました。これは、より高い多言語パフォーマンスを備えた最もパフォーマンスの高い埋め込みモデルであると主張しています。このモデルのバッチは、小さい text-embeddings-3-small と、より強力で大きい text-embeddings-3-large の 2 つのタイプに分類されます。これらのモデルがどのように設計され、トレーニングされるかについてはほとんど情報が開示されておらず、モデルには有料 API を介してのみアクセスできます。オープンソースの組み込みモデルは数多くありますが、これらのオープンソース モデルは OpenAI のクローズド ソース モデルとどう違うのでしょうか?この記事では、これらの新しいモデルのパフォーマンスをオープンソース モデルと実証的に比較します。データを作成する予定です

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

Rust ベースの Zed エディターはオープンソース化されており、OpenAI と GitHub Copilot のサポートが組み込まれています Rust ベースの Zed エディターはオープンソース化されており、OpenAI と GitHub Copilot のサポートが組み込まれています Feb 01, 2024 pm 02:51 PM

著者丨コンパイル: TimAnderson丨プロデュース: Noah|51CTO Technology Stack (WeChat ID: blog51cto) Zed エディター プロジェクトはまだプレリリース段階にあり、AGPL、GPL、および Apache ライセンスの下でオープンソース化されています。このエディターは高性能と複数の AI 支援オプションを備えていますが、現在は Mac プラットフォームでのみ利用可能です。 Nathan Sobo 氏は投稿の中で、GitHub 上の Zed プロジェクトのコード ベースでは、エディター部分は GPL に基づいてライセンスされ、サーバー側コンポーネントは AGPL に基づいてライセンスされ、GPUI (GPU Accelerated User) インターフェイス部分はApache2.0ライセンス。 GPUI は Zed チームによって開発された製品です

OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう Mar 18, 2024 pm 08:40 PM

少し前まで、OpenAISora はその驚くべきビデオ生成効果で急速に人気を博し、数ある文学ビデオ モデルの中でも際立って世界的な注目を集めるようになりました。 2 週間前にコストを 46% 削減した Sora トレーニング推論再現プロセスの開始に続き、Colossal-AI チームは世界初の Sora のようなアーキテクチャのビデオ生成モデル「Open-Sora1.0」を完全にオープンソース化し、全体をカバーしました。データ処理、すべてのトレーニングの詳細、モデルの重みを含むトレーニング プロセスを管理し、世界中の AI 愛好家と協力してビデオ作成の新時代を推進します。ちょっと覗いてみましょう。Colossal-AI チームがリリースした「Open-Sora1.0」モデルによって生成された賑やかな街のビデオを見てみましょう。オープンソラ1.0

マイクロソフトとOpenAIは人型ロボットに1億ドル投資する計画!ネチズンはマスク氏に電話をかけている マイクロソフトとOpenAIは人型ロボットに1億ドル投資する計画!ネチズンはマスク氏に電話をかけている Feb 01, 2024 am 11:18 AM

MicrosoftとOpenAIが人型ロボットのスタートアップに巨額の資金を投資していることが年初に明らかになった。このうちマイクロソフトは9500万ドル、OpenAIは500万ドルを投資する予定だ。ブルームバーグによると、同社は今回のラウンドで総額5億米ドルを調達する予定で、資金調達前の評価額は19億米ドルに達する可能性がある。何が彼らを惹きつけるのでしょうか?まずはこの会社のロボット分野の実績を見てみましょう。このロボットはすべて銀と黒で、その外観はハリウッドの SF 大作映画に登場するロボットのイメージに似ています。今、彼はコーヒー カプセルをコーヒー マシンに入れています。正しく置かれていない場合でも、何もせずに自動的に調整されます。人間リモコン: ただし、しばらくすると、コーヒーを持ち帰って楽しむことができます: 家族にそれを認識した人はいますか? はい、このロボットは少し前に作成されました。

Embedding サービスのローカル実行パフォーマンスは OpenAI Text-Embedding-Ada-002 を上回っており、とても便利です。 Embedding サービスのローカル実行パフォーマンスは OpenAI Text-Embedding-Ada-002 を上回っており、とても便利です。 Apr 15, 2024 am 09:01 AM

Ollama は、Llama2、Mistral、Gemma などのオープンソース モデルをローカルで簡単に実行できるようにする非常に実用的なツールです。この記事では、Ollamaを使ってテキストをベクトル化する方法を紹介します。 Ollama をローカルにインストールしていない場合は、この記事を読んでください。この記事では、nomic-embed-text[2] モデルを使用します。これは、短いコンテキストおよび長いコンテキストのタスクにおいて OpenAI text-embedding-ada-002 および text-embedding-3-small よりも優れたパフォーマンスを発揮するテキスト エンコーダーです。 o が正常にインストールされたら、nomic-embed-text サービスを開始します。

画像内の物体検出のために ML データを探索および視覚化する方法 画像内の物体検出のために ML データを探索および視覚化する方法 Feb 16, 2024 am 11:33 AM

近年、機械学習データ(ML-data)を深く理解することの重要性に対する理解が深まってきています。ただし、大規模なデータ セットの検出には通常、多大な人的および物的投資が必要なため、コンピュータ ビジョンの分野で広く応用するにはさらに開発が必要です。通常、オブジェクト検出 (コンピューター ビジョンのサブセット) では、画像内のオブジェクトは境界ボックスを定義することによって配置されます。オブジェクトを識別できるだけでなく、コンテキスト、サイズ、オブジェクトとシーン内の他の要素との関係も把握できます。関係性も理解できます。同時に、クラスの分布、オブジェクト サイズの多様性、クラスが出現する一般的な環境を包括的に理解することは、評価とデバッグ中にトレーニング モデル内のエラー パターンを発見するのにも役立ちます。

See all articles