2024年10月10日、OpenAIの研究者は、現実のシナリオから着想を得たさまざまな機械学習(ML)エンジニアリングの課題にわたってAIエージェントを評価するために設計された包括的なベンチマークであるMLE-benchを発表しました。MLE-benchは、AIエージェントがエンドツーエンドの機械学習エンジニアリングのタスクをどれほど効果的に管理できるかを測定するために作成されました。このベンチマークは、自然言語処理、コンピュータービジョン、信号処理など、さまざまな領域をカバーするKaggleの75の機械学習エンジニアリング競技のコレクションを中心に構築されました。
モデルトレーニング、データの前処理、実験の実行、評価のための結果提出など、重要な機械学習スキルを評価するために慎重に選択されたこれらの競技は、現実的で厳格なテスト環境を提供しました。Kaggleの公開リーダーボードを使用して人間のパフォーマンス指標を収集し、AIエージェントとエキスパートの人間の参加者の能力を直接比較できるようにしました。
MLE-benchの75のKaggleコンペティションタスクには、それぞれ問題の説明、データセット、ローカル評価ツール、エージェントのパフォーマンスを評価するための採点基準が含まれていました。各コンペティションのデータセットは、重複や汚染を防ぐ設計で、トレーニング用とテスト用に分割されました。提出課題は、競技のリーダーボードを使用して人間の試行と比較して採点され、エージェントは人間のベンチマークに対するパフォーマンスに基づいて、メダル(銅、銀、金)が授与されました。 採点メカニズムでは、受信者動作特性曲線下面積(AUROC)、平均二乗誤差、その他の分野固有の損失関数などの標準的な評価指標が使用され、公平な比較が確保されました。
OpenAIのo1-previewモデルは、IDEの足場組み付け機能で強化され、これらのタスクでテストされたAIエージェントの1つでした。当初は、16.9%の競技でKaggleの銅メダルと同等の結果を達成しました。しかし、試行を重ねるごとにパフォーマンスが大幅に向上したことから、エージェントは周知のアプローチを適用することはできても、初期エラーからの回復や、複数回の反復なしに効果的にソリューションを最適化することが困難であることが示唆されました。
MLEベンチマークにおけるさまざまなスキャフォールディングとAIモデルの評価からは、興味深い結果が得られました。AIDEスキャフォールディングを使用したo1-previewモデルが最も優れたパフォーマンスを発揮し、競技の16.9%でメダルを獲得しました。エージェントは一般的に、ソリューションの反復を許可された場合に優れたパフォーマンスを発揮し、課題への対応と結果の最適化には複数回の試行が重要であることを示しました。また、計算時間の延長や高性能ハードウェアなどの追加リソースもエージェントの成果を向上させました。例えば、GPT-4oのパフォーマンスは、1大会あたり24時間で8.7%だったものが、100時間で11.8%と2倍になりました。さらに、試行回数(pass@k)を増やすと成功率が劇的に向上し、pass@6ではpass@1のパフォーマンスがほぼ2倍になりました。
リソースのスケーリングとエージェントの足場組みの実験では、リソースの可用性と最適化戦略に基づくパフォーマンスのばらつきが示されました。o1-previewのようなエージェントは、より長い実行時間やより優れたハードウェア設定が提供された場合、広範なモデルトレーニングとハイパーパラメータのチューニングを必要とする競技において、顕著な改善を示しました。
MLE-benchをオープンソース化することで、OpenAIは研究者や開発者による新たなタスクの提供、既存のベンチマークの強化、革新的な足場組み技術の探究を促し、コラボレーションを促進することを目指しています。この共同イニシアティブは、この分野の進歩を促進し、より安全で信頼性の高い高度なAIシステムの展開に貢献することが期待されています。さらに、MLE-benchは、AIエージェントがまだ開発を必要とする分野を特定するための重要なツールとして機能し、AI駆動型のMLエンジニアリングの能力向上を目指す今後の研究努力に明確な方向性を示します。