OpenAI、コードネーム “Strawberry “の推論技術を開発中

OpenAIは2024年7月12日、同社の大規模言語モデル(LLM)のための新しい推論技術に取り組んでいることを明らかにした。この件に詳しい関係者や社内文書によると、コードネームは “Strawberry “だという。このAIモデルは推論能力を大幅に向上させると伝えられている。

報道によれば、Strawberryは社内でも極秘に扱われているという。以前は「Q*」として知られ、社内では画期的なものと見られていた。Q*のデモは、LLMがトリッキーな科学や数学の質問に答える能力を示すもので、現在、他の市販モデルには手が届かない。

この文書には、同社のAI能力を強化するためにStrawberryモデルを採用するプロジェクトの概要が記されている。この進歩により、AIはクエリに応答するだけでなく、自律的かつ信頼性の高い広範囲にわたるオンラインリサーチを積極的に行うことができる。

Strawberryは、膨大なデータセットでの初期トレーニング後にAIモデルを改良するための専門的なアプローチを表している。この手法では、OpenAIの生成AIモデルを「ポストトレーニング」調整することで、広範な初期トレーニングの後でも特定の領域で機能を強化する。

モデル開発のポストトレーニング段階には、一般的に「ファインチューニング」のような技術が含まれ、今日の様々な言語モデルで広く採用されています。このプロセスはさまざまで、モデルの回答に対する人間のフィードバックや、望ましい回答や望ましくない回答を示す例の提供が含まれることが多い。

Strawberryは、スタンフォード大学が2022年に開発した「Self-Taught Reasoner」(STaR)と呼ばれる手法と共通点がある。詳しい情報筋によると、STaRは学習データを繰り返し生成することで、AIモデルの知能を高めることができるという。スタンフォード大学のノア・グッドマン教授がロイターのインタビューで語ったところによれば、理論的には、この方法は言語モデルを人間レベルの知能以上に高めることができる。グッドマンは、この軌跡について興奮と懸念が入り混じった表情を見せ、それが人類にもたらすであろう重大な影響を強調した。なお、グッドマンはOpenAIとは無関係であり、Strawberryについて直接の知識はない。

OpenAIはStrawberryを活用して、時間をかけて一連の行動を計画・実行する必要のあるロングホライズンタスク(LHT)を処理することを計画している。このAIは、「CUA(Computer Using Agent)」によってサポートされながら、自律的にウェブベースの研究を行うことを意図している。このエージェントは、研究結果に基づいて独自に行動する能力を持つ。

OpenAI の広報担当者は声明の中で次のように述べている。「私たちは、AIモデルが私たちと同じように世界を見て理解することを望んでいます。新しいAI機能の継続的な研究は、業界では一般的な慣行であり、これらのシステムは時間の経過とともに推論能力を向上させるという共通の信念を持っています」と述べた。しかし、広報担当者はStrawberryに関する質問には一切触れなかった。