OpenAI は2024年9月12日、コードネーム「Strawberry」と呼ばれる新モデルを導入し、生成AIのラインナップを大幅に更新した、正式名称はOpenAI o1です。このリリースにはo1-previewとo1-miniの2つのバージョンがあり、後者はコーディングタスクに最適化されたコンパクトなバージョンです。木曜日から、これらのモデルはChatGPT PlusまたはTeamに加入しているユーザーはChatGPT経由でアクセスできるようになり、企業や教育機関のユーザーは今後数週間でアクセスできるようになります。
o1モデルには画像解析機能が組み込まれていますが、これらの機能は更なる評価のために一時的に無効化されています。OpenAIはまた、2024年9月17日より、o1-previewは1週間あたり50クエリ、o1-miniは1日あたり50クエリに上限を設定し、利用制限を改定しました。
o1モデルは人間のような人工知能を模倣している。コーディングや複雑なマルチステップ問題の解決において、先行モデルを凌駕するように設計されているが、o1は価格が高く、初期モデルのGPT-4oよりも遅い処理速度で動作する。OpenAIは今回のリリースを「プレビュー」と位置づけており、このモデルがまだ開発段階にあることを示している。
o1-previewのAPI利用の価格は、入力トークン100万個あたり15ドル、出力トークン100万個あたり60ドルで、以前のGPT-4oモデルに比べて大幅に上昇している。トークンは生のデータのビットを表し、100万あたりおよそ75万語に相当する。
OpenAIのリサーチ・サイエンティストであるノーム・ブラウン氏は、Xにおけるo1の開発について、「o1は強化学習で訓練されています。ブラウン氏は、システムが「私的な思考の連鎖を通じて、回答する前に 「考える」」ことを奨励し、正解には報酬を与え、エラーにはペナルティを与えるような学習プロセスであると説明した。ブラウン氏はまた、OpenAIが斬新な最適化アルゴリズムを実装し、推論能力を高めることを目的とした「推論データ」と科学文献を豊富に含んだトレーニングデータセットを利用したことを指摘した。彼は、「[o1]は長く考えれば考えるほどうまくいく」と強調した。
性能の面でも、o1はかなりの実力を発揮している。国際数学オリンピック(IMO)の予選試験で、o1は83%の問題を解いたが、これは前身のGPT-4oが13%だったのとは対照的である。この成果にもかかわらず、IMO相当の試験で銀メダルを獲得したグーグル・ディープマインドのAIと比較すると物足りないことは注目に値する。さらにOpenAIは、o1がCodeforcesのプログラミング・チャレンジで89パーセンタイルに入り、DeepMindのAlphaCode 2の結果を上回ったと報告している。
GitHubのAIコーディングアシスタントGitHub Copilotでo1を使用した経験から、このモデルはアルゴリズムとアプリケーションコードの最適化に優れており、データ分析、サイエンス、コーディングタスクに広く適用できることを示している。さらに、OpenAIのベンチマークは、o1の多言語能力、特にアラビア語と韓国語の能力の向上を示している。
OpenAIは「競争優位性」を維持するため、ChatGPTでo1の生の「思考の連鎖」を表示しないことを選択し、代わりにこれらの思考プロセスの「モデルが生成した要約」を表示することを選択した。
AIが急速に進化を続ける中、OpenAIのo1導入は、この分野における新たなスタンダードとなる。今後の課題は、AI業界の競争が激化する中、o1をより広く、より手頃な価格で利用できるようにすることだろう。