2024年10月22日、Anthropicは、AIモデルに大幅なアップグレードを施したことを発表しました。Claude 3.5 Sonnetと新しいモデルであるClaude 3.5 Haikuの導入により、アップグレードされたClaude 3.5 Sonnetは、特にコーディングにおいて、すでに優れていた部分をさらに改善し、SWE-benchの検証では、パフォーマンスが33.4%から49.0%に上昇しました。エージェンティックツール使用タスクでは、特に小売業の領域で、スコアが62.6%から69.2%に上昇し、航空会社の領域では36.0%から46.0%に上昇するなど、TAUベンチマークでもパフォーマンスの向上が示されました。Claude 3.5 Sonnetはすべてのユーザーに提供され、開発者はAnthropicのAPI、Amazon Bedrock、Google CloudのVertex AIを介してコンピューターと連携し、ベータ版を使用することが許可されました。
今月末にリリース予定のClaude 3.5 Haikuは、多くのインテリジェンスベンチマークにおいて、以前の最大モデルであるClaude 3 Opusと同等のパフォーマンスを発揮し、同等のコストとスピードを実現すると紹介されました。コーディングタスクでは、Claude 3.5 Haikuは目覚ましい強さを発揮し、SWE-bench Verifiedでは40.6%のスコアを記録し、多くのエージェントを上回りました。
また、Anthropicは画期的な新機能「コンピュータの使用」をパブリックベータ版で導入しました。Anthropicの最高科学責任者(CSO)であるJared Kaplan氏は、「基本的に人間と同じ方法でコンピュータを使用できます」と説明し、さらに「数十、あるいは数百ものステップ」を管理してタスクを完了できると付け加えました。この新機能は、開発者が標準的なコンピュータインターフェースを使用してClaudeにタスクを実行するように指示し、ユーザーの指示を実行可能なコンピュータコマンドに変換できるように設計されています。
この新しい機能は、すでに拡張機能を探求し、段階的なプロセスを必要とする複雑なタスクを実行しているAsana、Canva、Cognition、DoorDash、Replit、The Browser Companyなどの企業による使用を通じて、その有用性が強調されました。特にReplitは、開発中のアプリを評価するReplit Agent製品を強化するために、Claude 3.5 Sonnetの機能を組み込みました。
進歩はあったものの、Claude 3.5 Sonnetによるコンピュータの使用は依然として実験的なものであり、時には扱いにくくエラーも起こりやすいとされていました。しかし、Anthropicは開発者からのフィードバックに基づいて、急速な改善を期待していました。この技術の消費者向けアプリケーションの可能性は広範に及び、航空券の予約やアポイントメントのスケジュール管理から、調査の実施や経費報告書の提出まで多岐にわたります。
Anthropic社は、米国AI安全研究所(US AISI)および英国安全研究所(UK AISI)と共同で、新しいクロード3.5ソネットの事前展開テストを実施し、Anthropic社の責任あるスケーリングポリシーで定められたASL-2標準規格への準拠を確保しました。GitLabやCognitionなどの初期の顧客からのフィードバックでは、更新されたモデルにより推論能力と問題解決能力が大幅に改善されたことが示され、多段階のソフトウェア開発と自律型AI評価におけるその有用性が強調されました。
コンピュータ利用機能の開発にあたり、Anthropicは潜在的なセキュリティリスクに対処するための積極的な対策も講じ、この技術の有害な利用を検出するための新たな分類法も開発しました。研究プロセスと安全対策の詳細は、Anthropicによる専用投稿で公開されており、現在進行中の開発と技術の意義について論じています。
新しいClaude 3.5モデルにより、AnthropicはAI機能、特にエージェント・コーディングとツール利用の領域において、飛躍的な進歩を遂げました。この改善は、パフォーマンス指標の向上だけでなく、これらのモデルが対応可能な幅広い潜在的な用途にも見られます。The Browser CompanyがClaude 3.5 Sonnetの優れた点として挙げたウェブベースのワークフローの自動化から、GitLabがテストした高度なソフトウェア開発プロセスの強化まで、これらのAIツールの用途は消費者および企業領域の両方に広がっています。
Replit のような初期導入者からのフィードバックは、このモデルのコンピューター利用とUIナビゲーション機能を使用したもので、これらのAIモデルの実用性を実際のアプリケーションで実証しています。Replit がアプリケーションの即時評価に Claude 3.5 Sonnet を使用したことは、アプリケーション開発というダイナミックな分野における具体的なメリットを反映しています。
安全な展開への取り組みの一環として、Anthropic では新しい分類子の開発により、これらの機能の誤用を抑制することを目指しています。Anthropicは、潜在的な誤用を早期に特定することで、ユーザーに安全な操作環境を提供しながら、AIが達成できることの限界を広げていきたいと考えています。
創業以来、AnthropicはAI業界の主要な存在となっています。同社は2023年3月にチャットボット「Claude」を発表し、OpenAIの「ChatGPT」にビジネスおよび消費者向けの両方で挑戦しました。消費者によるアクセスは依然として限定的ですが、AnthropicはGoogle、Salesforce、Amazonなどの著名な投資家から支援を受けています。
全体として、Anthropicによるこれらの開発は、技術的な進歩だけでなく、AIを日常的な作業や複雑な業務に統合する方法における新たなパラダイムをも表しています。Anthropicは、これらの技術を洗練させながら、ユーザーからのフィードバックを歓迎し、重視し続けています。同社は、Claude 3.5 SonnetとClaude 3.5 Haikuの広大な可能性を探求する開発者や企業からのさらなる貢献を期待しています。