OpenAIは、2024年9月24日にChatGPT Plusユーザー向けに高度な音声モードをリリースし、サービスを強化する予定です。この開発は、マルチモーダル機能をChatGPTに統合し、AIがテキスト、写真、動画、リアルタイムの音声で対話できるようにするという、OpenAIのより広範な取り組みの一環です。革新的な「アドバンスドボイスモード」は、GoogleのI/O 2024基調講演の直前の5月に初めて公開され、ユーザーが会話を中断したり、流れを調整したりできる、よりダイナミックで人間らしい会話が可能になりました。
Advanced Voice Modeには、人間のやりとりを模倣するChatGPTの回答における感情のニュアンスやトーンのバリエーションなど、いくつかの画期的な機能が導入されています。このモードは当初6月にリリースが予定されていたが、リアルタイムの応答の安全性基準と信頼性を確保するために7月に延期された。2024年8月13日、OpenAIは、より広範なリリースに先立ち、あらゆる問題を解消するために、29の地域で45言語、100人以上のテスターを対象にチャットボットの広範な試験を実施したと報告した。
これらの機能の導入は、AIによるコミュニケーションにおける大きな一歩であり、OpenAIはGoogleのGemini AIやAppleなどの大手テクノロジー企業に対する強力な競合企業としての地位を確立しました。GoogleはOpenAIの最初のデモの翌日に同様の機能を発表しましたが、まだ広く展開はしていません。一方、GoogleはGemini Liveを立ち上げ、AppleはSiri 2.0の導入を準備しており、AIコミュニケーションの分野では熾烈な競争が繰り広げられています。
7月下旬には、Advanced Voice ModeがChatGPT Plusユーザーの一部に提供開始されました。OpenAIは、この機能を2024年秋までにすべてのPlus契約者に拡大する計画であると発表しました。ただし、この機能の拡大展開の具体的な日程はまだ明らかになっていません。Redditで指摘されているように、プラットフォームXに関する最近のリーク情報によると、この機能は発表された9月以降、より幅広いユーザーが利用可能になる可能性があり、その後、すべてのPlusユーザーに展開される予定です。
OpenAIは、「現時点では、高度な音声モードへのアクセスは、一部のユーザーを対象とした限定アルファ版として展開されています。長期間にわたってプラスユーザーであり、SearchGPTに選ばれたことは、当社のプラットフォームに積極的に関与していることを示す指標ですが、2024年9月24日の高度な音声モードアルファ版へのアクセスは、招待への参加やアルファテスト段階で設定された特定の基準など、さまざまな要因によって異なります」と述べている。
ChatGPTのプラスユーザーになるには、月額20ドルのサブスクリプション料金が必要となり、複雑な数学問題の解決や推論能力が強化された新バージョン01-previewを含む、さまざまな大規模言語モデル(LLM)へのアクセスが許可されます。ChatGPTの高度な音声モードは現在、限定的なアルファ版であり、運用中ではあるものの、まだエラーが発生する可能性があることを示しています。また、アクセスや速度の制限は、今後調整される可能性があります。
Advanced Voice Modeの利用は1日ごとに制限され、具体的な制限時間は変更される可能性があります。OpenAIは、ユーザーが制限時間に近づくとChatGPTアプリが警告を発するシステムを実装しました。具体的には、1日の上限に達する3分前に警告が発せられます。この制限時間に達すると会話は終了し、ユーザーは標準の音声モードを使用するようにリダイレクトされます。
この一連のアップデートとOpenAIの発表のタイミングは、AI技術の最前線に立ち続け、ユーザーにインタラクティブな体験を向上させる洗練されたツールを提供するという同社の姿勢を反映しています。AIの状況が引き続き進化する中、OpenAIの開発は、AIのインタラクションをより直感的で人間の行動を反映したものにするという重要な進歩を意味しています。