OpenAIは、2023年9月24日(現地時間)に「Advanced Voice Mode(高度なボイスモード)」の提供を拡大し、ChatGPTの有料プラン(Plus、Team)ユーザーに向けて展開を開始しました
※ただし、EU、英国、スイス、アイスランド、ノルウェー、リヒテンシュタインを除く)。
本ページでは、この新しい機能のChatGPTの有料プランに備わっている「Advanced Voice Mode」について解説をしていきます。
Advanced Voice Modeとは?
Advanced Voice Mode(高度なボイスモード)は、ChatGPTの音声応答機能を大幅に進化させ、人間の会話に限りなく近づけた機能です。
従来のシステムでは、応答に数秒かかっていたのに対し、このモードではわずか0.3秒で反応し、リアルタイムでテンポの良い対話が実現します。
この「Advanced Voice Mode」は、ChatGPTと音声でコミュニケーションできる機能で、2023年5月に発表されたマルチモーダルAIモデル「GPT-4o」を基にした改良版です。
当初、6月に提供開始予定でしたが、さらなる技術的改良を重ねるため、展開が遅れ、7月に一部ユーザー向けにアルファ版が提供されました。
GPT-4oの高速な音声応答により、まるで人と話しているかのようなスムーズな会話体験が可能となり、デモでもその機能が高く評価されました。
すべての対象ユーザーにこの機能が行き渡るには、おおよそ1週間かかる見通しです。
利用可能になると、ChatGPTアプリ内で通知が表示され、ボイスモードを使用中は、画面中央に表示される白い円が「高度なボイスモード」では青い円のアニメーションに変わります。
Advanced Voice Modeの主な特徴
- 対象ユーザー:ChatGPT PlusおよびTeamプランの加入者
- 技術的特長:GPT-4oを活用したリアルタイム音声応答機能
- 高度な機能:話し方や速度など、非言語的な手がかりを認識し、感情を込めた応答が可能
- 使用制限:1日あたりの利用回数に制限がある
- 標準モードとの違い:よりスムーズで自然な会話が楽しめる
- 注意点:音声認識の誤りの可能性があるため、重要な情報は再確認が必要
この機能により、ユーザーはよりスムーズで自然なコミュニケーションを体験できるようになりました。
さらに、感情表現が加わったことで、AIとの対話がより豊かなものになります。
また、この機能拡大とともにいくつかの新機能が追加されました。
新しく、男性ボイス「Arbor」、女性ボイス「Maple」「Sol」「Vale」、さらに男性ボイス「Spruce」の計5つの音声が追加され、選択できる音声は合計9種類になりました。
さらに、「カスタム指示」と「メモリ」機能も使用可能となっています。
カスタム指示とメモリ機能とは
「カスタム指示」は、ChatGPTの会話スタイルや口調をユーザーの好みに合わせて設定できる機能です。
例えば、「もっとゆっくり、優しいトーンで話して」と指示することができ、ユーザーの好みの応答スタイルが実現されます。
また、あらかじめ個人情報を提供しておけば、例えば「明日の天気は?」と尋ねるだけで、住んでいる地域の天気情報を自動的に取得してくれる便利な機能です。
一方、「メモリ」機能は、ユーザーとの会話内容や指示を記憶し、次回以降のやりとりに反映させます。
これにより、過去の会話内容を基にユーザーに最適な情報を提供することができます。
音声機能についても、アルファ版からさらなる改善が報告されています。
会話のスムーズさやスピードの向上、状況に応じた適切な判断、さらには一部外国語のアクセントの理解が強化されています。
Advanced Voice Modeの使い方
この新機能の使用は非常にシンプルです。ただし、利用するにはChatGPTの有料プランに加入している必要があります。手順は以下の通りです:
- ChatGPTの有料プラン(PlusまたはTeam)に加入する
- アプリまたはウェブサイトにログインする
- 設定画面でAdvanced Voice Modeを有効にする(通知が表示されます)
- 9種類の声から好みの音声を選ぶ
- 必要に応じてカスタム指示を設定し、音声入力を開始する
この機能は順次展開されるため、利用可能になるとアプリ内で通知が表示されます。
Advanced Voice Modeの活用事例
こちらは9月27日(金)の朝6時台に収録した1分動画を公開しますので、興味がある方はご覧ください。
ホント「人と話しているみたい」です(笑)
ただ、動画以外の使い方も既に行ってみましたが、これ「介護」や「福祉」の業界に活用すれば「認知症予防の改善」にもつながりそうだと感じました。
あと、孤立感を感じている子ども達や大人もいるかもしれませんが、「人と話しているようなレベル」ですぐに返答してくれるので、孤立感や寂しさを感じていた人の心も癒されそうな感じがしました。
また、ビジネスの現場であれば「壁打ち」をする時にも活用できそうですし、ちょっとした相談をしたい場合でも、ChatGPTのこの「Advanced Voice Mode」の機能は使えると感じました。
・毎回、上から目線で話してくる上司にはどう対応したらいい?
・セクハラで悩んでいるんだけど、どうしたらいい?
・言うことを聴かない部下にはどうしたらいい?
・ちょっと話を聞いてもらえない?
また、日本語で話したことをスピーディーに英語などの他の言語にも翻訳してくれました。
この精度が上がっていってしまったら、もう語学教室はどうなってしまうんでしょうね💦
一生懸命覚えようとしなくとも
ChatGPTに聴けばいいわね
そうなってきてしまうような気もします。
後、話を聞くようなお仕事も大分無くなってしまうようにも感じました。
もちろん人に聞いて欲しい人はいるとは思いますが、有料プランと言っても、20ドルなら日本円で約2800円です。
それであれば、カウンセリングで60分5000円払うんだったら、自分が聞きたい質問を60分話していた方がコスパが凄く良い気が。。
これからちょっとしたモヤっとしたことや人に相談しにくいことは、全てこのChatGPTの「Advanced Voice Mode」で解消されるような気がしました。
ある意味、良い側面もありますが、今のビジネスモデルが破壊されていく感覚はしますよね。
Advanced Voice Modeのアップデートと提供地域
Advanced Voice Modeは2024年7月に一部のユーザー向けにアルファ版が提供されましたが、9月24日の発表により、全ての有料ユーザーが利用可能になりました。
ただし、EU加盟国、イギリス、スイス、アイルランド、ノルウェー、リヒテンシュタインでは、現時点での利用は制限されています。
日本を含む多くの地域では順次提供が開始され、今後、さらに多くのユーザーが利用できる見込みです。
料金プラン
Advanced Voice Modeは、ChatGPTの有料プランに含まれており、プランごとの料金は以下の通りです:
プラン名 | 月額料金 | Advanced Voice Mode利用可否 |
---|---|---|
無料プラン | $0 | 利用不可 |
Plus | $20 | 利用可能 |
Team | $30/ユーザー | 利用可能 |
Enterprise | 要問い合わせ | 利用可能 |
Advanced Voice Modeを使用するには、少なくとも「ChatGPT Plus」のプランに加入する必要があります。
Advanced Voice Modeの技術的背景と仕組み
Advanced Voice Modeは、OpenAIの最新技術である高度な自然言語処理(NLP)と音声合成技術の融合によって成り立っています。
このシステムには次のような要素が含まれます。
- 高度な自然言語処理(NLP)モデル
- リアルタイム音声認識
- 高速な文章生成アルゴリズム
- 最新の音声合成技術
これらの技術が統合され、わずか0.3秒という超高速応答が実現しています。また、感情表現の向上により、より豊かな対話が可能となり、音声での抑揚や強調が自然に反映されるようになりました。
Advanced Voice Modeのセキュリティとプライバシー保護
高度な音声技術を使用するため、セキュリティとプライバシーの確保も重要です。主な対策としては以下があります:
- エンドツーエンドの暗号化
- 音声データの匿名化
- ユーザーの同意に基づくデータ使用
- 定期的なセキュリティ監査
ただし、音声認識技術には特有のリスクもあるため、個人情報や機密情報を音声で入力する際には注意が必要です。
まとめ
Advanced Voice Modeは、音声対話における技術革新を代表するもので、AIとの対話がより自然でスムーズになります。
今後も技術の進化とともに、多くの分野での活用が期待されていますが、ユーザーはプライバシーやセキュリティにも十分な配慮を持って利用することが求められます。
こういった生成AIの最新情報を知りたい人は、下記のYouTube動画をご覧ください。