OpenAIの新たなリークがGPT-6の全貌を明らかにする

OpenAIが開発中の新型Omniモデルは、GPT-6への重要な布石となる可能性が高い。従業員による示唆的な投稿やメディア報道により、GPT-4oの真の後継モデルが開発中であることが明らかになった。このモデルは、テキスト、画像、音声、動画を単一のシステムでネイティブ処理する真のマルチモーダルAIを目指している。さらにOpenAIは、双方向音声技術「BAI」を開発中で、これによりAIとの会話が従来のターン制から自然な同時会話へと進化する。これらの技術は、イヤホンやスマートスピーカーなどのハードウェアデバイス群と統合され、スマートフォン以降の時代を見据えたアンビエントAIエコシステムの構築を目指している。GPT-6は2026年後半から2027年初頭にかけてリリースされる見込みで、長期記憶、自律エージェント機能、完全なマルチモーダル性を備える予定である。

This New OpenAI Leak Changes Everything About GPT-6

🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

OpenAI新型Omniモデルのリーク
真のOmniモデルとは
双方向音声技術BAI
GPT-6への道筋
ハードウェア戦略の展開
アンビエントAIエコシステムの構想

OpenAI新型Omniモデルのリーク

OpenAIで何か大きな動きが起きています。そしてこれはGPT-6につながるものだと確信しているので、詳しくお話しする必要があります。

このリークがどのように始まったのか、そして新しいAIモデルに関するすべての情報について見ていきましょう。3月8日、OpenAIの音声チームで働くAtai Alletiという人物がX上に投稿しました。

誰かが「もう2年近く経つのに、まだ真のOmniモデルがない」と不満を述べていたところ、Attiは基本的に「新しいOmniモデルで何を見たいですか?」と尋ねて応答したんです。そしてその投稿は実際にバズりました。5万回以上の閲覧数と100以上のいいねを獲得したんです。Twitter基準では驚異的ではありませんが、私や他の何人かのAI愛好家が見るには十分でした。

もちろん、それだけでも十分興味深かったのですが、数日前にOpenAIの従業員たちがコメントし始めたんです。Brandon McKenzieは、以前AppleでマルチモーダルAIに取り組んでいたOpenAIの研究者ですが、彼は返信して新しいOmniモデルは素晴らしいアイデアだと言いました。そして別のOpenAIチームメンバーであるHuda Knightは、ちなみに感嘆符2つ付きで「それは来ます」とはっきり言ったんです。

これらは無作為な人々ではありません。実際にこういったものの背後にいて、常にそれを構築しているエンジニアや研究者たちなんです。翌日、有名なAIニュースメディアであるThe Decoderが、来るべき新モデルはGPT-4oの後継モデルであるように見えると確認しました。覚えていない方のために言うと、GPT-4oは2024年にOpenAIの大きなマルチモーダルの瞬間となるはずでした。

Oは文字通りOmniを意味します。そしてそのアイデアは、テキスト、画像、動画、基本的にすべてをネイティブに一度に処理できる1つのモデルを持つことでした。舞台裏で一緒に縫い合わされた複数の別々のシステムではなく、1つの統一された頭脳です。しかしここが問題なんです。GPT-4oは実際には約束を果たさなかったんです。

ローンチイベントで見せられた機能の多くは、限定的な方法で展開されたか、全くリリースされませんでした。そして多くの人々がこれについて本当にイライラしていて、2年間待ち続けているんです。デモを見たとき、かなり素晴らしかったのを覚えています。しかしリリースされたとき、音声は完全に平坦に聞こえ、リアルタイムデモで以前見たほど表現豊かでも人間的でもありませんでした。

皆さんの中にもこれに精通している方がいるかもしれませんね。実際のOmniモデルとは何なのか疑問に思っている方のために、こう考えてください。現在、Chat GPTを使用するとき、異なる種類のモデルがあります。タイプ入力できます。話しかけることができます。写真を見せることができます。しかし内部では、これらはしばしば一緒に動作する異なるシステムによって処理されています。

真のOmniモデルとは

真のOmniモデルは、すべてを一度に処理する1つの単一システムになるでしょう。あなたの声、見せている画像、動画、画面上のテキスト、すべてが同時に1つの頭脳を通して流れるんです。ここのデモンストレーションで見られるように。つまり、もう古い複数のシステムではなく、すべてを取り込むただ1つの頭脳です。そしてこれが特に興奮させる理由がこれです。

OpenAIの現在最も賢いモデルはGPT-5.4で、数日前にリリースされました。その知性レベルを想像してみてください。彼らがこれまでに構築した最高の推論、最高の問題解決能力、そしてそれにネイティブに見る、聞く、話す能力を与えるんです。アドオンとしてではなく、後付けの別々の機能としてではなく、基礎から組み込まれた形で。それがここでの可能性なんです。

そして正直なところ、OpenAIがハードウェアとGPT-6でどこに向かっているかの軌道を見ると、これについてはすぐにお話ししますが、この新しいOmniモデルは彼らがリリースする最も重要なものの1つかもしれません。なぜなら実際に彼らが構築している他のすべてのものに依存しているからです。しかしハードウェアと未来に入る前に、このパズルのもう1つの巨大なピースについて話す必要があります。

そしてそれは、私たちが実際にモデルとどう話すかに関係しています。この図は実際に、現在私たちがどのようにChat GPTと話しているかを示しています。使ったことがある方ならご存知でしょうが、少し厄介に感じることがあります。そしてそれには十分な理由があります。現在の動作方法はターンベースです。あなたが話し、それから止まり、それからAIがあなたが言ったことを処理し、それから返答します。

ウォーキートーキーのようなものだと考えてください。しかし問題は、AIが話している間にあなたが何か音を出すと、たとえそれが「オーケー」や「うんうん」という相づちであっても、AIはそれをあなたが割り込もうとしていると解釈し、文章の途中で止まってしまうんです。会話全体の流れを殺してしまうようなものです。しかしもちろん、The Informationによると、OpenAIはまさにこの問題を解決するために新しい音声モデルを構築しているんです。

双方向音声技術BAI

それはBAIと呼ばれ、双方向の略です。そしてアイデアは非常にシンプルです。順番に交代する代わりに、あなたとAIの両方が同時にコミュニケーションできるんです。まさに実際の人間の会話のように。実際に他の人とどのように話すか考えてみてください。うなずき、「うんうん」と言い、相手が思考全体を終えるのを待ちながら素早く質問を挟むかもしれません。

そしてあなたが話している相手は、それが起こったときにただ固まるわけではありません。適応するんです。一時停止し、あなたの質問を認識し、続けるかもしれません。だからBAIが本当に効果的になるんです。あなたの声を継続的に処理するので、割り込んだり反応したりしたときにリアルタイムで調整できます。さて、正直な部分がこれです。彼らはプロトタイプを構築しましたが、どうやらまだ完璧ではないようです。

どうやら数分間は動作しますが、その後グリッチが始まり、奇妙な音の出るボイスノートを生成するんです。彼らは元々これを2026年第1四半期に出荷したかったのですが、第2四半期、あるいはそれ以降になりそうです。しかしこれがなぜそれほど重要なのか、Chat GPTをより自然に聞こえるようにすること以外の理由があります。

OpenAIは、音声AIとテキストベースのAIの間のギャップを埋めることが、世界中で人工知能を使用する人を大幅に拡大できると信じています。考えてみてください。地球上のほとんどの人にとって、話すことはタイピングよりもはるかに自然なことです。AIと話すことを友人と話すようにシームレスに感じさせることができれば、何億人もの新しいユーザーへの扉が開かれます。

そして巨大なビジネスの観点もあります。カスタマーサポートについて考えてみてください。現在、多くの企業がAIを使って電話を処理しようとしています。航空会社、銀行、小売業者、あらゆるものです。しかし体験は通常かなり粗末です。特にAIが実際の電話会話の自然なやり取りを処理できないからです。

小売業者のAIアシスタントと製品の返品について話していて、会話の途中で気が変わって代わりに交換したくなったと想像してください。今日のAI音声では、そのような方向転換はせいぜい不器用です。AIが混乱するか、繰り返す必要があるか、あるいは全体が壊れてしまいます。しかしBAIがあれば、AIは実際のカスタマーサービス担当者がするようにスムーズに適応できるでしょう。

あなたが方向を変えているのを聞き、その場で調整し、会話は自然に流れ続けます。そしてそれはAIを使って顧客とのやり取りを処理する企業にとってゲームチェンジャーです。そしてそれがOpenAIがこの技術に非常に多く投資している理由の1つです。さて、少し視野を広げましょう。なぜならこの新しいOmniモデルとBAIは真空中に存在するわけではないからです。

これらはもっと大きなパズルのピースなんです。そしてそのパズルはGPT-6へまっすぐ続いています。2025年、OpenAIのCEOであるサム・アルトマンは、GPT-6はすでに開発中であり、GPT-5ほど時間はかからないだろうと公に述べました。覚えているなら、GPT-5には時間がかかりました。だからGPT-6がより速く進んでいると聞くのはかなり大きなことです。

GPT-6への道筋

そしてすでに、これを裏付ける実際のインフラがあることがわかります。OpenAIはチップ会社AMDと提携して、6GWのコンピューティングパワーを展開します。それを視野に入れるために、それはAIモデルのトレーニングに専念する莫大なエネルギー量です。最初の1ギガワットは2026年後半にオンラインになると予想されており、これはGPT-6のようなものをトレーニングするのに必要なパワーのタイミングと完璧に一致しています。

リリース時期とリリース日について疑問に思っている方のために、最も信頼できる推定では、タイムラインはこのようになっています。GPT-6の開発者プレビュー、つまり研究者やアプリビルダーが早期アクセスを得るのが2026年第3または第4四半期のいつか、そして通常のチャットユーザーへの広範な展開は2027年第1四半期になりそうです。

もちろん、物事がずれ込む可能性は常にあります。より悲観的なシナリオでは、2027年半ばまで、あるいは2027年第1四半期まで見られないかもしれませんが、ピースはすでに配置されつつあります。では、GPT-6は実際に何をもたらすのでしょうか? 3つの大きなことが目立ちます。第一に、長期的な永続的記憶です。現在、Chat GPTで新しい会話を始めるたびに、基本的にゼロから始めているんです。

GPT-6は実際にセッションをまたいであなたが誰であるかを覚えると予想されています。あなたの好み、過去の会話、あなたの人生の文脈、そしてそれは実際にあなたを知っているアシスタントと話しているようなものになるでしょう。第二に、自律エージェント機能です。それはAIが実際にあなたの代わりに行動を起こすという意味の洒落た言い方です。

フライトを予約する方法を教えるだけでなく、実際にそのフライトを予約するんです。メールを下書きするだけでなく、もちろんそれを送信します。私たちはすでにこの初期バージョンを見ています。OpenAIの現在のトップモデルであるGPT-5.4は、文字通りあなたのコンピュータを操作できるコンピュータ使用ですでにかなり優れています。

そしてGPT-6はそれをはるかに進めるでしょう。もちろん、第三に、完全なネイティブマルチモーダル性です。これは私たちが始めた場所に戻ります。OpenAIの従業員がからかっている新しいOmniモデルは、GPT-6が構築される基盤となるマルチモーダルバックボーンかもしれませんし、最終的にGPT-6のローンチ時に統合される並行した取り組みかもしれません。

いずれにせよ、これらは深く、深くつながっています。同じシステムの3つの層として考えてください。OmniモデルはGPT-6に目と耳を与え、画像、動画、音声をネイティブに処理する能力を与えます。BAIはそれに自然な声を与え、あなたと本当に流暢な会話をする能力を与えます。そしてGPT-6の生の知性がすべてを結びつけ、あなたと同じように世界を知覚できる、これまでに構築された最も賢いAIを提供します。

そしてそれがビジョンです。そしてOpenAIがこの知性をどこに配置したいかを見ると、さらに興味深くなります。ここで物事が実際に本当に興味深くなるんです。そしてこれは、すべてをまとめているときに私の心を吹き飛ばした部分です。OpenAIにはすでに物理的なハードウェアデバイスに取り組んでいる200人がいます。

ハードウェア戦略の展開

ソフトウェアではなく、アプリではなく、実際に持ち、身につけ、家に置く実物です。そしてここでOmniモデルとBAIが絶対に重要になります。なぜならそれらのデバイスは適切に動作するために真のマルチモーダルAIを必要とするからです。それらがなければ、単なる高価なガジェットです。さて、最初はもちろんイヤホンです。コードネームGumDropで呼ばれるクライアントプロジェクトで、これらはTechCrunch、Mashable、Axiosで報道されています。

これらはオープンスタイルのAIイヤホンなので、ノイズキャンセリングではありません。耳に座り、周囲の世界を聞きながら、頭の中にAIアシスタントも提供します。本当に興味深い技術的詳細は、カスタム2nmプロセッサが組み込まれることです。つまり、AI処理の多くがクラウドではなくデバイス自体で行われ、より速く、よりプライベートになります。

そしてもちろん製造については、OpenAIはiPhoneを製造する会社Foxconや、Lux Shareという別のメーカーと協議してきました。そしてこれが驚くべきことです。初年度の販売目標は4000万から5000万台です。これは全く新しい製品カテゴリーにとって信じられないほど野心的な数字です。

文脈として、AirPodsは年間そのくらいの範囲で販売されています。つまり、OpenAIは基本的に、最初から同等の規模で競争したいと言っているんです。次に、内蔵カメラ付きスマートスピーカーについて話せます。価格は200ドルから300ドルの間になると予想されています。これはReutersとThe Informationで報道されています。

その200人以上のチーム。彼らが何をしているか知っていますか? 実際にこれを構築しているんです。カメラはビデオ通話だけのためではありません。AIに視覚的コンテキストを与えることになります。あなたの部屋を見て、物体を識別し、誰があなたと話しているかを見ることができます。Face IDスタイルの認証さえ備えているので、見るだけで購入を承認できます。

Goatechという会社がスピーカーモジュールを供給する協議をしていると報じられており、これは2027年2月より前には期待されていないので、まだ少し先のことです。次に、スマートグラスがありますが、これらはさらに先のことです。量産は2028年まで予想されておらず、スマートランプのプロトタイプもあるようですが、それが実際に製品になるかどうかは明確ではありません。

しかし最もエキサイティングなのは、私が謎のデバイスと呼ぶJourney Eyeです。2026年1月のダボスで、OpenAIはこのデバイスが今年後半の発表に向けて順調だと確認しました。サム・アルトマンはそれを、スマートフォンよりも平和で穏やかなもの、スクリーンなし、ポケットに収まるほど小さいと説明しました。以前の報道では、ペンのような形状かもしれないとさえ言及されています。

そして今、裁判所への提出書類で、実際に2027年2月末より前に消費者に出荷されないことが明らかになりましたが、少なくとも今年後半にそれが何であるかを見るはずです。彼らは元々このデバイスをIOとブランド化する予定でしたが、商標紛争のためにそのデバイスを放棄しなければなりませんでした。だからまだ何と呼ばれるかわかりませんが、名前が何であれ、コンセプトは魅力的です。考えてみてください。

さて、サム・アルトマンが説明する通りに動作すれば、これは消費者向けテクノロジーの新しいカテゴリーになり得ます。そして私はそれについてよく考えるんです。つまり、ちょっとの間それらすべてのAIデバイスについて考えてみてください。イヤホンはあなたの声を聞いて自然に応答でき、スピーカーはあなたとあなたの部屋を見ることができ、グラスはあなたのAI視野に入れ、携帯電話を取り出す必要を置き換えるポケットサイズのデバイス。

これらのそれぞれには、使用できるAI音声、見ることができる画像、認識できるコンテキストが必要で、すべてリアルタイムです。そしてそれがOmniモデルが重要な理由です。それがBAIが重要な理由です。それがGPT-6が重要な理由です。そしてそれが私たちがこれについて考えなければならない理由です。ハードウェアは体になり、Omniモデルは脳になります。

そしてBAIは声になります。それらがなければ、それらのデバイスのどれも動作しません。一歩下がって全体像を見ると、これらすべての点をつなぐと、本当に深遠な何かが現れ始めるからです。OpenAIは単により良いチャットボットを構築しているわけではありません。彼らが構築しているのは、私がアンビエントAIエコシステムと呼びたいものです。

アンビエントAIエコシステムの構想

Omniモデルは脳です。見るもの、聞くもの、読むものすべてを処理できる1つの統一された知性です。そしてBAIは声です。この脳と話すことを、他の人と話しているような自然な感覚にする技術です。そしてもちろん、ハードウェア、イヤホン、スピーカー、グラス、謎のデバイス、それが体になり、それがこの全世界に現れる方法になるんです。

今現在、Chat GPTはあなたが開くアプリで、必要なときにそれに行き、タイプまたは話し、答えを得て、それを閉じます。しかしOpenAIはこの関係を根本的に変えたいんです。彼らが望むのは、あなたが一緒に生活するAIです。街を歩いているときは耳の中に、聞いて見ているときはキッチンカウンターに、そして最終的には一日を過ごす間あなたの顔に。

そしてこれらすべてをGPT-6がもたらすと予想されるものと組み合わせると、永続的記憶、つまりそれはあなたが誰であるかを知っていて、私たちの自律能力です。つまりそれはあなたのために物事を行い、実行できます。あなたが見ているのは、ポストスマートフォンの世界への挑戦です。これがOpenAIが賭けているものであり、ポケットの中のデバイスの後に来るものです。

皆さんの中には「でも、これ前に試しませんでしたか?」と言う人もいるかもしれません。Humane AI pinは大きな誇大宣伝とともにローンチされ、iPhoneを置き換えるはずでしたが、これは壮大に失敗しました。もちろん失敗しました。そしてもちろんRabbit R1はAIと対話する全く新しい方法を約束しました。そして正直なところ、それは基本的にほとんど何もできない高価なおもちゃでした。

では、なぜOpenAIのハードウェアは何か違うのでしょうか? なぜ今回はうまくいくと信じるべきなのでしょうか? 実は、現在OpenAIのユーザーを見ると、Chat GPTには毎週ほぼ10億人のユーザーがいます。ちょっと考えてみてください、毎週AIを使っている10億人です。

これは人々が現れて製品にチャンスを与えることを期待しているスクラッピーなスタートアップではありません。それはすでにAIを知り、すでに信頼し、毎日それに頼っている巨大な確立されたユーザーベースです。すでに毎日使っているAIに接続するイヤホンやスマートスピーカーをそれらの人々に与えるなら、それは聞いたこともない会社から全く新しいプラットフォームを採用するよう頼むのとは完全に異なります。

そして二つ目、ジョニー・アイヴについて考えなければなりません。その男について何と言おうと、彼の実績は自ら物語っています。iPhone、iPod、MacBook Air、iMac。彼は複雑な技術を取り上げてそれをシンプルで美しく、望ましいものに感じさせるほぼ比類のない能力を持っています。そしてもし誰かがAIハードウェアのデザイン問題を解決し、人々が毎日使いたいと思うものを作れるなら、それはおそらく彼でしょう。