新型GPT-5の発表がGoogleをパニックに陥れている

AGIに仕事を奪われたい
この記事は約19分で読めます。

11,067 文字

The NEW GPT-5 Reveal That Has Google PANICKING!
After months of rumors, it’s official—GPT-5 is real, and it’s coming fast. Sam Altman just dropped a major update on X, ...

サム・アルトマンとの対話

「GPT-5はいつ発売されるの?」 「正直なところ、わかりません」 「それが正直な答えですね。今年中だったら二回まばたきしてください」 「今年中に素晴らしい新モデルをリリースします。何と呼ぶかはまだわかりません」

これはリリース方法についての質問ですね。今後数ヶ月の間に多くの異なるものをリリースします。とても素晴らしいものになると思います。GPT-5のようなモデルについて話す前に、それが実際にGPT-5と呼ばれるかどうか、あるいはGPT-5に期待されるものより少し良いか悪いかはともかく、まず他の重要なものをリリースする必要があります。

「GPT-5に何を期待すればいいのかわかりません」 「緊張するけどワクワクしますね。GPT-5と呼ぶことになるものにせよ、最大の課題やボトルネックは何ですか?コンピューティング面?技術面?それとも常にすべてでしょうか?最大のブレイクスルーは何でしょうか?より大きなコンピュータ?新しい秘密?それとも別のものですか?」

「それらすべてが組み合わさったものです。OpenAIが本当に上手くやっていることは…」

GPT-5の確認

GPT-5は存在しないという憶測もありましたが、今やそれが真実でないことがわかりました。OpenAIのCEOであるサム・アルトマンはXで詳細なロードマップを発表し、GPT-5が実在するだけでなく、まもなく登場することを確認しました。この発表はテック業界、特にGoogleに衝撃を与えています。

アルトマンは、混乱を招くモデル選択機能を廃止し、シンプルに動作する統一システムに置き換えると述べました。GPT-5はOpenAIが構築したすべてのもの—音声、キャンバス、深い研究ツールなど—を組み合わせ、ユーザーの行動に応じてインテリジェントに使用します。無料ユーザーでも基本レベルでのGPT-5への無制限アクセスが可能になり、有料プランではより高度な知能レベルが解除されます。これは大きな進展です。

なぜGoogleがパニックになっているのでしょうか?それはOpenAIが単に技術を改善するだけでなく、競争が難しくなるような方法で簡素化しているからです。一方、DeepSeekのようなモデルはすでに低コストで高いパフォーマンスを示しています。OpenAIは反撃する必要があり、このロードマップはそれを実行中であることを示しています。

これは実はイリヤ・サツケヴァーの言葉で、「我々は200の中規模のものを掛け合わせて1つの巨大なものを作り出している」というものです。つまり、常に分散型の革新が行われているのです。

技術面においても特に、詳細なアプローチでさえ、異なるチームがどのように連携しているのかなど、どうやって中規模のものが一つの巨大なトランスフォーマーになるのでしょうか?

全体をまとめる必要のある人は少数ですが、多くの人がほとんどの全体像を頭に入れておくよう努めています。個々のチームや個人の貢献者たちは高いレベルでそうしようとしています。もちろん、すべての部分がどのように機能するかを正確に知っているわけではありませんが、私が一般的に信じていることは、時には引きこもって全体の地図を見ることが役立つということです。

これは技術的な問題にも当てはまりますし、ビジネスでのイノベーションにも当てはまります。物事は驚くべき方法で一緒になります。そのほとんどの時間は一つの分野で泥沼にいるとしても、全体像を理解することで、驚くべき洞察が得られることがあります。

実際、以前に持っていて非常に価値があったと思うものの一つは、テック業界のフロンティアの大部分についての良い地図を持っていたことです。そうすることで、一つの分野だけに深く入っていたら思いつかないような、つながりや新しい可能性が見えることがありました。しかし今はそれほど持っていません。今はかなり深く入り込んでいます。しかし、それが価値あるものであることは知っています。

GPT-5はいつ登場するのか

サム・アルトマンの答えは「わからない」でしたが、現実には大きな何かが来ることはわかっています。彼はGPT-5を否定せず、むしろその名前を避けるような言い方をしたことで、私にはむしろ確信を与えました。彼は「今年中に素晴らしいモデルをリリースする」とさえ言いました。正直に言えば、それは私にはGPT-5か、少なくとも何かさらに優れたものに聞こえます。

興味深いのは、彼がプロセスをどう説明したかです。それは一つのブレイクスルーではありません。数百の中規模のイノベーションがすべて集まっているのです。それはすごいことです。OpenAIは魔法のアイデアを待っているわけではありません。彼らは絶えず改良を積み重ね、テストし、洗練させ、そしてすべてを一緒に縫い合わせています。長期的には、ほとんどの企業が行っていることよりもそのアプローチの方がはるかに強力に感じます。

GPT-5、あるいは最終的に何と呼ばれるにせよ、それが近いという感覚を強く持っています。そして私を興奮させるのは、これが単にパワーのアップグレードではないということです。それはAIとの対話方法の変化です。彼らが実際にこの統一的で直感的なシステムを実現すれば、日常的にこれらのツールを使用する方法が完全に変わるでしょう。

「業界全体がGPT-5のリリースを固唾を飲んで待っていると思います。今年の夏頃にローンチすると報じられていますが、それはかなり広い期間ですね。もう少し絞れますか?GPT-5のリリースはどの段階ですか?」

「私たちは主要な新モデルのリリースには時間をかけており、それが素晴らしいものになると思いますし、それをどのように行うかについて慎重に考えます。以前のモデルとは異なる方法でリリースするかもしれません。また、GPT-5と呼ぶかどうかさえわかりません。言えることは、多くの人がGPT-4がリリース以来、特に過去数ヶ月でどれだけ良くなったかに気づいていることです。私たちは信じられないほどの効率性の向上を見つけており、それは非常に重要です。

今日発表した素晴らしいもののひとつは明らかに音声モードですが、おそらく最も重要なことは、これを非常に効率的にして無料ユーザーに提供できるようにしたことです。世界最高のモデルが、ChatGPTを無料でダウンロードしたい誰にでも提供され、GPT-4やGPT-4 Turboに比べて驚くべき効率性の向上があります。そしてそこにはさらに多くの可能性があります。」

「GPT-4とGPT-5を比較するなら、あなたはその最前線にいて実際に見ているわけですから、その違いは何ですか?GPT-5に期待すべき部分は何でしょうか?」

「それはもっと賢くなります。他にもいろいろな要素があります。これらのタスクに優れ、マルチモーダルになり、より速くなるなど、いろいろと考えられます。しかし本当に重要なのは、それがより賢くなるということです。そしてこれは聞こえる以上に大きな違いです。なぜなら、これらのモデルを魔法のように感じさせるのは、それらが一般的であるという点だからです。少し良くなり、少し賢くなれば、すべてにおいて少し良くなるということです。

最も興奮させるのは、このモデルがこのタスクで少し良くなり、他のタスクではあまり改善されないということではないことです。モデルをより賢くするので、すべての面でより良くなるのです。」

GoogleのGeminiアップデート

Googleは驚きのGeminiアップデートを発表し、IO開催の数週間前にウェブアプリのコーディングを一つのプロンプトで実行できる魔法のような機能を提供しました。一方、Appleは同じAIをiPhoneに搭載する秘密の契約を締結しています。そして、OpenAIは企業計画を変更し、Microsoftのシェアを削減し、コーディングスタートアップの買収に30億ドルを費やしています。

Googleは「サプライズ!」と叫ぶように、Gemini 2.5 Pro I/O Editionの早期プレビューを予定より2週間早く公開しました。GoogleのAIスタジオの人々はすでにこれを「WebDev Arena Champion」と呼んでいます。なぜなら前のビルドから147 ELOポイントもジャンプしたからです。このELOというのは基本的に生成されたウェブアプリがどれだけ見た目が良く機能的かを人間が判断する人気コンテストで、新しいスコアはGeminiをリーダーボードのトップに位置づけました。また、ビデオMMEベンチマークで84.8%のスコアを誇示しており、これはモデルがビデオクリップで何が起きているかを実際に理解しているかを測定するものです。

サム・アルトマンがここで冷静を装っている一方で、Googleが圧力を感じていることがわかります。彼らはGPT-4.5のリリース後すぐにGemini 2.5 Proをリリースするなど、素早く動いています。公平に言えば、Gemini 2.5 Proは印象的です。いくつかの推論ベンチマーク、数学、コーディング、さらには「人類最後の試験」でGPT-4.5よりも高いスコアを獲得し、GPT-4.5のスコアを基本的に3倍にしました。また、無料で使用できるため、企業や開発者にとって非常にアクセスしやすいものとなっています。

しかし、これは通常の製品リリースではなかったと思います。防御的な動きのように感じます。GPT-5がリリースされる前に何かを出す必要があったのでしょう。なぜなら、もしOpenAIがサムが示唆したように、このオールインワンで深く統合された直感的なシステムを展開すれば、Geminiの瞬間は短命かもしれないからです。

私の直感では、Googleはそれを知っています。だからこそ、これらのアップデートを急いで出しているのです。しかしOpenAIは静かに勝利を積み重ねており、GPT-5が登場すれば、何と呼ばれるにせよ、Geminiがまだ追いかけている方法で業界全体を前進させる可能性があります。

どのプラットフォームに注力すべきか

ChatGPT 4.1がリリースされ、GPT-5が数ヶ月後に登場するとされている中、多くの人が「どのプラットフォームに注力すべきか」と疑問に思っています。Geminiに移行すべきか、それともChatGPTにとどまり、GPT-5がリリースされたら切り替えるべきでしょうか?

GPT-5はまだリリースされていませんが、どのようなものになるかについての多くのヒントがあります。主なテーマはユーザー体験の簡素化のようです。命名システムさえもオーバーホールされる予定です。もう無限のモデルセレクターはなくなります。サム・アルトマンはXでこう示唆しました:「今年の夏までにモデル命名を修正するのはどうでしょう?」そして実際にそれを行う唯一の方法は、すべてを単一のモデルに統合することです。

時間が経つにつれて、OpenAIはさまざまなAIバージョンを持つようになりました。GPT-4を見てください。コーディングや執筆用の異なるモード、異なるバージョン、さらに推論用のO3やO1のような実験的モデルもあります。混乱してきます。GPT-5の計画は、これらの改良をすべて一つの超強力なモデルにバンドルすることです。サム・アルトマンの言葉によれば、「GPT-5は単独のモデルとしてではなく、O3を含む多くの技術を統合します。」論理的推論から画像作成までのすべての機能が大幅にアップグレードされるはずです。

「まだわかりません。楽観的ですが、まだやるべきことがたくさんあります。しかし大きな飛躍になると期待しています。GPT-4が間違えることの多くは、推論があまりできないことや、時には完全に脱線して6歳の子どもでも決してしないような愚かな間違いをすることがあります。それらの点でずっと良くなり、より広範囲のより役立つタスクに使用できるようになると期待しています。」

GPT-5は今後数週間/数ヶ月中に登場し、期待できることは次のとおりです。GPT-5と呼ばれるものは、最先端のO3思考モデルを含むすべての技術を統合したシステムになります。ChatGPTが思考モデルが必要かどうか、あるいは一つのアプリケーションと別のアプリケーションが必要かどうかを自分で判断します。これはGPT-4OやO1、O1 Proを選択するかどうかを決定するモデルルーターではなく、統一された体験になります。興味深いことに、これらの予定到着時間について尋ねられると、「数週間/数ヶ月」と答えました。これは基本的に夏前を意味すると思います。私の推測では4月前かもしれません。

「GPT-5について非常に楽しみにしています。チームが今この瞬間も取り組んでおり、素晴らしい新モデルになると思います。しかし一般的に、今年はChatGPTが質問に答えるだけでなく、現実世界であなたのために物事を実行する年になります。

例えば、今年の初めにOperatorという製品をリリースしました。これは人間のようにウェブを閲覧し、あなたのために物事を行うことができます。ウェブ上で過ごす時間について考えると、ウェブ閲覧時間の30〜40%は、自分がやりたいことをしているわけではなく、何かを完了する必要があり、いくつかのページや入力フォームなどの一連の作業が必要だからです。AIにそれをやってもらえたら素晴らしいと思います。フォームに記入してもらうことで、自分はより多くの仕事をしたり、家族と過ごす時間を増やしたりすることに集中できます。

これはAIがそのようなことをあなたのためにより多く行い始める年です。それは私たちが賢くて安全になっている推論モデルで進歩しているからこそ可能になります。また、あなたが知っている日常的に使用するサイトとの統合によって、私たちのモデルがそれらを理解し、あなたに代わって行動を起こすことができるようになります。」

GPT-5の期待

そして今、ケビン・ワイルが私たちが期待していたことを確認しました。GPT-5は2025年に登場します。しかし私が注目したのは単なる確認ではなく、GPT-5が実際に何をするかについての説明でした。これはもはや質問に答えるだけではありません。これはChatGPTが実際の世界のタスクを完了する—ウェブの閲覧、フォームの入力、予約、ボタンのクリックなど、毎日私たちが時間を無駄にしている退屈なことを行う年です。

彼は「Operator」という新製品に言及しました。これはすでに人間のようにブラウズする方法を知っています。それはすごいことです。もしGPT-5がそれを基盤にしたら、AIにタスクを与え、あなたが他のことに集中している間にそれが完了するのを見るだけになるでしょう。それは小さなアップグレードではなく、インターネットの使い方の完全な転換です。

今、Gemini 2.5 Proと比較してみましょう。確かに推論、数学、コーディングのベンチマークで強力です。また無料ですが、Geminiはまだあなたが使用するツールのように感じ、あなたのために行動するシステムではありません。一方、GPT-5は真のAIエージェント—タスクを処理し、イニシアチブをとり、私たちの時間を取り戻すのを助けるシステム—に向かっています。

Geminiは実際にChatGPTが提供するすべての機能を持っていますが、ただ組み込まれているだけです。より単純なチャットボットとは異なり、Gemini 2.5は思考モデルであり、答えを出す前に独自の内部推論プロセスを経ることを意味します。これにより、なぞなぞ、難しい概念、きれいで正確なコードの作成など、複雑なものに最適です。

Gemini 2.5はネイティブにマルチモーダルでもあります。これは単に異なる種類の入力を処理できることを意味する技術用語です。段落、画像、さらにはオーディオを投げかけることができ、すべてを処理します。実際、テキスト、オーディオ、画像、ビデオを入力として処理するように設計されています。ChatGPTと比較すると、ChatGPTはまだビデオを処理できず、オーディオやファイルのサポートも様々です。

GPT-4.1と同様に、Geminiは最大100万トークンを処理できます。これは、大きな文書を貼り付けたり、以前に言ったことを忘れることなく非常に長いチャットができることを意味します。そして最高の部分は、Googleはこれが始まりに過ぎないと言っていることです。彼らはまもなくそのコンテキストウィンドウを倍にする計画があり、それによってOpenAIをさらにリードすることになるでしょう。

私の経験では、Gemini 2.5は迅速で徹底的です。通常、回答を素早く出し、しばしば多くの詳細を提供します。時には実際に必要以上の詳細を提供することもあります。例えば、長い記事の要約を求めると、Geminiは全力を尽くして追加の背景情報を含めることがあります。それは必要に応じて良いことにも悪いことにもなります。

GoogleのGemini時代

「Googleでは、私たちは完全にGemini時代に入っています。今日、私たちの20億ユーザーを持つすべての製品がGeminiを使用しています。人々は常にGmailでメールを検索しています。私たちはGeminiでそれをより強力にするために取り組んでいます。今では、学校からの最近のメールをすべて要約するようGeminiに頼むことができます。

もしかしたら今週旅行中でPTA会議に参加できなかったかもしれません。会議の録音は1時間です。もしGoogleミートからのものなら、ハイライトを教えてもらうことができます。人々は写真を使って人生を検索することが大好きです。Geminiを使えば、それがずっと簡単になります。過去の写真は、より深い方法であなたの記憶を検索する助けにもなります。

例えば、娘のルチアの初期のマイルストーンを懐かしんでいるかもしれません。「ルチアの水泳がどのように進歩したか見せて」と写真に尋ねることができます。ここでGeminiは単純な検索を超え、異なるコンテキストを認識し、写真をまとめてパッケージ化し、要約を提供します。形式を超えた知識のロック解除は、私たちがGeminiを基本的にマルチモーダルに構築した理由です。

それは一つのモデルですべてのモダリティが組み込まれています。こちらは私たちのプロトタイプのビデオで、二つの部分があります。各部分はリアルタイムで一回の撮影で捉えられました。

「このコードの部分は何をしますか?」 「このコードは暗号化と復号化の関数を定義しています。キーと初期化ベクトル(IV)に基づいてデータをエンコードおよびデコードするためにAES CBC暗号化を使用しているようです。」

「私のメガネがどこにあるか覚えていますか?」 「はい、覚えています。あなたのメガネは赤いリンゴの近くの机の上にありました。」

「このデュオのバンド名を考えてください。」 「ゴールデンストライプス。」 「いいですね。ありがとう、Gemini。」

GoogleのI/Oが間もなく開催される中、彼らが関連性を保とうとしていることは明らかです。彼らはGeminiにメモリー、深い研究、V2を通じたビデオ生成、マルチモーダル能力を示唆する新しいエージェントツールボックスなどの機能を搭載しています。さらに、新しいサブスクリプションモデルの下で高度なAI機能をバンドルするプレミアム層、Gemini Ultraについても話があります。

しかし、よく見ると、彼らはGPT-5が迫る中、追いつくために急いでいるようにも感じます。率直に言って、OpenAIはGPT-5で単にスマートなチャットボットを作っているのではありません。彼らはデジタルアシスタントのように行動する知的なシステムを構築しています。ウェブサイトを人のように閲覧できるOperatorのようなツールについて話しています。GPT-5が複数ページのサイトを読み、フォームに記入し、正しいボタンをクリックし、実際にあなたがしようとしていたことを行うと想像してみてください。それが来るのです、それは無理な話ではありません。OpenAIはすでにその機能を部分的にテストしています。

さらに、GPT-5はより高度なデータセットを使用し、潜在的に複数兆のパラメーターに達すると予想されています。より正確になり、幻覚を減らし、深いマルチモーダルな流暢さで操作するでしょう。つまり、テキストだけでなく、画像、ビデオ、さらには3D環境も取り込んで生成できるということです。これにより、まったく新しい対話方法が開かれます。音声からビデオへ、文書からアクションへ、画像から要約へ、どんなメディアであっても必要なものへ。

だから、GoogleはGeminiに全力を注いでいますが、私はまだ彼らが時間稼ぎをしていると思います。GPT-5がこのような統合と規模でリリースされれば、Geminiが今日提供しているものよりもはるかに高いバーを設定することを彼らは知っています。そしてOpenAIが噂に応えれば—より安く、より速く、よりスマートに、より有用に—それは単なる新しいモデルのリリースではなく、プラットフォームの転換になります。

AIの未来と社会的影響

「誰も二つのAIがお互いに対してチェスをしているのを見ていません。誰もそんなことは気にしません。そして、もし人々がAIに負けたとしても、他の人に対して最善を尽くしたいという気持ちがなくなるわけではありません。だから、私たちは他の人が何をするか、何を気にするか、何を望むか、そして私たちが彼らに何ができるかに非常に焦点を当てる傾向があります。そしてそれはあまり変わらないと思います。」

「GPTシステムを人間よりもはるかにバイアスが少なくできることがわかると思います。だから願わくは、感情的な負荷がないことを期待します。しかし圧力があるかもしれません。政治的圧力があるかもしれません。」 「バイアスのあるシステムを作る圧力があるかもしれませんね。」

「私たちが見る科学的進歩について。私は、生活の質の実質的かつ持続可能な改善は科学的および技術的進歩から来ると強く信じています。そして私たちはそれをもっと多く持つことになると思います。だから、明らかな利点があり、例えば貧困を終わらせることができるというのは良いことだと思います。おそらくあなたはそれができる技術を止めるべきだと思うかもしれませんが、私個人はそうは思いません。しかし、そこに到達するためにはリスクを管理する必要があります。また、この時点で、人々が経済的利益と可能性をどれだけ認識しているかを考えると、どの企業もそれを止めることはできないと思います。」

「世界的な規制は、これらの強力な実存的リスクレベルのシステムに対してのみあるべきだと思いますが、世界的な規制は難しく、過度にならないようにしたいですが、世界的な規制は安全にするのに役立つと思います。それは止めるよりも良い答えです。また、止めることは機能しないとも思います。」

「平均的な20歳の若者がChatGPTをどのように使用しているかを観察し、それから平均的な35歳の人がどのように使用しているかを見てみると、その違いは信じられないほどです。スマートフォンが登場した時のことを思い出させます。すべての子供たちが非常にうまく使いこなし、年配の人々は基本的なことを理解するのに3年くらいかかり、もちろん人々は最終的に適応しますが、現在のAIツールにおける世代間の分断は驚くべきものです。企業もその症状の一つに過ぎないと思います。

それらのものはすべて素晴らしく印象的だと思います。そして、人生の決断をする際にChatGPTに尋ねずに行わないという別の面もあります。過度な単純化ですが、年配の人々はChatGPTをGoogle代替として使い、20代や30代の人々はそれを生活アドバイザーとして使用し、大学生はそれをオペレーティングシステムとして使っています。

平均的な20歳の若者がChatGPTをどのように使用しているかを観察し、それから平均的な35歳の人がどのように使用しているかを見てみると、その違いは信じられないほどです。スマートフォンが登場した時を思い出させます。すべての子供たちが非常にうまく使いこなし、年配の人々は基本的なことを理解するのに3年くらいかかりました。もちろん人々は適応しますが、現在のAIツールにおける世代間の分断は驚くべきものです。

彼らはそれを一連のファイルに接続するために複雑な方法を持ち、頭の中に複雑なプロンプトを記憶しているか、コピー&ペーストするものに保存しています。そして、ChatGPTに尋ねずに生活の決断をすることはありません。また、彼らの生活の中のすべての人物とその会話についての完全なコンテキストを持っています。メモリ機能が本当の変化をもたらしました。

簡単に言えば、年配の人々はChatGPTをGoogle代替として使い、20代や30代の人々はそれを生活アドバイザーとして使用し、大学生はそれをオペレーティングシステムとして使っています。

しかし、これは非常に異なる世界になるでしょう。トビーが先ほど言及したGPT-3以前、2019年のGPT-2の進歩を見ても、人々はそれを試して「これは行き詰まった方向だ」と言いました。それを拡大したGPT-3で人々は「ああ、わかった」と言い、GPT-3.5はようやく使いやすくなり、GPT-4では人々は企業全体を構築しています。将来の年にGPT-5、6、7は、提供できるユーティリティを本当に増加させるこの軌道を続けるでしょう。これは世界に存在する大きな新しい興奮することです。

だから、GoogleがGeminiで踏ん張ろうとする一方で、OpenAIが静かに舞台裏でもっと強力な何かを構築していることを考えると、私たちは本当に大きな転換の瀬戸際にいるように感じます。GPT-5は単なるモデルのアップデートではありません。それは私たちのために働くAI、単に私たちと話すだけでなく、働くAIへの一歩です。そしてそれがリリースされると、インターネットの使い方、物事の達成方法、そして正直なところ日常生活の送り方が変わるでしょう。

もしGoogleがI/Oで大きな何かを持っているなら、それを持って来るべきです。なぜなら、私たちが見ているすべてから、OpenAIは全く新しい基準を設定しようとしているからです。

あなたはどう思いますか?GPT-5に期待していますか?Geminiにチャンスがあると思いますか?コメントであなたの考えを教えてください。それを読ませていただきます。そしてこの分析を楽しんでいただけたなら、いいねボタンを押して、更新情報を得るために購読してください。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました