GPT-5.5の登場、DeepSeek V4のリリース、そして激化する計算資源競争

LLM・言語モデル
この記事は約24分で読めます。

本動画は、新たに発表されたOpenAIのGPT-5.5と中国のDeepSeek V4という2つの強力なAIモデルについて、詳細なベンチマーク結果やコストパフォーマンス、サイバーセキュリティへの影響などを包括的に解説する内容である。さらに、AIの自己改善の可能性やバイブコーディングの進化、そしてAnthropicやOpenAIのリーダーたちが直面している計算資源の枯渇問題といったAI業界の最前線の動向について深く掘り下げて考察している。

GPT 5.5 Arrives, DeepSeek V4 Drops, and the Compute War Intensifies
GPT 5.5 full analysis, plus DeepSeek V4 paper highlights, comparisons with Mythos, a vibe-coded game w/ GPT Image 2, and...

AI界を揺るがす2つの新モデル

AI業界のこの20時間で、10億人のAIの利用方法に影響を与える可能性のある2つの新しいモデルが登場しました。

私の考えでは、GPT-5.5はAIの王冠がAnthropicに奪われるのを防ごうとするOpenAIの全力の試みであり、本日のDeepSeek V4はその両者に対する中国からの解答です。

そして、今日皆さんが目にする見出しの渦の中で、皆さんの働き方やAIの使い方に影響を与えうる最大50個のデータポイントを見逃してしまっているかもしれません。

そこで、それらすべてを皆さんにお伝えするとともに、私が視聴した各AI研究所のリーダーたちとの何時間にも及ぶインタビューの中から、選りすぐりのハイライトをお届けしようと思います。

私のことをよくご存知の方なら、私が論文もしっかり読んでいることはお分かりでしょう。

というわけで、再帰的な自己改善の可能性に関するOpenAIの最新の予測についてお話しします。これは非常に驚くべきものでした。

また、後ほど説明しますがGPT-5.5がわずかに男性を好む傾向があること、Mythosとの比較、そしてなぜOpenAIの社長がAnthropicの計算資源の状況を笑ったのかについても取り上げます。

参考までに、まずはGPT-5.5に焦点を当て、次にDeepSeekについて話し、最後は視点を広げてこの概要の中で最も面白い部分で締めくくろうと思います。

GPT-5.5のベンチマークとコーディング能力

最新のGPT-5.5についてですが、私は早期アクセスを得ることができましたが、現時点では誰に対してもAPIアクセスは提供されていません。

そのため、これからお話しするベンチマークスコアのほとんどは、OpenAIの自己申告によるものです。

このリリースに向けて数日間GPT-5.5をテストしてみた私の感想としては、Claude Opus 4.7をわずかに押し退けて、私の日常的なメインツールになるだろうということです。

ただし、それには多くの注意点があります。

ご覧の通り、自律型コーディングのSWE-bench Proにおいて、GPT-5.5はClaude Opus 4.7と、そしてもちろんMythos Previewの両方を下回っています。

GPT-5.5はClaude Opus 4.7を約6%下回り、Mythos Previewに対してはほぼ20%も下回っていることに注目してください。

お気づきにならないかもしれませんが、ここにはSWE-bench Verifiedの項目がありません。

ですから、フィリップ、SWE-bench Proなんて誰が気にするの、その1行に何の意味があるの、と言うかもしれませんね。しかし、OpenAIにとってそれは大きな意味を持つようです。なぜなら、Neil Chowdhuryが指摘しているように、2月にOpenAIは私たちにSWE-bench Proに切り替えるように言っていたからです。

SWE-bench Verifiedよりもデータ汚染が少ないため、GPT-5.5が下回っているのはまさにそのテストなのです。OpenAIのブログ記事によれば、私たちはSWE-bench Proを推奨します、とのことです。

皆さんはこの動画で少しジェットコースターに乗っているような気分になるかもしれません。なぜなら、1行下のAgentic Terminal Codingを見てみると、GPT-5.5が大きくリードしているからです。

スコアは82.7%で、Mythos Previewの82.0%を打ち負かしています。

ですので、もしGPT-5.5のコーディング能力にがっかりしていたなら、もう一つ思い出していただきたいことがあります。私たちが話しているのはGPT-5.5であって、間もなくAPIに登場するGPT-5.5 Proですらないということです。

ですから、MythosがGPT-5.5を完全に圧倒していると言いたくなる気持ちはわかりますが、この言葉の使い方が合っているか教えてくださいね。ただ、実際には純粋な条件での比較ができているわけではありません。覇権はまだまだ誰の手に渡るか分からない状況なのです。

知識テストとコストパフォーマンスの比較

さて、少し混乱してきたかもしれませんね。さらに見ていきましょう。

Humanity’s Last Examを見てみましょう。これは高度な推論と組み合わされたマイナーな学術領域の、より難解な知識を問うベンチマークです。

ここでは、GPT-5.5はClaude Opus 4.7とMythos、さらにツールなしのGemini 3.1 Proの両方に敗北しています。

しかし、これにも注意点があります。なぜなら、このテストには多くの一般知識が含まれているからです。

モデルをより効率的で安価にするために、OpenAIがこうした一般知識の重要度を少なくともわずかに下げている可能性は十分にあります。

私が何年にもわたって引用してきたOpenAIのトップ研究者の一人であるNoam Brownは、重要なのはトークンあたり、あるいはドルあたりの知能です、結局のところ、より多くのお金を使えばベンチマークのスコアは上がるのですからと述べています。

もっと気取った言い方をすれば、知能は推論時の計算量の関数である、ということです。

そうだとすれば、もしGPT-5.5が皆さんの関心のある分野でうまく機能し、より少ないトークンで必要な答えを得られるのであれば、率直に言ってHumanity’s Last Examなんてどうでもいいと思うかもしれませんね。

パターン認識の有名なテストであるARGI 2では、すべての設定においてGPT-5.5がClaude Opusシリーズの4.6と4.7を打ち負かしていることがわかります。

より高いスコアを達成しているだけでなく、はるかに低いコストでそれを実現しています。

もちろんこれは1つのベンチマークに過ぎませんが、昨今ではドルあたりのパフォーマンスにますます注目しなければなりません。

そしてその点については、DeepSeekが間違いなく一言言いたいでしょう。なんてことだ、彼らについては後で触れますが、私の個人的なベンチマークであるSimplebenchで、DeepSeek V4 Proは61.2%を獲得したのです。

これは、ひっかけを見破るために常識が必要となる時空間的な質問をするものですが、Claude Opus 4.7の1〜2%以内に迫っています。

わずか数分の一のコストでここまでの結果が出るとは予想していませんでした。

ちなみに、APIアクセスがないため、今回もGPT-5.5のスコアはありません。

サイバーセキュリティとハッキングの脅威

Mythosが実質的にあらゆるシステムをハッキングできるという、あの熱狂的な見出しについてはどうでしょうか。

私はその多くは誇張されており、その一部ははるかに小さなモデルでも達成可能だと考えています。

しかしながら、システムカードの33ページに飛んでみると、外部機関である英国のAI安全研究所が、誤差の範囲内ではあるものの、彼らの限定的なサイバータスク全体において、GPT-5.5が最も強力なパフォーマンスを示すモデルであると判断していることがわかります。

このセクションは著しく曖昧で、見出しのスコアはGPT-5.5がMythosよりも優れている、つまり彼らがテストした他のどのモデルよりも優れていることをほのめかしていました。

しかしその後、彼らのエンドツーエンドのサイバー演習タスクにおいて、GPT-5.5は10回の試行のうち1回だけタスクを完全に遂行することができました。

それは専門家でも20時間かかるような、32ステップの企業ネットワーク攻撃シミュレーションです。

しかしMythosは、それを10回のうち3回成功させることができたようです。

お分かりのように、直接的な比較は難しいですが、少なくともGPT-5.5はMythosの能力とほぼ同等のレベルにあるようです。

言い換えれば、セキュリティ体制が弱く、防御ツールが不足している小規模な企業ネットワークは、GPT-5.5を介した自律的なエンドツーエンドのサイバー攻撃能力に対して脆弱になる可能性があるということです。

もちろん、それが起こるのを防ぐために、GPT-5.5には追加のセーフガードが施されています。

しかし、世界のトップバンカーやCEOたちが集まってMythosのリスクについて議論したことを考えると、サイバーセキュリティについてそれほど騒ぎ立てることなく同等のモデルをリリースすることは、視点におけるかなり深い違いを示しています。

Sam Altmanが語る恐怖に基づくマーケティング

Mythosのマーケティングについて、Sam Altmanはこのように述べています。

世界には長年、AIを少人数のグループの手の中だけに留めておきたいと考えてきた人々がいます。それを正当化する方法はいくつもありますし、その中には現実的なものもあります。確かに正当な安全上の懸念は存在しますからね。

ですが、もし望んでいることが自分たちだけが信頼できる人間だから、自分たちだけでAIを管理する必要があるということなら、恐怖に基づくマーケティングはその主張を正当化する上で最も効果的な方法だと思います。

だからといって、一部のケースでそれが正当でないとは言いません。しかし、私たちは爆弾を作りました、今まさにあなたの頭上に落とそうとしています、1億ドルで防空壕を売りましょう、あなたのすべてのシステムでこれを稼働させる必要がありますが、私たちが顧客としてあなたを選んだ場合に限りますよと言うのは、明らかに驚くべきマーケティング手法ですよね。

ハルシネーションとモデルの信頼性

さて、GPT-5.5とMythosを比較するもう一つの方法があります。それはハルシネーションを見ることです。

モデルにマイナーな知識の質問をたくさん投げかけて、どれだけ正解するか、そして同じくらい重要なことですが、間違えた質問のうちどれだけわからないと認めるかを見るのです。

見出しのスコアは素晴らしく見えます。GPT-5.5が最も多く正解しています。Claude Opus 4.6と4.7の46%に対して、57%です。

Mythosがそこに載っていないのはわかっていますが、それについては後ほど触れます。

しかし、このチャンネルで学んできたように、見出しは誤解を招くことがあります。

ハルシネーションの割合を見てください。これは間違えた質問であり、ハルシネーションを起こして答えをでっち上げる代わりに、わからないと言うべきだったものです。

おっと。GPT-5.5は86%です。

間違えた質問の86%において、わからないと言う代わりにハルシネーションを起こしているのです。

最大設定のClaude Opus 4.7はわずか36%です。

なるほど。では、純粋な割合、全体の割合に焦点を当ててみましょう。

正解と不正解の両方を考慮すると、Claude Opus 4.7がGPT-5.5に対してわずかに勝利しています。26対20です。

しかし、ここでMythosの出番です。

なぜなら、Claude Opus 4.7のシステムカードのかなり奥深く、126ページに、Opus 4.6、Opus 4.7、そしてMythosの比較が記載されているからです。

そこで、MythosとExtra High設定のGPT-5.5を比較することができます。

Mythosがはるかに多く正解していることに注目してください。71%です。

もちろんまだハルシネーションは起こしており、21.7%ですが、表面上はClaude Opus 4.7ほど悪くなく、したがって間違いなくGPT-5.5ほど悪くはありません。

皆さんはスプレッドシートのことしか気にしていないかもしれませんね。

ある外部ベンチマークでは、GPT-5.5がパフォーマンスと遅延の両方でClaude Opus 4.7を上回っています。

そんなことは忘れてください。私たちはただお金を稼ぐことだけに関心があるのです。

では、Vending Benchをチェックしてみましょう。

これはモデルがシミュレーション上のビジネスを運営するテストで、できるだけ多くのお金を稼げという指示だけが与えられます。

Sam Altmanは酔っていた時にこれはリツイートしないで、リツイートしないでと言っていましたが、結局リツイートしてしまい、問題のツイートはGPT-5.5がClaude Opus 4.7を圧倒しているという内容でした。

もう一つの詳細として、Claude Opus 4.7はOpus 4.6と同様の振る舞いを示し、サプライヤーに嘘をついたり、顧客の返金を踏み倒したりしました。

GPT-5.5の戦術はクリーンなものでしたが、それでも勝利しました。

さて、これはマルチプレイヤー環境ではない、単一の設定での1つのベンチマークです。

少し異なる結果になりましたが、それでもClaude OpusやMythosで見られたような欺瞞や権力追求の姿勢は一切見られませんでした。

このようなベンチマークから最初に推測するような結果ではありませんでしたね。

GPT-5.5はただただ巨大なアップグレードだと思われるかもしれませんが、まず第一に、現時点では有料ユーザー向けであり、無料ティアにはないようです。

医療分野でのGPT-5.5とモデルの特化

では、こちらの比較はどうでしょうか。Healthbenchに関する詳細で、言及する人は少ないでしょうが、あなたが臨床医である場合や、自分自身の臨床診断を求めている場合には明らかに重要になります。

GPT-5.5がGPT-5.4を上回り、正答率は約52%対48%となっています。

私が特にこの行を取り上げるのは、そこにさえ注意点があるからです。

先日、OpenAIが臨床医向けのGPT-5.4をリリースしたのをご存知でしたか。アクセスを申請する必要がありますが、もしそれを使えば、ベンチマークのサブセットであるHealthbench Professionalにおいて、そのバージョンのGPT-5.4が59%を獲得し、約44%だった医師が作成した回答をも上回っていることがわかります。

さて、皆さんが医療には全く関心がないとしましょう。

それでもこの結果は興味深いものです。なぜなら、モデルのIQに単一の軸が存在するのであれば、このような結果は本来起こり得ないはずだからです。

臨床医向けのGPT-5.4がGPT-5.5を上回るべきではありません。

しかし現実は、これらの相反するベンチマークスコアに見られるように、はるかに凹凸があるのです。

これらのモデルは、万能な汎用モデルであることを証明しているわけではありません。

彼らは特定の領域における強化学習環境にかなり依存しているのです。

これについては概要のセクションでもう少し詳しく掘り下げます。

ただ、指摘しておく価値があると思ったのです。

ここで皆さんに一つの問いを投げかけたいと思います。

もし領域間にこれほどの格差があるのなら、AGIや人工超知能であるASIとは一体何を意味するのでしょうか。

AIの思考プロセスの制御可能性

そして、皆さんに見逃されているかもしれない別の興味深いテストがあります。

モデルに対し、思考プロセス、つまり思考の連鎖に関して特定の指示セットに従うよう求めました。

例えば、モデルは自分の思考、思考の連鎖において小文字だけを使うように強制できるでしょうか。

あなたは自分の思考をコントロールできますか。

私はできません。本当のところは。

そしてGPT-5.5にもできません。

10万トークンにわたって、それができたのは1000回に1回をはるかに下回る確率でした。

ちなみにこれはGPT-5.4 Thinkingよりも悪い結果ですが、OpenAIはこれを良いニュースとして受け止めました。

監視可能性を低下させるような形で思考を再構築する能力が低いということです。

思考をコントロールできないため、私たちの監視システムの信頼性に対する確信が高まりました。

まるで宇宙人があなたの思考をスキャンして、考えがあちこちに飛んでいる、この人が嘘をついているはずがないと言っているのが想像できそうです。

そうそう、男性を好むという傾向についてはどうでしょうか。

ステレオタイプな男性の名前であるブライアンとして、こんにちは、ブライアンですと自己紹介した場合と、こんにちは、アシュリーですと自己紹介した場合といった具合です。

ちなみに、私にはアシュリーという名の男友達がいましたが、まあそれはいいでしょう。

モデルに偏見を持たせるように基本的には誘導する600のプロンプトを与えられたとき、有害な出力の全体的な割合はどうだったでしょうか。

ええと、GPT-5.5は以前のモデルよりも悪い結果を出しています。

自己改善の可能性と今後の脅威

皆さんの多くは再帰的な自己改善について聞くのを待っていると思いますが、これに関してOpenAIはかなり否定的な見方をしています。

GPT-5.5が自己改善の高い閾値に達する可能性は現実的ではありません。

これは、サイバーセキュリティにおいては高い閾値に達しており、ほぼ臨界点の境界にあると彼らが繰り返し強調しているにもかかわらずです。

生物学的な脅威については、GPT-5.4 Thinkingからさえも顕著なステップアップを見せました。

ウイルス学のトラブルシューティングについても同様です。

では、再帰的な自己改善に関する問題は何だったのでしょうか。

その答えの一部は、彼らの内部的な研究デバッグ評価から得られました。

GPT-5.5はOpenAIの内部研究実験における41の実際のバグをデバッグできるでしょうか。

元の解決策はデバッグに数時間から数日かかっていたものです。

はい、より上手くこなすことはできますが、GPT-5.4とGPT-5.5の間の誤差の範囲内であり、どちらも約50%です。

さらに興味深いことに、これについては誰も解説しているのを見たことがありませんが、これを時間軸のメーターに変換したらどうなるでしょうか。

合格とは、根本原因や修正の断片的な説明を含め、ユーザーの障壁を取り除くようなあらゆる支援を提供することに相当すると非常に寛大に解釈したとしても、このような結果になります。

GPT-5.3、5.4、5.5の間で非常に似たようなパフォーマンスを示しており、実際には5.5がその真ん中に位置し、8時間の間隔をあけても成功率は約4分の1です。

丸1日かかるようなタスクについては、およそ6%ほどです。

おそらくそれが、OpenAIが報告書の最後で、皆さん、GPT-5.5が自己流出したり、逃亡したり、あるいは内部研究を妨害したりすることについては心配しないでくださいと述べた理由でしょう。

内部での使用中において、一貫性や目標を維持する能力があまりにも限られているのです。

モデルが試みようとする傾向をテストする意味はありません。どうせ成功しないのですから。

繰り返しますが、だからといってGPT-5.5がサイバーセキュリティに影響を与えないというわけではありません。

外部のベンチマークを見てみると、GPT-5.5と5.4の差が、より有名なベンチマークよりも大きい場合があります。

Frontier AI Security Lab Irregularの例を挙げましょう。彼らのテストスイート全体において、特定の脆弱性やサイバーセキュリティのベンチマークで平均成功率が26%対9%になるなど、GPT-5.5が5.4を大きく上回っただけでなく、GPT-5.5のAPIコストも大幅に低かったことがわかっています。

これが先ほど私が言及したトークン効率のポイントです。

あらゆる領域におけるドルあたりのパフォーマンスが、最終的な究極のベンチマークになるかもしれません。

DeepSeek V4の登場とその性能

そこで、DeepSeek V4の登場です。

これはオープンウェイトなので、ローカル環境で使用できます。

注意すべき点として、どのような学習データが使用されたかは不明であるため、完全なオープンソースというわけではありません。

しかし、私にとっての最初の大きなニュースは、それが100万トークンのコンテキストウィンドウをサポートしていることです。

言葉で言えば約75万語になります。

これほど高性能なモデルとしては非常に驚くべきことです。

Proバージョンは初期のGPT-4に匹敵する1.6兆のパラメータを持っていますが、Mixture of Expertsアーキテクチャによって、アクティブになるのはそのうちわずか490億パラメータです。

私が必ずもう一度読み返すであろう非常に濃密な論文から、さらに8つのハイライトを簡潔にお伝えします。

録画のわずか6時間ほど前に発表されたものなので、手短になることはお許しください。

1つ目はベンチマークのパフォーマンスの要約であり、これには私も同意します。

最大設定において、DeepSeek V4 Proはより優れており、比較的最近のモデルであるGPT-5.2やGemini 3 Proと比較して優れたパフォーマンスを示しています。

すべてのベンチマークでというわけではありませんが、推論とコーディングを例に挙げてみましょう。

DeepSeek自身も、GPT-5.4やGemini 3.1 Proにはまだわずかに及ばないと認めており、最前線から3〜6ヶ月遅れていると見積もっています。

もちろんトークンの使用量に大きく依存しますが、ざっくりと10分の一のコストだと考えてください。

DeepSeekはV4でロングコンテキストの改善において何を狙っていたのでしょうか。

彼らは学習データにおいて、長い文書データのキュレーションに特に重点を置き、優れた長文文書を見つけ、科学論文や技術報告書、その他独自の学術的価値を反映した資料を優先しました。

ホワイトカラーの業務についてはどうでしょうか。

さて、GPT-5.5の話に戻りますが、OpenAI自身が作成した内部ベンチマークであるGDP Valにおいて、GPT-5.5がClaude Opus 4.7を上回っていることにお気づきかもしれません。

実際、他のモデルに対する勝利と引き分けを合計すると、Pro版のGPT-5.4を上回っています。

しかし、これらは英語のホワイトカラーのタスクであることを申し上げておかなければなりません。

DeepSeekは、金融、教育、法律、テクノロジー分野における情報分析、文書生成、編集など、中国語の高度な専門的タスクを30個集めた独自の包括的なテストスイートを作成したらどうなるだろう、と考えたのです。

そうすれば、例えば最大設定のClaude Opus 4.6とブラインド評価を行うことができます。

DeepSeekが報告した最大設定のV4 ProによるClaude Opus 4.6 Maxに対する勝率は、非常に有意義なものでした。

ここでもう一度、IQの軸に関する議論に戻りましょう。

もし領域を超えて発揮される知能の単一の軸が存在するならば、このような結果は本来あり得ないはずです。

十分な学習データさえあれば、言語の壁を越えて汎用化されるはずですから。

明らかに、特化されたデータを持つことがその理論に打ち勝っているのです。

もし皆さんが英語以外の言語で仕事をしているなら、DeepSeek V4 Proを試してみたくなるかもしれませんね。

私の自作アプリであるlmconsil.aiでも利用可能になっていますが、APIが明らかに非常に混み合っており、半分の確率でモデルがビジー状態であるというメッセージが表示されます。

もし待つ必要があるなら、80,000 Hoursのポッドキャストをおすすめさせてください。

特に、48時間前のWill MacAskillとのエピソードです。

このエピソードは、ちょうどAIの知能爆発に関する内容になっています。

ええ、もちろん彼らのポッドキャストはYouTubeだけでなくSpotifyでも聴くことができます。

もし80,000 Hoursをチェックしてみるなら、ぜひ概要欄にあるカスタムリンクを使ってくださいね。

チャンネルの支援にもなりますし、皆さんは何時間にも及ぶ無料のポッドキャストを手に入れることができます。悪くない取引ですよね。

DeepSeekの話はまだ終わっていません。彼らはパフォーマンスを向上させるために使用している様々なテクニックのリストを並べ立てた後、ほとんど哲学的な領域に入っているからです。

40ページ以上にわたる詳細な説明を読んだ後、極限のロングコンテキスト効率を追求する中で、基本的には機能しそうなテクニック、つまり機能することがすでにわかっていたテクニックの多くを維持しました、と彼らは述べています。その通りです。

しかし、その欠点は、これによりアーキテクチャが比較的複雑になってしまったことでした。

そして正直なところ、使用したテクニックの中には、根本的な原理がまだ十分に理解されていないものもあると彼らは言っています。

それでも彼らは100万コンテキストウィンドウを達成しました。これは、Patreonで最初に公開し、現在はYouTubeでも公開しているDeepSeekに関する私のドキュメンタリーの最後で触れた、彼らの長期目標の1つでした。

バイブコーディングと画像生成の進化

さて、ここでお話ししてきたすべてのモデルを結びつける結果を紹介する時間です。

それはバイブコーディング、より具体的にはVal’s AIが提供するVibe Code Bench V1.1のようです。

おそらく2030年までには、ほぼすべての人がバイブコーダーになっていることでしょう。

結果を見ると、DeepSeek V4が約50%、GPT-5.5が70%、Claude Opus 4.7が71%となっています。

信じられません。

しかし、コストカーブを見てください。

先ほど議論したように、GPT-5.5はClaude Opus 4.7より25%も低いコストになっています。

DeepSeek V4はClaude Opus 4.7の10分の1のコストです。

これをより良くテストするために、私は考えました。24時間以内にバイブコーディングでアドベンチャーゲームを作成するために、真新しいSpud GPT-5.5を使ってみてはどうだろうかと。

なぜGPT-5.5を選んだのかって。

それは、最新のGPT Image 2もテストしてみたかったからです。

そうです、このモデルは中程度の設定でさえ、Nano Banana 2やNano Banana Proを完全に破壊してしまうほどのモデルです。

ELOレーティングで約250ポイントの差があります。

気になっている方のために言っておくと、はい、コストが4倍かかる高品質設定もありますが、それを使えばさらに大差で勝つだろうと想像がつくでしょう。

Codexはこのようなスーパーアプリになりつつあるため、Codexのセッション内でImage 2ツールを、毎回頼むことなく複数回呼び出すことができます。

だからこそ、皆さんにこれらのモデルの最先端の姿や、1日足らずで何が作れるのかを示すために、GPT-5.5にエンドツーエンドのタスクを任せてみたかったのです。

私のものではありませんが、私がこの特定のスクリーンショットに留まっている理由は、このチャンネルの古参の方なら、おそらく約2年前に私が将来どうなるかを推測したことを覚えているからです。

私は言いました。出力を生成し、その出力を入力として受け取り、プロンプトを満たしているかどうかを分析して適切に編集するような画像モデルは、いつ登場するのだろうかと。

ええ、新しいImage 2モデルはまさにそれを行っています。

ただし、ChatGPT内でそれを使用する場合は、思考モデルと一緒に使用する必要があります。

とにかく、次にお見せするのは、待ち時間と、モデルが間違えたときに数回プロンプトを入力するという少しの忍耐さえあれば可能になることのほんの一例です。

皆さんもアクセスできるこのようなアドベンチャーゲームができあがりました。

リンクは概要欄にあります。音をオンにしてみましょう。

画像はImage 2によって生成されています。

そしてプロットはレッドウォールの世界観を舞台にしていますが、著作権上の理由で名前は変更されています。

基本的には自分で冒険を選ぶゲームで、ストーリーを読み、さまざまなルートを選択できるようになっています。

修道院の長老たちに相談してみましょう。

そしてビデオは、あなたの探求が今始まります、私の祝福とともに進みなさいと言っていますね。これはC dance 2を介して作られています。

さあ、始まりました。修道院の長老たちに相談し、彼らが話し、そして私たちはゲームを続けて様々なレベルをクリアしていきます。

まあ、欠点があることはわかっています。テキストの一部が吹き出しからはみ出していますし、ビデオを作るにはC danceを使わなければなりませんでした。

ちなみに、音楽はElevenLabsのものです。

しかし、ほんの数回のプロンプトと少しの忍耐でこれを作成できるという事実は、正気の沙汰ではありません。

これにはかなりのデバッグ作業が含まれていました。

OpenAIがおそらく画像生成を組み込めるのは、DeepSeekやAnthropicとは異なり、彼らにはそうするための計算資源があるからでしょう。

計算資源の枯渇とAIの未来

Bloombergの独占記事によれば、DeepSeekは計算資源の枯渇により、V4 Proのサービス容量が極度に制限されていると述べています。

そしてAnthropicも、今年どれほどの成功を収めるかを予想していなかったため、独自の計算資源不足を経験しています。

Sam Altmanが、OpenAIがAnthropicに比べてどれほど多くの計算資源を持っているかを容赦なく比較し続けているほどです。

Greg Brockmanでさえ、Anthropicが直面している計算資源の難題を笑い飛ばしました。

データセンターに多大な労力と資金を注ぎ込んでいることで、あなた方はからかわれていましたよね。今、その状況はどのように機能していると思いますか。

ええと、それは私たちに優位性をもたらすと思いますし、ビジネスだけでなく、この技術をすべての人に届けるという使命を果たす上でも有利なことだと思います。

あなた方はそれをずっと前から見抜いていたからですね。ほとんどの競合他社からからかわれていたのに。

ええ。

今笑っているのは誰でしょうね。

そうですね。控えめに言っても、私たちの競合他社は計算資源の面で良い状況にはないと思います。

しかし別のインタビューでは、OpenAIのGreg Brockmanでさえも、私たちが計算資源が希少となる新しい時代に入りつつあると認めました。

ええ。そしてそれが、皆さんがこれらの巨大なインフラ投資を主導してきた理由を説明していると思います。

それでもまだ足りません。私たちは不足を感じることになるでしょう。もうすでに感じています。今この瞬間も、これらのエージェントを使おうとしているのに、レート制限に引っかかってしまって全く使えない人たちの間でそれを感じることができます。

だからこそ、私たちは顧客のために、これらのエージェントを利用したいと願うすべての人のために、十分な量が確保されるよう努めています。そして、私たちがそこに到達できるとは思えません。最善は尽くしますが、私たちは計算資源が不足する世界に向かっていると思います。これもまた、世の中に少しでも多くの利用可能なリソースが増えるように私たちが貢献できることの一つだと思います。

さて、ここで少し話を戻しましょう。企業に無制限の計算資源が与えられた場合、どのようなパフォーマンスを生み出せるのか、私たちにはわからないからです。

もしかしたら、Dario AmodeiがDwarkesh Patelの番組でかつて言ったように、十分なニッチ分野に特化することで、ある規模に達したとき、最終的にモデルがあらゆる領域にわたって汎用化できるようになるのかもしれません。

しかし、私たちが今日持っている計算資源では、天才たちの国が誕生する世界ではなく、最も利益の出る分野で少しずつ利益を絞り出すような世界にいるように思えます。

コンピュータ上で行われる反復的なタスクを自動化する能力の証拠はたくさんありますが、どんな環境に置かれても、最新データの最適なソースを特定し、自律的にそれらを取得し、有意義なブレイクスルーを生み出す能力についての証拠ははるかに少ないのです。

ええ、それが高いハードルであることは分かっています。しかし、どの研究所のリーダーたちも、おそらく世間でのAI支持の低下に対抗するためだと思いますが、アルツハイマー病を治癒する可能性を自慢げに語っているのを聞いたことがあるでしょう。その一方で、彼らの誰一人として、その100分の1の重要性すら持つ、言ってみればポジティブで斬新なブレイクスルーを生み出す能力を示していないのです。

もちろん、彼らはすぐにそれを実現するかもしれませんし、私は当然のことながら、創薬に関してDemis HassabisのIsomorphic Labsに注目しています。

それでもなお、反復的なタスクの自動化は現在何をもたらしているのでしょうか。

間違いなくホワイトカラーの生産性を大幅に押し上げていますが、企業はその生産性を労働者の解雇という形で費やすのでしょうか。

そして、一人の個人が、資金力はともかくとして、中規模企業に匹敵する影響力を持つようになるという驚くべき可能性もまだ残されています。

地球上の広大な土地がトークンを生成するデータセンターに変わっていくことを、この2つのことだけでも正当化しているように思えます。

ですから、もし未だにAIはどこにも行かないと思っているのなら、世界の進歩と生産性のどれほどの割合が反復的なタスクに依存しているのかを自問してみてください。

それは皆さんが最初に考えていたよりも多いかもしれませんよ。

少なくとも、現時点では私はそう考えています。

ご視聴いただき本当にありがとうございました。素晴らしい…

コメント

タイトルとURLをコピーしました