「イルカ語」からAIデータ支配へ、GPT-4.1＋Kling 2.0：7つの最新情報を批判的に分析

9,194 文字

‘Speaking Dolphin’ to AI Data Dominance, 4.1 + Kling 2.0: 7 Updates Critically Analysed

Giving some context to a hectic week of AI news. This video won’t just be about the release, then, of GPT 4.1, in the la...

AIの進歩は、日々の変化よりも数週間や数ヶ月単位で考えると、その積み重ねが大きいことに気づきます。この動画は、ここ48時間でリリースされたGPT-4.1やKling 2.0、次のOpenAIモデルO3の予告、GoogleのDolphin Gemmaといった新しい言語モデルだけでなく、これらすべてを広い文脈で捉え、7つのストーリーを通してAIの現状と今何が起きているのかを解説します。
まずは実用的な情報から始めましょう。AIの知能向上にあまり関心がなく、ただ使いやすいツールを求めている方々へ。ここ数日、KlingはKling 2.0をリリースしました。おすすめのワークフローとしては、まずChachiBTで画像を生成します。このツールは信じられないほどテキスト忠実度が高いからです。完璧ではありませんが、かなり優れています。
ちなみに、冗談を説明するべきではないのですが、背景画像はOpenAIのモデル名をからかっているのがわかるでしょう。ちょっとしたアドバイスですが、もし下品な言葉があれば、ChatGPTはそれを生成しますが、Klingはそれを画像に含めません。だからGPT WTFという表現のないバージョンを使わなければなりませんでした。
ここで言いたいのは、Kling 2.0は私にとって、滑らかでリアルなシーンを生成する最先端技術だということです。もちろん物理的にはまだ完璧ではありませんが、V2やSoraのビデオ生成と直接比較しました。完璧ではないので深く掘り下げませんが、時に積み重なった進歩は振り返ってみると非常に大きなものになることがあります。
そういえば、ここ48時間でOpenAIからGPT-4.1がリリースされました。これは最大100万トークン（約75万語）を処理できる彼らの初めてのモデルです。有名なおしゃべり好きのClaude 3.7 SonnetやGemini 2.5 Proよりも若干簡潔ですが、GPT-4.1はそれほど大きな進歩だとは思いません。そのため、多くの時間をかけて説明はしませんが、背景について少し触れておきます。
GPT-4.1はGPT-4.5と同様に「推論モデル」ではありません。つまり、回答を提供する前に長い思考の連鎖を出力しません。それならば、すでにGPT-4oとGPT-4.5という非推論モデルがある中で、なぜGPT-4.1をリリースしたのでしょうか？OpenAIが期待したほどGPT-4.5の需要がなかったようです。これはGPT-4.5の高価格やGemini 2.5 Proの優秀さが理由かもしれません。そこでOpenAIは、GPT-4oよりも優れていながらGPT-4.5ほど高価ではなく、より迅速に回答する非推論モデルをリリースしたかったのでしょう。
後ろの方で手を挙げている皆さん、「推論モデルがこれほど優れているのに、なぜ非推論モデルが必要なのか？」という質問ですね。もし「ベースモデル」をソフトウェアエンジニアリングで改良できれば、それにより良いベースモデルに推論を適用したときに、より良い最終結果が得られます。しかしOpenAIにとって少しマーケティングの問題があります。もしGoogleが、OpenAIの非推論モデルよりも低価格で、より優れたパフォーマンスを発揮する推論モデルを提供できるなら。
ADAのPolygotコーディングベンチマークを例に挙げましょう。これは人気のある評価の高いベンチマークです。数字を覚える必要はなく、相対的なパフォーマンスに注目してください。GPT-4.1はコスト約10ドルで52%の正解率です。これらの数字を念頭に置いて上にスクロールすると、Gemini 2.5 Proは6ドルのコストで73%の正解率を達成しています。
私自身のベンチマーク「Simple Bench」では、非推論モデルにクラスタリング効果が見られます。GPT-4.1は27%で、これはLlama 4、Maverick、Claude 3.5 Sonnet、新しいDeepSeek V3と非常に似ています。ちなみに、APIがリリースされたので、ついにGrok 3をベンチマークすることができました。それは36.1%を獲得し、元のGPT-4.5の約34%と直接比較できます。Gemini 2.5 Proがリードしていることにお気づきでしょうが、それについては後ほど。
100万トークンのコンテキストウィンドウについてはどうでしょうか？これは確かに際立っていますが、Gemini 2.5 Proも100万トークンのコンテキストウィンドウを持っています。長いフィクションの物語全体に手がかりを散りばめると、このすばらしいベンチマークでは、どのモデルが実際にそれらの手がかりを拾い、長いコンテキストを最も活用できるかがわかります。拡大すれば見えるかもしれませんが、Gemini 2.5 Proは10万語の長さの小説全体でもこれを行うことができます。このベンチマークでは、GPT-4.1は大きく後れを取っています。Gemini 2.5 Pro以外のほとんどすべてのモデルも同様です。
OpenAIの「干し草の山から針を見つける」のようなチャートを見るとき、彼らは自社モデルが最も良く見えるベンチマークを選択的に選んでいることを覚えておいてください。Llama 4も非常に似たことをしていました。もちろんLM Arenaについては言わないでください。これは大いに操作可能で、Metaによって操作されました。
これは少し厳しいかもしれませんが、OpenAIはちょうど長いコンテキストに関する新しいベンチマーク「OpenAI MRCR」をオープンソース化したばかりです。唯一の問題は、Googleからすでに1年以上前に類似のベンチマークが提供されていることです。このベンチマークでは、モデルファミリー間で比較できました。リードしていれば、他のモデルファミリーと比較したくなるのは当然でしょう。
もちろん、今夜または少なくとも来週中にはOpenAIからO3が登場する可能性が高いことは承知しています。The Informationによれば、このモデルは科学の分野で本当に役立つもので、異なる分野の概念間の関連性を結びつけ、核融合や病原体検出などに関する新しいタイプの実験を提案できるとのことです。これはモデルをテストした人々によるものです。そして、O3だけでなくO4 Miniも登場するようです。
タイトル通り、この発表を実際に起こる前でも批判的に分析しなければなりません。まず明らかに、The Informationが報じる月額2万ドルの価格を正当化するためには、非常に優れていなければなりません。第二に、モデルはベンチマークで良好なパフォーマンスを示すかもしれませんが、実際の世界を理解したり、科学を行う際に効果的に機能したりするとは限りません。Gemini 2.5も含みます。
ある研究者が最近発見したように、SimpleBenchをフォローしているか独自のテストを行っている方なら、これが来ると予想していたでしょう。彼が真鍮部品の製造に関するベンチマークを作成したとき、Gemini 2.5を除くすべてのモデルが最初のハードルで失敗しました。視覚能力が劣悪だったからです。しかし、Gemini 2.5でさえ物理的推論が非常に悪く、その加工計画には初心者の機械工でも気づくような重大なエラーが複数ありました。教科書の用語を繰り返すことはできても、実用的な理解が欠けていました。これはGemini 2.5であることを覚えておいてください。2月にGoogleが宣伝した、Gemini 2を搭載したAI共同科学者を思い出してください。
Gemini 2.5やO3が興味深い新しい研究方向を提案できないと言っているわけではありません。ただ、他の人間が持っていない科学の神秘的な理解をまだ持っていないということです。少なくともまだです。そして「まだ」と言う理由は2つあります。1つはビデオの最後に述べることと、もう1つはここでの理由です。モデルは物理的推論や空間的推論の質問タイプでさえも、徐々に改善しています。
私自身はO3をテストしていませんが、知人を通じて多くの回答を分析しました。彼らはOpenAIで働いているわけではありません。モデルはまだ基本的なエラーを犯しますが、他のどのモデルも一度も正しく答えられなかった特定の質問に正解する唯一のモデルです。訴えられるリスクなしに現時点で言えるのはこれくらいですが、これは私の「漸進的改善」という点を裏付けています。
もちろん、O3は特に高設定では、Gemini 2.5 Proよりも遅く、より高価になる可能性がありますが、それはあなたが考えるほど重要ではないかもしれません。特に、サティア・ナデラと今週のサム・アルトマンの言葉を借りれば、OpenAIはモデル企業から製品企業へと移行しているからです。
「ChatGPTは標準的なユーザーのようなものです。モデルの能力は非常に賢いですが、優れた製品を構築する必要があります。単に優れたモデルだけではなく。そして、優れたモデルを持つ人々はたくさんいるでしょうし、私たちは最高の製品を構築しようとします。」
このチャンネルの焦点は、製品機能よりもモデルの知能の最先端にありますが、私はある傾向に気づきました。より多くの製品機能が、異なるモデルプロバイダー間でコピーまたは共有されるようになっています。Claudeシリーズを持つAnthropicは、ウェブ検索機能を追加し、まもなくOpenAIのようなボイスアシスタントを導入する予定です。そして今、AnthropicはDeep Researchにも参入し、独自のリサーチモードを持っています。これはGeminiが彼らのDeep Researchツールを更新した後に来ました。
Gemini 2.5 Proを搭載したGeminiツールが現在最高のものであることはほとんど驚きではありません。私は最近、OpenAIのDeep ResearchからGeminiのツールにデフォルトを切り替えました。単に速くて平均的に少し良いからです。単純なクエリに対しても大量のテキストが出力されるのはあまり好きではありませんが、それでもその精度は私にとって少し高いです。もちろん、これはOpenAIの200ドルのProティアに支払うことを正当化するのが少し難しくなっていることを意味しますが、次の週に何がリリースされるか見てみましょう。
Deep Researchと言えば、LLMが回答の理由を正当化しようとするときにどのように嘘をつくかを見たい場合は、私のPatreonの最新ビデオをチェックしてください。私が行った少し面白いテストの一つは、私の想像から完全に作り上げたアフリカの著者に関するレポートをどのDeep Researchが作り上げるかを見ることでした。あるDeep Researchツールは素晴らしくうまくいき、もう一つはそうではありませんでした。
すべての製品提供に少し圧倒されている場合、イリヤ・サツケヴァーのSafe Super Intelligenceがあなたをサポートします。彼らは製品を全く提供していません。それでも彼らは今や320億ドルの価値があるとされています。これは作り話の数字ではありません。人々は数十億ドルを彼らに与えています。今回は200億ドルをその評価で。私はそれ以上の詳細を提供することはできません。ただ明らかな疑問は、彼らは一体何をしているのかということです。
今ここにある製品の一つは、今日のビデオのスポンサーであるEmergent Mindです。ここではオンラインで注目を集めているAI論文を見ることができます。私はそれらの論文を読む時間があるかもしれませんが、あなたがしたいなら、Gemini 2.5 Proを使ってそれらの論文を要約することができます。あるいは、報酬ハッキングのようなトピックに興味があるだけなら、それを検索してGemini 2.5 Proからすべての関連論文の要約を得ることができます。
私はEmergent Mindの作成者を実際に知っていて、PDFを直接クリックしてすぐに表示できるこの機能を求めました。以前にも言ったように、特定の論文に対するソーシャルメディアの反応を見ることができる下部のソーシャルセクションも大好きです。ちなみに、現在大学に在籍している学生には無料のProティアを利用しています。リンクはいつものようにemergentmind.comの説明にあります。
多くの皆さんと同様に、私の注目を引いたのはGoogleのDolphin Gemmaでした。GoogleのAIが「イルカのコミュニケーションを解読する」という壮大なタイトルで、ソーシャルメディアで何百万ものビューを獲得しましたが、調べてみると、見た目ほどの内容はありませんでした。誤解しないでください、これを試みていることは素晴らしいと思いますし、非常に熱心に応援しています。私は動物が大好きなのです。
ただ、YouTubeやTwitterで見かけた誇大宣伝の見出しを分析すると、あたかも既にそれができるモデルがあるかのように聞こえるだけです。しかし発表はむしろ進捗に関するものでした。信じられないほどのデータセットを蓄積したこと、そして最終的にある目標を達成する計画であることについてです。
「この研究の最終目標は、イルカの自然な音の中の構造と潜在的な意味を理解し、言語を示す可能性のあるパターンやルールを探ることです。」
付随するビデオを見ると、ある研究者は「彼らが言葉を持っているかどうかはわかりません」と言っています。もちろん私と、ほとんど全ての視聴者は彼らが言語を持っていることを期待しています。なぜなら、それを解読できることは狂気じみて素晴らしいからです。ただ、誇大な見出しに惑わされないでください。彼らが首尾一貫した言語を持っているかどうかは実際にはわかっていません。
特定の行動と相関する特定の音の種類があることは知られています。例えば、独自の名前のようなホイッスル音、けんかの際に出す特殊な音、求愛中のブンブンという音などがありますが、これは彼らが言うように、言語を示す可能性のあるより抽象的なルールとは異なります。彼らはイルカから発せられる音の中に潜在的な意味を探していて、Pixel 9スマートフォンに搭載できる4億パラメータのモデルを使用しています。
その後、「イルカ語を話す」という目標の明らかな利点を宣伝しています。もちろん、特定の音を解読したら、その音をスマートフォンから発信させ、本質的にイルカとコミュニケーションをとることができます。それは素晴らしいことでしょう。それはもちろん、より単純な共有語彙を確立することになります。それが研究者たちの希望で、生来好奇心旺盛なイルカが特定のアイテムを要求するためにホイッスル音を模倣することを学ぶことです。再び言いますが、絶対に信じられない研究で、彼らが成功することを本当に願っています。
私は彼らの一番のファンになるでしょうが、ただ私たちが現在実際にどこにいるのかという感覚を皆さんに伝えたかっただけです。ちなみに、イルカは原始的な言語を持っているのではないかと私は推測しているので、この使命に期待しています。
ここでビデオを終えることもできましたが、冒頭で述べたように、皆さんに私たちがどこにいるのかのコンテキストを理解してもらいたいと思います。過去数年間の様々なメディアの報道から、私たちは計算能力に制約されていることをご存知かもしれません。進歩を制限する唯一の要因は、例えばNVIDIA GPUの不足であるということです。
もちろん、これさえも単純化でしょう。GoogleはNVIDIAに依存しない第7世代TPUを発表しましたが、もしあなたがそれがすべて計算能力に関するものだというような一般的な説明を受け入れているなら、OpenAIのGPT-4.5のプレトレーニングに関するこのビデオは、いくつかの答えを持っているかもしれません。実際のところ、今は計算能力の制約よりもデータの制約の問題なのです。
「GPT-4までを見ても、私たちは主に計算環境にいました。そこに研究のほとんどが向けられていました。しかし今、4.5から始まるデータのいくつかの側面では、非常に異なる状況にいます。私たちははるかにデータに束縛されています。これについての研究にさらなる興奮があります。世界がまだ理解していない狂気のアップデートです。私たちが生産できる最高のモデルはもはや計算に制約されていません。私たちはそういう世界にとても長く住んでいました。」
最も有用なデータの種類は評価やベンチマークでしょうか？OpenAIの最高製品責任者は今週、それをうまく説明しました。
「AIがいかに驚くべきものになるかは、評価がどれだけ良いかによってほぼ制限されているというコメントがありました。これには共感しますか？他にも考えはありますか？」
「これらのモデルは知性であり、知性は非常に多次元的です。モデルが競争的コーディングに優れていることについて話すことができますが、それはそのモデルがフロントエンドコーディングやバックエンドコーディング、あるいはCOBOLで書かれた大量のコードをPythonに変換することに優れているのと同じではないかもしれません。そしてそれはソフトウェアエンジニアリングの世界の中だけのことです。
世界のほとんどのデータや知識プロセスは公開されていません。企業や政府、その他の壁の向こう側にあります。同じように、あなたが会社に入社するなら、最初の2週間はオンボーディングに費やし、会社特有のプロセスを学び、会社特有のデータにアクセスすることになります。
これらのモデルは十分に賢いので、何でも教えることができますが、学ぶための生データが必要です。そういう意味では、未来は本当に信じられないほど賢い広範なモデルで、会社特有または使用事例特有のデータで調整されて、会社特有または使用事例特有のことに本当にうまく機能するようになるでしょう。カスタム評価でそれを測定することになります。
私が言及していたのは、これらのモデルは本当に賢いですが、データがトレーニングセットにない場合は、まだ物事を教える必要があるということです。そして、一つの産業や一つの会社に関連しているため、トレーニングセットに含まれない使用事例が膨大にあります。」
そのため、OpenAIはOpenAI Pioneerプログラムで、ドメイン固有の評価を得るために協力できる人と働きたいと考えています。モデルのためのニッチな評価を持つことは、良いデータを悪いデータから抽出し、モデルのデータ効率を向上させるだけでなく、モデルを改善するための最良の新しいデータを特定するのにも役立ちます。
その新しいデータが情報を含んでいるか、強化学習中にモデルのパフォーマンスを向上させる関数やプログラムと考えることができるなら、それは優先されるでしょう。それが、多くの他の理由の中でも、Googleがリードを取り、さらに持続的なリードを持つかもしれないと私が考える理由です。
新しいO3がいくつかのベンチマークでそれを超えることはないと言っているわけではありません。今後1、2年にわたる長期的な傾向について話しています。Googleはほぼ無制限のデータを調達できます。Google検索、Android、Chrome、Gmail、Googleマップ、YouTube、Whimoの自動運転、さらにはCalicoの寿命延長などを考えてみてください。
そして、最初に戻って、Simple Benchやあのブロスマニュファクチャリングベンチマークでのパフォーマンスの欠如を思い出してください。ほんの1週間前ほど、Googleは地理空間推論を発表しました。これは彼らの最初の試みの一つで、Geminiをこれらの空間推論ツールの束と統合するものです。彼らの1分間のプロモーションビデオに語らせましょう。
「地図やトレンドから気象、洪水、山火事まで、Googleは数十年にわたって地理空間の世界を研究し、その情報をAIモデルとリアルタイムサービスを通じてアクセス可能にしてきました。しかし、これらのモデル間で統合し、あなたのデータと私たちのデータを組み合わせることは、難しく高価なことがあります。
そのため、私たちは地理空間推論を導入しています。今やあなたのデータとモデルをGoogleの地理空間ツールと一緒に持ち込み、より簡単に分析することができます。Geminiの推論能力を使用して、Geminiがカスタムプログラムを計画し実行し、データを検索し、複数のモデルから推論を収集して、単純な会話インターフェースを通じて強力な洞察を解き放ちます。
地理空間推論は、公衆衛生、気候回復力、商業用途などを推進するための重要なツールになる可能性があります。」
Googleが永続的なリードを取ることは、特にマスクとアルトマンにとって、10年来の苦い痛みであるにちがいありません。最後に、OpenAIがどのように設立されたかについての最近のドキュメンタリーから45秒の抜粋で終わります。これは10年前のほぼ同じ月に、GoogleがAGIを作るのを止めるために設立されたものです。
マスクとアルトマンの間の後の訴訟から漏れた電子メールで、Googleを止めることについての5月のメール交換が明らかになりました。こちらです。
「人類がAIを開発するのを止めることが可能かどうかについて多く考えてきました。これはマスクへのアルトマンのメールです。答えはほぼ間違いなくノーです。もしそれがともかく起こるなら、Google以外の誰かがそれを最初にすることは良いことのように思えます。Y Combinatorが人工知能のためのマンハッタン計画を始めることが良いかどうかについて何か考えはありますか？私の感覚では、トップ50の多くがそれに取り組むようにできるでしょうし、技術が何らかの非営利組織を通じて世界に属するように構成できるでしょう。」
最後まで見ていただきありがとうございます。このOpenAIの研究者がO4 Miniをこの長いホワイトボードリストに追加するのが待ちきれません。