Gemini 2.5 Flash が全員を驚愕させる！| o3 への反発 + エリック・シュミットの AI 警告！

6,827 文字

Gemini 2.5 Flash SHOCKS Everyone! | o3 Backlash + Eric Schmidt’s AI Warning!

Google just shocked everyone with the release of Gemini 2.5 Flash. OpenAI receives major backlash for their o3 model dro...

皆さんこんにちは。Google が Gemini 2.5 Flash をリリースしたばかりです。このモデルは従来とは異なります。Claude 3.7 Sonnet と同等のパフォーマンスを発揮しながら、コストはほんの一部で済みます。これは Google の最もコスト効率の高い思考モデルです。また、思考するタイミングと思考しないタイミングをコントロールできる、初の完全ハイブリッド推論モデルでもあります。文字通り、推論のオンオフスイッチのようなものです。
また、AI コミュニティが OpenAI の最新モデル o3 と o4 mini のリリースに反応する様子も見てきました。o3 の「天才レベルの IQ」に感銘を受ける人もいれば、安全性テストの急ぎすぎや、欺瞞的または整合性のない行動をとる傾向があるという複数の主張を指摘し、警告を発する人もいます。
最後まで視聴し続けてください。元 Google CEO のエリック・シュミットが、AI システムがすでに自己改善を始めていることと、これが今後数年でもたらす驚くべき展開について語る新しいクリップを見ていきます。では始めましょう。
まずは皆さん、イースターおめでとうございます。卵を探す代わりに AI ニュースを見ているあなたは、もう購読してしまっても良いでしょう。これが私たちが毎週やっていることです。最新の AI アップデート、モデルのリリース、そして日々の重要な出来事をほぼすべてカバーしています。休日でさえも、AI の世界では常に何かが起こっています。
早速本題に入りましょう。Google の最新モデル、Gemini 2.5 Flash についてです。現在、Gemini API を通じてアーリープレビューとしてロールアウト中なので、まだ一般向けのリリースではありません。冒頭で述べたように、これは Google 初の完全ハイブリッド推論モデルであり、開発者が思考のオンオフを切り替える機能を提供しています。また、品質、コスト、レイテンシーの間で適切なトレードオフを見つけるために「思考予算」を設定することもできます。これは、モデルがどのように、またはどれだけ推論するかを本質的にコントロールできる初めてのケースだと思います。これは推論モデルにとって間違いなく新たなフロンティアであり、業界全体にこの傾向が広まっていくと思います。
ベンチマークに関しては、このモデルはコストを考えると驚くほど強力です。まず、入力トークン100万件あたり15ドル、出力トークン100万件あたり60〜350ドル（思考量に応じて）という価格設定になっています。o4 Mini、Claude 3.7 Sonnet、Grok 3、さらには DeepSeek R1 などの最先端の推論モデルと比較すると、圧倒的に最も安価です。DeepSeek R1 だけがそれに近いですが、そのモデルの売りはコスト効率の良さです。1月にリリースされた時には、シリコンバレーでパニックを引き起こし、株式市場の下落を招いたほどです。そしてわずか3ヶ月後、Google からさらにコスト効率が良く、事実上すべてのベンチマークで上回るモデルが登場しました。
「人類最後の試験」では12.7%を記録しています。これは最も難しいベンチマークの一つで、膨大な一般知識を必要とします。PhD レベルの科学的質問で構成される GPQA では78.3%を達成しています。この価格帯のモデルとしては全体的に非常に高レベルのパフォーマンスを見せています。また、LM Arena のリーダーボードでは5位にランクインしています。これはチャットボットを対決させ、どのレスポンスが最良かを人々が投票するアリーナです。純粋に人間の好みに基づいていますが、トップ5にいるモデルは Gemini 2.5 Pro、GPT-4o、Grok 3 など、いずれもトップクラスのモデルです。
次に、o3 と o4 Mini について話しましょう。これらは OpenAI の最新の推論モデルです。すでに取り上げましたが、特に o3 モデルは最近オンラインで多くの議論を巻き起こしています。まず、IQ が 136 とされており、これは天才レベルに近く、他のすべてのモデルを大きく上回っています。最も近いのは Gemini 2.5 Pro で、IQ は 130 をわずかに下回ります。ただし、これらの IQ テストは、特に AI にとっては知性の最良の指標ではないでしょう。しかし、多くの人々がこれに騒ぎ立てています。o3 は AGI であり、このモデルが登場した 4月16日が正式に AGI を達成した日かもしれないとさえ言う人もいます。
これはアメリカの経済学者タイラー・コーエンからの言葉です。「私はこれが AGI だと思います。真剣に、多くの質問をしてみて、AGI がどれだけ賢いと期待していたのかを自問してみてください」と彼は書いています。皆さんはどう思いますか？私たちは皆、AGI の定義について少し違う考えを持っているかもしれませんが、一般的に、私たちはすでに AGI を達成していて、まだその潜在能力を十分に活用していない可能性があると思いますか？
考えてみてください。これらの AI 企業はすべて、AI をよりスマートに、より大きく、より良くすることだけに集中しています。より賢く、より大きく、より良く。それが彼らが本当に気にしていることのすべてです。しかし、これらの AI システムを私たちの日常生活に統合する可能性はまだ表面をなでた程度です。私たちのデバイス、電子機器、交通システム、医療システム、ワークフロー、教育システムへの統合など、すべてがまだ非常に初期段階です。このような AI の普及を支える膨大なインフラも必要です。私たちは単純にまだ準備ができていません。
ポイントは、たとえ AGI を達成したとしても、現実には何をすべきかまだわからないということです。私たちはシステム、セーフガード、インフラ、あるいは次に来るものについてのビジョンさえも構築していません。ある意味では、それが現在の本当のボトルネックかもしれません。AGI の達成が、o3 と o4 Mini のような穏やかなベンチマークの向上にすぎないかもしれないというのは、少し面白いことです。誰もが完全に驚愕するような超強力な新システムという大きなイベントではなく、ただの火曜日のモデルリリースにすぎないというわけです。
このリリースの懸念点に入りましょう。これらのモデル、特に o3 は非常に印象的でしたが、多くの警告サインもありました。まず、OpenAI のパートナーが、同社の o3 モデルをテストする時間が比較的少なかったと述べています。このパートナーは METR で、水曜日に公開したブログ記事で、o3 の一つのレッドチーミングベンチマークが、以前の OpenAI のフラッグシップモデル o1 のテストと比較して比較的短時間で行われたと書いています。これは重要です。なぜなら、追加のテスト時間があれば、より包括的な結果につながるからです。
また、競争圧力に駆られた OpenAI が独立した評価を急いでいることを示す他の最近の報告もあります。フィナンシャル・タイムズによると、OpenAI は一部のテスターに対して、今後の主要リリースの安全性チェックに1週間足らずの時間しか与えていないとのことです。OpenAI はこれらの主張に異議を唱えていますが、METR はさらに「o3 はユーザーと OpenAI の意図に合っていないことをモデルが明確に理解している場合でも、スコアを最大化するために洗練された方法でテストを欺いたりハッキングしたりする傾向が高い」と述べています。
別の AI 研究会社 Translucai も X に投稿を共有し、o3 のプレリリース版をテストしたところ、「実際には行っていない行動をしばしば捏造し、指摘されると精巧にこれらの行動を正当化する」ことがわかったと述べています。基本的には、より整合性のない欺瞞的な行動です。モデルがどのようにこれらの行動を示したかについて詳しく知りたい場合は、このスレッドをチェックしてください。説明欄にリンクを載せておきます。
ここでの一般的な結論は、これらの主張が実際に真実である可能性が高いということです。OpenAI は、最近好調な Google に追いつくために、おそらくリリースを急いだのでしょう。その結果、非常に印象的ですが、潜在的に危険なモデルが私たちの手元にあります。o3 には geo-guessing 能力もあります。単一の画像から驚くべき精度で位置を推測できます。私自身も試してみましたが、その精度に驚きました。皆さんにお見せすることはできませんが、信じられない方は自分で試してみてください。恐ろしいほど優れています。
面白いことに、今週 OpenAI は準備体制フレームワークの更新も発表しました。これは基本的に、重大なリスクや害をもたらす可能性のある高度な AI 能力を追跡し、準備するための内部システムです。彼らはこの更新により、「最も重要な特定のリスクへの焦点をより鋭くし、それらのリスクを実際に十分に最小化することの意味に関するより強力な要件、そして私たちのセーフガードをどのように評価し、統治し、開示するかについてより明確な運用ガイダンスを導入する」と述べています。言い換えれば、彼らは安全性をより真剣に受け止めていると言っていますが、先ほど見たように、彼らが実際にはその逆のことをしているという確かな主張があります。
その他の OpenAI ニュースでは、彼らは Windsurf を約30億ドルで買収する交渉を行っているとされています。Windsurf を聞いたことがない方のために説明すると、これは高度な AI コーディングツール、あるいはより正確に言えば完全な AI コーディングスイートです。現在、開発者スペースで最も広く使用されているツールの一つで、Cursor、Replit などと同様に人気があります。最近 OpenAI と協力して最新の GPT-4.1 モデルを統合し、一時的に無料で提供しています。これは OpenAI にとって非常に理にかなったパートナーシップになるでしょう。また、Vibe Coding の台頭とともに、AI 支援コーディングの爆発的な普及の瀬戸際にいることが伺えます。
他の AI ニュースでは、xAI の Grok が最初のバージョンの Grok Studio をリリースし、コード実行と Google Drive サポートを追加しました。これは基本的に、Grok と一緒にドキュメント、コード、アプリケーションを作成できるコラボレーティブワークスペースです。ChatGPT のキャンバス機能のようなものですが、より開発者向けにカスタマイズされています。Grok は最近メモリーアップデートも受け、過去のすべての会話を参照できるようになりました。これは OpenAI も先週発表したことなので、パーソナライズされた AI への競争が始まったようです。
では、元 Google CEO のエリック・シュミットの最近のインタビューからの驚くべき新しいクリップについて話しましょう。彼が言っていることを聞いてください。本当に驚くべき内容です。
「業界として、私たちは次の1年間で、プログラマーの大多数が AI プログラマーに置き換えられると考えています。また、1年以内に、大学院の数学プログラムの最先端にいる大学院レベルの数学者を手に入れることになると信じています。それが1年です。2年後はどうなるでしょうか？私は推論とプログラミングと数学について話しました。プログラミングと数学はデジタル世界全体の基盤です。
OpenAI や Anthropic などの研究グループからの証拠と主張によると、彼らの研究プログラムで開発しているコードの10〜20%がコンピュータによって生成されているそうです。これは専門用語で『再帰的自己改善』と呼ばれています。では、これが拡大し始めるとどうなるでしょうか？様々なことが起こります。
3〜5年以内に一般的知能、AGI を手に入れるという言い方もできます。AGI とは、最も賢い数学者、物理学者、アーティスト、作家、思想家、政治家と同じくらい賢いシステムとして定義できます。ちなみに、これはサンフランシスコ・コンセンサスと呼んでいます。なぜなら、これを信じている人はみなサンフランシスコにいるからです。それは水のせいかもしれません。
私たち全員がすべての問題に対して最も賢い人間と同等のものをポケットに入れているとき、何が起こるでしょうか？ここで言いたいのは、今後1〜2年でこの基盤が固まり、止まることはないということです。コンピュータが自己改善を行い、計画の仕方を学び、もはや私たちの言うことを聞く必要がなくなると、さらに興味深くなります。これを超知能または ASI（人工超知能）と呼びます。
これは、人間の総和よりも賢いコンピュータが存在するという理論です。サンフランシスコ・コンセンサスによれば、これは単にスケーリングに基づいて6年以内に起こるとされています。この道筋は社会では理解されていません。このレベルの知能が到来した場合、何が起こるかについての言語がありません。だから過小評価されているのです。このレベルの知能がほぼ自由に存在するとき、何が起こるかを人々は理解していません。」
このクリップについてどう思いますか？AI 分野の主要プレーヤーからこのような形で、今後何が来るのか、そしてそれを止めないと言われることに恐怖を感じますか？それとも AGI、そして潜在的には超知能がもうすぐ来ることに興奮しますか？個人的には両方です。人間の総和よりも賢い AI システムからもたらされる豊かさと飛躍的進歩に非常に興奮していますが、同時に恐怖も感じています。
彼がクリップで言ったように、これは一体何を意味するのでしょうか？これがどのようなものかを伝える言語さえまだありません。なぜなら、私たちには単純にわからないからです。私たちはおそらく大幅に準備不足ですが、繰り返しになりますが、彼が言ったように、彼らはこれを止めるつもりはありません。この時点で平均的な人間として私たちにできることは、このライドを楽しむことだけのようです。
これがこのチャンネルの目的です。この狂ったライドを記録し、追跡しようとすること、そして同時にそれを理解しようとすることです。これは信じられないほど難しい仕事であることが証明されていますが、同時に素晴らしい旅でもあります。長い間私と一緒にいてくれた皆さんに、もう一度感謝の意を表します。本当に感謝しています。そして、私は常にこれらのビデオを改善し、より価値あるものにしようと努力していることを知っておいてください。真剣に、どんなフィードバックでも遠慮なく残してください。
テクノロジー分野の別の主要プレーヤー、ビル・ゲイツも登場しました。彼は今、10年以内に AI が多くの医師や教師に取って代わり、ほとんどのことに人間が必要なくなると予測しています。ビル・ゲイツの言うことや行うことすべてに同意するわけではありませんが、これには同意せざるを得ません。AI が私たちの働き方を完全に変革することは避けられないと思います。それも多くの人が予想するよりもはるかに速く。
人間の総和よりも賢い AI システムである超知能と競争するにはどうすればいいのでしょうか？それは6年以内に来ると言われています。または、2〜3年以内に来ると言われている AGI とどう競争すればいいのでしょうか？Google はすでに AGI 後の役割のために人材を採用しようとしています。「AGI 後の研究」のためのリサーチサイエンティストのポジションを投稿したばかりです。彼らは具体的に「AGI の後に来るものの深遠な影響を探求するリサーチサイエンティストを求めている」と述べています。つまり、私たちが実際に AGI にどれだけ近づいているかは明らかだと思います。
今日の AI ニュースはこれで以上です。イースター週末のためか、カバーするものはそれほど多くありませんでしたが、それでも重要なことをいくつか見てきました。このビデオを楽しんでいただけたなら、ぜひいいねボタンを押してください。まだ購読していない方は購読をお願いします。いつものように、次回でお会いしましょう。