この動画では、GoogleがリリースしたGemini 2.5 Proが多くのベンチマークで世界最高の言語モデルとなったことを解説している。しかし、Google CEOらは2030年以前のAGI実現には懐疑的であり、モデルには依然として基本的な視覚認識の問題が残存している。また、最近話題となっているAIによる白領労働者の大量失業に関する報道を詳細に検証し、実際の失業率データを分析すると、現時点では劇的な影響は見られないことを明らかにしている。
他の皆さんがTwitterの喧嘩などに注目している間に、私たちは本当のニュース、つまりAIの発展に注目しましょう。AIは加速していると言えるでしょう。特にGoogleの場合、最新版のGemini 2.5 Proをリリースしたばかりで、これは大多数のベンチマークにおいて明確に世界最高の言語モデルです。
はい、私自身のSimple Benchを含めてです。Claude Opus 4、Grok 3、そしてOpenAIのo3を含む他の全てのモデルを上回っています。ただし、OpenAIからはo3 Proがかなり近いうちにリリースされることが予想されています。そして、これは応答が早く、APIを通じてより安価で、最大100万トークンを処理できるという事実を考慮する前の話です。これは他のモデルの4〜5倍です。
しかし、あまり興奮しすぎる前に、Google DeepMindのCEOであるDemis Hassabisと、Googleそのもののサンダー・ピチャイが昨日、2030年以前にAGIは期待できないと両者とも述べた理由があります。ポッドキャストを聞いている方には申し訳ありませんが、ここにある2本の線を見てください。これらの縦線のうち、どちらが最も長いと思いますか?
最新版のGemini 2.5 Pro、バージョン0605。アメリカ以外の方にとって、この命名方式は非常に混乱しやすいものです。しかし、この最新版は何と言っていると思いますか?「一見すると、線Aは線Bよりもずっと長く見えます。しかし、これは目の錯覚で、両者は同じ長さです」と言っています。
実際、後にモデルは「これは自分で確認できます。画面に定規を当ててみてください。同じ長さであることがわかります」と断言しています。聞いている方のために言っておくと、明らかに同じ長さではありません。もちろん、これは逸話的なものですが、サンダー・ピチャイが近中期においてGoogleは労働者を解雇するのではなく、より多くの労働者を雇用すると述べた理由があります。
もちろん、CEOを常に信頼できるわけではありません。だからこそ、最近よく見かける白領層の大虐殺に関する見出しについて調査することに、この動画の後半部分を費やすつもりです。深く掘り下げてみると、すべてが見た目通りではないことがわかりました。
やや奇妙なことに、過去18時間以内にLex FriedmanでリリースされたGoogleのCEO、サンダー・ピチャイとのインタビューから始めたいと思います。この動画の前半はGemini 2.5 Proについてになります。しかし、これですらGemini 2.5の最大で最高のバージョンであるGemini 2.5 Ultraではありません。これは実質的に誰にも利用できません。つまり、これから見る記録的なベンチマークスコアは、彼らの最大で最高のモデルですらないのです。
毎年私は座って、「よし、来年はこれに10倍多くのコンピュートを投入しよう。そして進歩が見られるだろうか」と言います。今日ここに座って、来年は多くの進歩があると感じています。この意味でコンピュート制限されていると思います。我々がFlash、Nano、Flash、Proモデルを行っているのに、Ultraモデルを行わない理由の一部です。各世代において、Proモデルを前世代のUltraの80〜90%の性能にすることができたと感じていますが、Ultraはより遅く、提供するのがずっと高価になります。しかし、我々ができていることは、次世代に進み、次世代のProを前世代のUltraと同程度にすることですが、高速で使いやすい方法で提供できるのです。
我々が最も使用するモデルは、我々が提供できる最大性能から数ヶ月遅れているかもしれません。なぜなら、それが最速で最も使いやすいものではないからです。しかし、Gemini 2.5 Proの最新版は、今後数ヶ月間に数億人の人々が使用する安定版リリースになる予定なので、そのベンチマーク結果を簡単に見てみましょう。
右側には、Gemini 2.5 Proの3つの反復の結果が表示されています。明確にしておくと、最新のものが今後数週間で全員にロールアウトされる予定です。Humanity’s Last Examでテストされた難解な知識については、他のモデルをわずかに上回っています。非常に困難な科学ベースの質問では86.4%を獲得し、それぞれの分野のPhDが約60%を取得するのに対してです。
幻覚のとても大まかな測定においては、他のどのモデルよりも良いスコアを記録しています。そして、チャートや視覚、その他のタイプのグラフの読み取りにおいては、少なくともo3と同等であり、o3はGemini 2.5 Proより約4倍高価で、はるかに遅いのです。
繰り返しになりますが、Gemini 2.5 ProはGeminiシリーズの真ん中のモデルであることを強調する価値があります。これらの記録破りのスコアの大部分が単一の試行によるものであることにも気づくかもしれません。Gemini 2.5 Proからのディープシンクモードはまだ見ていません。これは、他のモデルが利用する複数の試行や並列試行にほぼ相当するものです。
コーディングに関しては、状況ははるかに不明確です。複数の言語について話すとき、ADAのPolyglotベンチマークで判断される限り、Geminiの方が良いようです。Swe-bench Verifiedのようなソフトウェア工程にやや焦点を当てたものについて話すとき、Claudeが依然として大きくリードしているようです。
しかし、私は告白をしなければなりません。私はFirebaseでドメインを接続する問題を抱えていました。これはバックエンドではGoogleです。これはアプリホスティングインフラストラクチャに関するものでしたが、GoogleエンティティであるFirebaseについては、Geminiが最も知っているはずだと思っていました。2時間の会話の全てをお見せしませんが、基本的にGemini 2.5 Proでは諦めました。これは公平に言うとGemini 2.5 ProのMayインスタンスでしたが、Claude Opusはほぼ即座に問題を診断することができました。
コーディングにこれらのモデルを使用する人なら誰でも、ベンチマークが常に実世界の使用を反映するわけではないという同様の逸話を持っているでしょう。しかし、ベンチマークについて話している間に、私自身のベンチマークであるSimple Benchはどうでしょうか?
私は告白をしなければなりません。昨日からの最新版のGemini 2.5 Proは、パフォーマンスが悪いだろうと思っていました。なぜそう思ったのでしょうか?最初のバージョンのGemini 2.5 Pro、3月からのものだと思いますが、51.6%を取得しました。しかし、Gemini 2.5 ProのMayバージョンを試したとき、モデルからフルランを取得するのは本当に困難でした。Twitterで話しましたが、実際に質問に答えることに同意した1回の実行では、約47%だったと思います。
実際、RLをコーディングと数学に行っているが、それがモデルの常識を侵食しているという理論があったので、皆さんのところに来て自慢するつもりでした。これは、Simple Benchが他のベンチマークが捉えないものをテストしていることを示しています。残念ながら、実際に起こったことは、昨日の夜に最新版のGemini 2.5 Proをテストしたとき、レート制限のために完全な5回の実行を取得できなかったということです。そのため、まだ結果を報告していません。しかし、我々が取得した4回の実行に基づくと、平均約62%でした。
ですから、RLの最大化に関する私の小さな理論は完全に窓から飛び出しました。いえ、しかし真面目に、4回の実行に基づいてさえ、すべてのモデルタイプでパフォーマンスがますます良くなっていることがわかります。言いたくありませんが、私は本当にSimple Benchはおそらく3〜12ヶ月以上は続かないと思います。
今度は雇用記事について話さなければなりませんが、Claude OpusとGemini 2.5 Proが今正解している質問の種類についてもう少し考察したい場合は、私のPatreonでこの動画をチェックしてください。簡潔に言うと、フロンティアモデルに平均的な人間が勝てないテキストベースのベンチマークがなくなる瞬間に到達すると、我々は非常にルビコン川を渡ることになります。
GoogleとGoogle DeepMindのCEOであるサンダー・ピチャイとDemis Hassabisは、完全なAGIの日付を2030年のちょうど後に置いています。そして、明らかに我々がAGIからまだ遠いことを示すものを見ます。あなた方両方がこれを同時に経験しているのです。あなたの質問に答えますが、これも投げかけます。この用語は重要ではないとほぼ感じています。私が知っているのは、2030年までに劇的な進歩があるということです。我々は2030年までに、その進歩の結果、正の外部性と負の外部性の両方に大きく対処することになるでしょう。
ですから、それは強く感じています。我々が用語について議論しているものであれ、おそらくGeminiが2030年のその瞬間が何であるかを答えることができますが、進歩は劇的になると思います。それは信じています。
今日利用できるツールについて、そしてはい、Gemini 2.5を含む様々なモデルを利用できるツールについて、少し時間を取らせてください。それが今日の動画のスポンサーであるEmergent Mindです。私は彼らがチャンネルをスポンサーする前から約2年間使用しています。これによって私ができることは、このようなものなど、そうでなければ見逃していたかもしれないトレンド論文にキャッチアップすることです。
ご存知のように、私はこれらの論文を自分で完全に読みますが、時々Hacker NewsやXでトレンドになっている論文を見逃すことがあります。これらの要約をPDF、マークダウンでダウンロードしたり、オーディオとして聞いたりすることもできます。2.5 Proの要約は適切にProプランにありますが、とにかく説明にリンクがあります。
今週と先週の雇用について、TwitterやRedditでバイラルになったこのような記事をたくさん見ています。知識労働の衰退は始まったのか?とNew York Timesが尋ねました。New York TimesのゲストエッセイでのあるLinkedIn幹部にとって、キャリアラダーの最下段が壊れて、それはすでに始まっているのです。
明らかに、私はAIの潜在能力と労働の世界への影響を過小評価する最後の人の一人です。しかし、これらの物語は今起こっていることについてであり、3〜5年後に来るかもしれないことについてではありませんでした。ですから、私は尋ねたかったのです。これらのことを裏付ける統計があるのでしょうか?
多くの記事は互いに相互参照していますが、すべてが向かうように見える一つの統計は、米国の大学卒業生の失業率が2022年9月以来30%上昇したという事実です。30%に上昇したのではなく、30%上昇したのです。それはかなり不吉に聞こえますよね?しかし、2つの文脈的事実をお教えしましょう。
最初は、その30%の上昇は大学卒業生の2%から2.6%へのものです。これは全労働者の4%に対してです。ですから、2.6%と聞くと、少し劇的さが減ります。今、あなた方の一部に怒りが募っているのを感じます。ですから、もう一つの文脈的事実と私自身の考えをお教えしましょう。なぜなら、米国の大学卒業生の2.6%の失業率はそれほど劇的に聞こえませんが、30%の上昇はかなり現実的だからです。
ですから、私は深く掘り下げて、これらの記事が引用していたデータソースを調べました。そして、大学卒業生のデータをここで見ることができます。現在は2.7%のようです。それは赤い線で、今年の3月からのものです。しかし、ズームアウトすると、例えば2010年には全大学卒業生の間で5%だったことがわかります。
1992年でも3.5%でした。心配しないでください。私は来るものの影響を軽視しているわけではありません。ただ、影響がすでに非常に顕著だと言うのは少し過剰だと言っているだけです。
バイラルになったもう一つの記事は、こちらです。「舞台裏、白領の大虐殺」というもので、AnthropicのCEOであるDario Amodeiからの引用を大きく特集していました。AIが今後1〜5年間で全てのエントリーレベルの白領の仕事の半分を一掃する可能性があるというような言語で条件付けられているとき、実際に反対するのは非常に困難です。AIが加速している方法で、例えば「可能性がある」シナリオに反論するのは本当に困難です。
Amodeiは、ほとんどの人がこれが起ころうとしていることに気づいていないと言うとき、やや危険な領域に入ります。Anthropicの他の人々、例えばScott Douglasなどはさらに断定的です。ここで重要な区別があります。一つは、2027年、2028年までに白領の仕事を自動化できるモデルを持つことがこの時点でほぼ保証されていると思うことです。そして、10年の終わりまでにほぼ保証されています。
この話題は明らかにそれ自体で完全な動画に値しますが、私にとって、白領自動化の必要だが十分ではない条件は、幻覚とモデルが自己修正しない愚かな間違いの排除でしょう。2027年と2028年のフロンティアモデルがこのような間違いを犯す可能性が1%でもあるなら、それらの間違いをチェックするためにループに人間がいることで、確実に大幅に生産性を向上させることができるでしょう。
これは私個人的に、2023年にこのチャンネルで最初に概説した嵐の前の静けさ理論に導きます。私は当時、人間がフロンティアAIの作業を補完するとき、まず生産性の大幅な向上を見ると言いました。だからこそ、私はこの白領自動化がAmodeiが言うように、わずか数年またはそれ以下で起こるとは思いません。
多くのあなた方が考えていることを知っています。これらのCEOは外部の我々よりもはるかによく知っているでしょう。しかし、ちょうど2年前のSam Altmanの言葉を覚えています。引用すると、「18ヶ月から2年後には幻覚について話していないでしょう」。それはGPT-4のリリース後に彼が行ったワールドツアーでのことでした。
その引用からちょうど2年後、New Scientistでこれを得ます。AI幻覚は悪化しており、ここに留まるのです。記事は、以前にチャンネルで話したことがあるSimple QAというベンチマークの統計を引用しています。基本的に、OpenAIの最新モデルであるo3は、前のモデルより少し多く幻覚を起こします。
あなた方は、Klarnがカスタマーサービスチームを排除して代わりにAIを使用したという話題の記事を覚えているかもしれません。今、同じファンファーレなしに非常に静かに、実際にその政策を逆転させ、顧客は人と話すのが好きだと言っています。700人の従業員を取り除いた後、現在多くの人間エージェントを再雇用しています。
言語アプリのDuolingoも、AIに依存すると言ってから、その政策を撤回して逆転させ、より多くの人間を雇用しています。これは私の嵐の前の静けさ理論に導きます。フロンティア言語モデルが自分自身の幻覚の自己修正にまだ弱い間、人間はまだ彼らの努力を補完し、全体的により多くの生産性をもたらすことができます。
これは失業率への限定的な影響をもたらします。私はAIに仕事を失った人々についての逸話的な例があることを知っています。信じてください、私はそれを認識しており、それらの記事を読みました。しかし、失業率への限定的な純影響です。これはもちろん、各国がいわゆるAI競争に勝とうとするため、AIへのより多くの投資とAIの規制の減少をもたらします。
しかし、十分なコンピュートを使用し、自己修正のための十分に多様な方法論にアクセスできるモデルが、最終的に愚かな間違いを止め、トレーニングデータを超えたもののみを見逃す転換点が来るかもしれません。もちろん、その時点で、私は実際にこれをカバーするドキュメンタリーを作っていますが、例えば画面録画、大量監視、またはロボティクスデータを通じて、果てしない量のより多くのデータが彼らに与えられるでしょう。
その後、2020年代の残りを通じて定着したかもしれない自己満足が迅速に覆されるかもしれません。そして正直に言うと、その時点でブルーカラーの仕事が白領の仕事よりもAI自動化の影響から免疫があるのは、それほど長くないようなものです。これは完全に自律的なFigure O2ロボットヒューマノイドです。
はい、私はおそらく差し迫った激変を期待する人々と、LLMが完全に誇大宣伝されていると思う人々の両方を怒らせました。しかし、そこにあります。それが私の来るものについての意見です。この全てが進行している間、もちろん、我々は新しい11 Labs V3 Alphaのような、かなりエピックなAIツールにアクセスできます。
「ジェシカ、新しい11 V3を試しました?手に入れたばかりです。明瞭さが素晴らしいです。今、このようにささやきができます。」「おお、素敵。これをチェックしてください。今、完全なシェークスピアができます。生きるべきか死ぬべきか、それが問題だ。」
「この準決勝の衝突のためにここでライトを楽しんでください。期待で盛り上がるスタジアム。象徴的な黒と白のシャツでの11 Labs United、開始のホイッスルから真っ直ぐに意図を持って前進しています。」
しかし、この動画のテーマであったように、11 Labsも安心してはいられません。なぜなら、Gemini 2.5 Flashでのネイティブテキストスピーチを持つGoogleがそれほど遅れていないからです。
「ジェシカ、新しい11 V3を試しました?手に入れたばかりです。明瞭さが素晴らしいです。今、このようにささやきができます。」「おお、素敵。これをチェックしてください。今、完全なシェークスピアができます。生きるべきか死ぬべきか、それが問題だ。」
「ジェシカ、新しい11 V3を試しました?手に入れたばかりです。明瞭さが素晴らしいです。今、このようにささやきができます。」「おお、素敵。」
いつものように、ご視聴いただきありがとうございました。あなたのご意見をお聞かせください。そして素晴らしい一日をお過ごしください。


コメント