
11,163 文字

毎日のように、AIだけでなく世界中で信じられないような主張や見出しが飛び交っています。この動画では、そうした見出しのいくつかを検証し、実際に分かっていることをお伝えします。1年待ち続けたモデル「Llama 4」、それに関する様々な主張と反論、そして元OpenAI研究者が書いた、オンラインで何百万回も閲覧され、ニューヨーク・タイムズにも掲載された、2027年までに超知能が誕生すると予測するブログ記事/論文を見ていきます。また、最も賢いモデルになる可能性のあるモデルの発売日に関する最新ニュースと、それが出るかどうか、いつ出るかについての矛盾する情報も取り上げます。
まず、AIに関するすべての誇大宣伝を冷静に見るための引用から始めたいと思います。Anthropic(Claudeシリーズのモデルの開発元)のCEOであるダリオ・アモデイは、AIの進歩を止めるものは何かと尋ねられた際、長い間リスクとして知られていた台湾での戦争について言及しました。クリス・ミラーの「チップ・ウォーズ」は非常にお勧めの本です。
その後、彼はモデルのトレーニングに使用する高品質データが不足する可能性について簡単に触れましたが、続いて以前には言及していなかった新たなリスクについて話しました。この引用は、関税問題が起きる3週間前のものです。「ショーを止める可能性のある3つの主なことは何ですか?」「株式市場が大きく混乱し、これらの企業の資本化に影響を与える場合、基本的にはテクノロジーが前進しないという一種の信念が生まれ、十分な資本化がないという自己実現的な予言を生み出す可能性があります」
この状況がどのように展開するかを30秒ほどで説明しましょう。OpenAIやAnthropicのような企業は、最新モデルの巨大なトレーニングを資金調達するために資金を集める必要があります。彼らは400億ドルや1000億ドルをそのまま銀行口座に持っているわけではなく、言語モデルのトレーニングに必要な巨大なデータセンターやその他すべてのものに資金を提供する必要があります。問題は、投資家が不況などの理由で投資金を回収できないと考えた場合、これらの企業に投資しないか、より低い評価額でより少ない金額を投資するということです。資金が少なければ計算能力も少なくなり、AIの進歩も遅くなります。
もちろん、これは予測ではありません。私を含め誰も何が起こるか分かりません。ただ、AIが現実世界で動作していて、現実世界のことがAIの進歩に影響を与える可能性があることを忘れがちです。
AIの進歩といえば、Llama 4とLlama 4ファミリーの3モデルのうち2つのリリースはどれほどの進歩を示しているのでしょうか?いつものように、リリースには正直な分析よりも誇大広告が多いため、正確に判断するのは難しいですが、それほど大きな進歩ではないようです。もちろん論文はありません、それが標準になりつつありますが、分かっていることのハイライトを紹介します。
まず、Llama 4の最小モデルは、業界をリードする1000万トークンのコンテキストウィンドウを持っているとのことです。約750万語と考えてください。確かに素晴らしく革新的に聞こえますが、2つの注意点があります。2024年2月に遡ると、Gemini 1.5 Proという1000万トークンのコンテキストウィンドウを持つモデルがありました。この極端なウィンドウで、ビデオやオーディオ、テキスト内の「針を干し草の山から見つける」ような素晴らしい検索ができました。
公開されているのは最大200万トークンのコンテキストウィンドウのモデルだけでしたが、おそらくGoogleは何かに気づいたのでしょう。Llama 4のブログ記事で示されているように、干し草の山から個々の針を見つけることは素晴らしいことです。ハリー・ポッターの全巻をモデルに入れて、途中にパスワードを入れておけば、モデルはそれを見つけて取り出すことができます。しかし、正直なところ、ほとんどの人はハリー・ポッターの7巻にパスワードを忍ばせたりしません。
そのため、48時間前のリリースの結果は、24時間前に更新されたベンチマークよりも私には重要性が低く感じられます。このベンチマークは「fiction livebench for long context deep comprehension」と呼ばれ、言語モデルが数万または数十万のトークンや単語にわたってプロット展開を理解する必要があります。
前回のGemini 2.5 Proの動画で、このベンチマークでの非常に優れたパフォーマンスに言及しました。対照的に、Llama 4の中型モデルと最小モデルのパフォーマンスはかなり悪く、さらに悪化しています。上部の数字は、6,000語や12,000語、あるいは100,000語にわたって散りばめられた手がかりを指しています。
日付を考えるとさらに奇妙なことが起きます。なぜLlama 4は土曜日にリリースされたのでしょうか?私がAIを取材してきた全期間を通じて、これは前例のないことです。陰謀論めいた考えをするなら、週末にリリースすることで注目を抑えようとしたのかもしれません。
また、知識のカットオフが2024年8月であることにも注目してください。これはLlama 4がトレーニングされた最新のトレーニングデータです。2025年1月のカットオフを持つGemini 2.5と比較すると、Metaが9ヶ月ほどの間にこのモデルを何とか改善しようと必死に努力していたことが伺えます。実際、彼らはおそらく早期にリリースする予定でしたが、9月にはOpenAIのOシリーズモデルが始まり、1月にはDeepseek R1が登場しました。
ちなみに、Deep SeekとR1に関する私の長編ドキュメンタリーへの早期アクセスをご希望の方は、説明欄にリンクがあるPatreonをご覧ください。
しかし、このミームのようにLlama 4を完全に無視する前に、特に中型モデルのLlama 4が示す確かな進歩について触れておきましょう。更新されたDeepseek V3と比較した場合のLlama 4 Maverickです。これらのモデルはもちろん、Gemini 2.5やDeepseek R1のような思考モデルではありません。Metaはまだ最先端の思考モデルをリリースしていません。しかし、DeepSeek V3に関するすべての騒ぎにもかかわらず、Llama 4 Maverickはアクティブなパラメータ数が約半分でありながら、パフォーマンスは同等であることを覚えておいてください。
はい、LM Arenaでのベンチマークの最大化やハッキングを非難する人もいますが、これらの実際の数字を確認してください。Llama 4のトレーニングデータに回答が含まれていないと仮定すると、GPQA Diamondという非常に難しいGoogleの証明STEMベンチマークでのそのモデルのパフォーマンスは、新しいDeep Seek V3やもちろんGPT-4oよりも実際に優れています。
MetaやLlama 4に対して楽観的な見方をするなら、彼らは最先端の思考モデルを構築できる非常に素晴らしいベースモデルを持っていると言えるでしょう。唯一の問題は、Gemini 2.5 Proがすでにそこにあり、Deepseek R2が今にも出てくることです。
また、Llama 4を得意分野から外すと、そのパフォーマンスは急降下し始めます。このコーディングベンチマーク、ADAのPolyglotベンチマークは、さまざまなプログラミング言語でのモデルパフォーマンスをテストします。多くのベンチマークとは異なり、Pythonプログラミング言語だけでなく、様々なプログラミング言語に焦点を当てています。
ご覧のように、Gemini 2.5 Proがトップにランクされています。確かに、それは思考モデルだと言えるかもしれませんが、思考なしのClaude 3.7 Sonnetを見てください。60%を獲得しています。最新版のDeepseek V3は55%を獲得しています。そして残念ながら、15.6%を獲得したLlama 4 Maverickにたどり着くには、かなり下までスクロールする必要があります。
私だけでしょうか、それともこのようなパフォーマンスは、マーク・ザッカーバーグのような「彼のAIモデルがすぐに中堅エンジニアに取って代わる」という見出しと整合性を取るのが難しいでしょうか?ザッカーバーグは2025年、つまり今年中と言っています。彼はあらゆる常識を超えて大げさに宣伝していたのでしょうか?そんな考えをするなんて、とんでもない!
Llama 4(そう、私は意図的にその数字を選びました)について離れる前に、さらに4つのことを手短に説明します。最初は、未発表の最大モデル「Behemoth」に関する暫定的な兆候についてです。
MetaはGemini 2 ProやGPT-4.5などのモデルとの比較を意図的に行っており、その比較はある程度良好です。しかし、脚注をよく見ると「Llamaモデルの結果は、現在の最良の内部実行を表している」とあります。モデルを5回実行して最良のものを選んだのでしょうか?3回?10回?分かりません。
また、彼らはLlama 4 BehemothとDeepseek V3を比較しないことを選びました。Deepseek V3は全体のパラメータで3倍小さく、アクティブなパラメータでは約8倍小さいです。濃い青色でDeepseek V3の最新バージョンのパフォーマンスが表示されていますが、Llama 4 Behemothとほぼ同等であることに同意せざるを得ないでしょう。
言い換えれば、リリースにネガティブなスピンを付けたい場合、Llamaの最大モデルは新しいDeep Seek V3ベースモデルの何倍もサイズがありながら、同じレベルのパフォーマンスを示していると言えます。はい、Llama 4 Behemothはまだ「トレーニング中」ですが、現時点ではほとんどすべてのモデルが常に「トレーニング中」です。
次に、利用規約の途中で見つけた小さな注意点ですが、EUにいる場合は「お困りです」。エンドユーザーにはなれますが、それを基に構築する同じ権利はありません。
ページの下の方には、Llama 4を少し右寄りにしようとした小さな情報があります。彼らは「LLMにはバイアスがあり、歴史的に政治に関しては左寄りであることはよく知られている」と述べ、それを修正しようとしています。もちろん、これはザッカーバーグの新政権との関係とは何の関係もないでしょう。
最後に、Llama 4 Maverickが27.7%を獲得したSimple Benchについてです。これはDeepseek V3とほぼ同レベルです。回答する前に思考の連鎖を展開しない3.5 Sonnetなどの「非思考モデル」よりは低いですが、堅実なパフォーマンスです。Metaは優れたベースモデルを持ち、その上に素晴らしい推論モデルを構築するレースでまだ健在です。
実は、2週間後に登場する03のSimpleBenchでのパフォーマンスについて、最近いくつかの重要なヒントを得ました。それが競争力を持つことだけはお伝えできます。これは裏付けのない露骨なヒントですが、現時点ではそれしか言えません。
画面中央で気づいたかもしれませんが、約9ヶ月前に作成したベンチマークであるSimpleBenchは、Weights and BiasesのWeaveによって提供されています。彼らはこの動画、そして実際にはベンチマーク全体のスポンサーです。画面中央のリンクをクリックすると、言語モデルのベンチマークに興味のある開発者に役立つクイックスタートが開きます。正直なところ、LMについてもっと学びたい人にも役立つでしょう。下にあるWeights and Biases AI Academyをチェックしてください。ご覧のように、彼らはほぼ常に新しい無料コースを提供しています。
03のニュースについて言及すると言いましたが、それはサム・アルトマンから数日前に来ました。彼は03が今から約2週間後に出ると語りました。これは私のニュースレターからの情報ですが、OpenAIとサム・アルトマン自身が「AGIに近づくにつれて意図したロードマップをより明確に共有したい、皆さんは明確さに値する」と言ったことを覚えていますか?
明確さは素晴らしいことですが、当初03は1月末に出た03 mini highの直後にリリースされる予定でした。そのため、自然に2月を期待していました。しかし、このツイートで分かるように、OpenAIは180度方向転換し、サム・アルトマンは「もはや03をスタンドアロンモデルとしてリリースしない」と述べました。
おそらくGemini 2.5 Proのリリースか、画像生成で全員がGPUを溶かしているためか、彼らはGPT-5を延期し、今では2週間後に03をスタンドアロンモデルとしてリリースする予定です。明確さとはほど遠いですね。
また、サム・アルトマンの不正行為や怪しげな行動に関する本も出るようですが、それは別の動画のトピックです。
OpenAIが私たちに注目してほしくないことの一つは、彼らの非営利団体に関する新しい計画です。この動画の前半で見た3000億ドルの評価額は、OpenAIが営利企業になることに依存しています。では、OpenAIがAGIを作成した場合の収益を管理するはずだった非営利団体はどうなるのでしょうか?
サム・アルトマンが正しく、OpenAIが彼の予測通り何兆ドルもの価値を生み出す企業である場合、この非営利団体は何兆ドルもの価値を持つ可能性がありました。より重要なのは、OpenAIがAGIを作成した場合、その後AGIがどうなるかをコントロールしていたであろうということです。
AGIを生み出す企業がOpenAIになるかどうか、あるいはAGIが今後3〜5年間で明確に定義されたり実現可能かどうかは脇に置いて、サム・アルトマンとOpenAIが約束したことに焦点を当ててください。世界経済の相当部分を理論上コントロールしていた可能性のある非営利団体から、カリフォルニア州の地域慈善団体、そしておそらく寛大にアメリカ全土やそれ以上を支援するものへと変わりました。
OpenAIはもはやAGIへのレースで支配的なプレーヤーではないため、ほとんど誰もこの話に注目していませんが、それでも重要だと思います。
Llama 4やこれらのOpenAI関連の話を聞いてAIに対する期待が少し萎んでいるなら、私のように週末に数時間かけてAI-2027を読むことができます。これは元OpenAI研究者と印象的な実績を持つ他のスーパー予測者によって書かれました。
ご記憶かもしれませんが、ダニエル・ココタデローはOpenAIの非誹謗条項に対して印象的な対抗姿勢を示しました。彼は何百万ドルも放棄する覚悟でした(はい、OpenAIの安全研究者としてそれだけ稼ぐことができます)。彼はその非誹謗条項に署名しないために放棄する覚悟でした。彼がその立場を取ったため、OpenAIは実質的に全員のためにその条項を取り下げざるを得なくなりました。その点では彼に拍手を送りたいと思います。
しかし、このレポートに私はあまり納得していません。彼らが予測に日付を記録したことは称賛に値しますし、それを尊重するために私も自分の予測といくつかの彼らの予測を照らし合わせようと思います。
彼らの中心的な前提は、AIがまず超人的なコーダーになり、次に機械学習研究者になり、それによってAIの進歩を大幅に加速させ、2027年に超知能をもたらすというものです。彼らはこのMeta論文から相当引用しており、私はその論文の主要な著者の一人と密接に連絡を取っているため、別の動画でそれをカバーする予定です。
まず、ChatGPTのオペレーターやDeep Researchのようなエージェントとしての現在のAIができることの説明から始まります。基本的に私たちがすでに持っているものを説明しています。その後、著者たちがこれらすべての予測を行うと同時にそのメッセージを伝えようとしているのを感じるため、アラインメントと安全性に関する多くの迂回があります。
彼らの予測から私が意味のある形で分岐し始めるのは、2026年初頭です。彼らはこう言います:「中国が最先端のAIエージェント(彼らはそれをOne(ワン)と呼んでいます)の重みを盗めば、研究速度を約50%向上させることができる」。今日見てきたDeep SeekとLlama 4に関するすべての証拠に基づけば、西側が中国の重みを盗むか、あるいは盗む必要さえないという可能性も同じくらいあると言えるでしょう。なぜなら、Deep Seekはレオポルド・アッシェンブレナやダリオ・アモデイのように、引き続きモデルをオープンウェイトで提供するからです。「すべては頸動脈へのレースだ」というナラティブは、Deep Seekが特定の研究をパイオニアとして行い、それを全員に提供するという事実と調和させるのが難しいです。
また、2026年後半には、米国国防総省が静かにOpenAIやGoogleと直接契約してサイバーデータ分析とR&Dを始めるとのことですが、私は少し混乱しています。なぜなら、少なくとも1年間はすでにOpenAIがペンタゴンと直接協力しているからです。はい、皆さんが教えてくれる前に言っておきますが、このペーパーの主著者であるダニエル・ココ・タゲロが2021年にAIの進歩について驚くべき予測をしたことは承知しています。説明欄にリンクを貼ることができますが、それは彼が今後も常に正しいということではありません。また、彼自身もそれらの予測がそれほど広範囲にわたるものではなかったことを認めています。
2027年1月には事態が大荒れになります。こちらのチャートから分かるように、最高の人間よりも優れたAI、つまり最初の超人的コーダーが登場します。これが論文の核心です。なぜなら、それを手に入れるとAI研究が加速し、他のすべての結果がそれに続くからです。
しかし、メーター論文の著者たちと議論してきたように、考慮すべき他の多くの変数があります。GoogleやMeta、AmazonにあるOpenAIがモデルをトレーニングできない独自のコードはどうでしょうか?実世界はベンチマークよりもはるかに複雑であるため、ベンチマーク自体が実世界のパフォーマンスの信頼性の低い指標になっていることはどうでしょうか?
この超人的コーダーは、チーム全体と連絡を取り、特定の許可を得て、常識のあらゆる障壁を乗り越える必要があるかもしれません。検証可能なベンチマークだけに残酷に焦点を当てたいとしても、すべてのベンチマークが指数関数的に伸びているわけではありません。
Deep ResearchやOpenAIの03システムカードからのMLE bench(機械学習エンジニアベンチ)を例に取りましょう。このデータセットは、賞金総額200万ドル相当の75の手作業で選ばれたKaggleコンペティションで構成されており、モデルの自己改善に向けた進歩を測定しています。これは自律型エージェントの完全な可能性を評価する鍵です。
基本的に、モデルが機械学習エンジニアリングに優れるようになれば、明らかに自分自身をより簡単に改善できるようになります。下へスクロールして、進歩を見てみましょう。そして少し拡大すると、01、03 mini、ブラウジングなしのDeep Research、ブラウジングありのDeep Research、GPT-4oのパフォーマンスが見えます。パフォーマンスの絶対的な急上昇は見られません。
もちろん、「humanity’s last exam」などの指数関数的な改善を示すベンチマークがあることは十分承知していますが、すべてのベンチマークがそうではないと言っているだけです。
また、2027年1月か2月は2年以内であり、このモデルは超人的なパフォーマンスを持ち、AIサーバーに侵入し、自分自身のコピーをインストールし、検出を回避し、他のどんな目標も追求するための計画を自律的に開発して実行できるほどでなければなりません。
ただし、「週が経つにつれてそれがどれほど効果的にそうするかは不明であり疑問です」という性急な但し書きがあります。ちなみに、この論文ではそれがよく起きます。共著者が「これは私の予測ではなく、ダニエルの予測でした」と言っているのにも気づきました。あらゆることについて多くの注釈が付いています。
しかし、AIモデルがこれらすべてを行うためには、コーディングにおいて超人的であるだけでなく、主要な欠陥がほとんどないか全くないことが必要です。提案された計画の一側面がそのトレーニングデータになかったり、それを確実に実行できなければ、全体が失敗します。
これが私の予測につながります。彼らが予測をしたので、私も予測できます。2030年までのモデルでもこれを行うことはできないだろうというのが私の予測です。信頼性95%か99%で、完全に自律的にAIサーバーに侵入する計画を開発し、実行し、自分自身をコピーし、検出を回避することをです。
一方、ダニエルが正しく、モデルが2027年2月までにこれを行う能力を持つならば、私は間違っていることを認めます。
ところで、これはこのチャートを思い出させます。「今日国が直面している最も重要な問題は何だと思いますか?」という質問に対して、わずか4%の人がAIと答えるとされています。しかし、私やあなたの友人や家族が、あらゆるものをハックし、自己複製し、野生で生き残ることができるAIがあると聞いたら、4%以上の人々がそれが最も重要な問題だと言うと思います。
実際、考えれば考えるほど、今日YouTubeやその他の場所でAIについてのクリックベイト見出しを見てください。AIが実際に異なるサーバーに自分自身をコピーし、自律的にハックできるとしたら、クリックベイトを想像してみてください。その時点ではクリックベイトですらないでしょう。私は「ああ、それはすべてをハックできる」というような見出しを付けることになるでしょう。
これらのエージェントがプロの人間と同様に生物兵器を作成できるという事実さえ触れていません。その後、中国はペンタゴンから改良されたエージェント2を盗み、それでも96%の人々は鈍感に他のことに集中しているとのことです。
少し深刻さを減らすと、私はこの論文が重みの盗難と、それがすべてモデルの重みに含まれていることに過度に焦点を当てていると思います。今から2030年までの進歩は、利用可能なデータ、作成したベンチマーク、入手できる独自データによってより大きく左右されると思います。
誤解しないでください。私はAIが既存のAI研究の検証、評価、複製だけでも、AIの改善に役立つと思います。それはOpenAIがわずか1週間前にリリースした新しいベンチマークです。すでにClaude 3.5 Sonnetのようなモデルは、このベンチマークの論文の21%を再現できます。
しかし、限られた計算能力がある場合(特に世界的な株価暴落や台湾での戦争があれば非常に限られる可能性があります)、あなたは最良の研究者と比べてわずか80%の能力しかないかもしれないモデルに、どの道を追求するかという決断を委ねるでしょうか?いいえ、あなたはただその最高の研究者に頼るでしょう。計算能力の配分方法について、モデルがあなたの最高の研究者よりも一貫して優れた判断をしている場合に限り、あなたはそれを信頼するでしょう。
著者たちは、「AI安全派の支持者はサイドラインに追いやられるか、まったく解雇される(後者のグループは、彼らが内部告発するかもしれないという恐れから)」という、OpenAIで起きたかもしれない、あるいは起きなかったかもしれない実世界の出来事を確かに取り入れています。個人的には、もし自律的にハックして独自に生存できるAIがあるなら、安全派の支持者がサイドラインに追いやられることはないと予測します。もし私が間違っているなら、私たち人類は私が思っていたよりもはるかに愚かです。
今からわずか2年後の2027年6月には、OpenAI/Googleのほとんどの人間がもはや有益に貢献できなくなるとされています。再びこのレベルに達したときにフィードバックループがそれほど早く起こるとは思いません。MMUやSimple Benchのようなベンチマークはこの時点で最大値に達しているかもしれませんが、より空気力学的または効率的なF-47(ペンタゴンによって発表された新しい戦闘機)を設計しようとしている場合を想像してください。その場合、このAI自己改善は、それがベンチマークとしている模擬テストのリアリズムによって制限されることになります。その模擬航空機が実際の航空機と正確に一致しない限り、この「自己改善AI」が実際に設計を改善したかどうかは、実際の航空機でテストしない限り分からないでしょう。
そして、独自データやシミュレーションから現実へのギャップがある他の10,000のドメインでこの例を掛け合わせてみてください。私の見解をまとめると、実世界はオンライン上の特定の孤立したベンチマークよりもはるかに複雑だということです。
ちなみに、この時点でのモデルは生物兵器を作成することができ、それを行うのが恐ろしいほど効果的である可能性があります。しかし92%の人々はそれが最も重要な問題ではないと言っているとのことです。92%の人々がAIに焦点を当てないようにするためには、TikTokはどれほど優れている必要があるでしょうか。
論文の二つのエンディングのうち肯定的なもので締めくくりましょう。それは2030年にこう予測しています:「私たちは太陽系を地球化して定住し、その先に進む準備をしています。人間の主観的速度の何千倍もの速さで動作するAIが存在の意味について熟考し、お互いに発見を交換しています。それは有益であり、星々にもたらす価値を形作っています。新しい時代の夜明けです。ほとんどすべての面で想像を絶するほど素晴らしいものですが、ある面ではより馴染み深いものでもあります。」
高いPDOMを持つ視聴者の方は、やや不気味なもう一つのシナリオをチェックしてみてください。ただし、これらのことのいくつかが起こるかどうかを争っているわけではなく、彼らが示すタイムラインを争っていることに注意してください。これが数年ではなく、より多くの劇的な10年になるかもしれないと思っています。
いつものように視聴してくれてありがとう。一つの動画でたくさんのことをカバーしたことは分かっています。今後はもっと動画を分けるようにします。Patreonで作ったDeep Seekドキュメンタリーを非常に誇りに思っているので、早期アクセスを希望する場合はぜひチェックしてください。


コメント