本動画では、過去2週間のAI業界における主要な動向を包括的にレビューしている。Google Gemini 3 Flashの発表、OpenAIの新画像生成モデルGPT Image 1.5のリリース、科学的推論能力を測定する新ベンチマークFrontier Scienceの導入など、技術面での進展が相次いでいる。また、Yann LeCunとDemis Hassabisによる汎用知能の定義をめぐる論争、AnthropicのClaude Opus 4.5が示す5時間連続作業能力、そして米国エネルギー省主導のGenesis計画における主要AI企業の協力体制など、AI研究の加速を示す重要な動きが報告されている。特に、AI研究の自動化が現実のものとなりつつあり、それに対応したアライメント研究の必要性が強調されている点が注目に値する。

週刊AIレビュー再開:過去2週間の主要ニュース
さて、少し休みを取っていましたが、週刊AIレビューに戻ってきました。今回は過去2週間ほどの最大のニュースをカバーするので、いつもより少し幅広い内容になります。
まず最初に、GoogleがGemini 3 Flashをリリースしました。基本的にはGemini 3 Proの高速かつ低コスト版です。実際には、いくつかのベンチマークでGemini 3 Proを上回っているのですが、これはかなり驚きです。例えばARC AGI2やSWE-bench Verifiedで上回っていて、上回っていないベンチマークでも数パーセントポイントしか差がありません。つまり、Gemini 3 Flashははるかに効率的で、レイテンシも低く、コストも低い一方で、Proレベルのパフォーマンスに非常に近いのです。
これはまさに、アプリやツール、エージェントの中で動作させたいと思うような種類のモデルです。現在、Gemini API、Google AI Studio、Google AI Studio、Vertex AI、Gemini Enterpriseを通じてプレビュー版として利用可能です。そして、Geminiアプリと検索のAIモードで全ユーザーに展開されています。GoogleはこれでまさにGoogleらしい仕事をしてくれました。それほど注目を集めませんでしたが、実用的に言えば、これは非常に便利なモデルです。
OpenAIの新画像生成モデルとFrontier Scienceベンチマーク
さて、先週はOpenAIが新しい画像生成モデル、GPT Image 1.5もリリースしました。より強力な指示追従機能、より正確な編集、より優れたディテール保持を特徴としており、以前のバージョンより約4倍高速です。現在、すべてのChatGPTユーザーに展開されており、APIでも利用できます。全体的に、これはOpenAIの以前の画像モデルから明確なステップアップです。
これまで見てきた限りでは、GoogleのImagen 3と同等か、場合によってはそれ以上だと言えます。ベンチマークも同意見のようです。でも気になるのですが、皆さんはもう試してみましたか?コメントでどうだったか教えてください。
OpenAIはまた最近、まったく新しいベンチマークを導入しました。これは実際の科学研究タスクを実行するAIの能力を評価することに焦点を当てています。彼らはこれをFrontier Scienceと呼んでおり、物理学、化学、生物学にわたる専門家レベルの科学的推論を測定するように設計されています。
彼らは、2023年11月にGPQA、博士号取得の専門家が書いた質問からなるGoogle証明済み科学ベンチマークがリリースされたとき、GPT-4が専門家のベースライン70%を下回る39%しか得点できなかったと語っています。そしてわずか2年後、GPT o1は現在92%を記録しています。つまり、科学ベンチマークは飽和状態になってきているのです。
これらのモデルがスケールし続けるにつれて、AIが科学的発見をどれだけうまく加速できるかを測定し、実際に予測したいのであれば、より難しいテストが必要です。そこで登場するのがFrontier Scienceです。物理学、化学、生物学の分野の専門家によって書かれ、検証された新しいベンチマークです。「難しく、独創的で、意味がある」ように設計された数百の質問で構成されています。
ここでのパフォーマンスを実際に見ると、2つの本当に重要なことがわかります。まず、オリンピアード形式のFrontier Scienceタスクでは、すでにトップモデルが70%以上の範囲に押し上げられており、GPT o1が先頭を走っています。
しかし、私の意見では、より興味深いチャートはFrontier Science Researchの方です。なぜなら、最高のモデルでさえ、ここではまだ10代から20代前半のスコアしか出していないからです。GPT o1は約25%でトップです。これは、これらのタスクが本当に難しく、まだ解決には程遠いことを物語っています。
この2つの違いを明確にするために説明すると、オリンピアードセットは主に正解がある短答問題で、モデルが正解したかどうかを確認するのが比較的簡単です。一方、リサーチセットははるかにオープンエンドです。モデルは、最終的な答えだけでなく、中間の推論ステップが実際に正しいかどうかを採点するルーブリックを使用して評価されます。したがって、リサーチスコアが低いのは、はるかに難しく、より現実的なテストだからです。
もう一つの本当に重要な要点は、推論の労力がどれだけ重要かということです。これらのモデルにより多くの思考時間を与え、低から高、さらに超高推論に移行すると、精度が大幅に向上します。オリンピアードタスクでは、GPT o1は60代後半から70代半ばから後半まで上昇します。そしてリサーチタスクでも、同じパターンが見られます。より長い推論がより良いパフォーマンスにつながります。
これは大きな意味を持ちます。なぜなら、これらのモデルが単により良い推測をしているのではないことを示唆しているからです。実際に、より長く、より深い推論の連鎖から恩恵を受けているのです。したがって、私たちは今後このベンチマークに注目し続けることになるでしょう。
汎用知能をめぐる論争:Yann LeCun対Demis Hassabis
さて、話題を少し変えますが、Metaの元チーフAIサイエンティストであるYann LeCunの動画クリップが絶対的にバイラルになっています。このクリップの中で、彼は基本的に汎用知能などというものは存在しない、人間もAIも実際には特化したシステムの集合体に過ぎないと主張しています。これを見てみましょう。
汎用知能などというものは存在しません。この概念は全く意味をなしません。なぜなら、それは本当に人間レベルの知能を指定するために設計されているからです。しかし人間の知能は超特化しています。私たちは現実世界を本当にうまく扱うことができます。ナビゲートしたりなんだりかんだり。他の人間も本当にうまく扱えます。なぜなら私たちはそうするように進化したからです。でもチェスは下手です。
そして、私たちが下手なタスクはたくさんあって、他の多くの動物の方が私たちよりずっと優れています。つまり、私たちは特化しているということです。私たちは自分たちを汎用的だと考えていますが、それは単なる幻想です。なぜなら、私たちが理解できるすべての問題は、私たちが考えることができるものだからです。その逆もまた然りです。だから私たちは、想像できるすべての問題において汎用的なのです。しかし、私たちが想像できない問題はたくさんあります。
そして、これには数学的な議論がいくつかあるのですが、あなたが尋ねない限り、それについては触れない方がいいでしょう。だから、この汎用知能という概念は完全にでたらめです。
さて、これをさらに興味深いものにしたのは、Google DeepMindのCEOであるDemis Hassabisが飛び込んできて、公に反論したことです。彼は本当に言葉を濁しませんでした。Yannはここで間違っていると率直に言いました。
彼は汎用知能と普遍的知能を混同していると言っています。汎用知能は、すべてにおいて完璧であることを意味するのではありません。十分な時間と経験があれば、膨大な範囲のタスクを学習できる単一の基礎システムを持つことを意味します。人間はその素晴らしい例です。私たちの脳は、チェスをしたり、飛行機を作ったり、現代科学を発明したりするように進化したわけではありません。それでも、同じ基本的なアーキテクチャですべてのことができます。
私たちは明らかにすべてにおいて最適ではありませんが、だからといって汎用的でないわけではありません。私は間違いなくこの見解に同意します。人間は個々には特化した知能のように見えますが、それは主にすべてを学ぶ時間が十分にないためです。しかし、子供を例にとると、最初からロックインされている単一のドメインはありません。
十分な時間、十分な経験とトレーニングがあれば、その同じ基礎となる脳は、物理学者、音楽家、パイロット、プログラマー、何でも投げかけたものになることができます。私たちは時間、記憶、環境によって制約されていますが、アーキテクチャ自体によって制約されているわけではありません。
根本的に、私たちは汎用知能です。そして、そのような汎用的な学習能力をデジタルで複製できれば、原理的には、そのようなシステムは学習可能なものなら何でも学習できます。そして、それが人工超知能の領域に入り始めるときです。
いずれにせよ、私は実際に非常に異なる視点を持つ人々がいることを嬉しく思います。なぜなら、結局のところ、どのようにそこに到達するかは本当に重要ではなく、到達しさえすればいいからです。
Yann LeCunの新スタートアップと投資動向
そして、その話をすると、Yannが今何を構築しているかについて話しましょう。Yann LeCunは、約50億ドルの評価額を求めていると報じられている、新しい世界モデルに焦点を当てたスタートアップを立ち上げることを確認しました。ここでの目標は、実際に世界をモデル化し、それについて推論し、その中で計画できるシステムを構築することです。これは、私たちが今話した議論を考えると興味深いです。
哲学に関係なく、世界モデルは明らかに高度なAIが向かっている場所の中核的な柱になりつつあります。そして、誰もがそれに同意できると思います。
Figure AIのCEOであるBrett Adcockが、約1億ドルの個人資金に支えられた新しいAIラボを静かに立ち上げたのも見ました。これはチャットボットについてではありません。Brettが人間中心のAIと呼んでいるものを構築することについてです。詳細はまだかなり限られていますが、私たちが知っているのは、このラボがHARKと呼ばれることです。したがって、これは間違いなく注目すべきものです。
一方、取引の側面では、Amazonが最大100億ドルをOpenAIに投資する交渉中であると報じられています。つまり、AIエコシステムに追加するもう一つの循環的な取引です。そして、これはかなりクレイジーです。
Nvidiaがグロックの買収を検討している可能性があるという、未確認のうわさがいくつかあります。xAIのGrokではなく、チップメーカーとしてのGroqです。明確にしておくと、ここでは何も公式ではありません。これはまだ単なる憶測です。しかし、もしそれが起こるとすれば、かなり大規模な動きになるでしょう。
Groqは、高度に特化したチップで超低レイテンシ推論に焦点を当てています。そして、Nvidiaがその種のアーキテクチャを自社のスタックに組み込むことは、AIハードウェアエコシステムに対する支配をさらに強化し、すでに独占的な存在をさらに強固なものにするでしょう。繰り返しますが、今のところは単なる噂です。
Claude Opus 4.5の5時間連続作業能力とAI研究の自動化
さて、これがおそらくすべての中で最大のニュースです。Metra Researchによると、AnthropicのClaude Opus 4.5は現在、単一のタスクで最大5時間連続で作業できるとのことです。そして、このため、あるAnthropic研究者は、自動化されたアライメント研究に焦点を移したと述べています。
彼の理由はかなり単純明快です。もし私たちがすぐに自動化されたAI研究を手に入れようとしているなら、潜在的な知能爆発の間、アライメントはそれについていけるようにする必要があるということです。
つまり、これはもう本当に理論的なものではありません。私たちはすでに、推論し、計画し、一度に何時間もタスクに集中し続けることができるシステムを目にしています。わずか1年前、モデルはせいぜい数分間しかこれを行うことができませんでした。したがって、さらに1年間の進歩で何ができるようになるか想像できるでしょう。
Genesis計画:AI加速のための国家的取り組み
そして最後に、今週のレビューを締めくくるために、米国エネルギー省はGenesis計画の下で24の企業と研究機関を正式に集めました。これらは曖昧なパートナーシップやパイロットプログラムではありません。これらは正式な合意であり、企業、国立研究所、機関が、AIを活用した科学的発見の加速に積極的に協力しています。
OpenAI、Anthropic、AMD、Google、Microsoft、Oracle、xAIのような名前が、このような単一の国家的取り組みの下ですべて協力しているのを見ると、これが本当にどれほど狂気じみているかがわかります。
私はすでにGenesis計画を取り上げた動画全体を作成しましたが、これは文字通りマンハッタン計画2.0です。ただし、はるかに、はるかに大規模です。
とにかく、今週のAIレビューは以上です。これが役に立ったと思ったら、必ずいいねボタンを押して、チャンネル登録をしてください。そして、いつものように、次回の動画でお会いしましょう。


コメント