AIは自らを構築し始めた(そしてすべてが加速する)

AIニュース
この記事は約19分で読めます。

わずか1週間の間にAI業界で起きた驚異的な進化と主要な発表を網羅した解説動画。OpenAIによる無料ユーザー向けの新モデル開放やリアルタイム音声モデルの発表、Googleの自己進化型AI「Alpha Evolve」の実績と新モデル「GMA 4」の大幅な高速化、さらに物理法則を理解する3D生成や驚異的な器用さを持つ最新ロボットのデモまで、ソフトウェア、音声、物理、ロボティクスの各領域が互いに繋がり、AIが自らを構築し始める「自己進化のループ」が加速している現状をエキサイティングに紐解く内容である。

L'IA vient de commencer à se construire elle-même (et tout accélère)
🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

加速するAI業界の1週間と主要なアナウンスメント

わずか7日間のうちに、AIの世界では非常に多くの動きがありました。本当に終わりがありません。文字通り、昼夜を問わずアナウンスが続いています。今週、OpenAIは最高峰のモデルをすべての人に無料で開放しました。一方のGoogleは、アルゴリズムを発明するAIであるAlpha Evolveが、現実世界でのこの1年間に何を達成したかを示してくれました。これはかなり衝撃的です。そしてその過程で、彼らはGMA 4を3倍高速化することにも成功しました。OpenAIはさらに、リアルタイムで推論や翻訳ができる新世代の音声モデルもリリースしています。別のところでは、ある研究チームが物理を理解する3Dオブジェクトを開発しました。そして、フランスとアメリカに拠点を置くスタートアップが、片手で卵を割り、フルコースの料理を科学的にこなし、ピアノまで演奏するロボットを披露したのです。また、Anthropicの共同創業者は、2028年までにAIが自らを構築するようになる確率を60%と見積もっています。今回はこれらすべて、そしてそれ以上のことについてお話ししていきます。今週もAIのニュースが次々と連鎖しているからです。これらすべてを繋げて見ていきましょう。なぜなら、これらの発表をまとめて眺めたとき、そこに描かれる絵はある一つの物語を物語っており、それは現実にはかなり目眩がするような内容だからです。

みなさん、まずは最も身近で、多くの方を喜ばせるであろうニュースから始めましょう。ここ数日、すべての無料のChatGPTアカウントは、AIモデルであるGPT 5.5で動作するようになっています。これは有料版モデルと同じ土台です。みなさんは何もする必要はありませんし、設定も不要です。無料モードでChatGPTを開いたときにデフォルトで適用されるモデルになります。これまでのもの、つまりGPT 5.3との違いは、はっきり言って圧倒的です。

このモデルは、医療、法律、財務といったデリケートなテーマにおけるハルシネーション(嘘の出力)が52.5%減少しています。ユーザーが事実誤認を指摘した会話においては、不正確さが37.3%減少しました。数学では、MMLU 2026のスコアで65.4%から81.2%へと上昇し、まさに大きな飛躍を遂げています。また、回答の長さも30%短くなりました。つまり、AIが発言するたびに無駄に長い文章の塊が出てくることが減り、各文の絵文字も少なくなっています。要するに、真っ直ぐ本質に向かうモデルになったのです。無料アカウントをお持ちであれば、間違いなくその違いをすぐに実感できるはずです。OpenAIの週間アクティブユーザー数が間もなく9億人に達することを考えると、これは決して小さな変化ではありません。もちろん、有料アカウントをお持ちの方にとっては、変わる部分はまた別です。彼らは有料版のモデルも改良したからです。発表された内容によると、モデルは今後、過去の会話やファイル、さらには連携されたGmailの中から、より効率的に情報を検索できるようになりました。Memory sourceという小さなパネルが表示され、それぞれの情報がどこから来ているのかを確認できます。控えめな機能ですが、ChatGPTをあなたという人間を本当に理解してくれる存在へと変えるため、時には重要な役割を果たします。そこで私からのアドバイスですが、もしChatGPTの有料プランを利用しているなら、日常的なタスクにおいては、現時点で毎日の業務において最もパフォーマンスが高い標準モードのGPT 5.5を使い続け、ディープサーチ(深層検索)モードは避けるのがベストです。

Googleの自己進化AI「Alpha Evolve」が現実世界で起こした変革

モデルをより賢くすることは素晴らしいことですが、それを現実世界、つまり今日実際に本番環境で稼働している本物のシステム、本物のインフラ、本物のソフトウェアを向上させられるようにするとなれば、それはまったく別次元の話になります。それこそが、GoogleがAlpha Evolveで示したことです。これが次のニュースです。Alpha Evolveは、Geminiを原動力とするコーディングAIエージェントです。その仕組みは非常にシンプルです。単にコードを書くだけでなく、その過程でより優れたアルゴリズム自体を発明するのです。解決策を生成し、それをテストし、最も優れたものを残してさらに改良を加え、それを繰り返します。これは継続的な進化のループです。おそらく覚えている方もいると思いますが、Googleが約1年前にこれを発表したとき、大大きな話題になりました。なぜなら、AIシステム自体が、世界中にあるGoogleの何百万台ものサーバー上でタスクの割り当てを管理する内部ソフトウェアであるBorgを最適化することに成功したからです。つまり、Googleの全インフラを管理するシステムを、AIシステム自体が自己改善、あるいは少なくとも向上させることに成功したわけです。Alpha Evolveは、エンジニアもこれまでのAIシステムも誰も気づかなかった驚くべき工夫を見つけ出しました。その結果、Googleの全世界の計算リソースの0.7%を継続的に回収することができたのです。0.7%と聞くと大したことないように思えるかもしれません。しかし、私たちが話しているのはあのGoogleだということを忘れないでください。Googleの規模においては、この小さな数字によって、数億ドル、あるいは数十億ドルものインフラコストが削減されることになるのです。これは途方もない規模です。また、1969年から破られていなかった、4×4の行列乗算におけるシュトラッセンのアルゴリズムを打ち破ることも一時期達成していました。要するに、誰もがこの件を噂していたのです。しかし今週、Googleはさらに興味深い成果を携えて戻ってきました。彼らは、Alpha Evolveがリリースからの1年間で、現実世界において実際に何を成し遂げたのかという包括的なレポートを公開したのです。これを見て、私は次元が変わったと確信しました。ゲノミクスにおいて、Alpha EvolveはDNAシーケンシングにおける検出エラーを30%減少させました。これは、以前は見過ごされていた病原性の変異を特定できるようになったことを意味します。電力網の最適化においては、実用的な解決策の割合を14%から88%以上に引き上げました。自然災害の予測では、火災から洪水、竜巻に至るまで、20の災害カテゴリー全体で総合的な精度を5%向上させました。ここでもまた、5%はわずかに思えるかもしれませんが、精度が1ポイント上がるごとに救われる命があるのです。ですから、これは決して小さなことではありません。量子物理学においては、従来の手法よりもエラーが10分の1に抑えられた回路を発見しました。Googleの社内においては、Geminiアーキテクチャのクリティカルなカーネルを23%高速化し、これによってモデルのトレーニング時間を単純に1%短縮しました。さらに、新世代のTPUの設計にも貢献しています。ご存じの通り、これはGoogleで製造されている計算用のチップです。つまり、ここにはAIをトレーニングするためのチップを設計したAIが存在しているのです。非常に素晴らしいニュースとして、これはもはやGoogleだけのものにとどまりません。Alpha Evolve ServiceのAPIは、現在Google Cloudを通じてアーリーアクセスが可能になっています。シュレーディンガーのような企業は、新薬の発見を加速するためにすでにこれを活用しています。自動化されたアルゴリズムの最適化が研究室を飛び出し、ついに本物の経済活動へと入り込んでいるのがお分かりいただけるでしょう。経済に真の影響を与える、自己改善型のAIなのです。このニュースについてはあまり長く留まらないようにします。まさにこれ専用の動画を一本捧げる予定だからです。Alpha Evolveは現時点で、私たちが手にしている最も具体的な自己改善型AIシステムです。そのため、もっと詳しくお伝えする必要があります。

「GMA 4」の3倍高速化とオープンソースの衝撃

しかし、Googleが今週前進させたもう一つの戦線もあります。それは、あらゆる記録を塗り替えているあの有名なオープンソースモデル、GMA 4の改良です。問題は、現在のAI言語モデルが、計算能力そのものによって制限されているわけではないという点です。彼らの足を引っ張っているのはメモリです。モデルがたった一つのトークン、つまり大まかに言えば言葉の断片を生成するたびに、GPUはメモリ内にある何十億ものパラメータを読み込み、それをプロセッサに送り、計算を行い、そして次のトークンへとそれを繰り返さなければなりません。これはある種の永久的な往復運動であり、これが本当のボトルネックになっています。特に、自宅のノートPCや一般向けのGPUでモデルを動かしている場合はなおさらです。Googleが今回行ったことは、非常に賢いものでした。彼らはメインモデルの隣で動作する、言わば下書きのような軽量の小型モデルを追加しました。これが数トークン先を非常に素早く予測します。大型モデルはその下書きを1回のパスで検証するだけでよく、もしそれが正しければ、トークンごとに生成する代わりに、そのシーケンス全体を一度に承認します。具体的には、これにより最大3倍の高速化が実現します。そしてこの技術の何が最も狂っているかというと、そうではないと思われがちなのに対し、出力の品質が完全に同一であるという点です。例えばGMA 4 31Bでは、1秒あたり14トークンだったものが24トークンへと向上し、ローカルでモデルを使用する際の体感が完全に変わります。速度的にはほぼ2倍に近い感覚です。Googleは、GMA 4の4つのバリエーションを公開しました。これにはモバイルや携帯電話向けに最適化された小型のEdgeモデルも含まれており、携帯電話上でそのまま動作させることができます。これらはすべてApache 2.0ライセンスのオープンソースです。GMA 4がすでに6000万回以上のダウンロード、つまりローカルで動かすために人々がダウンロードした回数を記録していることを考えると、これがなぜ大きなニュースなのかが分かります。試してみたい方は、すでにHugging Faceや、VLLM、Ollamaなどで利用可能ですし、まだご存じなければGoogle AI Edge Galleryを通じてご自身のスマートフォンで直接テストすることも可能です。

OpenAIの新しいリアルタイム音声モデル

ここまではテキストの話ですが、今週は音声の分野でもAIが大きな一歩を踏み出しました。5月9日、OpenAIは3つの新しいリアルタイム音声モデルをリリースしました。そのリストの筆頭に並ぶのが、GPT Real Time 2です。これは、ChatGPT 5クラスの推論能力を備え、128,000トークンのコンテキストウィンドウ、つまり前世代の4倍の容量を持つ初の音声モデルです。実務においてこれが意味するのは、会話の糸口を失うことなく、長く複雑な会話を追いかけられるということです。また、あなたと話している最中に、カレンダーを検索したりデータベースを参照したりといった、複数のツールを並行して呼び出すこともできます。そして、私が非常にうまく設計されていると感じるディープな詳細があります。モデルが考える時間を必要とするとき、それを言葉に出して伝えてくれるのです。ロボットがフリーズしたように3秒間ただ黙り込む代わりに、確認させてください、あるいは、少々お待ちくださいといったフレーズを口にします。実際のところ、これによって私たちは今、適切なモデルを使えているかどうかを判断できるようになります。2つ目のモデルはGPT Real Time Translateで、相手が話している間に、70以上の言語から13の出力言語への同時通訳をリアルタイムで行います。そして3つ目がReal Time Whisperで、これはストリーミングでの文字起こしを行います。現時点では、これらはすべてAPI経由でのみ利用可能です。まだChatGPTに直接組み込まれているわけではありませんが、今後実装される予定です。推論し、翻訳し、行動する音声エージェントを同時に構築するためのレンガはすでに並べられているからです。私が皆さんに今お伝えしているのは、そう遠くないうちに、例えばAIと電話で会話をする際、現在のChatGPTのインターフェースで実現されているものよりもさらにリアルなやり取りができるようになるということです。つまり、リアルタイムになり、思考のための待ち時間すらなくなり、マイクロカット(わずかな音声の途切れ)すらなくなるかもしれません。現在のように、AIに話しかけた後、相手が考え、回答するのを待つ必要はなくなります。もし少し言葉が被って話してしまうと、AIが止まって言い直す、といった現象が起きていますが、そうした煩わしさは間もなくすべて過去のものになります。私たちはAIとはるかに自然なインタラクションを行えるようになるのです。

物理を理解する3D生成技術「PhysForge」

ここで一瞬、一歩引いて全体を見てみましょう。AIはAlpha Evolveによってソフトウェアレベルで自ら進化しています。GMA 4 MTPによってインフェレンス(推論)のレベルで加速しています。無料になったGPT 5.5によってあらゆる人がアクセスできるようになり、OpenAIの新しい音声モデルによってリアルタイムで話し、行動しています。しかし、この方程式にはまだ一つの次元が欠けています。それは物理的な次元です。そこで登場するのがPhysForgeであり、これが次のニュースです。これはICML 2026に採択されたばかりのまったく新しい研究論文であり、3D生成における真の根本的な問題に立ち向かっています。現在、当然ながらAIは視覚的に非常に美しい3Dオブジェクトを作成することができます。ただし、視覚的に美しいだけでは不十分なのです。シミュレータ内でロボットをトレーニングしたい場合や、オブジェクトが現実的な挙動を示すゲームを構築したい場合、ドアは回転しなければなりません。例えば、3Dのドアがあるとして、引き出しが正しくスライドし、ボタンを押したときに沈み込むといった動作が必要です。お分かりでしょうか。オブジェクトが物理的にどのように機能するかを理解している必要があるのです。それこそが、PhysForgeが行うことです。このシステムは、材料、質量、関節、運動制限などの物理的特性をネイティブに組み込んだ3Dオブジェクトを生成します。大まかに言えば、これは2段階で機能します。まず、ビジョンランゲージモデルが建築家の役割を果たします。オブジェクトを分析し、各パーツがどのように動き、相互作用するべきかを記述した詳細な計画書を作成します。次に、拡散モデルがその計画書を受け取り、すべての物理パラメータがすでに組み込まれた本物の高精度な3Dアセットへと変換します。これらすべては、アノテーションが施された15万個のオブジェクトデータセットでトレーニングされており、コードは今日からGitHubで公開されています。このように聞くと技術的な話に思えるかもしれませんが、現実における具体的な影響は計り知れません。物理が本当に機能する3D環境を、今や自動的に生成できるのです。これこそが、まさにロボットが学習するために必要としているものです。

驚異のロボティクスデモ「Gen 26.5」

そしてこの流れは、おそらく今年最も印象的なロボティクスのデモへと私たちを導きます。数日前、パリとカリフォルニアのサンカルロスに拠点を置くGenesis AIという米仏のアプローチによるスタートアップが、Gen 26.5を発表しました。これはロボティクス向けに特別に設計されたファンデーションモデルであり、人間サイズのロボットハンドと組み合わされています。彼らが披露したデモは、本当に異次元のレベルです。例えば、片手で卵を割るロボット、トマトを切るロボット、そして20の工程を経てフルコースの食事を次々と作り上げるロボットが映し出されます。また別のロボットは、研究室のピペットを外科手術のような精度で扱い、遠心分離機にサンプルをセットして蓋を閉めることまで行います。さらに別のロボットは、ルービックキューブをあらゆる次元に回転させながら解き明かし、最後のロボットはピアノを演奏します。これを見ていると、私たちは自分自身で毎日何も考えずにこれらのジェスチャーを行っているため、ほとんどありふれた光景のように思えるかもしれません。しかし現実には、人間の手は自然界で最も複雑な機械の一つです。私はいつもイーロン・マスクの最近の発言を引用するのですが、彼はロボットOptimusの手について語る際、ロボティクスにおいて手を構築するためのエンジニアリングの課題は、SpaceXを構築すること、つまりあの宇宙へ行くための有名な宇宙船であるStarshipを構築することよりもはるかに複雑だと述べています。そうです、すべての自由度を備えた手を創り出すことは、私たちを火星に連れて行く宇宙船を創るよりも難しいのです。それは1秒間に何十回もの微調整、継続的に適応する圧力、そして私たちが気づきもしないほど微細な調整の協調を意味します。したがって、これをロボットで再現することは、ここ数十年におけるこの分野で最も困難な課題の一つでした。Genesisが賢かったのは、データからこの問題にアプローチした点です。彼らは、従来の代替手段よりも100倍安価で、従来の遠隔操作手法よりも5倍効率的にデータを収集できる、触覚センサーを搭載した収集用グローブを開発しました。その仕組みは、人々が通常通り業務を行い、タスクをこなしている間にこのグローブを着用してもらい、彼らが行うすべてのジェスチャーが自動的にロボットのトレーニングデータになるというものです。このスタートアップはシードで1億5000万ドルを調達しました。これはフランスのMistralの記録に匹敵するものです。この資金は、このチャンネルでもよく知られているあのエリック・シュミットだけでなく、グザヴィエ・ニエル、Khosla Ventures、そしてBPI Franceなどから集められました。共同創業者のテオフィル・ジェルヴェはMistralの元研究者であり、すでにヨーロッパの自動車、製薬、エレクトロニクス、さらには物流をターゲットにしており、フランス、ドイツ、イタリアとの間で3年から5年の契約に関する高度な交渉が進んでいます。

自己進化のループと2028年のシンギュラリティ

さて、これまで見てきたことすべてを少し俯瞰してみましょう。Alpha Evolveはより優れたアルゴリズムを発明しています。GMA 4 MTPは推論を加速させています。そしてPhysForgeが現実的な物理環境を生成し、Gen 26.5がロボットにほぼ人間のような手を与えています。AIはソフトウェアを最適化し、ソフトウェアを加速し、物理を理解し、肉体、すなわちロボットを制御しています。そこで自然と浮かび上がる疑問は、これらすべてがいつ自らループを閉じるのか、という点です。これこそが、今週ジャック・クラークが投げかけた問いです。クラークをご存じない方のために説明すると、彼はAnthropicの共同創業者です。Twitterの評論家ではなく、実際にこれらのシステムを構築している人物です。そして5月上旬、彼はAIの開発に関する数百の公開ソースを数週間かけて分析した後、長いエッセイを公開しました。彼の結論は、AIの再帰的な自己改善が2028年末までに発生する確率に60%の賭け金を置く、というものでした。彼が再帰的自己改善と言うとき、それが具体的に何を意味するのかをしっかりと理解してください。それは、AIシステムに対して、お前自身のより優れたバージョンを作れと指示すると、人間の介入なしに完全に自律してそれを実行しに行く、という状況のことです。彼はこれを勘に頼って言っているわけではなく、計測可能なデータに基づいています。AIモデルを評価する組織であるMETRのデータです。それによると、AIが人間の介入なしに達成できるタスクの時間軸は、2022年の30秒から2026年には16時間へと延びています。大まかに言えば、AIは今や、単一の問題に対して人間の介入を一切受けることなく、16時間連続で働き続けることができるのです。わずか4年未満の間に、1440倍の要素が進んでいるのが分かります。クラークのエッセイの3日後、Anthropic Instituteは4つの軸で構成された公式の研究アジェンダすら公開しました。そして最後の軸は、AI for AI R&D、すなわちAIのためのAI研究開発と題されています。同研究所は、研究が進行する速度を継続的に測定するためのテレメトリーシステムを構築し、それによって再帰的自己改善が起きた場合の早期警戒シグナルを検出できるようにすることを提案しています。つまり、AI研究の進捗を測定するインデックスが存在し、もしAI研究の速度や加速に関してある一定のしきい値を超えた場合、注意しろ、ここでは研究が速すぎる、何かが起きているというアラートが出るようになるということです。これは、世界のどこかでAIが自己改善を始めたというサインになり得ます。自己改善型AIとはそういうことです。限界がないほど急速に自らを向上させていくのです。

今日見たものすべてが繋がっています。アルゴリズムを改善するAlpha EvolveがGeminiをトレーニングします。GeminiがAlpha Evolveを駆動し、Alpha Evolveによって設計されたTPUがGeminiのトレーニングを加速します。より高速なモデルがロボティクスのためのより多くのデータを生成することを可能にします。今度はロボティクスが物理的な環境を作り出し、シミュレータがより優れたモデルをトレーニングします。今週私たちが目にしたものは、お分かりいただけたと思いますが、別々の発表のリストではなく、一つのループなのです。そしてこのループは、あらゆる人の目に見える形でますます明らかになり始めています。クラークは、私が今お話ししたことに加えて、本当に心に残ることを言っていました。もし2028年までに再帰的自己改善が起きないとするならば、それは現実には、現在のテクノロジーのパラダイムに根本的な天井が存在するというサインになるだろう、ということです。人間の創造性だけが何かしら解除できるような天井です。要するに、私たちには2つのシナリオがあります。ループが閉じてすべてが加速するか、あるいはなぜループが閉じられないのかという理由を発見するか、のどちらかです。しかしどちらの場合でも、次の2、3年は絶対的に決定的なものになるでしょう。そしていずれにせよ、同様に確実なのは、AIがもはやコンテンツを制作したり質問に答えたりするだけにとどまらないということです。AIは、レイヤーごとに、アルゴリズムごとに、自らを構築し始めています。今日の本当の問いは、あなたが興味を持つべきかどうかではありません。興味を持たないままでいる余裕が、果たしてあなたにあるのかどうか、ということです。

みなさん、もし世界が加速していると感じ、これらのツールを単に動画で聞くだけでなく、具体的にどのように使うかを理解したいのであれば、まさにぴったりのものがあります。数ヶ月前から、私は独自の学習プログラムを構築しています。AIのあらゆる側面について皆さんにお教えする内容です。これは、私が知っているすべてを皆さんに伝えるために考え、作成したコースです。ChatGPTやGoogleのGemini、イーロン・マスクのGrok、ClaudeといったAIモデルについてだけでなく、それらを皆さんの生活、仕事、プロジェクトに具体的に組み込む方法を、あなたが会社員であれ、フリーランスであれ、起業家であれ、あるいは退職された方であれ、特にお見せしていきます。そうです、私たちのコミュニティには非常に多くの退職された方々が席を置いており、彼らは毎日AIを活用しています。最近、この講座のこれまでで最大のアップデートをリリースしました。少し前からお話ししていましたが、ついにオンラインに登場しました。それは、N8Nを使用した、AIによる自動化に完全に特化したモジュールです。言い換えれば、AIエージェントの作成、つまりあなたのために働き、すべてをこなしてくれる仮想の従業員のようなものを生み出す内容です。要するに、何時間もの時間を節約してくれます。すでに6000人から7000人以上の方がこのプログラムに参加されています。すべてのサポートに感謝いたします。そして最後に、開発者である必要も、技術的なバックグラウンドがある必要もないということを知っておいてください。私が手を取り、ステップバイステップで、明確な動画レッスンと具体的な実践ケースを用いて、AIに関係するすべてを見ていきます。最後の点ですが、もちろん重要なこととして、今日参加していただければ、追加コストなしで将来のすべての進化にアクセスできます。ライフタイムで、私が皆さんに教えたいすべてのものへの無制限のアクセスが含まれます。したがって、本日は1回限りの支払いです。月額課金ではありません。1回限りの支払いで、私がこれから継続的に行い、現に行っているすべてのアップデートに生涯アクセスできます。もし興味があれば、動画の下にリンクがあります。概要欄、または固定コメントからご参加ください。いずれにせよ、私はVisionプログラムで皆さんをお迎えできることを非常に嬉しく思います。ここまでまだ見てくださっているなら、この動画を最後まで見ていただきありがとうございました。それでは、次の動画でまたすぐにお会いしましょう。またお会いしましょう。

コメント

タイトルとURLをコピーしました