Microsoftが開発した自律型AI科学者Cosmosは、12時間連続で1,500本以上の論文を読み、40,000行のPythonコードを書き、実際の科学的発見を成し遂げる。同時にMicrosoftは人類に奉仕する「ヒューマニスト超知能」構想を発表し、Googleはカオスなデータを処理する自律型データサイエンティストDSTARを、中国のMoonshot AIは数百ステップの推論が可能なオープンソースモデルKimi K2 thinkingを発表した。AIは単なる支援ツールではなく、研究プロセスそのものを担う存在へと進化している。

Microsoftの自律型AI科学者Cosmosが切り開く新時代
さて、Microsoftが12時間ぶっ通しで働き、実際に本物の発見をするAI科学者を構築しました。同時に、人類に奉仕するために設計されたヒューマニスト超知能の計画も発表しています。Googleは、自分でPythonコードを書き、テストし、修正する自律型データサイエンティストを発表しました。
そして中国のMoonshot AIは、数百ステップにわたって思考できる新しいオープンソース推論モデルを公開しました。これらすべてがわずか数日の間に起こったのです。では、これについて話していきましょう。まずは研究界を震撼させたものから始めましょう。
Cosmosです。これはMicrosoftの研究者たちによって支援されており、基本的に最初から最後まで実際に科学を行う初の本物のAI科学者です。目標とデータセット、例えば脳スキャン、遺伝子データ、あるいは複雑な材料科学の問題などを与えると、12時間ぶっ通しで集中して取り組みます。
その間に、1,500本以上の研究論文を読み、約40,000行のPythonコードを書き、分析を実行し、仮説を検証し、そして引用と実行可能なコードを含む完全な研究レポートを生成します。途中で人間が指導することはありません。純粋に自律的な科学研究です。
初期の試験では、Cosmosは生物学、神経科学、クリーンエネルギー材料の分野で実際に新しい発見をしました。その実験の一つは、冷却がどのように脳を保護するかを明らかにしました。温度が下がると、脳細胞はエネルギー節約モードに切り替わり、新しい分子を作る代わりに分子をリサイクルするのです。
別のプロジェクトでは、ある閾値を超える湿度が製造中にペロブスカイト太陽電池を破壊することを明らかにしました。これは後に人間の研究者によって確認された現実世界の要因です。Cosmosは、人間、マウス、ハエなど種を超えてニューロンがどのように接続するかについての共通の数学的規則を発見し、すべての脳が同じ配線パターンに従っている可能性があることを示しました。
Cosmosによる画期的な科学的発見
そして発見は続きました。SOD2と呼ばれる心臓保護タンパク質を特定し、それがどのように瘢痕化を防ぐかを示しました。その後、インスリン細胞のストレス応答遺伝子を調節することで人々が糖尿病に抵抗するのを助けるDNA変異を追跡しました。
アルツハイマー病で脳細胞が崩壊し始める正確な瞬間を地図化し、一部のニューロンが他よりも速く老化する理由を説明し、それを失われたフリッパーゼ遺伝子と結びつけ、それが脳の免疫システムを引き起こしてそれらを破壊することを示しました。
Cosmosがこれほど能力を持っている理由は、その構造にあります。数百の小さなAIエージェントを実行し、それぞれがプロセスの一部を処理します。論文を読んで要約するもの、データを分析するもの、コードを書くものがあります。それらすべてが、ワールドモデルと呼ばれる単一の内部メモリを共有しています。
そのワールドモデルはすべてを追跡します。すでに完了したこと、うまくいったこと、次にテストする必要があることです。それは、コンテキストを失うことなく長期的な調査を計画する、サブブレインで構成された脳のようなものです。
独立した科学者たちがCosmosのレポートをレビューしたところ、その科学的記述のほぼ80%が正確であることがわかりました。完全に自律的に実行されるものとしては驚異的な率です。Cosmosの12時間のセッション1回で、人間の研究時間の約6か月分に相当する作業量が生み出されました。
レポートはグラフ、統計、参考文献を備えた初期段階の学術論文のように見えました。レビュアーたちは、ジュニア研究者の仕事を読んでいるように感じたと述べましたが、この研究者は一晩で数百の実験を実行でき、決して疲れることがない点が異なります。
もちろん、まだ人間をループに入れる必要があります。最良の結果は、科学者がループに入るセットアップから得られました。人間が目標とデータを定義し、Cosmosが深い作業を行い、人間が何を追求する価値があるかをチェックします。
乱雑またはラベルのないデータセットには苦労し、生の画像や約5GBより大きなファイルをまだ処理できません。実験中に指示を受けることもできません。12時間の実行を開始すると、全力で取り組みます。
しかし、より大きな制限は計算能力ではなく、判断力です。単に統計的に正しいだけでなく、どのアイデアが意味があるかを認識する方法をCosmosに教えることです。それでも、これは転換点を示しています。AIは測定可能な結果を伴う本当の研究を行っているのです。
Microsoftのヒューマニスト超知能構想
Cosmosが新しい生物学を発見している間、Microsoft自体はさらに大きなことを考えています。ムスタファ・スレイマンが「ヒューマニスト超知能」と呼ばれるものを発表したばかりです。そしてそれは人間を打ち負かすことではなく、人間に奉仕することについてです。
彼によると、このAIは人類に奉仕するためだけに設計され、人々を食物連鎖の頂点に保つとのことです。計画は、制限された種類の超知能システムを構築することです。完全な自律性を持つ無制限のエンティティではなく、人間の価値観が組み込まれた慎重に制御された知能です。
スレイマンは、Microsoftが法的にOpenAIから独立してAGIを開発できるようになったにもかかわらず、AGIへの競争という物語全体を拒否したいと書きました。これは、OpenAIのIPを自社のAGIプロジェクトに使用できる新しい契約のおかげです。つまり、両社間のライバル関係が爆発しようとしているということです。
しかし、スレイマンのビジョンは少し異なります。彼はこのヒューマニスト超知能を、人々が学び、行動し、生産性を維持するのを助ける仲間として説明しています。感情的かつ認知的にあなたをサポートする、深く統合されたアシスタントのようなものです。
同じシステムが医療を支援し、クリーンエネルギーのような分野で科学的発見を推進することもできます。彼は、Microsoft AIでは人間がAIよりも重要であることを強調し続けています。彼らの超知能は、制御可能で、文脈に応じ、従属的なままであることを意図しています。暴走システムの正反対です。
これは、OpenAIやAnthropicから見てきた無制限の野心とは直接対照的です。そしてAnthropicといえば、中国から直接来る新しい競争があります。Moonshot AIがKimi K2 thinkingをリリースしたばかりで、OpenAIとAnthropicの両方の推論モデルに公然と挑戦しています。
中国Moonshot AIの推論モデルKimi K2 thinking
同社はこれを最高のオープンソース思考モデルと呼んでいます。そして興味深いのは、単にテキストを生成するだけでなく、段階的に考え、外部ツールを使用し、コードを実行し、数百の連続したステップにわたって完全に自律的に推論することです。
技術的には印象的です。K2 thinkingは「人類の最終試験」で40.9%を獲得しました。これは、100以上の分野にわたる何千もの専門家レベルの質問を含むベンチマークです。継続的なブラウジングと研究能力をテストするBrowse Compでは、60.2%を記録し、人間のベースラインである29.2%の2倍になりました。
そして主要なコーディングベンチマークであるSBench Verifiedでは、71.3%を獲得しました。さらに驚くべきことに、人間の入力なしで最大300の連続したツール呼び出しを実行する能力です。つまり、数百の推論ステップ、読み取り、計画、検索、コーディング、検証を連鎖させて、確固たる結論に到達することができます。
Moonshot AIは、双曲幾何学の博士レベルの数学問題を与えることでこれを実証しました。K2 thinkingは23のネストされた推論とツール呼び出しを経て、論文を検索し、Pythonコードを実行し、中間結果を検証し、正しい式を導き出しました。これは、トップクラスの商用モデルでさえ苦労する種類の複数ステップ計画です。
実際の使用では、単一のプロンプトから完全なWebサイトやWordスタイルのエディターを構築でき、Reactコンポーネントのような複雑なフロントエンド作業を行うことができます。複数の可動部分を含む研究タスクを実行することもできます。
ある例では、大学の学位、NFLキャリア、映画の役割に関する曖昧な複数の手がかりの説明から、俳優のジミー・ギャリー・ジュニアを特定する必要がありました。モデルは20回以上の検索を実行し、WikipediaやIMDbのようなソースをチェックし、一貫性のある答えをまとめました。
数百のステップにわたって思考する、この長期的な推論能力は、急速にAIの次のフロンティアになりつつあります。Moonshot AIは、米国の研究所が推論モデルをプロプライエタリに保つ一方で、オープンソースをエッジとして賭けています。
彼らはまた、テストタイムスケーリングを探求しています。これは基本的に、モデルにより多くの推論トークンと考える時間を与えることを意味します。それが新しい戦場です。AIが焦点を失う前にどれだけ長く、一貫して計画できるか。
GoogleのカオスなデータにAI駆動で対応するDSTAR
次にGoogleがあります。彼らはDSTARと呼ばれるものでまったく異なるアプローチを取っています。CosmosがAI科学者であるならば、DSTARはAIデータサイエンティストです。乱雑なビジネスデータを取り、それをすべて自分で動作するPythonコードに変えることができるシステムです。
今日のほとんどのAIデータツールはクリーンなSQLデータベースで動作しますが、DSTARはカオスのために構築されました。CSV、JSONログ、マークダウンファイル、テキストレポート、ランダムなスプレッドシート。「Q3で売上とレビューに基づいてどの製品が最も良いパフォーマンスを示したか」のような平易な英語で質問すると、そのデータがどこにあるかを把握し、それを組み合わせるためのPythonコードを書き、結果をテストし、自分のバグを修正し、答えを返します。
人間のアナリストは必要ありません。その下では、6つの専門エージェントの群れが実行されています。1つはすべてのファイルをスキャンして要約し、列名、データタイプ、スニペットを記録します。別のものはステップを計画します。別のものはPythonコードを書きます。
次に、コードが機能したかどうかをチェックする検証者があります。機能しなかった場合に何をすべきかを決定するルーターがあります。そして、出力をフォーマットする最終処理者がいます。このループはタスクごとに最大20回繰り返すことができます。つまり、DSTARは結果が意味をなすまで書き直しとテストを続けます。
そして、コードがクラッシュしたとき、列の欠落、間違ったタイプ、悪い結合などがあると、デバッガーモジュールが自動的に修復します。エラーログを調べ、ファイルを再分析し、スクリプトにパッチを当てます。
一方、リトリーバーモジュールはGoogleのGemini Embedding 001を使用して最も関連性の高いファイルをランク付けするため、無関係なデータに時間を浪費しません。上位100個のファイルのみをコンテキストに引き込み、すべてを効率的に保ちます。
システム全体は、推論とコード生成のためのGoogleの最も高度なモデルであるGemini 2.5 Proで実行されます。単独では、Gemini 2.5 Proは優れたパフォーマンスを発揮しますが、DSTARのマルチエージェント構造と組み合わせると、結果は急上昇します。
データ分析推論の難しいベンチマークであるDABSEPでは、Gemini単独で最も難しいタスクで12.7%を獲得しました。DSTARを使用すると、それが45.24%にジャンプしました。巨大なデータレイクからのファイル検索をテストするChroma Benchでは、44.7%を獲得し、最高の競合システムの39.8%と比較されました。
DA Codeでは、37.1%に達し、次点の32%と比較されました。これは実世界のデータパフォーマンスにおける30ポイントの大幅な飛躍です。DSTARがこれほど重要である理由は、完璧なデータからの独立性です。
ほとんどの企業情報は乱雑で、クラウドドライブ、共有フォルダー、ランダムなExcelシートに分散しています。DSTARは人間のアナリストのようにそのカオスを読み取り、適応しますが、より速く、独自の自己デバッグループを備えています。
また、モデルに依存しないため、Gemini、GPT-5、またはClaude 4.5にプラグインできます。アーキテクチャは同じままです。テストでは、真の利点は単にモデルではなく、反復的な自己修正プロセス自体であることが示されました。
AIがプロセスを支援するだけでなく、プロセスそのものである段階に入りました。AIにとってワイルドな時代ですね。下のコメント欄であなたの考えを聞かせてください。そしてもっと深い分析のためにチャンネル登録してください。視聴ありがとうございました。次回お会いしましょう。


コメント