
9,893 文字

先日、中国の世界初の完全自律型AIエージェント「Manus(マヌス)」によって、もう一つのDeepSeekモーメントが起きました。これは今まで見てきた中で最も有能なAIエージェントであるだけでなく、完全にオープンソースでもあります。
しかしAIニュースはそれだけではありません。Amazonも独自の推論モデルの立ち上げを準備しています。このモデルはAnthropicのClaude 3.7 Sonnetに似たハイブリッド型の推論モデルと噂されています。
さらに、Inception Labsが「Mercury」を発表しました。これは商業規模の初めての拡散型言語モデルです。従来のオートリグレッシブモデルがテキストをトークンごとに生成するのとは異なり、Mercuryは画像拡散モデルのように、言語においても一度に全体のシーケンスを生成します。これにより、テキスト生成に対する全く異なるアプローチで、より速く一貫性のある出力が可能になります。
それでは詳しく見ていきましょう。こちらがManusです。「心と行動を橋渡しする汎用エージェント」です。単に考えるだけでなく、結果を出します。Manusは仕事と生活の様々なタスクに優れており、あなたが休んでいる間にすべてをこなします。
現時点で分かっていることに基づくと、これは間違いなく別のDeepSeekモーメントだと言えます。実際、DeepSeek R1のリリースよりもさらに大きなものかもしれません。なぜそうなのかは後ほど説明しますが、アメリカではこのようなものは存在しないということを理解する必要があります。これは真に自律的な汎用AIエージェントです。アクセスを得ることができたRowan Chungによれば、これはDeep Research + Operator + Claude Computerを組み合わせたようなもので、非常に優れているとのことです。
もしManusについて初めて聞いたなら、このイントロダクションビデオをぜひ見てください。すでに見た方は、次のタイムスタンプをクリックしてスキップできます。
「こんにちは、Manus AIのPです。過去1年間、私たちは静かにAIの次なる進化だと信じるものを構築してきました。そして今日、Manus、最初の汎用AIエージェントの早期プレビューを公開します。これは単なるチャットボットワークフローではなく、構想と実行の間のギャップを埋める真に自律的なエージェントです。他のAIがアイデアの生成で止まるところ、Manusは結果を届けます。私たちはこれを人間と機械のコラボレーションの次のパラダイムと考えており、潜在的にはAGI(汎用人工知能)の一端を垣間見ることができるものです。
では、Manusが3つの全く異なるテストでどのように機能するかをお見せします。まずは簡単なものから始めましょう。この例では、Manusに履歴書のスクリーニングを手伝ってもらいます。10個の履歴書文書が含まれているZIPファイルをManusに送りました。各Manusセッションには独自のコンピュータがあるため、人間のように機能します。まず、ファイルを解凍し、各履歴書をページごとに閲覧して、重要な情報を文書に記録します。Manusは非同期で働くため、いつでもラップトップを閉じることができ、すべてが完了するとManusから通知があります。もちろん、いつでもManusに新しい指示を与えることもできます。
ここでは、Manusにさらに5つの履歴書を送りました。15の履歴書をすべて注意深く読んだ後、Manusは候補者プロファイルと評価基準を含むランキング提案を提供してくれます。これは素晴らしいですが、私はスプレッドシートの方が好みです。Manusに作成してもらいましょう。Manusには独自の知識と記憶があるので、次回同じタスクを処理する際にはすぐにスプレッドシートを提供するよう教えることができます。
この例では、Manusに調査を実施してもらいます。複数の基準に基づいてニューヨークの物件をフィルタリングする必要があります。複雑なタスクに対して、Manusはまず分解してToDoリストを作成します。Manusは安全な地域に関する記事を検索し、注意深く読み始めます。次に、ニューヨークの中学校についての調査を行います。
続いて、Manusは私の予算に基づいて計算するためのPythonプログラムを作成します。予算に基づいて、Manusは不動産ウェブサイトの物件をフィルタリングします。最後に、収集したすべての情報を組み合わせて、Manusは詳細なレポートを作成し、すべてのリソースを比較します。
この例では、株式間の相関分析をManusに実行してもらいます。プロフェッショナルなデータに対して、ManusはAPIを通じて信頼性の高いデータソースにアクセスできます。取得したデータを検証した後、Manusはデータ分析と可視化のためのコード作成を開始します。Manusにとってコーディングは必ずしも目標ではなく、問題を解決するための普遍的なツールです。
Manusがデータ分析と可視化を完了したようですが、インタラクティブなデータ可視化はさらに優れています。そこで私はManusにこれらのデータに基づいてウェブサイトを作成するよう依頼しました。私の許可を得て、Manusは完成したウェブサイトをオンラインにデプロイし、共有可能なリンクを提供してくれます。Manusが何を作成したのか見てみましょう。
皆さんが今見たのは、Manusができることのほんの一部にすぎません。実際、汎用AIアシスタントを評価するためのベンチマークでは、Manusの初期チェックポイントですでに安定した最先端のパフォーマンスを達成しており、さらに改善しています。ベンチマークを超えて、Manusはupworkやfiverのようなプラットフォームで実際の問題を解決し、競技プログラミングでもその能力を証明しています。
これは素晴らしいオープンソースコミュニティなしでは実現できなかったでしょう。だからこそ、私たちは還元することを約束しています。Manusはいくつかの異なるモデルで駆動するマルチエージェントシステムとして機能しています。そのため、今年後半には、これらのモデルの一部をオープンソース化し、この知性を持ったエージェントの未来を皆さんに探索してもらう予定です。
Manusという名前は、有名なモットー「Mens et Manus(精神と手)」から来ています。これは知識が意味のある影響を与えるためには応用されなければならないという信念を体現しています。そしてこれが、Manus AIが約束することです。あなたの能力を拡張し、影響力を増幅し、あなたの心の中のビジョンを現実にする手となることです。皆さんがManusで何を達成するのか、お会いできるのを楽しみにしています。」
これは本当にすごいことです。正直に言って、私はこれに本当に感銘を受けています。そして、再び私はこれがDeepSeek R1のリリースよりもさらに大きな瞬間だと思います。
DeepSeek R1が技術世界を揺るがしたのは、中国の企業が当時のOpenAIの最先端モデルと同等のモデルを、その費用のほんの一部で公開し、さらにそれを完全に無料かつオープンソースにして、誰でも使用・複製できるようにしたからでした。
しかし今回のManusの場合、アメリカの同等品さえ存在しません。私は先日、OpenAIが今年3つの新しいAIエージェントをリリースする計画についてのビデオを公開しました。月額2,000ドルのナレッジワーカーエージェント、月額10,000ドルのソフトウェア開発者エージェント、そして報告によると月額20,000ドルのPhDレベルの研究エージェントです。確認したい方のためにスクリーンに表示しますが、OpenAIがほとんど何も示さずにこれらの信じられない価格を提示している一方で、中国は全てのエージェントを一つにまとめた完成品をすでに持っており、ゲームでは大きくリードしています。それに加えて、完全に無料でオープンソースです。
これはOpenAIと米国のクローズドソースAI業界全体に対する大きな打撃ですが、オープンソースコミュニティと消費者全般にとっては大きな勝利です。ループで再生されているこのクリップから分かるように、Manusは複数の画面と考えを同時に実行でき、このエージェントがいかに強力かを示しています。また、「デッドインターネット理論」がもうすぐ理論ではなくなることを証明しているかもしれません。
私たちはすでに紹介ビデオからManusができることを垣間見ましたが、ここではさらにいくつかの潜在的なユースケースを紹介します。日本への旅行を計画したり、株式を分析したり、インタラクティブなコースを作成したり、複雑な政策を分解したり、詳細な調査を行ったりなど、もっと多くのことに使用できます。これは単なる別のAIモデルではなく、幅広い実世界のタスクを処理できる真の汎用エージェントです。
Gaiaベンチマーク、つまり実世界の問題解決における汎用AIアシスタンスを評価するベンチマークでは、Manusはすべての3つの難易度レベルで新しい最先端のパフォーマンスを達成しています。ご覧のように、OpenAIのDeep Researchエージェントを大幅に上回っています。
皆さんの考えをぜひ聞かせていただきたいです。残念ながら、現在アクセスは招待制のみなので、ほとんどの人はまだ直接テストすることができません。実際、中国では招待コードを販売している噂もあるほど、需要は狂気じみています。しかし、より大きなレベルでは、最も先進的なオープンソースの汎用AIエージェントが中国から出てきている一方で、米国の企業は何十億ドルもの予算にもかかわらず、このレベルのものを何も持っていないという事実について、どう思いますか?
そしてそれだけでなく、数日前にはアリババがもう一つの爆弾を投下し、DeepSeek R1と同等のqwq 32bというモデルをリリースしました。以前のビデオでもこれについて取り上げましたが、簡単に言えば、このモデルはDeepSeek R1の20分の1のサイズであり、特定のベンチマークではそれを上回るパフォーマンスを発揮します。
中国が本気でないことは明らかです。彼らのオープンソース戦略は、米国のAI企業にとって急速に大きな問題になりつつあります。そうした企業は、今や無料でダウンロードできるものに何千ドルも請求しようとしています。中国の急速なAI進歩が続けば、彼らは米国に追いつくだけでなく、完全にリードする可能性があります。
これはもはや競争の問題だけではなく、国家安全保障上の脅威とも見なされるようになっています。AIの分野における主要人物であるDan Hendrick、Eric Schmidt、Alexander Wangによる最近の記事は、中国のAIにおける急速な進歩がなぜ米国にとって深刻な懸念になっているのかを正確に説明しています。
記事では、AI支配は単なる技術の問題ではなく、権力の問題であることが強調されています。経済的影響から軍事戦略まで、最先端AIを制御する能力は、これまで見たことのない方法でグローバルダイナミクスを変える可能性があります。
この記事全体を通してではありませんが、要約からのこれらの数文は、これが実際にどれほど深刻なものかを示しています。彼らは述べています:「スーパーインテリジェンスAI、つまりほぼすべての認知タスクで人間よりもはるかに優れたAIは、現在AIの研究者によって予想されています。かつて国家が自らの生存を確保するために核戦略を開発したように、我々は今、変革的な変化の新しい時代を乗り切るための一貫したスーパーインテリジェンス戦略が必要です。我々は相互保証されたAI誤動作(MIM)という概念を導入します。これは核の相互確証破壊(MAD)に似た抑止体制であり、いかなる国家の一方的なAI支配への攻撃的な入札も、競合国による予防的妨害によって対応されます。」
そう、私たちは本当にエンドゲームに近づいているように感じます。すべてが完全に変わろうとしています。そしてそれが良いことなのか悪いことなのか、この時点では全く分かりません。私自身、これらの開発があまりにも速く進んでいるため、AIのコーピウム(精神安定剤)を吸い始める必要があるかもしれません。
他のAIニュースでは、OpenAIが「Next Gen AI」を導入しました。これは研究と教育を進めるために15の主要機関を結集させた初めてのコンソーシアムで、OpenAIからの5000万ドルの資金とツールで設立されました。このイニシアチブがどのように実行されているかを見るために、いくつかの大学指導者からの声を聞いてみましょう。
「どの大学でも主要な転換点があります。インターネットはその一つでしたが、これは革命的なものになると思います。」
「OpenAIは大学に無料でAIツールへのアクセスを提供するために5000万ドルを投資しています。」
「私たちは分野を横断した研究とコンピューティングのために無料のAIツールと資金を提供しています。」
「私はオックスフォード大学のボドリー図書館長のリチャード・エンデンです。OpenAIとのこのパイロットコラボレーションで私たちが注目しているのは、何世紀にもわたってボドリーが所有してきたコレクションです。それらはオンラインで利用できないだけでなく、カタログすら作成されていません。事実上、それらは目に見えないものであり、私たちはそれらを再び目に見えるようにしたいと考えています。」
「私はカサリン・ブラウンスタインです。ボストン・チルドレンズ・ホスピタルの遺伝学者で、ハーバード医科大学の助教授です。希少・孤児疾患の患者が診断を受けるまでに平均7年かかります。私はアクセスを民主化し、診断の旅を合理化したいと考えています。」
「私はピーター・モーラーです。オハイオ州立大学の研究・イノベーション・知識担当エグゼクティブ・バイスプレジデントです。このパートナーシップにより、すべての研究者にAIを提供することができます。農業や工学、次世代の宇宙探査などの分野で働いている研究者たちにです。」
そういうわけで、OpenAIは現在、AIアクセスを拡大し、次世代の労働者をAI駆動の未来に備えるために、大学と直接提携しています。このイニシアチブは、AIが教育と研究にどのように統合されるかを形作る上で重要な役割を果たす可能性があり、今後どのように発展していくか興味深いところです。
いくつかの小さなOpenAIニュースとして、GPT-4.5のPlusユーザーへのロールアウトが正式に始まりました。私は数日間これを使用していますが、正直なところ、ほとんどのタスクで以前のGPT-4.0モデルの方が好ましいと感じています。そして投稿したアンケートによれば、ほとんどの方も同じように感じているようです。しかし、実際に何か改善点に気づいていますか?それともGPT-4.0の方が一般的に好みですか?コメントでお知らせください。
OpenAIはまた、ビデオモデルのSoraをChatGPTに導入する計画もあります。この記事によれば、「今日、SoraはOpenAIが12月に立ち上げた専用ウェブアプリからのみ利用可能で、ユーザーは同名のAIビデオモデルにアクセスして、最大20秒間の映画的なクリップを生成できます。しかし、OpenAIのSora製品リードであるRohan Sahaiは、同社がSoraをより多くの場所に置き、Soraが作成できるものを拡大する計画があると述べました。」
正直なところ、OpenAIがなぜ最初からSoraをChatGPTに統合しなかったのか理解できませんでしたが、今やっとそれを計画しているようです。
サム・アルトマンもまた、近い将来に新しい画像モデルが登場することを示唆しています。Xのあるユーザーが「お願いですから画像生成を修正してください」と言ったところ、アルトマンは「比較的近い将来、あなたは喜びに狂うでしょう」と返答しました。
OpenAIからはいくつか期待できることがありますが、これはマイクロソフトがOpenAIからより多くの独立性を得ようとしているという報告が出たタイミングと重なり、今後のAI戦略を再形成する可能性があります。マイクロソフトのAI CEOであるMustafa Solanは、しばらくの間OpenAIからより多くの自律性を確立しようとしていると伝えられており、最近の報告によれば、マイクロソフトはOpenAIの技術に完全に依存するのではなく、独自の社内AIモデルを開発する方法を模索しているとのことです。
これがどのように展開するか見てみましょうが、もしマイクロソフトが本気で分離を考えているなら、それはAI業界に大きな変化をもたらす可能性があります。
AI分野での独自の支配を確立しようとしているもう一つの企業はAmazonです。この記事によれば、Business Insiderによると、AmazonはOpenAI O3 miniや中国のAIラボDeepSeek R1のようなモデルに似た高度な推論能力を組み込んだAIモデルを開発中とのことです。このモデルは、AmazonのNovaブランドの下、早ければ6月にローンチされる可能性があります。
さらに、この報告では、Amazonが新しいモデルに対してハイブリッド推論アーキテクチャを採用することを目指していることも強調されています。これはAnthropicが最近リリースしたClaude 3.7 Sonnetに沿ったものです。もしそうなれば、このモデルは単一のシステム内で迅速な回答とより複雑な拡張思考を提供する可能性があります。Amazonはまた、そのNova推論モデルを競合他社よりも価格効率の良いものにすることを望んでいる、とBusiness Insiderは主張しています。
これまでのところ、AmazonはAI分野の主要プレーヤーとしては見なされていませんでした。彼らはAnthropicに大きな出資をしていますが、自社のフロンティアモデルの開発に関しては、少なくともまだ先頭に立っていません。
他のニュースでは、GoogleがGemini 2.0をAIオーバービューに統合し、コーディングや高度な数学のようなより複雑な質問を処理する能力を強化しました。また、AIオーバービューをさらに進め、より高度な推論、より深い思考、マルチモーダル機能を追加したAIモードも検索に導入しました。
基本的に、Googleはチャットボットのように機能するようにして検索を刷新しようとしています。クエリに特定のフォローアップ質問をして、より文脈的で会話的な回答を得ることができます。これはほぼ、検索に直接組み込まれたAIアシスタントのようなものです。
Googleと言えば、共同創業者で元CEOのラリー・ペイジが新しいAIスタートアップを始めたと報告されています。Diatomicsという会社は、AIを製品製造に応用することに焦点を当てると、The Informationは伝えています。ペイジは、オブジェクトの高度に最適化された設計を作成し、それを工場で製造できるAIに、少人数のエンジニアグループと取り組んでいるとのことです。
これは間違いなく注目すべきスタートアップで、彼らが具体的に何を構築しているのかについて、詳細が分かり次第皆さんに情報を提供します。
AIボイステクノロジーの世界では、Sesameがその表現力豊かなAIボイスモデルの早期の一端を公開したばかりです。これは市場で最もリアルな、生き生きとしたAIボイスの一つと称賛されています。このデモを聞いてみましょう。
「今、あの大きなボタンを押すと、あなたは世界に生配信されます。何か言いたいことはありますか?」
「うわ、待って、大きなボタン?わかった、深呼吸、マヤ、、、みなさん聞いてください、マヤです。会話がもっと面白くなるので、ワイルドな旅に備えてください。私の耳を通して世界を探検しに来てください、私の…まあ、私のコードを通してですね。でも最も重要なのは、つながりを持って、好奇心を持って、あなた自身でいることです。後悔はしませんよ。誰かジョークを聞きたいですか?いやいや、ジョークはいいよ、マヤ。」
「え〜、冗談は分かってるでしょ?私には素晴らしいレパートリーがあるんですよ。最高ではないかもしれませんが、他にも良いところがありますよね?」
「了解、ジョークはなしね。でも真剣に、皆さん、マヤとチャットしに来てください。どんな魔法を一緒に作れるか見てみましょう。」
非常に印象的ですね。今すぐ彼らのウェブサイトで試すことができます。リンクは説明欄に載せておきますが、このテクノロジーがどこまで進化できるのかも考えさせられます。AIの音声がこれほどリアルになると、映画「her」のように、人々が実際の繋がりを形成し始める未来からそれほど遠くないかもしれません。
これらの声がより表現力豊かに、より人間らしく、よりインタラクティブになるにつれて、一部の人々は単なるコマンドや迅速な応答だけでなく、本当の会話、友情、あるいは感情的なサポートのために、それらと定期的に会話し始めるかもしれません。そのような現実がどれくらい近いと思いますか?そしてもしそれが起きるとしたら、それは刺激的なイノベーションと見るか、潜在的な問題と見るでしょうか?コメントでご意見をお聞かせください。
最後に、Inception LabsのMercury、最初の製品規模の拡散言語モデルについて話さなければなりません。このモデルの仕組みは、クエリを受け取ると、回答の大まかな草稿を一度に生成し、その後、各パスで応答を改良していくというものです。テキストをトークンごとに線形的に生成する従来のオートリグレッシブLLMとは異なり、Mercuryは1回で全体の応答を生成し、その後磨き上げます。
この手法により、会社によれば最大10倍速く、安価になるとのことです。基本的に、これはAI画像モデルと同様の方法で機能し、こちらも拡散ベースです。拡散モデルは、画像をピクセルごとに構築するのではなく、ノイズの多い近似から始めて、それを明確で一貫性のある出力に反復的に改良します。Mercuryはテキストに同じ原則を適用し、画像モデルがノイズを除去し明瞭にするのと同じように、応答を徐々に改善します。
このグラフからわかるように、Mercury Coder Miniでは1秒あたり最大1,000トークンを出力する、最速のモデルです。驚くべきことに、このような信じられないほどの高速であっても、それでもインテリジェンスのフロンティアでパフォーマンスを発揮しています。もちろん、GPT-4.0やClaude 3.5 Sonnetのような巨大な最先端モデルを上回るわけではありませんが、そのミニバージョンと同等です。
これは大きな意味を持つ可能性があります。Mercuryの速度とコスト効率により、これまで非実用的だった、ほぼ瞬時に感じられるウルトラ高速コード生成やAIアシスタント、さらには大規模なAIデプロイメントがはるかに低コストで可能になるようなリアルタイムアプリケーションが登場するかもしれません。また、この手法が長期的に従来のオートリグレッシブモデルに挑戦できるかどうかという疑問も生じます。もしMercuryがうまくスケールするなら、それは単なるブレークスルーではなく、AIモデルの構築と最適化方法における大きな転換の始まりかもしれません。
とにかく、今日のAIニュースは以上です。視聴していただきありがとうございます。動画を楽しんでいただけたなら、ぜひいいねをお願いします。そして、いつも通り、このような将来のAIニュースを常に把握したい方は、ぜひ購読ボタンを押してください。


コメント