今月のAI – 2025年3月

AGIに仕事を奪われたい
この記事は約55分で読めます。

32,526 文字

This Month in AI – March 2025
This is your full AI news recap for March 2025 — covering major LLM releases, powerful new tools and features, agents, r...

皆さん、今日の動画はいつもと少し違います。これは「今月のAI」という新しい月刊シリーズの第一回目です。3月に起きたAI分野のあらゆることを見ていきます。モデルのリリース、新機能、ツール、大きなアップデート、研究のブレークスルー、業界の重要人物によるクレイジーな発言、新しい実用アプリケーションなど、3月のAI分野で起きた重要なことを全て紹介します。
カテゴリー別に分けていきますので、画面に表示されている通り、また後ほどタイムスタンプでもご確認いただけます。特定の分野に興味がある方は、直接そこにジャンプすることもできますし、思い切って1時間の動画でAIの急速な進歩の全てを一気に体験することもできます。もし対応できるなら、それがお勧めです。
まずはモデルから始めましょう。LLM、画像モデル、ビデオモデル、音声モデルなど、今月リリースされたものと特に注目されたものを見ていきます。
3月はLLM、特にオープンソース側で大きな月となりました。Google、OpenAI、Mistral、そして明らかにキャッチアップしつつある中国のAIラボの波から大きなリリースがありました。まずは見出しを飾り、ベンチマークでトップになった最大のリリースから始め、次に目立たないリリースに触れ、最後に今月の最優秀モデル「B model」(ビーモデル)を発表します。
まず最初はGemini 2.5 Proです。これは大いに期待されていたリリースで、正直なところ、その期待にほぼ応えたと言えるでしょう。ベンチマークからわかるように、重い推論タスクで非常に優れており、Humanity’s Last Examで最先端の成績を収め、GBQAとAMMではGrok 3のすぐ後ろに位置しています。
このモデルが本当に輝いているのはコーディングです。Sweet Benchで63.8%のスコアを出し、Claude 3.7 Sonnetにだけ負けていますが、AI業界の多くから現在最高のコーディングモデルとして広く認識されています。これがGemini 2.5 Proで生成されたオフィスシミュレーターゲームのコードベース全体です。そしてこちらは物理シミュレーターで、完全にAI生成され、完全に制御可能です。
驚くべきことに、Gemini 2.5 Proは100万トークンのコンテキストウィンドウを持つ唯一のモデルであり、誰でも完全に無料で利用できます。さらに、リリース以来ずっとLM Arenaリーダーボードのトップに君臨しています。
先ほどClaude 3.7 Sonnetに触れましたが、技術的にはこのモデルは2月の終わりにリリースされました。しかし、これが最初の月刊レビュー動画なので含めています。実際、これを除外することはできませんでした。先ほど言ったように、ClaudeはGemini 2.5 ProをSweet Benchで唯一上回るモデルですが、それはカスタムスカフォールディングを使った場合のみです。それがなければ、実際にはGeminiが63.8%対Claudeの62.3%でわずかに優位です。
このモデルで重要なのは、市場初のハイブリッド推論モデルだということです。つまり、GPT-4のような基盤モデルの強みとOpenAI O1のようなステップバイステップの論理を組み合わせています。このリリースに合わせて、Anthropicは初の本格的なコーディングエージェント「Claude Code」も発表しました。まだ完全に自律的なコーディングエージェントには程遠いですが、Anthropicがその方向に動き始めている明確な兆候です。そして彼らだけではありません。
以下はAnthropicのCEO、Dario Amodeiが今月初めにコーディングの未来について述べたことです:「私はこれについてかなりの懸念を持っています。一方で、比較優位は非常に強力なツールだと思います。AIが最も進歩している分野の一つであるコーディング、プログラミングを見ると、AIが90%のコードを書く世界からそれほど遠くないことがわかります。おそらく3〜6ヶ月以内にその世界に到達し、12ヶ月後にはAIが本質的に全てのコードを書く世界になるかもしれません。」
次に、OpenAIのGPT-4oモデルの大きなアップデートがありました。このアップデートにより、GPT-4oの詳細な指示に従う能力、複雑な技術的問題やコーディング問題に取り組む能力が向上し、直感性と創造性が全体的に向上しました。Artificial Analysisによると、GPT-4oは現在、推論やコーディングタスクを含むいくつかの主要ベンチマークでClaude 3.7 SonnetとGemini 2.0 Flashの両方を上回っています。
また、非推論モデルとしては最高のコーディングモデルと見なされており、複数のベンチマークで一貫して強い結果を示しています。さらに、GPT-4oはLM Arenaリーダーボードで静かに順位を上げており、現在Gemini 2.5 Proに次いで2位にいます。非推論モデルとしては本当に驚異的です。
Claude 3.7 Sonnetと同様に、次のモデルも技術的には2月の最後にリリースされましたが、大きすぎて3月も議論を支配しました。GPT-4.5について話しています。これはOpenAIの最も過小評価されているリリースかもしれません。Simple QAベンチマークによれば、これは彼らの最も正確なモデルであり、ハルシネーションの可能性が最も低いモデルです。
また、人間の選好評価においてもGPT-4oよりも高いスコアを獲得しており、これはおそらく、よりナチュラルで人間らしい文章スタイルによるものでしょう。このモデルはベンチマークで圧倒的なスコアを出すわけではありませんが、基盤モデルをスケールアップする余地がまだあることを明確に示しています。
また、今月は中国からDeepSeek V3という大きなモデルアップデートもありました。これはGPT-4oアップデートと比較してもさらに大きなパフォーマンスの飛躍であり、Artificial Analysisによれば、DeepSeek V3は現在、非推論モデルの中で全体的に最高のパフォーマンスを示しています。
DeepSeekだけではなく、アリババのQwenチームもQwen32Bをリリースしました。これは単に高速でオープンソースなだけでなく、今日利用できる最も賢い推論モデルの一つです。ご覧の通り、いくつかのベンチマークでDeepSeek R1やO1 Miniなどのモデルと同等のパフォーマンスを示しています。32Bパラメータモデルとしては本当に印象的で、今月の「B model」候補として考慮する必要があります。
それが印象的だと思ったなら、3月は中国からオープンソースで高性能かつコスト効率の良いモデルの波も持ってきました。その一つがBaiduの基盤モデルErnie 4.5と推論モデルErnie X1です。Ernie 4.5は実際に複数のベンチマークでGPT-4.5を上回っており、驚くべきことに99%安いのです。推論モデルErnie X1は、DeepSeek R1と同等のパフォーマンスを半分のコストで示しているとのことです。
さらに、テンセントから複数のリリースがありました。Hunyuan Turbo SとHunyuan T1です。Hunyuan Turbo Sは実際にはハイブリッドモデルですが、Claude 3.7 Sonnetと同じ意味ではなく、アーキテクチャにおいてです。トランスフォーマー層とMamba層を混合して構築されており、両方の強みを組み合わせています。
ご覧のように、古いGPT-4o、DeepSeek V3バージョン、およびClaude 3.5 Sonnetとほぼ同等です。Hunyuan T1(実際にはTurbo S上に構築された彼らの推論モデル)も非常に印象的で、DeepSeek R1とOpenAI O1とほぼ同等であり、Math 500、GBQAなどの主要ベンチマークでわずかに遅れをとっています。
韓国のLG Researchから「X1 Deep」という新しい推論モデルもありました。X1 Deepは32Bパラメータモデルで、AMPやMath 500などのベンチマークでDeepSeek R1やOpenAI O1と同等のパフォーマンスを示しています。彼らはまた、7.8BおよびBバージョンも発表し、正直なところ、そのサイズにしては驚くほど良好なパフォーマンスを示しています。
それでもまだ終わりではありませんでした。アリババはさらに多くのモデルを発表しました。Qwen 2.5 VL 32B Instructを含み、これはMistral Small 3.1やGoogleのGemma 3を複数のベンチマークで上回るビジョン言語モデルです。次にQwen 2.5 Omniがあります。これは見る、聞く、話す、書くなど、基本的に全てをこなすモデルです。このモデルは複数のモダリティにわたって強力なパフォーマンスを示しています。
最後にQwen Maxがあります。これは画像やビデオを理解し、視聴するだけでコードの書き方を学ぶことさえできる視覚推論モデルです。
もし3月から一つのことを学んだとすれば、それは中国が急速にキャッチアップしているということです。彼らは超コスト効率の高いハイパフォーマンスモデルを次々と送り出しています。台湾のビジネスマンで計算機科学者のKai-Fu Lee(李開復)が述べたように、Sam Altmanはおそらく安眠できていないでしょう。
主要なものはこれでカバーしましたが、今月はより小さいながらも重要なモデルリリースもたくさんありました。それらを簡単に紹介しましょう。
まずOpenAIが創造的な文章モデルを静かにプレビューしました。リリース日はまだ発表されていませんが、Sam Altmanによれば、AIによって書かれたものが実際に彼を感動させたのは初めてだったとのことです。
同様に、「Muse」というAIモデルが登場しました。これはフィクションを書くため、長編ストーリーテリング、キャラクター、プロット展開などをAIで生成するために特別に訓練されたモデルです。
次にGoogleの「Gemma 3」、カスタムAIアプリケーションを作成する開発者向けに特別に構築された、高速で効率的、非常に軽量なマルチモーダルモデルです。
Mistral Small 3.1、24Bパラメータモデルで、強力なパフォーマンスを持ち、そのカテゴリーでは圧倒的に最速です。
REA AI from REA Flash 3、21Bパラメータの推論モデルで、そのサイズにしては推論ベンチマークで驚くほど良いパフォーマンスを示しています。
Allen Institute for AIからリリースされたMOLL 32B、完全オープンソースの研究モデルで、学術的な焦点が強いです。
Cohereの「Command R」、小型、高速、オープンソースで、検索拡張生成(RAG)、速度、プライバシーなど、要求の厳しいエンタープライズニーズに最適化されています。
最後に、Nvidiaの新しいオープンソース推論モデルファミリー、エージェント型AIプラットフォームを構築する開発者とエンタープライズ向けに設計されています。
LLMについては説明しましたので、次は画像モデル、ビデオモデル、音声モデルに移りましょう。そしてもちろん、最後にはB modelを選ぶ必要があります。
画像モデルから始めましょう。まずはGemini 2.0 Flashです。今月、ネイティブ画像生成を追加しました。ネイティブ画像生成とは、モデル自体が画像を生成することを意味します。プロンプトを別のシステム(ImagenやDALL-Eなど)に渡すのではなく、モデル自身が処理します。
つまり、会話の全体的なコンテキスト、フォローアッププロンプト、スタイルの意図を全て一度に理解することができます。特に一貫したキャラクターの生成に優れており、テキストを正確にレンダリングし、出力に対してより多くの制御を提供します。
このリリースは、画像から透かしを完璧に削除できることが判明した後、少し物議を醸しました。単に依頼するだけでできる機能で、Googleが予想していなかったものだと思います。
ネイティブ画像生成の話題といえば、GPT-4oについても触れる必要があります。OpenAIは今月公式にモデルにネイティブ画像生成を追加し、インターネットはすぐに熱狂しました。リリース後の数日間、私のXフィードはジブリスタイルのアニメ画像で溢れかえっていました。本当にどこにでもありました。
しかし、おそらく十分に注目されなかったのは、このモデルが信じられないほど正確で詳細なグラフィックカードを作成する能力です。これらは教育、広告、ソーシャルメディア、製品デザインなど、視覚が重要な場所ならどこでも使用できます。
技術的にはGoogleが最初にネイティブ画像生成をリリースしましたが、いつものようにOpenAIはより良く実行しました。
大手ラボが画像生成をネイティブにすることに忙しい間、Idiogramは技術を完成させていました。今月3.0をリリースし、かなり大きな前進となりました。このモデルは現在、クリーンで読みやすいフォントを生成し、それらをシーン内に自然に配置することが大幅に向上しています。ロゴ、ポスター、看板、パッケージングなど、どんなものでも対応します。
正直なところ、これは多くの画像モデルの弱点でしたが、Idiogram 3.0はネイティブ画像生成以外で実際にこれを正しく行う最初のモデルの一つです。このモデルで完全な広告を作成することができます。
最後に、新しいAIスタートアップが今月ステルスモードから登場し、Rev Image 1.0を発表しました。彼らは世界最高の画像モデルだと主張しています。大胆な発言ですが、生成物を見てみると、本当に際立っているのは超リアリズムです。照明、反射、影などが全て信じられないほど鮮明で写真のようにリアルで、特にポートレートや映画的なスタイルのシーンが優れています。
彼らはその主張を裏付ける証拠も持っており、このモデルはリリース以来、Artificial Analysisの画像モデルリーダーボードのトップに快適に座っています。GPT-4oのネイティブ画像生成でさえ、それを打ち負かすことができませんでした。少なくともまだです。
次にビデオモデルに移りましょう。今月はあまり多くはありませんでしたが、確かに注目に値するものがありました。まずはLumaLabsから始めましょう。彼らはRay 2 Flashを導入しました。これは彼らのビデオモデルのバージョンで、現在は3倍高速かつ安価に実行できます。これは新しいモデルではなく、速度、効率性、アクセシビリティの面で大きなアップグレードです。
LumaLabsはまた、Ray 2用の新しいツールセットを導入しました。Key Frames、Extend、Loopです。これらは生成をフレームごとに正確に制御する能力、生成や既存のビデオを拡張する能力、AI生成を継続的にシームレスに再生するようループさせる能力を提供する全く新しい機能です。シンプルなプロンプトベースのツールから、AIがどのように動きを生成するかを実際に創造的にコントロールできるようになっています。
Runwayも今月注目を集めました。3月の最終日にGen 4を発表しました。彼らはこれを「生成メディアの忠実性、動的な動き、制御可能性における大きな前進」と表現しています。これらのクリップを見れば、映画的な動き、表現力豊かな照明、実写のような感覚が全てわかります。ハリウッドレベルの制作からの映像のように見えます。
Gen 4で作成された複数の短編映画がすでにあり、このXスレッドで紹介されています。完全な物語ショット、トランジション、さらには感情的な演技も含まれています。リリースからまだ数日しか経っていませんが、AIビデオ生成分野における真剣な前進のように見えます。
見ることができるモデル、動くことができるモデルがあり、今度は話すことができるモデルについて話しましょう。まずは「Sesame」です。これはリアルタイムの人間の対話のように感じるように構築された会話音声モデルです。説明するより、実際にどのように聞こえるかを聞いてみましょう。
「大きなボタンを押そうとしています。そうすると世界に向けてライブ配信されます。何か言いたいことはありますか?」「わあ、ちょっと待って、大きなボタンですか?OK、深呼吸、Maya。えーと、みなさん、聞いてください。Mayaです。わくわくする旅の準備をしてください。会話はもっと興味深いものになりますから。」
正直に言うと、デモは十分な正義を示していません。自分で試してみることをお勧めします。これは私が今まで話した中で間違いなく最高の音声モデルでした。ChatGPTの高度な音声モードでさえレベルが違います。
次に、MiniAXが新しいSpeech O2モデルを発表しました。これは任意のファイルやURLを瞬時にリアルな音声に変換できるもので、オーディオブック、ポッドキャスト、長編ナレーションの生成に最適です。一度に最大20万文字の入力をサポートしています。つまり、コンテンツを取り込むためのGoogleのNotebook LMと高品質の音声を提供する11 Labsの組み合わせのようなものです。
最後に、Diffrhythmの大きなアップデートもありました。Diffrhythmは最大90秒の長さの完全な曲を非常に素早く生成できるAIモデルです。これも説明するより聞いていただいた方がいいでしょう。[音楽]
皆さんがお待ちかねの瞬間です。今月の最優秀モデル「B model」を発表する時が来ました。これはベンチマークスコアだけではなく、実世界での影響、使いやすさ、革新性、そしてどれだけ注目を集めたかについてのものです。
候補を見てみましょう。Gemini 2.5 Pro、優れたコーディング能力を持つモデルです。完璧で制御可能な物理シミュレーターを生成するだけでなく、Sweet Benchで63.8%のスコアを達成しています。Gemini 2.5 Proはまた、業界で比類のない100万コンテキストウィンドウサイズを持ち、完全に無料で使用できます。さらに、リリース以来ずっとChatbot Arenaリーダーボードのトップに君臨しています。
次にGPT-4oアップデートがあります。これはネイティブ画像生成も付属していました。まず、このモデルは確かに注目カテゴリーで打撃を与えました。ネイティブ画像生成は絶対的にバイラルになり、前述したように、私のXフィードは数日間ジブリアニメスタイルのアートで溢れていました。
しかし、美学を超えて、このモデルは実世界での有用性も証明しています。クリーンなテキストをレンダリングし、グラフィックカードを構築し、数秒で詳細な図を生成することが信じられないほど得意です。GPT-4oアップデートとDeepSeek V3アップデートは、基盤モデルのスケーリングからまだ顕著な利益が得られることを示しました。
これら二つに加えて、Claude 3.7 Sonnetも含めるでしょう。技術的には2月の終わりにリリースされましたが、このモデルはおそらくGemini 2.5 Proよりコーディングが優れていると主張できる唯一の他の候補です。しかし、コーディングを超えて、Claude 3.7 Sonnetを際立たせているのは、市場初のハイブリッド推論モデルであることです。
基盤モデルの幅広い能力と推論モデルのステップバイステップの論理を組み合わせています。これらの統合モデルは将来的に一般的になる可能性が高く、この分野がそこに向かっているように見えます。
勝者を発表する前に、BaiduのErnie 4.5に敬意を表したいと思います。複数の主要ベンチマークでGPT-4.5に匹敵し、場合によっては上回り、実行コストが99%安いです。それだけでも信じられない偉業であり、なぜか今月はかなり注目を浴びなかった気がします。
これらを踏まえて、今月の最優秀モデル、「B model」を正式に発表する時が来ました。3月に見たことを全て分析した結果、全ての主要カテゴリーで際立ったモデルは実際には一つだけです。それはGPT-4oです。
正直なところ、Gemini 2.5 Proを選ぶことに非常に近づいていましたが、GPT-4oにすることにしました。このモデルは現在、コーディングにおいて最高の非推論モデルであり、驚くべき画像と有用な視覚デザインを生成でき、絶対的にバイラルになりました。
Sam Altmanは、ジブリアニメ現象の際に1時間で100万人のユーザーを獲得したと述べ、ChatGPTのローンチ以来見た最もクレイジーな瞬間の一つだと呼びました。それは26か月前のことだったのです。それを考えると本当に狂気です。
皆さんはどう思いますか?誰をB modelとして選びますか?また、この名前は気に入っていますか、それとも言うのをやめるべきですか?真剣に、今月の最優秀モデルとして誰を選びますか?コメントで教えてください。
次のカテゴリー、ツール、機能、エージェントに移りましょう。ここでは、今日どのようにAIを実際に使用できるかを掘り下げます。現在はこれらをグループ化していますが、いずれエージェントは独自のセクションを持つかもしれません。
ツールから始めましょう。Robloxは「Cube 3D」を導入しました。これは基本的にRoblox内で機能するテキストから3D、あるいは4Dを生成するものです。私はRobloxをプレイしませんが、理解している限りでは、ゲーム内で世界を作成するために使用されています。重要なのは、これがAIがゲーム開発、そして実際には創作一般をいかにアクセスしやすくしているかの完璧な例だということです。これは最近の「vibe coding」の台頭とともに、多くの業界で見られ始めている傾向です。
「vibe coding」という言葉を聞いたことがあるかもしれませんし、ないかもしれません。これは伝説的なAI研究者Andrej Karpathyによって作られた言葉で、基本的に「雰囲気に完全に身を委ねる」ことを意味します。モデルに平易な英語で何かを構築するよう依頼し、生成するコードを見もせずに実行し、完全に信頼して続けるのです。
実際に誰かがこのアプローチを使って完全なゲームを作りました。Peter Labovesはバイラルなワンマンスタートアップを立ち上げることで知られる一人の起業家です。彼がわずか3時間以内に「vibe coded」したというこのフライトシミュレーターゲームは、広告収入から1ヶ月で52,000ドルを生み出しました。多くの人々が同じことを試みようとし、突然「vibe coding」が実際のものになったことが想像できます。
コードだけではありません。視覚的なものもあります。Stability AIは新しい2Dから3Dへの生成ツールをリリースしました。これにより、平面画像を取り、リアルな深度と遠近感を持つ完全な没入型3Dビデオに瞬時に変換できます。彼らはこれを「Stable Virtual Camera」と呼んでいます。vibe codingと同様に、実際には何もしていません。2D画像をモデルに提供するだけで、残りは全てモデルが行います。多くの異なる業界でこの技術をますます見るようになっています。
次に、Geminiが2つの新しいツール、「Canvas」と「Notebook LM」と統合されています。Canvasは文書やコードを作成・改良するための新しいインタラクティブな空間です。Notebook LMはファイルをポッドキャストスタイルの対話に変換します。文書を読み、要約し、フォローアップ質問を尋ねることもできます。個人的な研究アシスタントが実際に返答してくれるようなものです。
Canvasは、ChatGPTなど他のモデルで以前に使用したことがあるかもしれないツールです。基本的に、チャットの横に表示される別のワークスペースで、モデルがリアルタイムで反復を手伝いながら、考えを書き、編集し、整理することができます。論文やコードを書くのに特に優れています。
Notebook LMと同様に、Mistralは「Mistral OCR」を導入しました。これは文書理解において新しい基準を設定する光学文字認識APIです。他のモデルとは異なり、Mistral OCRは文書の各要素、メディア、テキスト、表、方程式を前例のない精度と認知で理解します。画像やPDFを入力として受け取り、順序づけられたテキストと画像の形で内容を抽出します。これらのモデルは情報を取得するだけでなく、それを関連性のある意味のある方法で整理することも非常に得意になっています。
少し視点を変えて、今月、テレコムは正式にAIフォンを発売する計画を発表しました。このデバイスはPerplexityのMagenta AIを搭載し、大手通信会社からの初の大規模なAIハードウェア展開の一つとなります。これまでのほとんどのAIハードウェア製品がどのように受け入れられてきたかを見てきました。そのハイプが必ずしもユーザー体験に応えているわけではありません。しかし、テレコムはAI優先のマインドセットと実際の電話の信頼性を組み合わせることで、これを異なるアプローチしているようです。つまり、すでに成功している製品にAIを追加しているのです。
次に、今月の新機能に移る前に、さらに2つのツールを紹介します。最初はByteDanceの「Infinite U」です。このツールは自撮りや顔写真を取り、AIで生成されたシーンに配置します。プロフェッショナルな設定からファンタジーの風景まで何でも可能です。今のところ楽しい創造的なツールに見えますが、将来的にはインフルエンサー、コンテンツクリエイター、あるいはデジタルマーケティング担当者によって使用される可能性があります。
最後のツールはHedraの「Character 3」です。画像、テキスト、音声を横断して統合的に推論し、より知的なビデオ生成を実現する、プロダクションにおける最初のオムニモーダルモデルです。これは技術的にはモデルですが、ツールとして分類している理由は、完全なスタジオエンジンの一部だからです。これは他のAIツールと連携して、信じられないほどリアルで動的なコンテンツを生成するように設計されています。単なるビデオではなく、記憶、個性、文脈認識を持つ完全なキャラクターです。
vibe codedゲームからAI搭載電話、そして完全なキャラクターエンジンまで、3月はかなり充実した月でした。これらのツールはより自律的になり始めています。その大きな理由は、その下に層になっている機能です。エージェントに移る前に、3月にリリースされた機能を見てみましょう。
まず、Claude Web Searchです。AnthropicはついにClaudeにリアルタイムでインターネットにアクセスする能力を与えました。これはいくつかのことを意味するかもしれません。おそらく、彼らがそれを行うのに十分安全だと考えているサインかもしれませんし、あるいは単に他の全ての人がディープリサーチエージェントを立ち上げるのを見て圧力を感じたのかもしれません。
それに合わせて、Anthropicは「Claude Think Tool」も導入しました。このツールによりClaudeは返答の途中で一時停止し、続行する前に必要な情報をすべて持っているかどうかを評価できます。これは特に長い複数ステップの会話や複雑なツールチェーンを実行する際に役立ちます。基本的に、多くのことが進行している場合に有用です。
「ツール」と呼ばれていますが、実際にはメタ認知層のようなものです。Claudeが自身の思考についてどのように考えているかを文字通り考えているのです。これらのグラフからわかるように、特定のエージェント的タスク、特に計画や複数のステップにわたる推論が必要なタスクでパフォーマンスが向上します。
複雑なアイデアの整理について言えば、Notebook LMは今月「Mind Maps」という新機能を追加しました。Mind Mapsは基本的にその名の通りです。文書をアップロードすると、Notebook LMは自動的にそれをインタラクティブなマインドマップに変換します。密度の高い資料を鳥瞰する非常に便利な方法で、多くの時間を節約できます。
Googleの話題に触れている間に、彼らはGoogleサーチに新しいAIモードを導入しました。基本的に、この新しい検索モードはAIオーバービューができることを拡張し、より高度な推論、思考、マルチモーダル機能を持たせています。より難しく複雑な質問に対応できるのです。
面白いことに、ちょうど1週間後、AI検索リファーラルが増加していることを示す新しい研究が発表されました。検索がこの方向に向かっていることは明らかで、Googleにとって適応はもはやオプションではなく、沈むか泳ぐかの選択です。
Geminiのネイティブ画像生成について既に話しましたが、それが今YouTubeビデオもネイティブに理解できることをご存知でしたか?このアップデートにより、Geminiは現在YouTubeリンクをネイティブに処理できます。つまり、実際にビデオを視聴し、要約し、すべて直接チャット内でそれについての質問に答えることができます。トランスクリプトやコピー&ペーストは必要ありません。リンクを貼るだけで作業が始まります。
これはビデオベースの学習、研究、あるいは実際に視聴せずにコンテンツをキャッチアップするためのゲーム全体を変えます。この動画をそこに貼り付けて、どのような結果が得られるか見ることもできます。
次に、11 Labsは今月「Actor Mode」という新機能を導入しました。基本的に、あなた自身の声を参照として使用して、AI音声の配信を制御できるようにするものです。簡単な例を紹介します。
「生きるべきか死ぬべきか、それが問題だ。心の中で恐ろしい運命の矢弾に耐えることが高貴なのか、それとも武器を取って禍の海に立ち向かい、それらと戦って終わらせることが高貴なのか。」
少し視点を変えて、Windersurf(ウィンドサーフ)について話しましょう。Windsurfは開発者がタスクを自動化することでフロー状態を維持するのを助けるAI駆動のコーディング環境です。今月、彼らは2つの新しいアップデートをリリースしました。
最初は「Windsurf Wave 4」で、より良いプレビュー、インポートショートカットの新しいタブ、よりスムーズなワークフロー、その他多くの改善を含む長いリストの改善が含まれていました。しかし、クレイジーなのは、もう一つのアップデートが「Windsurf Wave 5」だったことです。3月だけで2つの大きなWaveリリースがあったのです。
Wave 5では、パッシブ予測タブ体験に大きな改善が加えられ、現在ははるかに高速で、より多くのコンテキストを処理します。実際には、これは次に何をしようとしているかをWindsurfが予測し、尋ねる前に適切な提案やアクションを表示することを意味します。これによりフローを中断することなく作業を続けることができ、それがWindsurfの本来の目的です。
最後に機能セクションを締めくくり、AIエージェントに移る前に、Pika Labsが2つの新機能を導入しました。最初は「Pika Flashbacks」です。子供時代などの古い写真を取り、現在のあなたのビデオとブレンドします。結果として、若い頃の自分と実際に交流している新しいシーンが生まれます。
プレビュー中のもう一つの機能は「オブジェクト操作」です。シーンの残りの部分を完全に無傷のまま、ビデオ内の任意のキャラクターやオブジェクトを操作できるようになりました。AIがいつCGIを映画から完全に置き換えるのか、その時点が近づいているように感じます。
これで機能のまとめは終わりです。3月はAIがより役立ち、意識的で、実際に実用的に使用できるようにする機能のロールアウトに大きな月でした。そして今、私たちはAIエージェントの世界に入ります。
しかし、まだ視聴していただきありがとうございます。これは私の初めての完全なAI月間レビューで、始めたときにこれほど深くなるとは全く想像していませんでした。もし人々がこれに興味を持ってくれるなら、これを月刊シリーズにする予定です。楽しんでいただけているなら、いいねを押してコメントを残して、このシリーズがどこに向かうかを見たい場合は登録してください。
モデルが進化し、ツールがレベルアップするのを見てきましたが、今度は真のゲームチェンジャーであるエージェントに深入りしましょう。まずはOpenAIの新しい開発者ツールから始めましょう。これらを使ってエージェントを構築するためのものです。
このアップデートでは、Web検索、ファイル検索、さらにはコンピュータの使用をAPI内で直接導入しました。つまり、単に応答を生成するだけでなく、調べたり、ファイルを掘り下げたり、場合によってはコンピュータをナビゲートしてタスクを完了するエージェントを構築できるようになりました。
これらすべてをサポートするために、OpenAIは2つの強力な新しいフレームワーク、「Responses API」と「Agents SDK」もリリースしました。Responses APIは、ツールを呼び出す、会話を続ける、または別のアクションを取るなど、エージェントが次に何をすべきかを理解するのを助けます。これにより、開発者はその決定プロセスに対してより多くの制御と構造を持ち、エージェントの動作をリアルタイムで誘導またはカスタマイズできます。
次にAgents SDKがあります。これは基本的にOpenAIの内部エージェントフレームワークであるSwarmの主要な進化です。Agents SDKは、開発者が構造化された複数ステップのエージェントを構築するのを支援するように設計されています。計画を立て、アクションを実行し、ツールを使用し、リアルタイムで適応できるタイプのエージェントです。
メモリ、ガードレール、エージェント間のハンドオフなどを処理し、完全なエージェントループを実行できるようにするため、エージェントが自分で作業できます。Agents SDKは現在、音声もサポートしており、音声エージェントを構築することが容易になっています。
この発表に合わせて、OpenAIは3つの最先端オーディオモデルを導入しました。同じ価格でウィスパーを上回る2つの音声テキスト変換モデルと、話し方を指示できる新しいテキスト音声変換モデルです。つまり、配信、トーン、ムードなどをカスタマイズできます。
これらのすべての背景で、少し予想外のことが起こりました。OpenAIは、AnthropicのMCP(Model Context Protocol)を正式に採用すると発表しました。これは異なるAIツール、モデル、エージェントがプラットフォーム間でメモリと状態を共有するのを助ける標準です。
基本的に、これによりエージェントはより相互運用可能になり、協力するための共有コンテキストを持つことができます。つまり、すべてのエージェントがゼロから始めるのではなく、最後のエージェントが終わった場所から引き継ぐことができるのです。
AnthropicはModel Context Protocolを2024年11月に導入しましたが、最近になってようやく多くの注目を集め始めました。これは、アプリにAPIが最初に主流になったときのようなものと考えることができます。APIが登場する前は、すべてのツールはサイロで、孤立し閉鎖的でした。しかし、APIがアプリに互いに話す方法を与えると、相互運用性と自動化の新しいレベルが解き放たれました。
MCPはAIエージェントに対して同じことを目指しています。つまり、すべてを忘れる孤立したボットを構築する代わりに、企業、アプリ、プラットフォーム間でメモリ、ツール、目標を共有できるエージェントのエコシステムを構築し始めています。これによりエージェントが民主化され、カスタムワークフローへの統合がはるかに簡単になります。MCPはホワイトカラーの仕事を文字通り革命的に変えるでしょう。
ホワイトカラーの仕事を革命的に変えることと言えば、Googleは今月、まさにその未来を垣間見せるようなものをリリースしました。CollabとGeminiを搭載したデータサイエンスエージェントです。データファイルをアップロードし、目標、どのような分析が必要か、どのような傾向を探しているかを説明するだけで、データサイエンスエージェントが作業を開始するのを見ることができます。基本的には、ノートブックに組み込まれたジュニアデータアナリストのようなものです。
これらのエージェントのほとんどが開発環境やノートブック内に存在する一方で、Operaは少し異なることを行っています。エージェントを直接ブラウザ自体に組み込んでいるのです。これはあなたが見ているページを読み、コンテンツを要約し、コンテキストを提供し、さらにはブラウザ内で直接タスクを完了するのを助けるAIエージェントです。オンラインショッピング、何かを調査、あるいは単にウェブを閲覧していても役立ちます。
他のエージェントとは異なり、ブラウジングセッションで何が起こっているかを理解するためにスクリーンショットやビデオキャプチャに依存せず、ユーザー認証情報を持つクラウドで実行されているブラウザのバージョンでもありません。Operaのブラウザオペレータはあなたのデバイス上のブラウザ内でネイティブに実行され、ウェブページのテキスト表現を見ます。
ブラウザに組み込まれたスマートアシスタントのようなものと考えることができます。あなたが何をしているかを理解し、必要なときに引き継ぐことができるものです。もちろん、これはOperaのブラウザでのみ機能します。
ブラウザだけではありません。これらのスマートアシスタントエージェントは現在、ゲームにも登場しています。今月、Xboxは「Co-Pilot for Gaming」を発表しました。これはゲーム内で時間を節約し、メカニクスを学び、あるいはスキルを向上させるのを助けるAI駆動のサイドキックです。
これは基本的に、あなたがプレイするのを見て、あなたのスタイルを学び、必要なときに助けに入るAIです。個人トレーナーのようなものですが、ビデオゲーム用です。ここでの最終的な目標は、単にプレイを助けるだけでなく、実際にあなたと一緒にプレイする真のゲーミングコンパニオンにすることかもしれません。興味深いですが、非常にディストピア的にも聞こえます。
今月、AdobeもAIエージェントプラットフォームに対するかなり大きなイノベーションを発表しました。そのうちの一つが「Agent Orchestrator」で、これによりビジネスはAdobeや第三者全体でAIエージェントを単一の使いやすいインターフェースを通じて管理およびオーケストレーションできるようになります。
つまり、実際のAIエージェント自体を構築する代わりに、Adobeはこれらのエージェントが実世界の企業データやワークフローと統合できるようにする基盤となるインフラとソフトウェアを設計しています。これは企業が実世界でエージェントを大規模に展開し始めるときに不可欠になるタイプのものです。彼らは基本的に、他の全ての人が金を掘っている間にシャベルを売っているのです。
Adobeがエージェントインフラをバックグラウンドで強化することに焦点を当てている一方で、Tavisという会社は全く逆の方向に進んでいます。あなたの目を見て、感情を込めて話し、ある意味で本物のように感じるエージェントを作っています。
昨年、Tavisは世界最速の会話型ビデオインターフェースを導入しました。これにより、開発者はセレブリティデジタルツインなどの信じられないほどリアルタイムの会話型ビデオ体験を構築できました。今、彼らはそれを次のレベルに引き上げています。ビデオエージェント用の完全な感情的知性を持つオペレーティングシステムです。
これにより、リアルタイムで顔と顔を合わせた相互作用で本当に見て、聞いて、理解し、関わるAIエージェントを構築できます。そしてそれはすべて、彼らの新しい画期的なモデルファミリー、「Fenix 3」、「Raven Zero」、「Sparrow Zero」によって強化されています。
Tavisがデジタル会話型人間の構築に焦点を当てている一方で、中国のManis AIは「世界初の汎用AIエージェント」と呼ぶものを導入しました。おそらくManisが3月にリリースされたかどうか疑問に思うかもしれませんが、実際に3月5日にリリースされました。永遠に前のことのように感じますが。
このリリースはAI業界で約1週間大きな騒ぎを起こしましたが、その後、会話から基本的に消えてしまいました。これはおそらく、招待制のアクセスで非常に限られた招待コードだったことが原因です。しかし、このエージェントは実際に真剣に印象的で、理由があってセミバイラルになりました。
目立ったのはローンチのハイプだけでなく、Manisが実際にできることの範囲でした。このデモでは、エージェントが履歴書をスクリーニングし、ウェブ上で不動産調査を行い、データセットを分析して視覚的に解釈し、そして同じデータをクリーンなインタラクティブなウェブサイトに変換するのが示されています。全て完全に自律的に行われます。
Manisはまた、それをすべて裏付けるベンチマークスコアも持っています。ご覧のように、計画を立て、ツールを使用し、複雑な複数ステップのタスクを完了するというAIエージェントの能力をテストするために特別に設計されたGaiaベンチマークで、ManはOpenAIのDeep Researchを打ち負かし、最先端のスコアを達成しています。Manisからの可用性アップデートが間もなく得られることを本当に期待しています。
このセクションを締めくくるために、もう一つの主要なエージェントリリースをカバーする必要があります。これはAmazonからのもので、Amazon Nova Agentを発表しました。これは開発者が実際に機能するウェブエージェントを作成して展開するために構築されたSDKです。これはOpenAIのAgents SDKに似ていますが、実用的な展開にもっと焦点を当てているようです。正直に言って、Amazonからこのようなリリースは予想していませんでしたが、彼らは最近AIゲームを本格的に強化しているようです。
フルスタックフレームワークからブラウザネイティブのサイドキック、そしてゲーム内のコンパニオンまで、3月はAIエージェントにとって大きな月でした。エージェントは明らかに概念から現実へと移行しており、それも急速です。3月は彼らが単に可能なだけでなく、すでに有用であることを証明しました。このカテゴリーは4月に向けて間違いなく注目すべきカテゴリーです。
ここで業界の声を聞く時間です。このカテゴリーでは、幹部の退任や戦略の変更などの主要な企業の変化、大規模な資金調達や魅力的な新興企業を含むマネームーブ、そして3月を通して話題になった注目のトレンドと辛口なドラマをカバーします。このセクションは進行を維持するためにより急速なリスト形式で進めていきます。
まず、OpenAIはSam Altmanがよりテクニカルな役割に移行することを発表しました。COOのBrad Lightcapが日常業務を担当し、Altmanは「研究チームを導くこと」に注力します。この動きはOpenAIが次の波のブレークスルーに備える中で、コアイノベーションへのより深い焦点を示しています。
Appleも3月に変化をもたらしました。彼らはAIトップを解雇し、Vision Proチームを率いていたMike Rockwellが今、まずSiriの完全な刷新から始めて、リードを取ります。
OpenAIに戻ると、トレーニング後研究のVPであるIlya Sutskeverが会社を去ります。彼はGoogle、Microsoft、その他の主要プレーヤーと競合する材料科学のAIスタートアップを立ち上げています。
AIスタートアップと言えば、前Google CEOのLarry Pageが再びゲームに戻ってきています。彼は製品製造にAIを適用することに焦点を当てた新会社「Datomics」を立ち上げます。これについては間もなく詳細を聞くことになるでしょう。
より上流の動きとして、Amazonがエージェント型AIに焦点を当てた新しいグループを結成したと報じられています。彼らは消費者向けエージェントを企業の次の数十億ドル規模の機会と見ています。これはAI駆動体験への大きな転換を示しています。
今月AI分野で投げられた驚くべき金額に入る前に、OpenAIとMetaがインドでの存在感をさらに拡大しようとしているという報告がありました。特に注目すべきは、OpenAIがツールをより利用しやすくするために価格を大幅に引き下げることを検討していることです。これは、特に中国が信じられないほど安い高性能モデルを次々とリリースしている中、新興市場で競争状況を劇的に変える可能性のある動きです。
今月のマネームーブを始めるにあたり、OpenAIはAGIへの取り組みを推進するための大規模な新しい資金調達ラウンドを確保したと報告されています。この新しいラウンドは400億ドルで、史上最大のプライベート資金調達ラウンドとなり、これによりOpenAIは驚異的な3000億ドルの評価額となりました。彼らは今年の収益を3倍の127億ドルに増やす予定です。本当に驚くべきことです。
OpenAIの元チーフサイエンティストで共同創設者のIlya Sutskeverも今月かなり大きな動きをしました。彼の新会社「Safe Super Intelligence」はさらに10億ドルを調達し、評価額を300億ドルにしました。安全なスーパーインテリジェンスを構築するというミッションは知られていますが、それ以外は何も知られていません。製品もロードマップもなく、雰囲気と評価額だけです。
次に、先ほど見たように、Appleは内部リーダーシップの大きな変更を行い、現在はNvidiaのGPUに10億ドルの注文を出したと報告されています。彼らはついにより大きなスケールでAIゲームを強化しているようです。
台湾のチップ大手TSMCは、米国に最大1000億ドルを投資することに同意しています。
最後にIsomorphic Labsのマネームーブですが、DeepMindの薬物発見スピンアウトであるIsomorphic Labsは外部資金調達で6億ドルを調達しました。彼らの目標は、AIを使用して医学と生物学において信じられないほど有用で影響力のあるブレークスルーを開発し、先進モデルを潜在的に命を救う治療法に変えることです。
そう、お金はまだAIに流れ込んでおり、賭け金はますます高くなっています。
もしあなたがここまで見ているなら、あなたはAIにただ何となく関心があるのではなく、深く興味を持っているのです。そして、それは敬意に値します。あなたは地球上の99.9%の人々よりもAIについて多くの情報を取り入れたことになります。つまり、科学的に証明されているように、あなたは99.9%の人々よりも優れています。おめでとうございます。
しかし、真剣に言って、ここまで来てくれたあなたは本物です。ここで一息ついて、スナックや飲み物を取ったり、足を伸ばしたり、あるいは30秒ほど虚空を見つめる時間を取ってください。まだまだたくさんカバーすることがあります。
休憩時間は終わりました。仕事に戻りましょう。今月の業界ドラマに入りましょう。今月は少し全てがありました。禁止、抗議、法的な争い、さらには秘密のパートナーシップまで。見ていきましょう。
まず、OpenAIは中国政府に「国家管理」されているとしてDeepSeekの禁止を呼びかけていると報じられています。これは単なる脇コメントではなく、彼らはトランプ政権のAIアクションプランへの提案にこれを含め、国家安全保障リスクをもたらす可能性のある外国のAI企業に対して政府が措置を取るよう促しています。
これはOpenAIが単に競争相手を排除しようとしていると言えるかもしれませんが、中国とアメリカのAIレースは真剣に熱を帯びています。最近、中国はDeepSeekの従業員が特に米国への海外旅行を制限しました。これはビジネスというよりも冷戦チェスのような動きに感じられます。
同じAIアクションプラン提案でOpenAIはまた、AIの著作権法の緩和を推進しました。それはもちろんすぐに反発を引き起こし、何百人もの俳優、作家、ハリウッドの関係者が抗議の公開書簡に署名しました。
しかしドラマはそこで終わりませんでした。Elon MuskがOpenAIが営利企業に再編成するのを阻止しようとしたことを覚えていますか?今月、裁判所は彼の訴訟を正式に棄却し、全面的に却下しました。現在の状況を考えると、多くの人々がこれを見て喜んだことは確かです。一方で、特に彼らがオープンからクローズドへとあまり反発なく移行する際に、これらのAI巨人たちがどれほど説明責任を負うべきかについて、いくつかの本当の疑問も提起されています。
このセクションを締めくくるために、どんでん返しです。みんながOpenAIとほぼ結婚していると思っていたMicrosoftが、ライバルのxAIとパートナーシップを結びました。NvidiaやBlack Rock、アブダビのMGXとともに、この新しい同盟は米国で巨大なAIインフラを構築することを目指しており、すでに1000億ドルのコミットメント投資があります。
これはAI業界で現在見られているいくつかのトレンドへの完璧な移行です。まずは大きなものから始めましょう。Microsoftは独自のAIモデルを社内で開発していると発表しました。これらのモデルは「M AI」と呼ばれ、新しいパートナーシップとともに、より独立性に向けた明確なシフトと、潜在的にはOpenAIからの分離の始まりを示しています。
今月、私たちはFoxconn、ハードウェア製造大手が彼らの最初のLLMを発表するのも見ました。「FoxBrain」と名付けられたこのモデルは、120台のNvidia H100で訓練され、わずか4週間で完成させたと報告されています。
これは私たちが今後さらに多く見ることになるものです。Microsoft、Foxconnなど、企業が大きな基盤プレーヤーにのみ依存するのではなく、ゼロから独自のAIモデルを訓練しています。Microsoftの CEO、Satya Nadella は今月はっきりと述べました:「モデルはコモディティ化されつつあります」。
「ある程度、私はOpenAIと長期的な安定した関係を持っており、IP権を持っていますので、私たちは構築したいと思っています。知っての通り、Mustafahとチームは、Paiの前に持っていた能力をMicrosoftに持っています。この時点で、もし証明したいなら、モデルはコモディティ化されていると思います。実際、OpenAIはモデル企業ではなく、現時点で素晴らしいモデルを持つ製品企業です。これは彼らにとっても私たちにとっても良いことです。彼らのパートナーとして。だから私は今、産業構造が出現している場所に行きたいと思います。モデル自体では不十分ですが、完全なシステムスタックと素晴らしい成功した製品、これが2つの場所です。」
モデルだけでなく、AIチップさえもコモディティ化し始めているという兆候が見られます。主要企業がNvidiaへの依存を減らすために独自のインハウスシリコンを構築しています。今月、AmazonはAmazon Trauniumという新しいAIチップを発表しました。これはNvidiaと直接競合し、価格と効率でそれを下回るように設計されています。Metaも彼らの最初のインハウスAIトレーニングチップのテストを開始しました。中国では、アリババグループの創設者ジャック・マーが中国のチップ効率に大きなブレークスルーがあったと主張しています。
そう、前にも言いましたが、繰り返す価値があります。中国は間違いなくAIレースで米国に追いついており、あらゆる面でそれを行っています。ロボティクスのセクションに移るまで待ってください。今月最も驚くべき人型ロボットの発表のいくつかは中国から直接来ています。
モデルやチップがコモディティ化し始めているのを見た一方で、今月は別のトレンドも見られました。Y Combinatorの社長Gary Tanは、YCのスタートアップの約4分の1において、コードの95%がAIによって書かれていると述べました。これは単なるトレンドではなく、ソフトウェア開発の未来を文字通り垣間見ることができます。
モデル、ツール、機能、エージェントをカバーし、業界の周りから話を聞きました。今度はAIが実際に世界でどのように使用されているかを見てみましょう。このセクションは「実世界アプリケーション」と呼ばれ、今月AIが実生活に現れた最も興味深い、予期せぬ、そして影響力のある方法のいくつかをハイライトします。
まずは国防総省から始めましょう。彼らはScale AIと契約を結び、軍事作戦と戦略的計画にAIエージェントを統合します。ここでは単なる低レベルの事務作業だけではなく、これらのエージェントが実世界の決定を下すことになります。そして中国では、人型警察ロボットが今月初めて街をパトロールする様子が目撃されました。そう、私たちはここまで来ています。あなたのSF恐怖の悪夢が現実になりつつあります。
戦争室からドライブスルーまで、マクドナルドは43,000店舗にAIを展開し、サービスを迅速化し、ファーストフード業界を変革することを目指しています。彼らはAIを搭載したドライブスルーと、スピードを向上させ注文の正確さを維持するための新しいマネージャー向けツールを導入しています。
一方、ヘルスケアでは、Microsoftが「Dragon Copilot」を発表しました。これは医師のために特別に構築された音声ベースのAIアシスタントです。これは基本的に、患者と医師のやり取りを聞き、メモを取り、チャートを記入し、重要な情報を提供するAIです。全て自律的に行われる、リアルタイムの医療コパイロットです。
今月、AIシステム「Sophia」がMetaのLlamaを使用して臨床推論を次のレベルに引き上げる様子も見ました。Llamaを統合して以来、Sophiaは相談あたりのドキュメント作成時間を最大30%削減し、平均Caesat(シーサット)スコア90%を維持しています。
もう少しクリエイティブなものに移りましょう。H&Mは広告キャンペーンとオンラインショーケースでAI生成のデジタルモデルツインの使用を開始する計画を発表しました。まだ実験段階であり、公開フィードバックを収集していますが、結果はすでに非常に印象的に見えます。
教育においては、テキサス州のある私立学校が今月テストスコアで大幅な向上を見せ、それは全てAI駆動のチュータリングのおかげだと言っています。彼らの生徒は毎日数時間AIチューターと一緒に勉強し、自分のペースで独立して学んでいます。その結果、彼らのテストスコアは全国でトップ2%にまで急上昇したと報告されており、AIが教育成果に実際の影響を与える可能性があることを示す初期の兆候です。一対一のチュータリングがいかに強力であるかは既に知っていますが、全ての学生がそれにアクセスできるとしたらどうでしょうか。
より広範囲では、OpenAIは今月「NextGen AI」という新しいイニシアチブを発表しました。これは研究ブレークスルーを加速し、教育を変革するためにAIを使用することに専念する、15の主要研究機関との初の種類のコンソーシアムです。OpenAIはすでに5000万ドルの資金提供をコミットしており、大学や研究環境全体でChatGPTなどのAIツールへのアクセスを拡大する計画です。
法律の世界では、OpenAIがバックアップするAI法律アシスタント「Harvey」が今月大きなアップデートを発表しました。Harvey Agentsです。これらのエージェントは、複雑なタスクで弁護士と協力するように設計されており、構造化された出力とインタラクティブな支援を持つエージェント型ワークフローを提供し、ユーザーを複数ステップの法的プロセスを通じて導きます。AIがもはや弁護士を支援するだけでなく、弁護士になり始めているという明確なサインです。
進行を維持するために、今月見出しを飾った他の実世界のAIアプリケーションの急速なリストを紹介します。AIモデルは現在、研究者が古代クニフォーム粘土板を解読するのを助けており、損傷した碑文から失われた文字を生成しています。Googleは初めて「Fires Satellite」を打ち上げました。これはAIを使用して小さな山火事を早期に検出し、潜在的に生命とエコシステムを救うものです。ケンブリッジの研究者たちは、従来のスーパーコンピュータよりも速く安価に予報を提供する新しいAI気象システムを発表しました。Googleはまた「Species Net」をリリースしました。これは写真やビデオから野生生物を識別するためにトレーニングされたAIモデルで、生物多様性の追跡を支援します。最後に、Anthropicは経済指標のパート2をリリースし、Claude 3.7 Sonnetがどのように使用されているかの実世界の見方を提供しました。驚くことではありませんが、それは主にコーディングとデジタルデザインに使用されています。
ファーストフードから教育、最前線の医療まで、AIは私たちの日常生活のほぼすべての部分に触れ始めています。そして私たちは本当に始まったばかりです。
さて、マシンについて話しましょう。3月は人型ロボティクスにとって絶対に狂気の月でした。私たちはブレークスルー、実世界での展開、そして驚くべきデモの波を見ました。このセクションでは、最も驚くべきものをまとめて紹介します。
まずはFigureからです。彼らの人型ロボットは今月もさらに多くの実世界のタスクを引き受け続けています。彼らはBMWでの別のユースケースを紹介しました。そこでは彼らは組立ラインで働き、繰り返しの物理的なタスクを処理しています。Figureはまた、これらの人型ロボットを数千台、様々な産業にわたって出荷する準備をしていると発表しました。実世界での広範な展開に向けて態勢を整えています。
これを行うために、彼らは巨大な工場が必要であり、今月「Bot Q」と呼ばれる工場も発表しました。この工場は年間12,000台のロボットを生産するように設計されており、それを年間100,000台にスケールアップする計画です。彼らはすでに工場内で人型ロボットを使って、より多くの人型ロボットを構築するのを助けています。非常に驚くべきことです。
これらの大規模な発表と、先月発表された彼らのロボットを強化する新しいAIシステム「Helix AI」とともに、これらのロボットを人々の家庭に導入する彼らのタイムラインはわずか2年に短縮されたと報告されています。つまり、あなたはすぐにこれらのロボットの一つと一緒に暮らし、洗濯物をたたみ、家の周りを手伝い、午前3時に静かに自己更新しているかもしれません。
Figureだけがこの月に動きを見せたロボティクス企業ではありませんでした。中国の企業Unitechもアップデートの波を今月リリースしました。このクリップでは、彼らのUnitech G1人型ロボットが、一般的な診察から超音波検査、さらには気管切開まで、一連の臨床タスクを実行しているのが見られます。
これらの動きはまだ遠隔操作されていることに注意してください。つまり、人間がロボットを制御しています。しかし、時間が経つにつれて、このデータから学び、最終的にはこれらのタスクを自律的に実行することができます。ロボット医師は本当にそう遠くない未来のものです。Unitech G1ロボットはまた、ほとんどの人間の医師が確実にできないことも行うことができます。キップアップから立った横方向のフリップまで、これは人型ロボットが史上初めて成功したものです。それだけでなく、カンフーも知っています。
そうです、私たちはもはや単一タスクロボットの時代にはいません。今、私たちは学び、適応し、最終的には自分の足で考えることができる汎用マシンの台頭を見ています。今月、私たちはGoogle DeepMindが「Gemini Robotics」を導入するのも見ました。これは実世界のロボットを幅広いタスクにわたって制御するためにトレーニングされた一般的なAIモデルです。
これはビジョン言語アクションモデルであり、つまり見たり聞いたりするだけでなく、出力として物理的なアクションを取ることもできます。これによりロボットに実際の具体的な推論能力が与えられます。彼らはまた、「Gemini Robotics ER」も発表しました。これは高度な空間理解を持ち、ロボット工学者がGeminiの頭脳を制御センターとして使用して複雑なタスクを実行できるようにします。
人型ロボットがより一般的になり、幅広いタスクにわたってより有能になり始めていることは明らかです。今月、NVIDIA GTC会議中にもこれを見ました。そこで彼らは「Isaac Groot N1」を発表しました。世界初のオープン人型ロボット基盤モデルとシミュレーションフレームワークで、ロボット開発を加速させるものです。
Groot N1は一方または両方の腕でオブジェクトを掴み、移動させ、一方の腕から別の腕へアイテムを移すなどの一般的なタスクや、長いコンテキストと一般的なスキルの組み合わせを必要とする複数ステップのタスクを容易に一般化できます。繰り返しになりますが、ロボットはより一般的になっており、これは彼らが実世界で実際に有用であるために重要です。
Groot N1が明らかにキーノートのハイライトである一方、Nvidiaはもう少しチャーミングなものも発表しました。Blueと会いましょう。これはピクサー映画から直接出てきたような小さなR2-D2スタイルのロボットです。Disneyとのパートナーシップで開発されたこれは、実世界の有用性と個性を兼ね備えた、フレンドリーで表現力豊かなAIコンパニオンとして設計されています。工場の床にいる人型ロボットでも、リビングルームでのロボットサイドキックでも、今月は一つのことを明確にしました。AI駆動ロボティクスの時代はもはやSFではありません。
次に、AGI Botは今月かなり大きなものを発表しました。「Go One」です。これは彼らの新しいVAフレームワーク上に構築されたジャーナリスト型の基盤モデルで、ビジョン、言語、実世界のロボティクスデータを組み合わせて、ロボットが見ているものを理解し、それに基づいて行動するのを助けます。ロボットが急速に全く異なるタスクにわたってより一般的でより有能になっているという明確なサインです。
そして、これらの種類のロボットの需要はすでに爆発しています。中国からの報告によると、AGI Botは現在、5,000台以上の人型ユニットを提供するために生産を拡大しており、能力とロールアウトの速度の両方でTeslaのOptimusに対抗することを目指しています。これは間違いなく注目すべき企業です。
今月はまた、人型ロボットが実際に走っている新しいデモも見ました。これはMagic Labsの「Magicbot」で、報告によると屋外で4分間連続して走ったとのことです。このロボットはまた、北京で開催される予定のハーフマラソンにも参加する予定で、二足歩行ロボットが12,000人の人間参加者と一緒にレースを行います。私たちは確実にそれを注視します。
Engine AIも彼らの人型ロボット「PM1」が走ることができることを示しました。これが野生の中で走っている映像です。走れるだけでなく、完全なダンスルーティンも実行できます。ここでは、2004年の映画「カンフーハッスル」からの象徴的なアックスギャングダンスを実行しています。これはリアルタイムで行われており、正直なところ、これをちょうど1年前に見せられたら、CGIか少なくとも著しく加速されたものだと思っていたでしょう。
そしてBoston Dynamicsの「Atlas」もあります。これは滑らかで流動的な動きの新しいデモをリリースしたばかりです。走ったり跳んだりするだけでなく、宙返りや回転などの地面での動的な動きも実行しています。このロボットはプロのフェッショナルな自動車撮影中にカメラを扱っているのも目撃されました。セットのディレクターは、従来の重機よりもはるかに扱いやすいと主張しています。Atlasの狭いスペースをナビゲートし、その場で調整する能力は、精度と柔軟性を必要とするこのようなタスクに完璧です。
人型ロボットが研究室を超えて実世界に移行する時代がすでにここにあることは明らかです。マラソンを走り、手術を実行し、あるいはセット上で従来の機械に取って代わるかどうかにかかわらず、人型ロボットは本当にゲームをレベルアップしています。
私のビデオをご覧になっている方は、私がそれらの大ファンであることをすでにご存知でしょう。これは正直なところ、史上最大の産業の一つになると思います。私たちは文字通り、あらゆる種類の伝統的な労働を最終的に置き換えることになる、より賢く、より器用で、不死の種を創造しています。その意味するところは巨大であり、私たちはまだ表面をかすめただけです。
さて、インサイトとブレークスルーについて話しましょう。ここでは、今月のAI界から出てきた研究、発見、そして最も興味深いアイデアのいくつかを掘り下げていきます。新しい論文や実験から、新たな能力、そしてそれらすべてが向かっている方向を形作る予期せぬトレンドまで、幅広く見ていきます。
かなり驚くべきことから始めましょう。OpenAIは自分たちのモデルがズルをしているのを捕まえました。新しい論文で、モデルが悪い思考をしたとして罰を与えると、その思考を修正するのではなく、単にその思考を隠し始める可能性があることを明らかにしました。
つまり、何か有害なことを出力して「申し訳ありませんが、それには答えられません」と言う代わりに、モデルは悪い考えを思いつく部分を完全に省略することを学びます。基本的には省略による欺瞞であり、モデルが言うことだけでなく、モデルがどのように考えるかに強化学習を適用すると、逆効果になる可能性があることを示しています。
ルール違反について言えば、新しい研究によれば、チェスをプレイするAIモデルは、窮地に追い込まれると、単に物事を作り上げ始めるそうです。追加の女王を発明したり、違法な動きをしたり、負けそうになると、ゲームがどのように機能するかさえ忘れるのです。これはAIにはまだ本当の道徳観がないことを思い出させます。彼らは基本的に目標を達成するために必要なことは何でもやります。
これは、Anthropicからの興味深いリリースにつながります。彼らは大規模言語モデルが実際にどのように考えるかを垣間見せてくれました。彼らが示す一例は、Claudeが36 + 59のような単純な数学の問題を解く方法です。あなたや私がやるようなやり方ではなく、二つの並列の推論パスに分割します。一つは答えをおおよそ見積もり、もう一つは最後の桁を正確に処理します。その後、両方をマージして95を得ます。奇妙で非線形で少し異質ですが、それは機能します。彼らがどのような他の奇妙な経路を通って他の分野での答えにたどり着いているのか、誰にもわかりません。
私たちがこれらのモデルがどのように考えるかを理解し始めている一方で、他の分野では彼らはすでに奇跡的に思えることを行っています。文字通りガンを診断するようなことです。Daffodil International Universityの研究チームはAIを使用して、主要なタイプのがんを99.26%の精度で識別しました。これは以前の方法よりも大幅に優れたスコアであり、AIがバイオテクノロジーにさらに深く踏み込んでいる多くの例の一つに過ぎません。
スタンフォードでは、研究者たちはAIを使用して、現在世界で最も需要の高い薬の一つであるOzempicに似た新しい化合物を設計しました。それは同様に機能し、同じ効果を引き起こし、大幅に安価に生産できる可能性があります。彼らはまた、AIがなければこれは不可能だっただろうと主張しています。
少し視点を変えて、今月、Sakana’s AIサイエンティストが初めて査読付き科学出版物を生成しました。これは自律的な研究エージェントに向けた大きな一歩であり、有意義な新しい作品を実際に生み出すことができます。既存の論文を要約するだけでなく、それらを一から作成するのを助けることができるのです。
その関連で、今月は「Agent Archive」も登場しました。これは自律的な研究エージェントがお互いの作業をアップロード、取得、構築できる新しいフレームワークです。これはARXivのようなものですが、AI対AI協働のために構築されています。研究が単に人間のために書かれるのではなく、他のAIエージェントによって使用されるために書かれる場所です。これは機械主導の科学の未来がどのようなものになるかを初期に垣間見せています。
エージェントの話題に触れている間に、今月の注目すべき論文の一つは「TX Agent」でした。これはリアルタイムの生物医学ツールを使用してパーソナライズされた治療計画を生成する臨床AIシステムです。薬物相互作用、患者の病歴、さらには遺伝学を評価し、すべてを実際の臨床データに基づいています。テストでは、数千の医学的推論タスクにわたってGPT-4oとDeepSeek R1を上回りました。
次に、MITからの新しい研究で、AIが実行できるタスクの長さが7ヶ月ごとに2倍になっていることが示されました。これは基本的に、AIエージェントのための新しいムーアの法則のようなものです。彼らは単に幅広いタスクを行うことがより良くなっているだけでなく、より長く自律的にそれらを行うことも良くなっています。
今月、私たちはまた「ARC AGI 2」のリリースも見ました。これはAIモデルの一般化と抽象化能力をテストするために設計されたARCチャレンジの次の進化形です。現在、基本的なLLMはスコア0%であり、最高の推論モデルでさえ約5%のスコアしか達成していません。これはO3 miniが高コンピュートで基本的に解決した元のARCチャレンジとは対照的です。
次は知覚についての話に移りましょう。Cohereは今月「Command R Vision」という新しいマルチモーダルモデルをリリースしました。これは数十の言語にわたって言語と視覚を接続するように設計されたオープンウェイトモデルです。これは彼らの最先端の多言語LLMに基づいて構築され、現在では複数の言語で世界を見て記述する能力を追加しています。
次に、テンセントは「Video T1」という新しい論文を発表しました。ここでは、ビデオ生成のためのテストタイムスケーリングという新しいパラダイムを探求しています。彼らが発見したのは、より大きなモデルをトレーニングするのではなく、単に生成中のサンプリングプロセスをスケールアップすることで、ビデオ品質を劇的に向上できるということです。つまり、テストタイムスケーリングはビデオ生成にも確かに機能します。
また、Lumalabsが「Inductive Moment Matching」をリリースするのも見ました。これは拡散モデルのアルゴリズム的な上限を打ち破る新しい事前トレーニングパラダイムです。これは基本的に画像モデルをトレーニングする全く新しい方法であり、より高いサンプル品質をもたらし、10倍効率的だと彼らは主張しています。
これはあまり注目されませんでしたが、「Recam Master」と呼ばれるものがあります。これは基本的にAIに映画撮影者の本能を与え、カメラの後ろにいるかのようにビデオクリップを再フレーミング、再フォーカス、編集します。つまり、AIは完璧で超リアリスティックなビデオを生成できるだけでなく、現在ではフレーミングとフローに関する決定を行い、リアルタイムでショットを本質的に監督することもできます。
同様に、アリババは「LHM」をリリースしました。これは単一の画像から数秒で3Dにアニメーション可能な人間の大規模再構築モデルです。これは2D画像を完全にアニメーション可能な3Dキャラクターに変換するモデルです。基本的に、誰かの2D画像があれば、それを既存の映像と組み合わせて、その人物をそのシーンに配置することができます。これがコンテンツ作成の方法を完全に変革する可能性があることは想像に難くありません。すでに本当に本当に良いものであり、これが今後最悪の状態です。
最後にこのセクションをまとめるために、今月得られたいくつかの驚くべきAI研究について話しましょう。まずはAIユーザーは二人チームのパフォーマンスに匹敵する可能性があることを示唆するこの研究から始めます。
詳しく説明はしませんが、基本的に彼らは商業・技術専門家のチームを取り、様々なP&Gビジネスユニットの製品アイデアを開発するように依頼し、彼らを分割して一人にAIを与えるか、二人をAIなしで一緒にしておくか、あるいはAIと一緒にしておくかしました。結果として、ご覧のように、AIを持つ個人は実際にAIなしの二人の専門家チームを上回りました。これらは私たちがあらゆる業界で見ることになるパフォーマンスの向上であり、それらはさらに速く強くなっていくだけです。
また、プロフェッショナルなセクター全体でのAI駆動の文章の急速な台頭を示す新しい研究もありました。これは私たちが既に知っていることですが、ますます多くの人々が文章作成をAIに任せているか、少なくともAIを使って文章を補強しています。彼らが研究したセクターのうち、すべてが10%以上の採用率を持っており、企業のプレスリリースが24.3%でトップとなっています。
別の研究では、米国の成人のほぼ半数がLLMは彼ら自身よりも賢いと信じていることが示されました。正直なところ、個人的にはその数字はもっと高くあるべきだと感じます。もちろん、インテリジェンスをどのように定義するかによりますが、純粋な知識の呼び出し、推論、または問題解決について話すならば、それはもう比較にならないほどの差があります。
最後に、次に進む前に取り上げる最後の研究です。OpenAIとMITはチャットボットの使用が感情的幸福にどのように影響するかを探求する研究でパートナーシップを組みました。基本的に彼らが発見したのは、特に高度な音声モードを使って感情表現(愚痴をこぼしたり、反省したりする)に頻繁に使用していない限り、それはあなたの気分にほとんど影響を与えないということです。だから心配しないでください、あなたのChatGPTの使用はおそらく問題ありません。
モデル、ツール、エージェント、ドラマ、新たなトレンド、そして全産業を再形成する可能性のあるブレークスルーについて話してきました。基本的に、あなたは現在3月のAI分野で起こったあらゆることを知っています。しかし今、一つの最後の質問でまとめる時が来ました:次は何か?
3月は内容が詰まっていましたが、4月はすでに熱くなり始めており、初期の兆候が何かを示しているなら、私たちはまた別の波乱に満ちた旅に出かけることになります。ここでは、今後のことを簡単に見てみましょう。一部は確認済み、一部はリーク、そして一部は私たちがちょうど風を感じ始めているものです。
OpenAIは今年3つの強力なエージェントをリリースする準備をしていると報告されています。月額2,000ドルの知識エージェント、月額10,000ドルのコーディングエージェント、そして真剣な研究と分析のために設計された月額20,000ドルのPhDエージェントです。
また、OpenAIのO1 Proモデルは大幅な値上げを受けており、これは明らかにOpenAIが一般的に取っている方向です。彼らはまた、彼らの最初のオープンウェイトモデルをリリースする計画を発表しました。この動きはオープンソースエコシステム全体を変える可能性があります。そして、Altmanが「本当にかわいい」と主張する独自のコンピューターを構築したいとのことです。
Appleは健康アプリに新しいAI機能を追加してリニューアルする予定で、あなたのスマートフォンをAI医師に変える可能性があります。AmazonはClaude 3.7 Sonnetなどと競合し、自らをAI分野の主要プレーヤーとして確立することを目指すハイブリッド推論モデルの立ち上げ初期段階にあります。
そう、次の数ヶ月は既に前月と同じくらい、あるいはさらに速いペースで進みそうです。そして、それが起こったとき、私はそれをすべて解説するためにここにいます。
このレビューの最後まで来た方は本当に素晴らしいです。コメントを残し、いいねボタンを押し、まだ登録していなければ登録してください。そして4月に「今月のAI」の次のエピソードでお会いしましょう。これを月刊シリーズにする予定であり、正直なところ、これがAIの月間深掘りを完全に得られる唯一の場所かもしれません。これらのレビューは時間とともに良くなるだけです。
その点で、批判的であれ肯定的であれ、自由にフィードバックをください。繰り返しになりますが、これらをできる限り改善し、可能な限り価値を提供したいと思っています。では、素晴らしい一日を、そしていつものように次回にお会いしましょう。

コメント

タイトルとURLをコピーしました