
7,075 文字

GoogleがGeminiに重要なアップデートを行いました。CanvasとAudio Overviewが直接Geminiアプリに導入され、また物議を醸しているGemini 2.0 Flashによるネイティブ画像生成が全ユーザーに提供されるようになりました。一方、NVIDIAはヒューマノイドロボット向けの新しい汎用基盤モデル「Groot N1」を発表し、OpenAIはAI著作権法が厳しくなりすぎると、米国が中国にAIレースで遅れをとる可能性があると警告しています。詳しく見ていきましょう。
Google DeepMindはGemini 2.0 Flashによるネイティブ画像生成を全ユーザーに公開しました。Google AI Studioまたは、Gemini APIで試すことができます。このモデルの特徴は何でしょうか。Googleによると、Gemini 2.0 Flashはマルチモーダル入力、強化された推論機能、自然言語理解を組み合わせて画像を作成します。つまり、これは強化された推論能力を持つ画像生成モデルであり、あまり見られない組み合わせです。
Googleはこのモデルが、キャラクターや設定を一貫して維持しながら物語とイラストを生成する能力を示しています。これは画像モデルが通常苦手とする点です。例えば、パート1のヤギはパート2でも全く同じヤギで、角度や姿勢が変わっても違いがありません。また、モデルはテキストと画像を同時に生成し、マルチモーダルなストーリーテリング体験を作り出します。
別の例では、テキストから画像を編集できることを示しています。これを「マルチターン会話型画像編集」と呼んでいます。基本的に、自然言語で変更したい内容をモデルに伝えるだけで、何度も繰り返すことができます。モデルは会話全体を通して文脈と一貫性を維持します。これも多くの画像モデルが苦手とする点です。
また、Gemini 2.0 Flashは世界知識と強化された推論を活用して、詳細でリアルな画像を生成します。この例では、ユーザーが完成した料理のイメージを掴めるよう、レシピをステップバイステップで画像付きで生成しています。料理に詳しくない私にとって、これはゲームチェンジャーです。
最後に、長いテキストシーケンスを正確にレンダリングする能力は最先端です。これは広告やソーシャルメディア投稿の作成などに非常に価値があります。これも多くの画像生成モデルが苦手とする点です。ほんの昨年、これらのモデルは「Happy Birthday」という単語でさえ間違えずに書くことができませんでした。本当に進歩しました。
総じて、このモデルは強化された推論能力と幅広い知識ベースのおかげで、非常に詳細で正確、かつ文脈に適した画像を生成できます。ストーリーラインでキャラクターの一貫性を維持し、自然言語で画像をシームレスに編集し、長いテキストシーケンスを正確にレンダリングする能力は、現在利用可能な最も先進的な画像モデルの一つとなっています。
このリリースがオンラインで物議を醸している理由は、このモデルを使って画像から透かしを削除できることに人々が気づいたからです。この記事によると、Gemini 2.0 Flashは有名人や著作権で保護されたキャラクターを描いた画像を問題なく作成し、また既存の写真から透かしを削除できるとのことです。例えば、使用するためには支払いが必要なShutterstockの猫の画像があります。しかしGemini 2.0 Flashでは、透かしを削除するよう依頼するだけで、欠けている部分を補完してくれます。正直、これがどうやって存続するのか疑問です。透かしには理由があるはずです。皆さんの意見をコメント欄でお聞かせください。
Googleはさらに2つの新機能を導入しました。Canvasは文書やコードを作成・精緻化するための新しいインタラクティブスペースであり、Audio Overviewはファイルをポッドキャストスタイルのディスカッションに変換します。Canvasは全く新しいアイデアではありません。ChatGPTにもあり、AnthropicにもClaude Artifactsという独自バージョンがあります。基本的には、モデルの出力を表示する別ウィンドウであり、メインチャットを散らかすことなくリアルタイムで編集・精緻化できます。これにより、長文テキストでの作業、アイデアの反復、コードの調整がやりやすくなり、会話をクリーンに保つことができます。
Audio Overviewは、Notebook LMの機能で、文書をポッドキャストスタイルの音声ディスカッションに変換するものですが、現在Geminiでも利用可能になりました。Deep Researchと組み合わせることもできます。AIがウェブ上で自律的に調査を行うだけでなく、その結果をポッドキャストスタイルの魅力的なディスカッションとして伝えることができます。すごいことです。
今週は他にも大きなモデルリリースがありました。MistralがMistral Small 3.1をリリースしました。超高速でコスト効率が良く、高性能なモデルです。このモデルはGemma 3やGPT-4o Miniなどの同等モデルを上回る性能を持ちながら、秒間150トークンの推論速度を実現しています。そして、いつものようにMistralのモデルはApache 2.0ライセンスの下でオープンソース化されています。
このグラフを見ると、博士レベルの科学的質問からなるGBQAベンチマークで、同サイズの他の最先端モデルを上回る性能を示しながら、はるかに低いレイテンシで動作しています。Simple QA、MMLU、Human Eval、Mathなどのより一般的なベンチマークでも、GPT-4o MiniやGemma 3と同等の性能ですが、はるかに低いレイテンシとコスト効率を実現しています。全体として、これはオンデバイスユースケースや独自AIアプリケーションの構築に最適な、高速でコスト効率が良く、高性能なモデルです。Mistralは常に印象的です。
今週は中国企業BYDから新たなモデルリリースもありました。BYDはErnie 4.5とErnie X1という2つの新しいAIモデルを発表しました。Ernie 4.5はネイティブマルチモーダル基盤モデルで、Ernie X1は推論モデルです。これらのベンチマークによると、Ernie 4.5はOpenAIのGPT-4.5と同等の性能を発揮します。最も驚くべき点は性能だけでなくコストです。このモデルはGPT-4.5の性能に匹敵しながら、わずか1%のコストで実現しています。つまり99%安いのです。また、推論モデルのErnie X1はDeepSeek R1と同等の性能を半分のコストで提供しています。
実はこれについては既に詳細な動画を作成しており、モデルリリースの詳細と中国と米国間のAI価格戦争の全体像について掘り下げています。まだ見ていない方は、ぜひチェックしてください。画面上にリンクを表示しています。明らかなのは、中国がアメリカのAI企業の価格を引き続き下回っているということです。そしてこの積極的な価格戦略は、世界のAI市場に大きな影響を与える可能性があります。
ヒューマノイドロボティクスの世界では、現在非常に速いペースで進展しており、多くの開発がありました。まずはBoston Dynamicsの新しいAtlasロボットのデモで、複雑で繊細な動きを複数実行しています。ロボットが床の上で四つん這いになり、さらには宙返りもできることがわかります。側方回転や逆立ちなど、他の印象的な動きも行っています。動画の最後には、文字通り床の上でブレイクダンスをしています。Boston Dynamicsから新しいデモが出てくるのはしばらくぶりですが、彼らは明らかに懸命に取り組んできており、Atlasの動きはこれまで以上にスムーズになっています。
同分野の大手プレーヤーであるUnitreeも今週、彼らのUnit G1モデルによるヒューマノイドロボットによる世界初の立ったままの側方回転を披露しました。これは非常に印象的な偉業です。先ほどAtlasが地面から側方回転するのを見ましたが、これは立ったままの側方回転です。もし1年前に私がこれを見せられたら、間違いなくCGIだと思ったでしょう。ヒューマノイドロボットで達成している進歩は本当に凄まじいものです。
AIビデオ生成の初期の頃を思い出します。すべてが酷い出来だったのが、約半年の間に突然、ぼやけた不格好なクリップから、ほぼフォトリアリスティックなAI生成ビデオへと進化しました。同じような爆発的な進歩がヒューマノイドロボットでも見られているように感じます。
今週はこれらだけではありませんでした。Engine AIのPM01ヒューマノイドロボットが映画「カンフーハッスル」の象徴的な斧ギャングダンスを披露するのも見ました。このクリップは前回の動画で既に紹介したかもしれませんが、これは本当に印象的です。ロボットは比較的複雑で素早い動きを含む完全なダンスルーティンを自律的に実行できます。
ヒューマノイドロボットは現在、フリップやダンス、1年前には不可能と思われた方法で動くことができるようになりました。私たちが目にしている進歩は凄まじく、次のステップは、これらのロボットに一般化する能力を与え、実世界で真に役立つようにすることです。これはFigure AI、Google DeepMind、さらにはNVIDIAなど、複数の企業が現在取り組んでいることです。
NVIDIAの最近のGTCキーノートで、CEOのJensen Huangはヒューマノイドロボット向けの新しい汎用基盤モデル「Groot N1」を発表しました。
NVIDIA Isaac Grootは、シミュレーション対応データ、シミュレーションフレームワーク、合成データ生成ブループリント、事前訓練済みモデルのプラットフォームです。NVIDIA Isaac Groot N1は、ヒューマノイドロボット向けのオープンな汎用基盤モデルです。Groot N1は、人間の認知処理原理にインスパイアされた「速く考える」と「ゆっくり考える」のデュアルシステムアーキテクチャを特徴としています。ゆっくり考えるシステムにより、ロボットは環境と指示を知覚・推論し、適切な行動計画を立てることができます。速く考えるシステムは、その計画を正確で連続的なロボットの動作に変換します。
インターネット規模のトレーニングデータは常識と推論を提供しますが、特定の動作や制御をロボットに教えるわけではありません。そのため、より良いデータとより多くのデータが必要です。人間のデモンストレーションデータは、1日の時間数によって制限されます。NVIDIA OmniverseとCosmosに構築されたGrootの合成データ生成ブループリントにより、少数の実世界データキャプチャを大規模で多様なトレーニングデータセットに指数関数的に増やすことができます。
Groot N1の一般化により、ロボットは一般的なオブジェクトを簡単に操作し、多くの環境や複数の具現化にわたって、複数のステップのシーケンスを協調的に実行できます。合成データ生成と強化学習により、ヒューマノイドロボット開発者は特定のロボットとタスクのためにGrootN1をポストトレーニングできます。汎用ロボットの時代が到来しました。NVIDIA Isaac Grootに基づいて構築する開発者によって推進されています。
正直なところ、これらのロボットが人々の家庭や職場に入るまであと数年しかかからないと思います。もちろん、まだ広範囲での展開ではありませんが、一度デプロイメントが始まれば、生産は加速するでしょう。
NVIDIAといえば、新たな競合相手が現れるかもしれません。AWSが「Tranium」と呼ばれる新しいAIチップを発表しました。これはNVIDIAのH100と同等のパフォーマンスを25%のコストで実現すると主張しています。このチップ発表については、大幅な価格引き下げとAIハードウェア分野での競争が激化している明確なサインであること以外は、あまり詳しいことはわかっていません。引き続き注目していきます。
OpenAIのAI著作権法に関する警告と彼らが米国政府に提案している内容に入る前に、Sakana AIからの驚くべき投稿について話さなければなりません。Sakana AIはそのAI科学者で知られているかもしれませんが、彼らが作成したこのAI科学者がピアレビューされた最初の科学論文を生成しました。これは大きなマイルストーンです。彼らが述べているように、これは人間の科学者が経験するのと同じピアレビュープロセスを通過した、完全にAIが生成した論文として知られている最初のものです。
実際、彼らはAI科学者によって生成された3つの論文をレビューのために提出しました。3つのうち1つだけが採択の基準を満たしましたが、それもAI生成であったため撤回せざるを得ませんでした。これは、AIが生成したものであり、AIと科学コミュニティがまだAI生成の原稿を同じ場所で発表するかどうかを決定していないためだと述べています。
私たちは今、AIが自律的に高レベルの研究を行い、その結果を発表可能なレポートにまとめられる段階に来ています。これにより、AIと科学コミュニティは、すべてがどのように機能するかについて考え始めました。AIと人間は同じピアレビュー基準に従うのか、それともAI生成の研究には別の評価プロセスが必要なのか、これらは確かに難しい問題ですが、遅かれ早かれ答えを出す必要がある問題です。皆さんはどう思いますか?これは確かにグレーゾーンであり、様々な視点を聞きたいと思います。
最後に、米国AIアクションプランに対するOpenAIの提案について話さなければなりません。この文書は非常に長いですが、本当に目立つのは2つのセクションだけです。その1つがこちらです。OpenAIは次のように述べています。「Huaweiと同様に、重要インフラや他のハイリスクユースケースでDeepseekモデルを基盤にして構築することには大きなリスクがあります。なぜなら、DeepseekがCCP(中国共産党)に強制されて、危害を与えるためにモデルを操作される可能性があるからです。そして、Deepseekは同時に国家補助を受け、国家によって管理され、自由に利用可能であるため、そのユーザーにとってのコストはプライバシーとセキュリティです。Deepseekは中国法の下でユーザーデータの要求に応じる義務を負い、それを使ってCCPが使用するためのより高性能なシステムをトレーニングします。」
これはTikTokの状況に非常によく似た話に聞こえ始めています。何らかの規制措置が取られるか、そしてそれが実際に効果的かどうかを見るのは興味深いでしょう。
もう一つ触れたい分野は、もちろんAI著作権法です。OpenAIは中国がAIレースで持つ利点をここに挙げています。その一つの利点として彼らは、「著作権仲裁から利益を得る能力があり、これは米国のように法令によってAIトレーニングを明確に保護していない民主国家や、EUのように著作権保持者のオプトアウト制度を通じてトレーニングデータの量を削減する民主国家によって作り出されています。中国はそのような国のIP体制を尊重する可能性は低いですが、すでに同じデータへのアクセスを持っている可能性が高く、アメリカのAIラボを比較的不利な立場に置きながら、元のIP創作者を保護するという点ではほとんど何も得られません。」と述べています。
皆さんはこれについてどう思いますか?彼らは良い点を指摘しています。もしデータが本当にそれほど重要であれば、AIをトレーニングできるデータに厳しい著作権制限を課すことは、それらの規制を尊重する必要のない中国に確実に優位性を与えるでしょう。特に彼らはすでにAI能力の面でアメリカとの差を縮めており、ロボティクスやモデル効率などの分野では彼らを追い越している可能性さえあります。このAIレースの重要性を考えると、AI進歩を妨げる可能性のある規制の実施は控えるべきでしょう。しかし、私のチャンネル名は「AI Copium」なので、私は間違いなく偏っています。
動画の終わりに、OpenAIについて話している間に、最近裁判所がElon MuskによるOpenAIの営利企業への再編を阻止する試みを却下したことが発表されました。あるいはOpenAIの言葉を借りれば、「ElonのOpenAIを遅らせる最新の試み」です。物事には常に二つの側面があります。彼らはお互いに腹を立てる十分な理由がありますが、少なくとも法的に言えば、彼らの争いは終わりました。しかし、MuskがOpenAIに干渉しようとする最後の話ではないでしょう。
以上が今日のAIニュースです。視聴いただきありがとうございました。この動画を楽しんでいただけたなら、ぜひ「いいね」を押してください。


コメント