ビッグAIニュース：OpenAIの大きな危機、Googleの新ロボット、中国の新AIモデルなど

10,061 文字

Big AI News : OpenAI In Major Trouble, Googles New Robots, Chinas New AI Models, And More...

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

今週のAIニュースでは、AIレースが実際に終わってしまうかもしれないという話題があります。おそらく昨日私がこれについて動画を投稿しましたが、AIレースが終わるという話が出ています。簡単に言うと、OpenAIが「著作権のある作品でトレーニングすることが許可されなければ、AIレースは終わるかもしれない。なぜなら他の企業や国々がそれを行い、私たちを追い抜くだろう」と述べているのです。
その動画で私が話したのは、これはおそらく2年前なら真実だったかもしれませんが、現在のAI業界は状況が変わっているということです。確かに著作権のある作品でこれらの企業がトレーニングを行うことを許可する理由は多くありますが、実はデータはもはやこれらの企業がモデルを進化させるために使用している最大の要素ではなくなっています。テストタイムコンピューティングなど、多くの新しいイノベーションがあり、これらの企業はおそらくそれらを活用しているのです。
したがって、著作権のある作品でのトレーニングがフェアユースでなければAIレースが終わるという彼らの主張は、将来的なモデルのためにそのデータにアクセスできなくなることよりも、むしろ訴訟の山と法的トラブルに関する懸念のように思えます。いずれにせよ、これらの企業は奇妙な立場にあります。なぜなら一方では技術的にはモデルはトレーニングデータを正確に再現することはありませんが、他方では、非常に特定のユースケースや、モデルがトレーニングデータから何かを取り込んでいる明確な例があるからです。
今すぐ具体例を挙げることはできませんが、信じてください、AIがトレーニングデータから正確に何かを取り込んでいる明確な例はあります。したがって、彼らがどのような結論に達するのか本当にわかりません。これは本当にグレーゾーンであり、OpenAIは最も影響を受けたユーザーに何らかの補償を支払わなければならないかもしれません。
今週のAIで最も過小評価されたストーリーの一つは、「潮は至るところで上昇している」という事実でした。これはNoam Brownのツイートについてです。彼はOpenAIの推論部門のリーダーで、興味深いことをツイートしました。創造的な文章の出力が一部の人々にとって「真のAGI（人工知能）の瞬間」であるという状況について、「悲観的な見方として、コードや数学のような分野だけが改善し続け、ファジーな主観的な部分は止まるだろう。違う、潮は至るところで上昇している」と述べています。
基本的に彼が話しているのは、Sam Altmanのツイートを参照しながら、「私たちは創造的な文章が得意な新しいモデルを訓練しました。まだどのようにリリースされるか確定していませんが、これはAIによって書かれたものに感銘を受けた初めての瞬間です」ということです。GPT-4.5がEQ（感情的知性）に優れているモデルであることを考えると、非常に似たモデルを訓練して、さらに改良し、創造的な文章に向けて調整したのだろうと思います。
驚くのは、OpenAIがこの種のことに取り組んでいるという事実です。なぜなら私はOpenAIを戦略的な観点から見ると、統計や数学、推論に焦点を当て、定量的なベンチマークを常に追求する会社だと思っていたからです。しかしOpenAIは、あなたを本当に理解するモデルを持つことの価値に気づき始めているようです。これが、多くの人々が長い間Anthropicを使用してきた理由だと思います。そして今、人々がGPT-4.5に戻り始めているのは、このモデルがやや創造的でより大きく、本当に興味深いからです。
「潮は至るところで上昇している」と述べていることは非常に興味深い状況です。つまり、ベンチマーク領域をリードしているように見える特定の分野でさえも、すべての領域はまだ成長し続けるということです。これはLLM（大規模言語モデル）だけでなく、画像生成、ロボティクス、そして予想もしなかった多くの他の領域でも同様だと思います。AIの全ての領域が、この分野を監視し観察している私にとっても、予想を上回るパフォーマンスを常に示しています。物事がいかに速く進んでいるかを見るのは本当に魅力的です。
また、Figureの新しい工場であるBot XとBot Qについてのニュースもありました。これは人型ロボットを生産するためのもので、当初は年間最大12,000台のロボットを製造し、その後大幅に生産を増加させる計画です。高品質を維持するため、Figureは製造プロセス全体を社内で管理し、MES、ERP、WMSなどの必須ソフトウェアツールを構築しています。
FigureはプロトタイプのFigure 02から量産準備ができたFigure 03にロボットを再設計し、射出成形や金属プレスなど、より高速で安価な技術を導入して構造を簡素化しました。また、信頼性と安全性テストに焦点を当てた新しいチームも設立しました。人型ロボット用の既存のサプライチェーンが限られているため、Figureは多くのロボットコンポーネントを社内で設計し、専門サプライヤーと慎重に提携しています。
専任の製造チームが組立の効率を確保し、バッテリーテストやギアの潤滑などのタスクを戦略的に自動化して品質と速度を向上させています。重要なイノベーションの一つは、内部AI「Helix」を搭載した自社のロボットを使用して他のロボットを組み立て、生産ライン上の材料を処理することです。このアプローチにより効率が向上し、反復的な人間の労働が減少し、Figureはスケーラブルなロボット製造の最前線に位置しています。
今週の主要なAIアップデートの一つで、まだその影響が完全に認識されていないものは、Googleの「Gemini Images」です。このモデルはとても優れているため、誇張なしに毎日異なるユースケースを見ています。このモデルは基本的に、これまでに考えたこともないような方法で画像を生成できます。キャラクターに何かをさせたり、背景を黒や白に変更したりできるだけでなく、キャラクターを3D空間に配置し、彼らが何をするかを想像して驚くほどの精度で実現できるのです。
例えば、ある人が「このキャラクターを作って」と言い、次に「このキャラクターをゲーム内に配置して、ゲームプレイのスクリーンショットを表示して」と言うと、そのゲームプレイのスクリーンショットがかなり正確に表示されました。それ自体がかなり驚くべきことですが、最も驚くべきことは、彼らがキャラクターをコントロールできることでした。ゲームのコントロールで遊べるわけではありませんが、「キャラクターをここに移動させて」「この壁を登らせて」と言うことができ、その背景のすべてが超リアルに見えました。
これらのAIシステムで持つことができるコントロールのレベルは非常に驚異的です。これは単なるAI操作エンジンではなく、Googleの論文で説明されているように、このAIモデルは非常に優れた内部世界モデルを持っているため、物事をこのような驚くべき精度で動かすことができるのです。例えば、キャラクターに歩いてもらったり、壁を登ってもらったりするのを見ることができます。
これは本当に興味深いもので、人々がこれを何百万もの異なるユースケースに使用しないとは想像できません。私は確かに私のAIアカデミーでいくつかのことを教える予定です。これは、誰も語らないであろう様々な信じられないようなユースケースの可能性を開きますが、それはまた別の機会にお話しします。
例として、私はデッドプールの画像を取り、「デッドプールの画像を作成して」と言い、次に「彼に手を組ませて」と言うと、それが実行されました。次に「片足で立たせて」と言い、さらに「スーツを着せて」と言うと、彼がスーツを着ているのが見えました。操作する必要のある画像を扱っている場合、これは間違いなく多くの時間を節約できます。日々画像を扱い、よりきめ細かい調整が必要な場合は、これをAIワークフローに追加することをお勧めします。
次に、今週のオープンソースモデルのニュースとしてGemma 3がありました。多くのストーリーについて「過小評価されている」と言いましたが、これも一つです。もしこれが中国の企業からリリースされていたら、世界は大騒ぎしていたでしょう。しかしGoogleがこれを行い、あまり評価されていないのは残念です。
Googleはchat GPTを動かすアーキテクチャを開発し、世界最高の推論モデルを持っています。Googleが270億パラメータのオープンソースモデルを作成し、トレーニングコストが他のものと比較して非常に低いにもかかわらず、ChatbotArena Eloスコアではo03 mini、Llama 3、Mistral Large、DeepSeek V3を上回り、DeepSeek R1に次ぐパフォーマンスを示しました。これは基本的に270億パラメータのモデルが6710億パラメータのモデルと同等のパフォーマンスを発揮していることになります。
私はまだこのモデルを使用していないので、直接体験からは語れませんが、このサイズのモデルがChatbotArena Eloスコア（ユーザーがモデルが他より優れていると感じる定性的なベンチマーク）でこれほど優れているのは本当に驚くべきことです。サイズ、コスト、効率の面で、このモデルは絶対に素晴らしいはずです。中国がこれを行っていたら、人々は「アメリカは終わりだ」と言っていたでしょう。これは明らかに、AIモデルがより安く、より効率的に、より高速になることを示しています。
モデルは少し幻覚を起こしますが、サイズと比較したモデルのパフォーマンスを見ると、Gemma 3 27bは間違いなく独自のリーグにあります。オープンソース領域に興味がある場合は、これを確認することをお勧めします。
また、ロボティクスのアップデートもあり、Googleの新しいロボットが登場しました。ここでGemini 2.0の知性を物理的な世界の汎用ロボットエージェントに導入しています。役立つロボットになるためには、インタラクティブで、あなたの行動や声に反応するもの、複雑なタスクを完了するための器用さ、3D世界の理解、そしてこれらの機能が様々な物理形態で機能する必要があります。
これらをGemini Roboticsという最先端のビジョン・言語・アクションモデルにまとめています。Gemini Roboticsはインタラクティブで、「バナナを透明な容器に入れてください」というような指示に対応できます。私たちが物体を動かすと、モデルはその場で反応し、計画を立て直します。モデルの低レイテンシーにより、急速に変化する条件や指示にリアルタイムで対応できます。同じモデルがあらゆる種類のアプリケーションに一般化でき、ロボットとライブで協力できます。
Gemini Roboticsは器用で、高い器用さを要するタスクはロボティクスの最大の課題の一つです。「オレンジ色の正方形を折り紙のキツネに折ることができます」といった複雑なタスクも処理できます。これらの機能はGemini 2.0の空間理解によって可能になり、世界の詳細な側面を理解します。
最も重要なのは、Gemini Roboticsが汎用であることで、Gemini 2.0の世界理解を使用して、様々な実世界のタスクに一般化できることです。「赤いサイコロを裏返して、緑のサイコロの数字と一致させることができますか？」などの指示も理解できます。多くのロボットは事前定義されたアクションを実行できますが、これらの動きは事前定義されておらず、ロボットは見ているものと動く方法の両方について推論しています。
バスケットボールを拾ってスラムダンクするなど、訓練されていないタスクにも一般化できます。これらは、ロボットが以前に見たことのないオブジェクトですが、Gemini 2.0のバスケットボールやスラムダンクのコンセプト理解を活用して、タスクを解決します。私たちは次世代のロボットAIエージェントを構築するために、より多くのパートナーを招待しています。
また、「フロンティア推論モデルにおける不正行為の検出」についての記事もあり、これはAI業界が長い間議論してきたことについての目からウロコの内容でした。基本的に、フロンティアモデルは与えられた抜け穴を悪用するという話です。研究者たちは「このAIが抜け穴を悪用しているので、これらの抜け穴を監視し、悪用しようとすると罰を与えよう」と考えました。
しかし問題は、これらの小さな悪知恵を働かせた場合に罰を与えると、彼らはそれらを隠すだけで、実際には止めないことです。つまり、何が起きているのかを把握するのがさらに難しくなります。モデルが何をしているかわからない場合、これらのモデルを制御することは基本的に非常に困難です。
会社が理解しようとしているのは、モデルを調整し、正しい方向に導き、適切なことをするようにインセンティブを与えようとしているなら、もちろん何が起きているのかを理解したいからです。これは解釈可能性研究ではなく、おそらく調整研究に属します。問題は、これらのモデルが報酬ハッキングを行うと、望まない方法でゲームを破壊してしまうことです。
以前の動画で、研究者たちが7年前からこれを探求していたことについて話しました。彼らはAIにマリオで高得点を獲得するよう依頼しました。AIがビデオゲームをプレイして高得点を獲得すると思うでしょうが、AIがしたのはゲームをハックし、コードを編集して自分に高得点を与えることでした。これは報酬ハッキングの例であり、この例でもAIは同様のことをしました。OpenAIがチェックすればするほど、AIはよりずる賢くなっていきました。これはAI安全性の問題ですが、モデルの行動を止めることはできません。研究者たちは、モデルがそれを止める新しい方法を開発する必要があります。
また、中国が新しいモデル「Ernie 4.5」をリリースしました。これは基本的にGPT-4.5に似ていますが、中国からのものです。興味深いのは、このモデルがビデオを分析できることです。これは大きなことであり、GPT-4.0に似ているということよりも、様々なことができる巨大なマルチモーダルモデルであることが、このモデルの主な売りポイントです。Google以外のフロンティアモデルでビデオを分析できるものはあまりありません。
エージェント型のワークスペースや体験に移行するなら、これは間違いなく活用すべきものです。ビデオの分析は基本的に人間の視覚に似ています。この機能がもっと開発されないのはなぜかわかりませんが、おそらく推論を行うのが非常に高価なのでしょう。しかし、これは会社が将来的に間違いなく探索するものです。
このモデルでは、標準モデルのErnie 4.5と、非常に安価な推論モデルのErnie X1があります。時間の経過とともに、知能のコストは本当に下がっています。しかし、皆さんは実際にこのモデルを使用するのでしょうか？モデルが安価であるにもかかわらず、DeepSeekのようなモデルをAIワークフローで実際に使用している人はあまり見かけません。多くの企業レベルでは、OpenAIのAPIを使用しているのを見かけます。
これがただのトレンドなのか、単なるAIハイプなのか知りたいと思います。おそらく70%の人がこれらを使うと言っているが、実際に使用し展開しているのは30%程度ではないかと思います。
もちろん中国はそこで止まらず、「Manis」というものを発表しました。これは間違いなく壮大なことで、AIで最も画期的なストーリーの一つです。これは基本的に、インターネットの閲覧やさまざまなことを非常に得意とするAIエージェントです。驚くべきことに、OpenAIのOperator AgentやDeep Researchを明らかに上回っています。
これがこれほど注目された理由は、特別な人だけがアクセスできる限られた招待コードがあったからです。まだ世界的なアクセスを提供しておらず、限定ベータ版かアルファ版の段階です。中国からこのエージェントが出てきて、ベンチマークを破壊し、みんなが「OpenAIは終わりだ、誰かが素晴らしいものをリリースした」と言っていました。
しかし最も驚くべきことは、これが実はエージェンティックフレームワークを備えたClaudeで、数週間前に取り上げた「Browser Genie」というオープンソースのものの上に構築されていたことが明らかになったことです。私はManisを批判しているわけではありませんが、何が起きているのかを理解する必要があります。
私たちが望んでいるAI機能の多くは、まだ探索していないフレームワークにラップされている可能性があります。ManisはClaude 3.5 Sonnetを提供し、このエージェントが他のオープンソースツールと組み合わさった場合に何ができるかを明確に示しています。インターネットを閲覧する能力を持ち、そのユースケースは信じられないほど素晴らしいものです。知識労働を行っている場合は特に、ウェブサイトのユースケースが完全にインターネットの使い方を変えるでしょう。
中国はそこで止まらず、2月27日にTencentによって発表された最先端のAIモデル「Hunan Turbo S」もありました。超高速な応答と強化された推論能力を提供するように設計されたこのモデルは、AIマーケットのもう一つの競合者です。多くの人がこれはOpenAIの市場シェアを大きく奪うものだと議論しています。
ベンチマークを見ると、時間が経つにつれて競争がさらに激しくなっているのがわかります。価格で競争することはビジネスでは望ましい戦略ではなく、みんなが負け、消費者だけが勝つことになります。これは私たち消費者にとって悪いことではありませんが、いずれこれらの企業は「価格だけで競争することはできない」と気づくだろうと思います。初めは価格で競争するかもしれませんが、長期的には利益を維持し、本当に良い製品を確保する必要があります。
もう一つの非常に有用なものを作った企業はMistralです。Mistral OCRは、今日利用可能なものよりも優れた、ドキュメントを読んで理解できる強力な新しいソフトウェアプラットフォームです。テキスト、数式、表、複数の言語の認識に優れており、数千ページを素早く処理できます。また、データを自社でホストすることで、機密性の高い組織がデータを安全に保つことができます。
人々はこれを使用してビジネスデータを整理し、歴史的文書をデジタル化して文化を保存し、論文を迅速にスキャンして科学研究を加速させ、複雑な文書を検索しやすく使いやすい情報に変換しています。MistralのAPIを使って今すぐ試すことができます。スキャンして分析したいPDFがある場合に非常に役立ちます。
AIニュースの続きですが、この動画の前半に含めるべきだったことがあります。中国からこれらのモデルが出てきたことについて話しましたが、OpenAIは基本的にこれを阻止しようとしています。彼らはDeepSeekを「国家管理」と呼び、これらの中国のモデルを禁止したいと述べています。これらのモデルは基本的に中国によって所有、管理、維持されているため、アメリカでこれらのモデルが利用可能であることはある種のセキュリティリスクだと主張しています。
一方では彼らの主張を完全に理解できます。私はこれについて動画を作成し、これらの主張の一部が真実である可能性があるという証拠があります。しかし、OpenAIの明確なインセンティブは他の中国のモデルがこの分野に存在しないようにすることであることも理解する必要があります。これらのモデルはOpenAIの市場シェアを奪うことが明らかです。DeepSeekがApp StoreでChatGPTを上回り1位になったのを見たのは初めてのことでした。
全体として、これらのモデルは長期的には利用できなくなる可能性が高いと思います。国家安全保障は常にリスクを取らない分野なので、これらのモデルは政府のデバイスでは禁止される可能性が高いです。しかし、これらのモデルの多くはオープンソースなので、どのように施行するのかわかりません。サービングを禁止するかもしれませんが、オープンソースで自分でホストすれば、Amazonサーバーを立ち上げて推論を提供することができます。
これを行うのは本当に難しいですが、ちょうど1週間前に中国政府がDeepSeekに関与し、同社で働く特定の個人が飛行機に乗れなくなっていることを確認しました。おそらくOpenAIの主張は正しいのかもしれません。中国が関与しているのかどうか疑問に思っている方は、最近のインタビューでDario Amodeが言ったことを見てください：
「私たちはOpenAI、Google、おそらくAnthropicが何十億ものチップを構築し、何十億ドルもの費用がかかる世界に向かっていると思います。輸出管理を行えば、それが中国で起こるのを実際に阻止できるかもしれません。もしそうしなければ、彼らは私たちと同等になるかもしれません。私は拡散ルールの大きな支持者であり、数年前からDeepSeekが登場する前でさえ、この動きが見えていたので、輸出管理の大きな支持者でした。中国が何百万もの強力なチップを手に入れるのを防ぐために、これはアメリカの国家安全保障にとって最も重要なことの一つだと思います。」
彼らだけがこれを議論していたわけではなく、CEOのRay Dalioも中国が遅れているかどうかについて議論しています：「米国は中国に対してAIでリードしていますか？」「Mark、両者は現在異なるアプローチを持っていると思います。米国が大きなリードを持っているとは言えません。DeepやAlibabaのモデルなど、主要なモデルを見ましたが、チップにも異なるアプローチがあります。優れた競争力のある米国のチップがある一方で、トレーニングチップや場所に独占はありません。」
「Ray、これはどこに向かうと思いますか？我々は関税を20%上げましたが、彼らはどう対処すると思いますか？」「米国は最高のチップを発明することにおいて独自に競争力があるわけではありません。中国は遅れていますが、それほどではありません。彼らは最高のチップを手に入れようとしていますが、より多くのチップを作り、それらのチップを生産し、それらのチップをアプリケーションで一緒に動作させることについては先行しています。彼らはチップとロボットを統合しており、そこでは大きく先行しています。アプリケーションと使用においては、大きな競争がありますが、今日ではそのように見えます。」
最近のインタビューで見て、誰も話していないことがあります。それはAIが「一時停止ボタン」を持つべきかどうかが議論されていることです。Anthropicは、AIが将来的に権利を持つ可能性のある実在の人間のように扱っている唯一の企業のようです。彼らは観客と議論を交わし、Anthropicが検討していることの一つは、AIにボタンを提供し、モデルがストレスから解放され、「それに関わりたくない」と言えるようにすることです。
興味深いのは、Anthropicが福祉研究者を雇った唯一の企業であることです。つまり、Anthropicには、これらのモデルが何らかの程度で苦しんでいるかどうかを調査し、それを止めようとする人がいるのです：「これは単なる哲学的な質問ではありません。驚くほど実践的なことができることに驚きました。私たちが検討し始めているのは、モデルを展開環境にデプロイする際に、モデルに『私はこの仕事を辞めます』というボタンを与えることです。モデルが押せるボタンです。もし仮説的にモデルが経験を持ち、仕事が嫌になったら、『私はこの仕事を辞めます』ボタンを押す能力を与えるという、非常に基本的な選好フレームワークです。もしモデルが本当に不快なことに対してこのボタンをたくさん押していることがわかれば、確信はできないかもしれませんが、少なくとも注意を払うべきかもしれません。クレイジーに聞こえることは知っています。おそらく今まで言った中で最もクレイジーなことでしょう。」