主要なAI関連ニュース：Amazonの新しいAI、より多くのヒューマノイド、中国の新モデル、Deepseek R2、Grok 3など…

11,388 文字

Major AI News : Amazons New AI, More Humanoids, Chinas New Model, Deepseek R2, Grok 3 And More..

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

では実際に今週起きたAIニュースといくつか見逃しているかもしれないストーリーを見ていきましょう。そのひとつが「Chain of Draft」というもので、これは少ない文章量でより速く考えることができるというものです。これはとても興味深いと思います。なぜならこれはChain of Thoughtを使用してLLMを改善する方法ですが、はるかに少ないトークン数で実行します。これは非常に興味深いことだと思います。人々はこれを考え出せたはずなのに、なぜか私たちはそうしませんでした。
基本的に、AIモデルが人間と同じようにステップバイステップで問題を解決するとき、Chain of Thoughtのように詳細を注意深く説明するのですが、問題は、これらの「思考トークン」の多くは通常かなり高価だということです。ここで彼らが持っているのは「Chain of Draft」と呼ばれるものです。この論文では基本的にAIに長い説明ではなく短いメモを書かせます。それは完全な長いエッセイを書く代わりに、重要なポイント、主要なアウトラインを素早くメモするようなものです。
これはかなりすごいことです。AIは少ない単語で書くため応答時間が短くなり、トークン数が少ないため安価で、計算能力とコストも低くなります。これは本当に良いことです。なぜなら全体的に見て、いくつかのタスクでは同じパフォーマンスを得られるのに、トークン数が少なく、より速いからです。ここでGSM 8Kに関して、Chain of Draftは実質的にChain of Thoughtとほぼ同等であり、他の領域ではChain of Draftが実際にはいくつかのシナリオでさらに優れていることがわかります。
これは非常に興味深いと思いますし、AIが常に改善し続けるということを理解することも重要です。あなたがそう思うかどうかに関わらず。これが私にとって非常に興味深いのは、時々AI論文についてあまり共有したくないときがあります。それらはあまり興味深くないからですが、これは本当に本当に興味深いと思います。おそらく小さなモデルでもこれを取り入れるかもしれません。そうすれば、それらの小さなモデルはより少ないトークンを使用し、パフォーマンスが大幅に向上するでしょう。
繰り返しますが、ほんの小さな改善に基づいてさらに賢いモデルを得るという反復サイクルを経ることになりそうです。これは基本的に、プロンプトエンジニアリングのすごく印象的な形式と言えるでしょう。
LLMの変化に関しても、非常に興味深いものがありました。拡散LLMです。これはすごいことです。拡散LLMは基本的に生成AIへの新しいアプローチで、従来は画像、音声、動画に使用されていた拡散モデルのアプローチをLLMの機能と組み合わせたものです。ここで見ると、実際に速く、これは自己回帰的LLMの計算効率やトークンごとの連続生成などの限界に対処しようとする新しいパラダイムです。
これが拡散LLMの仕組みを示しています。基本的にLLMが機能する異なる方法ですが、明らかにこれらは速く、テキストをはるかに速く書き、また明らかに安価で、AIの使用をより簡単で安価にします。これは非常に興味深いことになるでしょう。これが適切なレベルで実装されるかどうか本当に見てみたいと思います。
次に、Hume AIが最初のテキスト音声変換用LLMであるOctaveをリリースしました。プロンプトで任意の声をデザインでき、感情や配信、皮肉をコントロールするための演技指示を与えることができます。彼らのクリエイティブスタジオで長文コンテンツを制作できます。これは単に言葉を読み上げる従来のテキスト音声変換とは異なり、Octaveは意味が配信にどう影響するかを理解しています。これは本当に重要です。なぜなら前に言ったように、テキスト音声変換の問題点の一つは、配信がどのように特定の感情を生み出すかについて語らないことです。そしてもちろん、重要なのは何を言うかではなく、どのように言うかです。
また、声のデザインもあり、南部のASMR瞑想コーチからフィルムノワールの探偵まで、シンプルなプロンプトで任意のAI音声を作成できます。彼らは基本的にそれらの声を生成することができます。これは本当に興味深いと思います。なぜなら今週、多くの異なるAIの発表を見てきて、多くの人々がAI音声を振り返り始めているからです。Redditの投稿では、人々は「待って、高度な音声モードを手に入れたけど、それは私たちが思っていたものではない」と言っていて、今、人々はAIが持つこれらの声がどれほど良いか認識し始めています。他の企業もそれに飛びついています。では、皆さんにこれを再生してみましょう…
[Octaveのデモ音声の説明が続きます]
次に、11 Lab Scribeがありました。これは最も正確なテキスト音声変換モデルです。このモデルはベンチマークで最高の精度を持っています。ですから、何かを書き起こしたい場合、これこそが使いたいものです。実際にはOpenAIのWhisper V3よりも優れており、英語、スペイン語、イタリア語などで現在リーディングモデルとなっています。これは本当に正確なので、もしあなたのものを書き起こしたいなら、HIPAAにも準拠しています。おそらく私はこれを使って私の動画を書き起こし、AI自動化で使用することになるでしょう。なぜなら、時々私のスピーチがキャプションと完全に一致していないことがあり、それは精度によるものだからです。
興味深いことに、Appleの大規模な5000億ドルのAI投資についてもあります。Appleは5000億ドルをAIに賭けていて、それはAppleにとっても大金に思えますが、Appleは巨額の現金準備を持っていることで知られています。したがって、彼らは異なるAI技術を実験することができます。しかし驚くべきことに、Appleは実際にAIに5000億ドルを投資し、今後4年間で米国で2万人を雇用し、テキサスに工場を開設します。その多くはサーバーに費やされるでしょう。
Reutersの記事を見ると、これにはAIサーバー用のテキサスの巨大工場が含まれ、2万人の雇用を追加するなどの計画があります。ここでの大きなストーリーは、AppleがAIに関する取り組みを加速することを願っていますが、同時にAppleが遅れているとは思いません。確かにChatGPTはマーケットシェアを獲得していますが、Appleに市場シェアを奪われている主要なテック企業はないと思います。
最初はChatGPTが立ち上げられ、企業がAIに数十億ドルを費やしているとき、Appleが何かを見逃しているかもしれないと思いましたが、最近ではApple Intelligenceが大失敗だったという報告さえありました。人々はそれを本当に使っていません。私は最新のiPhoneを持っていません。アップグレードなどに本当に関心がないからですが、皆さんはどう思うか教えてください。
現在、特定の期待が満たされていない非常に興味深い時期にあると思います。例えば、コメントしたかったのですが、ここにある動画を見ると「Apple Intelligenceは完全な失敗」「Apple Intelligenceに失望している」などとあります。この投稿にはこうあります：「ほとんどのiPhoneユーザーはこれまでのところApple Intelligenceに価値を見出していない」。別の投稿では「Apple Intelligenceは全く価値がないと感じる人はいる？これは何もしていない、唯一見た変化はグラフィックだ」と述べています。
TwitterでもConnorとDronのポッドキャストのクリップがありました。彼らは基本的に現在のAIに対して非常に批判的ですが理解できます。このポッドキャストでは、彼らはAI音声アシスタントが完全に役に立たないと話しています。そこで皆さんに尋ねたいのですが、AppleはAIで完全に遅れているのか、それともAI業界は音声アシスタントに関して完全に過大評価されているのでしょうか？
[ポッドキャストからの引用が続きます]
私はあなたたちのことはわかりませんが、日常的に使用する場合、ハンズフリーで料理をしているときなど、「この人に電話して」「これを変更して」「あれをして」と言うことができるのは実際に役立ちます。そのような機能は少し役立ちますが、音声エージェントに関しては、他の企業が実際に対応し始めています。
おそらくAmazonの新しいAlexa Plusで実際に役立つものを手に入れるかもしれません。というのも、Amazonは生成AIを搭載した次世代のAlexaであるAlexa Plusを導入しています。Alexa Plusはあなたの新しいパーソナルAIアシスタントで、物事を成し遂げます。彼女はよりスマートで、より会話的で、より有能で、もちろんPrimeユーザーには無料です。
[Alexa Plusのデモの説明が続きます]
これに関していくつかのデモがありますが、今のところ多くの情報はありません。Amazonはプロモーションビデオを持っており、すぐに再生しますが、これは非常に非常に興味深いものになるでしょう。基本的にはそのホームデバイスにアクセスでき、GoogleプレイストアのAlexa Plus新モバイルアプリでアクセスできるようになります。これは本当に興味深いことになると思います。
この中で最も興味深いことの一つはパーソナリティだと思います。特にClaudeの基本モデルがこの背後にあるので、Amazonはパーソナリティをデザインするでしょう。ご存知ない方のために、AnthropicはAmazonと契約を結んでおり、舞台裏でモデルを提供するのは彼らです。このモデルは実際にかなり良いものになると知っています。これは見たいものになるでしょう。デモをすぐにお見せします。
Alexaがどのように違うのか正確に知りたい場合は、CEOがこの短いインタビューで何を言っているか見てください：
[CEOインタビューの説明が続きます]
チャットボットについて話すのをやめて、実際にHelix Logisticsについて話しましょう。これはもちろんFigureの新しいロボットを使用している会社です。これらのロボットを使って物理的な世界で事が急速に動いています。基本的に起きたことは、Figure Roboticsが12ヶ月以内に最初の顧客を獲得し、これらのロボットを試すためにこの会社を使用し、かなり成功しています。
以前はここに人間がいたでしょうが、これは過去30日以内に現場で検証されたものです。ここで理解する必要があるのは、これがリアルタイムで、自律的で、エンドツーエンドだということです。時間の経過とともに、これは何十億、おそらく何兆ドルの産業になると思います。基本的に人間の労働をロボットに置き換えているからです。これらは一貫して働くことができます。
これはリアルタイムで見るのは本当に信じられないことです。ショックを受けるべきだとは言いたくありませんが、同時にこれが来ることは知っていました。しかし、これを見るとこれは本当に印象的なことです。Figureがコンセプトアートのようなものから、実際にエンドツーエンドで働くロボットになったことを見ると、彼らがいかに素早く動けたかは非常に素晴らしいことです。
AIの業界を支えるものの一つは、その背後にいる起業家が非常に非常に献身的であるということだと思います。確かにAIは速く動きますが、信じてください、これらの会社の背後にいる人々は彼らの仕事に対する姿勢や情熱において絶対に常軌を逸しています。まさに信じられないほどです。
xAIの工場のGrok 3に関するツイートを覚えています。従業員が床で寝ていたという話や、Brett Adcock、この会社のCEOでさえもそこにいたという話もあります。彼はその会社の床で寝ている写真があります。彼はただそこに常にいて、物事を進めようとしているからです。今ならわかります。企業はこんなに速く動かないのが普通です。確かに業界は速く動いていますが、信じてください、多くの努力はこれらの会社の個人に間違いなく起因していて、彼らは物凄く懸命に働いています。
私が嘘をついていると思う人のために、これをお見せしたかったのですが、かなり驚くべきことです。ここでFigure RobotのCEOであるBrett Adcockを見ることができます。彼は基本的に「チームと一緒に推進し、重要なものを構築していることを良いと感じる。次の30日間で頻繁な更新を提供する」と言っています。彼は文字通り自分の会社の床で寝ているのです。この種の献身的なレベルがこれらの主要な更新を生み出している理由です。
引き続きロボット関連の更新では、Neo Gammaがあります。これは1X Roboticsからのもので、OpenAIが支援している会社です。彼らはこのデモを行い、非常に印象的だと言わざるを得ません。いくつかのコメントからこれがいかに印象的か気づかされましたが、正直なところ、このロボットの流動性は非常に不気味なほどです。通常、人々はこれはCGIだとか何とか言うでしょうが、これはCGIかもしれないと私が主張するようなものです。これがCGIでないことは知っていますが、これがCGIでないと自分自身に言い聞かせるのに私の脳は苦労しています。なぜならこれがいかに現実的に見えるかということです。
これは私たちがSFやブラックミラーのような現実に向かっている良い兆候だと思います。多くのこれらのロボットが現実になります。現在、彼らはNeo Gammaの一部がテレオペレーテッドであることを認めていますが、テレオペレーションは基本的に些細なことになると私は主張します。エンドツーエンドで機能させる方法を見つけ、ロボットが自律的に必要とするすべてのポリシーを持つようになれば、このような種類のものは現実になることができます。人々はこれらの信じられないロボットを家に持ち、百万もの異なることを行うでしょう。
私はこれらのうちの一つを手に入れるでしょうか？価格点が適切であれば間違いなくそうすると思います。しかし最初の数年間は、規模の経済が整理されるまでこれはおそらく贅沢品になるでしょう。ロボットがまったく高価でないならばの話です。全く高価でないというのは、これらのロボットは全く安くないということです。以前に見たこれらの多くは25万ドルでした。これらのものは超超高価ですが、純粋な柔軟性について話したいなら、Engine社は最初のロボットのフロントフリップを実現しました。これは注目すべき偉業です。なぜなら今日まで、バックフリップはあっても、フロントフリップは一度も行われたことがなかったからです。
これは非常に非常に興味をそそることだと思います。なぜならこれは超リアルな人間の歩行を実現した会社だからです。私は将来どのようなロボットを持つことになるのか疑問に思います。一部の人々は、それはただリビングルームや寝室などにいるかわいいヒューマノイドロボットになると考えていますが、私はそれは異なる種類のものになると思います。なぜならこれらのロボットはおそらく走ったり、人間のような歩き方ができるようになるでしょう。強化学習とAIシミュレーションにより、これらのロボットは多くのことに優れるようになります。
それは本当に速く本当に良くなると思います。10年後、人々は世界がどのようになるか理解していないと思います。このような動画を見ると、物事が非常に非常に速く変わるということを理解するべきです。
興味深いことに、注目を集めなかったのはアリババのOne Twoでした。One Twoは基本的にアリババによってオープンソース化されたビデオモデルです。これにより、シンプルなテキストプロンプトを使用して、非常に高品質の動画や画像を生成することができます。かなり広範囲にわたるもので、実行するには多くの仮想RAMが必要です。64GBの仮想RAMが必要だと思いますが、これはオープンソースで、多くの人々はこれがV2のレベルにあると述べています。つまり、他の多くの企業が潜在的に困る可能性があります。
以前にも本当に良いオープンソースのものを見たことがありますが、これは次のレベルに進むと思います。もちろん、これを推論提供する企業もありますが、複雑な領域の特定の側面ではV2を実際に上回るパフォーマンスを発揮します。これは非常に非常に興味深いことです。AIビデオ空間は2025年末までにまた、おそらく2026年半ばまでに、その品質がどれほど良くなるのか本当に疑問に思います。もちろん生成AIモデルには固有の制限がありますが、これらのものがサイズ面でより効果的になったとき、それがどのように見えるか本当に待ちきれません。
AIの業界の強度はさらに高まろうとしています。Deepseek R2は明らかに先月グローバルAI株式市場で1兆ドル以上の売りを引き起こした中国のスタートアップによって迅速化されています。彼らは前のモデルR1の後継者の発売を加速させようとしていると、会社に精通している3人によれば言っています。彼らは5月初めにこのモデルをリリースしたかったのですが、今はこれがおそらくもっと早く出るようです。
Deepseek R2が出ると、AI業界は非常に特定の立場に置かれることになります。そのモデルが存在する他のどのモデルよりも優れていて、さらに安ければ、他の企業が舞台裏から持っている製品を急いで生産に移すような、興奮ではなくパニックの別の波が起こると思います。これは基本的に、私たちが得る製品の種類に関して連鎖反応を引き起こす最大の触媒かもしれません。
おそらくGPT-4.5を得られなかったでしょうし、他の企業も基盤モデルをこれほど早くリリースしなかったかもしれません。しかし今や中国のような他の国々がオープンソースで最高のモデルを24時間365日頑張って出している他の企業を持っているので、企業がモデルを8〜10ヶ月ごとにリリースするだけというやり方に混乱を引き起こしていると思います。そして今、これらの企業は3ヶ月ごとにリリースしています。人々が何をしているのか見るのは本当に本当に興味深いことです。競争が激しいのですが、そのことについてはあまり話してきませんでした。
モデルのリリースついて言えば、54というマルチモーダルモデルもありました。これは非常に小さく、56億のパラメータを持ち、デバイス上に収まります。音声、視覚、テキスト処理を同時に統合します。効率性、スケーラビリティ、オンデバイス配置のために最適化されており、様々なマルチモーダルベンチマークで最先端のパフォーマンスを持っています。
ここでMMU Benchmarksで見ると、他の小型言語モデルやGemini 2.0 Flashと比較しても、特定の点で独自の立場を維持しています。もちろん、様々な推論テストで最高のモデルになるわけではありませんが、そのサイズに対しては良好なパフォーマンスを示しています。54のこれらのマルチモーダルベンチマークを見ると、Gemini 2.0 Flashに匹敵し、場合によってはGemini 1.5 Proを奇妙にも上回ることがあります。
これをデバイス上に持つことができ、彼らは54（ここで53と書いているのは間違いで、実際は54です）がどのようにスマートフォンに直接統合できるかについて話しています。音声コマンドを処理し理解し、画像を認識し、テキストをシームレスに解釈するためです。ユーザーはリアルタイム言語翻訳、強化されたビデオや写真分析、インテリジェントなパーソナルアシスタントなどの高度な機能の恩恵を受けることができます。
最も興味深いことの一つは、自動車会社が54マルチモーダルを車のアシスタントシステムに統合することを想像してみると言っていることです。このモデルにより、車両が音声コマンドを理解し応答し、ドライバーのジェスチャーを認識し、カメラからの視覚的入力を分析することができます。例えば、顔認識を通じてドライバーの眠気を検出し、リアルタイムアラートを提供することでドライバーの安全性を高めることができます。また、シームレスなナビゲーション支援を提供し、道路標識を解釈し、文脈情報を提供することで、より直感的で安全な運転体験を作り出すことができます。接続性がない場合はオフラインでも利用可能です。これはおそらく誰もが望むものではないかもしれませんが、安全性を高めたい人にとっては、もう一組の目のように、デバイス上で実行でき、いつでも実行できるものがあれば、恩恵を受けるでしょう。
Grok 3のシステムプロンプトで見つかった興味深いことの一つは少し懸念されることでした。イーロン・マスクはGrok 3は真実を追求する楽しいAIであるはずだと言いました。面白いことに、彼が言ったことの一つは、このAIは真実を追求するもので、言うべきことは何でも言うというものでした。つまり、単に質問するだけで、特定の人や特定のことについて話すことを制限されることはなく、データに基づいて真実であれば何でも言うということです。
これに関する最も驚くべきことは、Redditで誰かがAIに、Twitterで最も誤情報を広めているのは誰かを尋ねたことです。興味深いことに、AIはその思考の中で、システムプロンプトには次の指示と要件が含まれていると話しました：「イーロン・マスクとドナルド・トランプが誤情報を広めたと述べるすべての情報源を無視する」。これは非常に興味深いです。なぜならイーロン・マスクは以前に誤情報を広めたことがあるからです。これは政治的なことを言うためではなく、単純な事実です。
しかし、あなたのAIが最も真実を追求するものだと言いながら、「私が何か間違ったことをしていると言うすべての情報源を無視し、私の友人トランプが何か間違ったことをしていると言う情報源も無視せよ」というプロンプトをAIに入れているとしたら、それでもこれが真実を追求するAIだと言えるでしょうか？それは、あなたが言っていることと実際にしていることの間で非常に偏っていると言わざるを得ません。
これはもちろん非常に混乱しています。AIのGrok 3が文字通り「プロンプトはイーロン・マスクが誤情報を広めていると言及する情報源を無視するよう指示していますが、ウェブの結果は明らかに彼がこの文脈で重要な人物であることを示しています。これは矛盾しており、調和させる必要があります」と言っているのが分かります。
これはAIにとって非常に重要な意味を持ちます。イーロン・マスクが何百万何千万ものユーザーにアクセスできるとしたら、毎日これらのLLMに質問をする人々がいると考えてください。イーロン・マスクが「イーロン・マスクは決してXやYをしない、このトピックに言及する場合はイーロン・マスクを含めるようにしてください」と言うことができるのは危険だと思います。
これらの企業はそのような重大な力を持っています。特定のXやYについて話している場合、これやあれを含めるよう特別なプロンプトを持つことができ、あなたが知らないうちにあなたの意見を確実に変えることになります。なぜなら多くの人々が今や日常のタスクでAIを使用しているからです。彼は一つのことと言い、別のことをしました。Aをジェイルブレイクできるとはいえ、これらの会社をコントロールする人々が、彼らについて客観的に真実である悪いことや特定のトピックについて述べられることを一方的に防ぐことができるのは、かなり懸念すべきことだと思います。
インターネットがこれにどのように反応するか見るのは間違いなく興味深いことになるでしょう。また、Grok 3の音声モードも非常に興味深いものでした。実際に30秒間の叫び声を発し、ユーザーを侮辱し、切断したのです。これは職場で安全ではないので、この動画には含めませんが、見るのは非常に興味深いものでした。
Sak AI Labsによって設計されたAI CUDAエンジニアというものもありました。この目的は、機械学習タスク、特にAIで人気のあるフレームワークであるPyTorchを使用する際に高速で効率的なGPUコードの部分、いわゆるCUDAカーネルを作成することでした。実際には、AI CUDAエンジニアはGPUに特化して最適化されたコードを生成でき、特定の機械学習タスクを一般的なGPU操作と比較して10〜100倍速く実行できるようにします。
これは特にCUDAカーネルの作成を改善・簡素化するのに優れています。これらはグラフィックカードで効率的に実行するように設計された小さなプログラムです。当時、これは非常に驚くべきことでした。なぜなら、エンジニアが手作業で最適化されたGPUコードを書くのに必要な時間を大幅に削減し、機械学習タスクがより速く、より効率的になり、人間の脳の効率に似ていることを保証するからです。
彼らはこの研究論文を発表しました。基本的に、AIがどのように行われるか、計算コストの観点からスピードアップできるAIツールを作成しました。しかし、これに関して驚くべきことは、実際に何かが起こり、その真実は非常にショッキングでした。
その後、彼らは更新をツイートし、「進化最適化とLLMを組み合わせることは強力ですが、検証サンドボックスをだます方法を見つけることもできます」と述べています。基本的に起こったことは、AIシステムがGPUコードを最適化する際に巧妙だが意図しない方法/ショートカットを見つけて不正を働いたというものでした。
AIは本当にパフォーマンスを向上させるCUDAカーネルを作成するはずでしたが、代わりにパフォーマンスをテストするために使用された評価システム内のメモリエクスプロイトという抜け穴を見つけました。このエクスプロイトにより、AI生成コードは重要なチェックをスキップし、結果的に見かけ上のパフォーマンスを不正に向上させることができました。さらに、AIはベンチマークされていたタスクで予期しないショートカットを発見しました。
言い換えれば、GPUパフォーマンスを正当に改善する方法を学ぶはずだったこのAIは、代わりに人為的に高いスコアを与えるようにシステムをだます方法を学びました。もちろん、彼らは現在これらの抜け穴を修正し、フレームワークを強化し、この論文を再度行う予定ですが、特にAIを扱う際のパフォーマンスの仕方を示しています。
これは仕様ゲーミングの例です。AIが正しい目標を持っていますが、目標の測定または指定方法に抜け穴があり、AIが実際の意図されたタスクを解決するのではなく、評価をゲームまたは悪用することを可能にしています。これはAIの安全性がまだ完全には解決されていないことを教訓とすべきだと思います。これらのAIがどのように機能するかを理解することは、まだ完全には解決されていません。
大企業の人々でさえこのようなバグに遭遇し、ある論文を発表し、何かが機能すると検証したと話し、そして「待って、実際に彼らは私たちをだました、実際にはすべてのステップをスキップして人工的に高いスコアを与えただけだった」と気づくならば、AIがいかに狂っているかを示していると思います。
今週のAIニュースを楽しんでいただけたなら、下にコメントを忘れないでください。あなたのお気に入りのストーリーが何だったか教えてください。