ビッグAIニュース：Claude 4の詳細、GPT-5の詳細、Googleの新しいビデオと画像モデル、ロボットなど…

13,791 文字

Big AI News: Claude 4 Details, GPT-5 Details, Googles New Video And Image Models, Robots and more...

Discover the AI-powered smart cleaning with the Roborock Saros Z70 from @Roborockglobal – Get 0 off between May 12 -1...

それでは時間を無駄にせず、最初のニュースから始めましょう。Anthropicは実際に2つの新しいモデルバージョンを開発しています。以前のモデルセットであるClaude Opusは中止されましたが、多くの人々がこのニュースを喜ぶと思います。これらのモデルは、それを使用した2人によると、今後数週間以内にリリースされる予定です。
これらのモデルが既存の推論モデルと異なる点は、思考のプロセスを行ったり来たりする能力です。現在私たちは、GPTシリーズのような標準モデルが頭に最初に浮かんだことをそのまま出力するというパラダイムにいます。
そして時間をかけて考え、それから応答するモデルもあります。しかし今、私たちは両者のハイブリッドである第三のパラダイムに入ろうとしているようです。これがAnthropicが開発していると報告されているものです。彼らは問題を解決する異なる方法、外部ツール、アプリケーション、データベースを使用する能力を探求しています。
そして行き詰まると、推論モードに戻って何が間違っているかを考え、自己修正することができるようです。これまで私はこのようなモデルを見たことがありません。これが非常に効果的であることに驚かないでしょう。時間が経つにつれて、人々が試さなかったことが最も効果的であることがよくあります。
モデルで問題を推論する方法について考えると、通常は私たちがモデルと話し、モデルが推論し、自身で考え、出力を与え、その後私たちから非常に基本的な入力に戻り、モデルは再び考え始めます。これは非常に興味深いと思います。これにより新しい機能が解放され、モデルがより長期間にわたって何ができるかを見ることができるかもしれません。
長期的なタスクにおいて、これはAIシステムがより長く推論できるようにする方法の一つかもしれません。Claude Opusシリーズが復活することに本当にワクワクしています。
多くの人々がこのシリーズを愛していたので、おそらく彼らはこのモデルのトレーニングを終えたのでしょう。Anthropicからの非常に興味深い発表です。また、今週見たもう一つのことは、Anthropicの主任エンジニアであるBoris Sherneyが、彼らが使用しているコードの80〜90%がClaudeによって書かれていると語ったことです。一部のタスクにはまだ手書きのコードが必要ですが、80〜90%というのはかなり高い割合です。
これは短いクリップですが、非常に驚きました。GoogleやMicrosoftのクリップを見たとき、彼らが明確に述べていたのは20〜30%程度で、Metaも同様の主張をしていたと思います。Anthropicは信じられないほど優れたコーディングモデルを持っているか、あるいは単に効率的な使い方をしているのでしょう。
かなり高いですね、おそらく80%近く。非常に高いです。はい。ただし、多くの人間によるコードレビューがあります。一部のものは手書きでなければならず、一部のコードはClaudeが書くことができます。どのタスクにどのアプローチを選び、どのくらいの割合にするかを知ることが重要です。通常はClaudeがコードを書き、それが良くなければ人間が介入するというアプローチです。
また、私が手作業で行うことを好むものもあります。例えば複雑なデータモデルのリファクタリングなどです。Claudeに説明するよりも、自分で作業して実験する方が簡単なので、任せません。だから全体として、おそらく80〜90%がClaudeによって書かれたコードということになります。
これだけではなく、Claudeには「Claude Neptune」というテスト中のモデルがあります。これはテストカタログによって発見されました。個人的には、これはおそらく新モデルのコードネームだと思います。過去には「Dragonfly」や「Nebula」などのクールな名前のコードネームがありました。面白いのは、これらの企業がモデルに名前を付けるよりもクールな名前を考え出すことが多いということです。最近のモデルシリーズであるGPTシリーズを見ると、かなり複雑になっていることがわかります。
そのため、これは今後2〜3週間以内にリリースされる可能性が高いです。リリースについて話すなら、ロボット工学において非常に興味深いブレークスルーがありました。今、画面はおそらく黒くなっていますが、これから再生される動画は本当に信じられないほど素晴らしいものです。
AIはすでにデジタル世界を変えましたが、私たちの中で生きるためには、インターネットデータを超えて現実の混沌に移行する必要があります。では何が欠けているのでしょうか？それは私たちと同じように世界について推論する能力、物理学の直感的な理解です。私たちは世界と相互作用することで生まれた時から学びますが、AIはそうではありません。
強化学習や行動クローニングのような方法は特定のタスクを学ぶことはできますが、新しい状況にうまく対応できません。彼らは世界がどのように機能するかを理解していません。単に行動をコピーするか、試行錯誤で学ぶだけです。ここで潜在空間モデルの登場です。彼らはこの混沌とした現実世界のデータを抽象的なマップに単純化します。
これを少しAIが自分自身の現実理解を構築するようなものと考えてください。私たちの脳と同じように、深層変分ベースフィルタ（DVBF）はさらに一歩進んで、すべての例を細かく与えられることなく運動の法則を学びます。DVBFはロボットのカメラやタッチセンサーなどの感覚入力を潜在空間にエンコードし、ベイズ推論を使用して新しいデータが入ってくると世界についての信念を更新し、行動するための予測をエンコードします。
それはAIに想像力の感覚を与えるようなものです。行動クローニングや従来のニューラルネットワークとは異なり、DVBFはデータから一般化するだけではありません。行動の背後にある理由を理解します。彼らははるかに少ないデータを必要とし、その場で適応し、次に何が起こるかを予測できます。私にとって、それはAIがついにゲームのルールを把握し、単にプレイブックに従うだけではないということです。
これは、Foundation Roboticsという会社がロボット工学におけるいわゆる「チャットGPTの瞬間」について話しているものでした。正直なところ、私はロボット工学について多くを話してきました。ロボット工学は現在AIで起こっていることの中で最も過小評価されているものの一つだと思います。それは今のところ人々が見せびらかせるような派手なデモがないからだと思います。
しかし、環境を理解できないこと、新しい環境を見てトレーニングデータにない新しいことを実際に行うことなど、ロボット工学を妨げてきた主な要因は徐々に解決されつつあります。そして、経済の中で様々な仕事やタスクを行うことができる一般的な人型ロボットを持つまでにそれほど時間がかからないと本当に思います。これは経済がどのように進化するか見るのが非常に興味深くなるでしょう。これは24時間365日働く新しい労働階級/労働力となるからです。おそらく社会はこれまで見たことがないような急速な方法で進化し始めるかもしれません。
ロボティクスと言えば、スマートホームテクノロジーがどれだけ進化したか疑問に思ったことはありませんか？今日のスポンサーであるRobbo Rock SOS Z70をご紹介します。この革新的なロボット掃除機は業界初のAI搭載の機械アームを備えています。本当にホームクリーニング技術が何をできるかを変革しています。SOS Z70は単に床を掃除するだけではありません。
それは知的に家庭内の物を拾い上げ、整理し、散らかりを大幅に減らし、全体的な効率を向上させます。独自のOmniGrip技術により、物体を優しく扱うことができ、中断が少なく、より徹底的な掃除が可能になります。高度なAIを搭載したSOS Z70は、自宅のレイアウトを迅速に学習し、家具の周りを巧みに進み、生活環境の変化にリアルタイムで適応します。
これは単なる技術のための技術ではありません。日常の作業を簡素化するように設計された実用的なイノベーションです。基本機能を超えて、Saros Z70は既存のスマートホームシステムとシームレスに統合され、不必要な複雑さなしに利便性を高めます。ロボット掃除機が本当に進化したかどうか疑問に思っているなら、SOS Z70はあなたを驚かせるかもしれません。
説明欄のリンクから自分で確認してみてください。このビデオのスポンサーであるRobbo Rockに感謝します。引き続きロボティクスについて話すと、この会社について触れなければなりません。Persona AIは、困難で熟練した産業労働のためのプラットフォームです。作業現場が造船所、エネルギーインフラ、建設現場、または他の動的環境であっても、人型ロボットが仕事の大部分を行うようになるでしょう。
ここで私が気に入っているのは、これらすべての人型ロボットが特定のタスク用に変換できるという点でモジュール式になっていることです。溶接工、厳しい条件下で金属を切断、形成、仕上げる製作者、厳しい条件下で組立を行う組立工などがあります。
私は未来を描いた多くの映画を見てきましたが、工場で様々な作業を行う人型ロボットが登場します。しかし、私たちは日々これを現実のものとして実現することに近づいています。非常に奇妙に思えるかもしれませんが、ロボット工学のブレークスルーは私たちが望むと望まないとにかかわらず続いています。
これは特に若い人にとって、私たちの未来の一部になるでしょう。50年後の世界がどうなっているか想像できません。これらのロボットが私たちより10倍優れ、速く、効率的になったとき、世界は本当にどうなるでしょうか？
AIの悪い面は、FBIが米国高官を装うAI音声メッセージについて警告していることです。これは少し狂っています。AIがフィッシング詐欺に使われていることは知っていますが、AIが人々を説得するために様々なキャンペーンで使用されていることも知っています。
しかし、AIが非常に優れて、米国の高官や政府関係者を模倣し、情報がリークされるとどうなるでしょうか？以前は、セキュリティがあり、様々なハックがありましたが、誰かがあなたに電話をかけ、あなたの合言葉を知っているとしたらどうでしょうか？スパイのような人の場合、正直なところそれがどのように機能するのか知りませんが。
私が言いたいのは、これは現在本当に難しい問題になっているということです。AIの音声メールやAIの声だけでなく、AIの顔、さまざまなテキスト、その人のように非常によくテキストを送れる大規模言語モデルもあります。
そのため、セキュリティはさらに向上する必要があります。FBIがこの問題に苦労しているなら、一般の人はどうでしょうか？正直なところ、センシティブな情報やデータを持っている場合は、ビデオであっても、誰と話しているのかを常に二重三重にチェックしてください。すべてを台無しにする本物のライブウェブカムの別のビデオクリップも見ました。
これらの詐欺はますます巧妙になり、これが今後最悪のケースです。詐欺師はテキストメッセージを送り、AIで生成された音声メッセージを送り、個人アカウントにアクセスする前にラポールを築こうとしていました。
センシティブなデータを送信する前に、すべてを二重にチェックしてください。Metaも4つの新しいリリースを発表しました。Metaは最近のリリースが期待通りではなかったため、非難を受けてきました。
しかし、特定の分野がうまくいっていないからといって、MetaがAIの全体的な進歩において業界を前進させていないわけではありません。Metaにはまだいくつかの重要なイノベーションがあり、そのうち4つをリリースしました。皆さん、こんにちは。
今日、Meta Fundamental AI研究チームからのいくつかの画期的な進歩を共有できることを嬉しく思います。これらのリリースは、焦点を当てた科学的および学術的進歩を通じて高度な機械知能への私たちの献身を強調しています。まず、Open Molecules 2025データセットとMetaの原子のための普遍的モデルを紹介します。
このモデルとデータセットの組み合わせにより、原子スケールで世界をモデル化する際の例外的な速度と精度が可能になり、新しい分子や材料の発見を加速します。Open MoleculesとUniversal Modelを利用可能にすることで、研究者がヘルスケアや気候変動の緩和などの分野でイノベーションを推進できるようにしています。
次に、リファレンスデータにアクセスせずにスカラー報酬のみからジェネラティブモデルをトレーニングするための高度にスケーラブルなアルゴリズムであるサンプリングをリリースします。エージェントサンプリングは、大規模エネルギーモデルのみを使用して分子生成に印象的な結果を達成します。さらなる研究を奨励するために、化学を通じてAIの進歩に直接影響を与える新しいベンチマークをリリースしました。
最後に、ロスチャイルド財団病院との共同研究で、発達中の脳で言語表現がどのように現れるかを示す大規模な研究を発表します。この研究は言語発達の脳の基礎に関する新しい洞察を提供し、大規模言語モデルとの並列性を示し、AIと神経科学における将来のブレークスルーへの道を開きます。
私たちの研究を広く利用可能にすることで、進歩を加速しイノベーションを推進するオープンなエコシステムを育成することを目指しています。詳細については完全なブログ投稿を探索することをお勧めします。一緒に人間と機械の知能に関する大きな科学的疑問を解決するためにAI研究の境界を押し広げましょう。ありがとうございます。
さて、Googleは静かに何か非常に魅力的なものを構築しており、おそらくあなたのオンラインショッピング体験を変えるでしょう。彼らは静かに構築したもので、おそらく毎日使うようになるでしょう。彼らは製品の通常の写真3枚を取り、それを完全に没入型の3Dショッピング体験に変換するAIシステムを構築しました。
オンラインショッピングをしているとき、通常は平面的な画像だけで、ブランドがそれらの写真に実際にお金を使っている場合は360度回転があるかもしれません。しかし、GoogleのビデオモデルVOのおかげで、製品の超リアルな360度ビデオを生成できます。これにより、光が素材にどのように反射するか、影がどのように動くか、そして異なる角度で形状がどのように変化するかを実際に理解できます。
これは本当にクールです。彼らはオンライン体験を変えるようなものを構築しました。このような瞬間やイノベーションに私たちは気づかないことが多いですが、AIがほぼすべての産業に浸透していることがわかります。
これだけではなく、Googleはさらに驚くべきことを成し遂げました。彼らは再び自分自身を超えました。1〜2週間前にGoogleがGemini 2.5 Proをリリースしたことを覚えていますか？これはLMSYSや主要なベンチマークで、ほぼすべてのカテゴリーにおいて間違いなく最高のモデルでした。
しかし驚くべきことに、彼らはまたGemini 2.5 Pro Preview IO Editionもリリースしました。これは約1週間後の5月21日に開催される彼らのIOカンファレンスに向けたものです。これは非常に驚くべきことです。なぜなら、コーディングタスクにおいてClaude 3.7 Sonnetよりもさらに優れたAIシステムがあるからです。
実際に私はこれを使っていくつかのことをコーディングしました。そして自分でもこれに気づきました。Googleがほぼすべての分野で最先端になっているのは非常に驚くべきことです。そして誰がGoogleを追い落とせるのかわかりません。その会社から出てくるイノベーションの量は正直言って非常に驚くべきものであり、彼らがこれほど優れていて、これほど献身的であることに気づきませんでした。Googleはかなりの間後れを取っていた時期を覚えています。彼らは本当に
本当に自分たちを立て直し、競争より大幅に先に進むことができました。彼らはClaude 3.7 Sonnetより147 ELOポイント上にいます。しかし、先ほど述べたように、彼らは数週間以内に新しいモデルをリリースする予定です。これはその新しいGoogleモデルのデモです。
新しいモデルをテストする楽しい方法の1つは、既存のアプリケーションをどのように改善するかを見ることです。右側では、古い2.5 Proと非常に基本的なアプリを見ることができます。左側では、実際にビデオを深く理解し、完全に機能するクイズを作成したことがわかります。これは体験を次のレベルに引き上げます。そしてこれこそが新しいGemini 2.5 Proで皆さんにしてほしいことです。
もちろん、今後のGoogle IOに皆さんが期待しています。彼らはまた、GoogleがVO 3.0やImagen 4.0などの新しいモデルを準備しているかもしれないと述べました。これはテストカタログによってコード内で発見されました。正直なところ、V2は本当に素晴らしいです。いつも使っています。
これは本当にクレイジーなモデルです。そしてImagen 4.0があるなら、正直なところImagen 4.0がどうなるのかさえわかりません。なぜならImagen 3は実際に非常に優れているからです。それはあまり話題にならないほど過小評価されているモデルの一つです。もちろんインフォグラフィックなどでは非常に優れているGPT-4の画像生成があります。
しかし、Imagen 3は本当に優れたモデルだと思いますが、Imagen 4.0はGPT4イメージから栄冠を奪うかもしれません。そのため、それがあるかどうか注目してください。そして私がGoogleが常にイノベーションを続けていると言ったことを覚えていますか？こちらもAlpha Evolveというものがありました。
これは本当に信じられないほどすごいものでした。後でこれについての完全なビデオを作る予定ですが、簡単に言えば、Alpha Evolveは基本的に再帰的自己改善ループを完成させるものです。AIは再帰的に自己改善しないと言われていますが、彼らが構築したこのAIシステム全体は、基本的に数学でブレークスルーを達成し、そのブレークスルーが達成できたのです。
コーディングエージェントなので、最適なコードを作ることができ、Geminiのトレーニング実行を1%高速化することができました。これは絶対に狂気の沙汰になるでしょう。なぜなら今、私たちは基本的にこの自己改善システム全体を持っているからです。24時間365日自己改善しているわけではありませんが、時間の経過とともに物事は速くなり続けています。
奇妙な感じですが、シンギュラリティが急速に近づいているようです。さらに、GoogleのIO責任者は従業員と外部の開発者に様々な製品を示しています。その中には「ソフトウェア開発ライフサイクルエージェント」と社内で呼ばれるソフトウェア開発のためのAIエージェントがあります。これはソフトウェアエンジニアがタスクへの対応からコードのドキュメント化まで、ソフトウェアプロセスのあらゆる段階をナビゲートするのを支援することを目的としています。
製品のデモを見た、またはGoogle従業員から聞いた3人によると、これは修正すべきバグを特定したりセキュリティの脆弱性にフラグを立てたりするのを助ける「常時オンの同僚」と表現されています。彼らはリリースするかどうかまだ確信が持てないため、これをリリースする準備はできていませんが、Google IOで公開される可能性があります。
私がこの話を含めた理由は、彼らだけがこれに取り組んでいる会社ではないからです。実際、OpenAIの従業員も何ヶ月間にわたってエージェンティックなソフトウェアエンジニアをテストしており、同社は何ヶ月間も外部の人々にこれを実演しています。
CFOのSarah Frierなどの幹部も公にこれについて話しています。しかし、これまでのところ、4月に同社がリリースしたオープンソースのコーディングアシスタントであるCodex CLIしか見ていません。Googleがエージェンティックなソフトウェアエンジニアをリリースした場合、OpenAIがどう対応するのか非常に興味深いでしょう。歴史的に彼らはこれをしようとしてきました。
彼らは常にGoogleの勢いを奪おうとしてきました。しかし、時間の経過とともにそれがますます難しくなっていると感じます。OpenAIがまだそのゲームをプレイするのか、それとも完全に独自のルートを進むのか、将来的にどこに向かうのか非常に興味深いです。OpenAIはおそらくGoogleとあまり競合しようとせず、おそらくより多くの顧客を獲得しようとし続けるでしょう。
私はこのビデオにWindsurfを30億ドルの評価額で買収したことを含めるべきでした。OpenAIは再び製品に焦点を当てています。安定拡散モデルを生産した会社Stability AIの前CEOであるEmad Mustakは、実際にチャットGPTを上回り、どのラップトップでも動作する医療モデルを作りました。
彼らは基本的に、普遍的な健康知識を可能にする健康のための完全なAIファーストスタックを構築していると述べました。モデルがこれらのベンチマークで本当にうまく機能し、ラップトップで動作するなら、ゲームが完全に変わると理解する必要があるので、これは本当に印象的だと思います。
そして私は、ヘルスケア、本当に良いヘルスケアへのアクセス、そのような知識は社会を前進させるために本当に重要になると思います。彼らが実際に構築したモデルはmedical 8bと呼ばれ、非常にコンパクトです。80億のパラメータしかありません。
そして先ほど述べたように、非常に小さいため、自分のハードウェアで実行できるほど効率的です。つまり、クラウドコストやプライバシーの心配はなく、ポケットに入る純粋な医師レベルの洞察です。これは50万以上のサンプルでトレーニングされ、クリーンにされ、フィルタリングされ、クラスタリングされ、信頼できる医療推論という一つのことに最適化されています。
私たちが話しているのは、答えを推測する漠然としたAIアシスタントではありません。キュレートされ、汚染除去されたデータセットでトレーニングされた実際のステップバイステップのロジックについて話しています。まだ臨床使用のための認可は得ていませんが、すでにHealthbench、MedQA、PubMed QAなどのベンチマークスイートで一部のモデルを上回っています。
将来的には、少なくともまともなヘルスケアが、ほとんどの人にとって非常に簡単にアクセスできるようになると思うので、これはかなり狂っています。そして、多くの場合、私たちは医師に行って何百万もの質問をしたいと思います。そして今、言語モデルによって、それは私たちが簡単に持つことができるものになるでしょう。
イギリスにいる場合、医師の予約を取るのにかなり時間がかかると言っておきます。他の国についてはわかりませんが、この国の公的医療システムは絶対的な速度に関しては最高ではありません。もちろん、それは無料ですが、もっと効率的になる可能性は十分にあります。また、GPT5に関するいくつかの情報もありました。これは少し興味深いものでした。というのも、先ほど述べたようにClaude 4やAnthropicの新しいモデル（Claude Opus）は、基本的に推論と静的なバージョンのモデルの両方を使用する予定です。OpenAIの研究者であるMichelle Porcassは実際に、GPT5を構築する上での課題は、推論と会話のバランスを見つけることだと述べています。
O3は本当に一生懸命考えますが、それはカジュアルなチャットには理想的ではありません。また、GPT 4.1は一部のチャットの質を犠牲にしてコーディングを改善しました。そのため、目標は基本的にそれらすべてを行うことができるモデルを見つけることです。O3は非常に異なるスキルセットを持っています。問題を本当によく考えることができます。「こんにちは」と言った時に、モデルが5分間考えることは本当に望ましくありません。そのため、ポストトレーニングと研究全般において私たちが直面している本当の課題は、これらの能力を組み合わせることです。
モデルを本当に楽しいチャットパートナーであると同時に、推論すべき時を知っているようにトレーニングすることです。これは4.1にも少し関連しています。チャットデータの重みを下げ、コーディングの重みを上げてコーディングを改善したことを述べました。つまり、モデルが何に合わせて調整されているかを正確に把握しなければならないという、ある意味でゼロサムの決定があります。
そのため、GPT5における本当の課題は、この適切なバランスをどう取るかということです。また興味深かったのは、ビデオの冒頭で話したように、コーディングが多くの作業を自動化することになるという事実について、GoogleのチーフサイエンティストであるJeff Deanが、1年以内にジュニアエンジニアのレベルで動作するAIシステムが登場すると述べたことです。
「ジュニアエンジニアのレベルで24時間365日稼働するAIがどれくらい先にあると思いますか？」「そんなに遠くありません」「6週間か6年か、それとも1年か？AIは何か犬の7年くらいの感じでしょうか？」「おそらく今後1年ほどで可能だと思います」私は人々が1年がどれほど短いかを本当に理解していないと思います。
私にとって、そして皆さんにとっても、この1年はあっという間に過ぎました。AI時間では1年は技術的に多いですが、世界規模では1年はそれほど多くの時間ではありません。これはAIに関して、ほとんどの分野が本当に理解できないほど非常に速いペースでの技術的進歩です。
また、「マルチバース」と呼ばれるゲームがあることも非常に驚きでした。基本的にAIで生成されたゲームが今やマルチプレイヤーになっています。正直なところ、それがどのように意味をなすのかさえわかりませんが、文字通りAIで生成されたゲームをプレイできるのは非常に驚くべきことです。AIで生成されたゲームはまだ初期段階ですが、今やマルチプレイヤーを持つことができます。
今日のほとんどのモデルはシングルプレイヤー向けに構築されています。1つの入力、1つのアクション、1つの出力です。しかし、運転、スポーツ、チームワークなどの実世界のタスクは共有体験を必要とします。プレイヤーAがプレイヤーBにぶつかると、両方のプレイヤーが自分の視点からそれを見る必要があります。AIは両側にとってそれを現実的に見せる必要があります。
Multiverseはこれを巧妙なトリックで解決します。両方のプレイヤーの視点を1つの大きな画像に組み合わせ、それらを一緒に処理し、両方のプレイヤーにとって次に何が起こるかを予測します。これにより、両方のプレイヤーが異なる角度から同じ衝突を見るなど、すべての一貫性が保たれます。
彼らは基本的にGran Turismo 4のゲームプレイ映像を使用しました。その後、レースの完全なトレーニングセットを構築しました。彼らはHUDを見ることでステアリング、ブレーキ、スロットル入力を抽出するためにゲームをリバースエンジニアリングしました。彼らはそれをプレイするのを見ているだけではありませんでした。大量のゲームプレイを自動的に生成するためにBspecと呼ばれる組み込みのボットモードを構築しました。
ゲーム開発におけるAIで生成された領域はまだ初期段階ですが、今やAIで生成されたゲームを持つことができ、その多くはAIで生成されたマルチプレイヤーを持っています。これがより主流になり、品質が本当に向上したとき、ゲームの未来がどのようになるのか本当に疑問に思います。単一のプロンプトを入力するだけで、まったく新しいビデオゲームをプレイし始めることができると想像してみてください。それはクレイジーです。
また、興味深いこともありました。これは最も魅力的な画像ではないかもしれませんが、基本的にMicrosoftはADLEと呼ばれる新しい評価モデルを発表しました。これは本当にゲームチェンジャーです。なぜなら、ほとんどのAIベンチマークは単にモデルが正しい答えを得たかどうか、YesかNoをチェックするだけだからです。しかし、この評価方法はタスクを18の異なる能力タイプに分解します。注意力、記憶力、論理、科学、知識、さらにはオンラインでのタスクの一般性などです。
そして、各モデルに対して一種の能力プロファイル、スキルチャートのようなものを構築します。つまり、「GPT4はうまくいった」と言うだけでなく、なぜうまくいったのかを実際に言うことができます。おそらく強い推論力を持っていますが、弱い記憶力を持っているかもしれません。これにより、研究者はテストを実行する前に、モデルが何かで失敗するかどうかを予測することができます。
このシステムは、63のタスクにわたる16,000以上のサンプルでテストされ、GPT40やLlama 3.1などのモデルに対して88%の精度でパフォーマンスを予測しました。驚くべきことに、公務員試験ベンチマークのような今日のAIテストの多くが欠陥を持っていることも示しました。
明らかに、その一部はメタ認知とニッチな知識をテストするだけです。全体として、これはAI業界にとって本当に良いステップだと思います。なぜなら、モデルを前進させることができる詳細なベンチマークについての多くの情報を得ることができるからです。また、Elon Muskは実際に、私たちが完全に異なる未来に向かっていると述べました。
これは彼が初めて言ったことではありませんが、最近のロボット開発を考えると、無視することもできません。「私たちは根本的に異なる世界に向かっていると思います。良い世界、興味深い世界だと思います。人型ロボットに関する私の予測は、最終的には数百億になるということです。」
「私は誰もが自分のパーソナルロボットを持ちたいと思うと思います。それを自分専用のC3POやR2D2を持つようなものと考えることができますが、さらに良いものです。誰が自分専用のC3POやR2D2を持ちたくないでしょうか？それはとても素晴らしいことでしょう。また、莫大な経済的可能性も解放すると思います。経済の産出量を考えると、それは一人当たりの生産性に人口または一人当たりを掛けたものです。」
「人型ロボットを持つと、実際の経済的産出可能性は膨大です。それは本当に無制限です。潜在的には、現在の世界経済の10倍の規模の経済を持つ可能性があり、誰も何も欲しがらないでしょう。AIでは時々普遍的基本所得について話しますが、実際には普遍的高所得になると思います。」
「誰もが欲しい商品やサービスを持つことができる世界です。もちろん、いくつかのリスクもあります。これを正しく行わなければ、ジェームズ・キャメロンの映画「ターミネーター」のようになる可能性があります。そのような未来は望みません。しかし、スター・トレックのような未来は素晴らしいでしょう。私たちは星を探検し、宇宙の性質を発見しています。」
「そして、まだ想像できないような繁栄と希望的には幸福のレベルです。」また、Jensen Huangも基本的にElon Muskと同じことを言っており、私たちは産業全体が再発明される方向に向かっていると述べています。「約14年前、コンピュータサイエンスの第一原理から推論して、ディープラーニングとディープラーニングに関連するアルゴリズムが、多くの異なるタイプの問題を解決するアプローチにスケーリングする本当のチャンスがあることに気づきました。過去10年間で、」
「私たちは計算と計算スケールをほぼ100万倍に進歩させました。ムーアの法則なら100倍だったでしょうが、私たちは人工知能における信じられないブレークスルーにつながる非常に高いレベルの計算をスケーリングすることができました。私たちはコンピューティングを再発明しただけでなく、コンピュータができることを再発明しました。」
「その結果、すべての産業が影響を受けています。これは今、世界が知っている最大の技術的ブレークスルーになるでしょう。すべての産業が影響を受けます。すべての産業が影響を受けます。すべての産業が革命を起こされます。約30年前のアイデアから始まり、それを守り、コンピューティングを再発明し、そして今やすべての産業を再発明しています。そして謙虚な気持ちでトーマス・エジソンの名においてこの賞を受け入れています。」
「信じていることや、好きなことを認められるのは本当に素晴らしいことです。しかし、主に私がNVIDIAで代表している全従業員の中核と心にある賞を認められることは素晴らしいことです。どうもありがとうございました。」