本動画は2025年後半におけるAI業界の最新動向を包括的にカバーしている。GPT-6の年内リリース予測、NVIDIAの小型スーパーコンピュータDGX Sparkの登場、Anthropicの新機能Claude Skillsの実装など、主要AI企業の動きが報告される。また、米軍将軍によるChatGPT活用の是非、Waymoへの初のDDoS攻撃、OpenAIの「ChatGPTでサインイン」機能の企業向け展開、動画生成AIの進化、さらにはGoogleのAIモデルによるがん研究での新発見まで、多岐にわたるトピックが取り上げられている。特筆すべきは、ジェフ・ベゾスによる宇宙データセンター構想と、AGIの明確な定義を試みる新論文の紹介であり、AI技術の現在と未来を俯瞰する内容となっている。

GPT-6の年内リリース予測とNVIDIAの革新
この動画はStack AIの提供でお届けします。詳細は後ほど。GPT-6が年内に登場するかもしれません。CNBCに出演したこの人物は、シリコンバレーの著名人物であるブラッド・ガーソナーと話をしたばかりで、彼はGPT-6が今年末までに登場すると述べたそうです。今から2ヶ月半後ということになります。
これはGPT-5の直後ということになります。正直なところ、私はそれが実現するとは思っていません。GPT-5という大規模なローンチがあったばかりで、ユーザーがChatGPTと対話する方法における根本的な転換がありました。多数の異なるモデルから選択するのではなく、1つの主要なモデルとルーターを持つという統一的なモデルで、わずか数ヶ月後にそれが置き換えられるというのは非常に驚くべきことです。でも誰にもわかりませんね。様子を見ましょう。
次に、NVIDIAが地球上で最小のスーパーコンピュータを販売し始めました。これはDGX Sparkで、ジェンセン自身が世界のトップAI企業に配達しています。2016年にイーロン・マスクにオリジナルのDGXを配達している動画をご覧ください。そして今、10年も経たないうちに、彼はDGX Sparkを配達しています。これをご覧ください。
調子はどう?いいよ。調子はどう?ここがあなたのオフィス?ええと、これはロケット工場です。テキサス州スターのSpaceXロケット工場です。私はただ世界中の皆さんに、あなたが私より大きなものを作っていると言ったことを聞いてもらいたいんです。ええ、そうですね。データセンターは非常に巨大です。すべては2016年に始まりました。
私は世界初のAIスーパーコンピュータを発表しました。DGX-1、これまで誰もが作った中で最も先進的なコンピュータです。反応は静かなものでした。静かでしたが、1人だけ例外がいました。それがあなたでした。素晴らしいアイデアだと。それで、私はもう1台のDGXを作りました。素晴らしい。そしてこれは強力です。これが新しいDGX Sparkです。それで全部なんです。すごい。DGX-1の5倍の計算能力です。
40ワットです、4ワットではありません。すごい。DGX-1からDGX Sparkへ。私はこれを手に入れるのが待ちきれません。すでにチームに頼んでいて、今はウェイティングリストに載っています。もちろん、OpenAIチームも1台手に入れました。これです。こちらがグレッグ・ブロックマン。こちらがサム・アルトマン。そしてジェンセンがいます。隅にマーク・チェンが見えます。
そして美しいDGX Sparkを持つOpenAIチームの皆さんです。次に、Anthropicが非常にユニークなものを立ち上げました。少し注目されていませんでしたが、実は多くの人が思っているよりも大きな出来事かもしれません。これはClaude Skillsです。ご覧ください。本日、Claude.ai、Claude Code、そしてAPIにスキルを導入します。
スキルを使うことで、専門知識を再利用可能な機能にパッケージ化でき、エージェントがより複雑なタスクに取り組む際にClaudeがオンデマンドでロードします。多くの人がこれはMCPの代替だと言っていますが、このグラフに示されているように、MCPを補完するもののようです。アレックスは、マトリックスでネオが文字通り脳に知識をパイプで送り込んで新しいスキルを学ぶようなものだと言っています。
そんな感じです。skill.mdが入ったフォルダをロードします。ファイルは名前と説明で始まり、その後に指示、コード、リソースが含まれます。このシンプルさは、カスタムエージェントを構築することなく、誰でもClaudeを特化できることを意味します。スキルは、コンテキストウィンドウを肥大化させることなく、事実上無制限のコンテキストを含むことができます。
つまり、必要だとわかっているものだけをロードします。これらのバンドルされたファイルには、追加のマークダウン指示から画像アセット、Claudeが実行できるコードスニペットまで、あらゆるものを含めることができます。さて、では動作の例をご覧ください。例えば、あなたが会社を経営していて、ブランドガイドラインがあるとしましょう。
ブランドガイドラインをそこに入れます。skill.mdフォルダとリソースがあります。これらをすべて小さなzipファイルにまとめます。それをスキルとしてアップロードすると、ブランディングについて話すたびに、Claudeがブランドガイドラインにアクセスできるようになります。もちろん、私の会社はエキサイティングな新しいゲームに取り組んでいます。クリエイティブなピッチデッキを手伝ってもらい、ブランドガイドラインスキルを確認します。
それを見つけて、アセットをロードできるようになりました。指示や他に必要なものをロードして、ブランドガイドラインの作成を支援できます。繰り返しますが、これをすべてのコンテキストウィンドウにロードする必要はありません。ただそれを探しに行くことを知っているだけです。これは本当にクールだと思います。まだ試す機会がありませんでした。
もし完全なチュートリアルを作成してほしい場合は、コメント欄で教えてください。そしてエージェントの構築が好きな方は、今日の動画のスポンサーであるStack AIをチェックしてください。AIエージェントは仕事の未来ですが、ほとんどのチームは実際にそれらを構築する方法を知りません。そこでStack AIの出番です。これは、安全で強力なAIエージェントを迅速に構築するためのエンタープライズツールキットです。
事前構築されたテンプレートから始めて、ナレッジベースを接続し、RAGとOCRを実行できます。お気に入りのLLMを選択でき、100以上のネイティブ統合ツールから選択できます。独自のUI、パスワード、SSO、ソースURLなど、すべてをエクスポートすることもできます。SOC 2、GDPR、HIPAA準拠で、組み込みのPII保護、データでのトレーニングなし、ガードレールがあります。
最高の部分は、必要なものを入力するだけで、プラットフォームが残りを行うことです。必要なものを正確に構築してくれます。IT、法務、財務、研究のためのエージェントが必要な場合は、すべて安全なインフラストラクチャに支えられて、Stack AIで構築してください。今日、エンタープライズツールキットを試してみてください。以下にリンクを貼っておきます。私が紹介したと伝えてください。
チャンネルの構築に役立ちます。それでは動画に戻りましょう。さて、次は、おそらく私たち全員が予想していたことですが、Poly Marketが「米軍将軍がChatGPTを使用して重要な指揮決定を下したことを認める」と述べています。これは完全にバイラルになりました。750万回の視聴です。さて、これには多くの解説すべき点があります。将軍が単に「誰を攻撃すべきか」と尋ねているなら、それは良くありません。
しかし、ChatGPTを使ってすべての異なる選択肢を理解し、情報を収集し、特定の状況で何が起こりうるかのさまざまな順列を考え抜くために使っているなら、私は実際にこれは良いことだと思います。これは私が使っている方法です。もちろん、私のユースケースは生死に関わるものではありませんが、ChatGPTを使って戦場をより良く理解し、すべての潜在的な選択肢をより良く理解するために、これは良いことだと思います。
そして誰かがGrokに尋ねました、どう思いますか?ChatGPTのようなAIツールは、アイデアをブレインストーミングしたり、データを迅速に要約したりでき、意思決定を支援する可能性があります。しかし、重要な軍事指揮において、一般目的モデルからの未検証の出力に依存することは、幻覚、バイアス、またはセキュリティ漏洩などのリスクを招きます。専門化された真実重視のAIに支えられた人間の判断が不可欠です。
xAIはハイプよりもその信頼性を優先しています。つまり、Grokは基本的に私が言ったことを繰り返しています。情報を収集するために使用し、情報を統合するために使用し、出力を検証し、重要な決定については、実際の検証と意思決定は人間に留まる必要があります。情報を収集し、情報を統合するためにAIを使用し、最終的に決定と検証は人間の手に、人間をループに入れる必要があります。
OpenAIの新機能とWaymoへのいたずら
さて、次です。OpenAIは、ChatGPTでサインインボタンを使用することについて企業に売り込みをしています。すでにGoogleでサインイン、Appleでサインインと同様ですが、今度はChatGPTでサインインです。明らかに、これはOpenAIにとって多くの利点があります。多くの異なるウェブサイトに自社のピクセル、ボタンを設置できます。
追加のテレメトリーデータをすべて取得できます。しかし、The Informationによると、ピッチの興味深い部分は、同意する企業がOpenAIモデルの使用コストを顧客に転嫁できることです。非常に興味深いです。ChatGPTが従来のウェブサイト、従来のアプリのすべてに浸透し続けるにつれて、そのすべての計算、そのすべての推論コストはパブリッシャー、アプリ開発者によって支払われています。
そして今、例えば私がChatGPT Proアカウントを持っているとしましょう。ウェブサイトにログインして、自分のChatGPT Proアカウントを使用できます。つまり、パブリッシャーやアプリ開発者が私のために支払う必要がないだけでなく、Chat GPT Proで支払っているものなので、実際により高品質のモデルが得られる可能性があります。これはOpenAIにとって非常に賢いと思います。
そしてもちろん、最近プラットフォームリスクについて多く話してきました。インフラストラクチャの一部を別の会社の上に構築する場合、特に最近のOpenAIの場合、常にこの固有のプラットフォームリスクがあります。OpenAIがルールを変更することを決定し、突然あなたのウェブサイトが彼らのルールに準拠しなくなり、サインインボタンを無効にした場合、ユーザーベースの大部分が簡単にログインできなくなり、切り替える必要があるかもしれません。
繰り返しますが、考えるべきことはたくさんありますが、OpenAIの観点からは、非常に理にかなっています。さて、次です。これは面白かったです。サンフランシスコで50人が夕暮れ時に行き止まりの通りに行き、Waymoを注文しました。全員がこの行き止まりの通りの端に注文しました。もちろん、結果として全員が立ち往生しました。
いくつかの画像があります。すべてのWaymoが列を作って待っているのがわかります。本当に何もできません。実際、私は行き止まりの通りにいるWaymoは本当に苦労していて、多くの時間がかかることを発見しました。数ヶ月前、サンフランシスコのAirbnbに滞在していました。この行き止まりの通りにAirbnbを注文したところ、方向転換する方法を考え出すのに30秒か60秒かかりました。動かずに、ただそこで待っていて、それを考え出してから動きました。
それが50倍になったと想像してください。これが別の画像です。これらのかわいそうなWaymoがすべて隅に立ち往生しているのを見てください。でも、これは面白いと思いますし、ライリーはこれを最初のWaymo DoS攻撃と呼びました。さて、次です。Veo 3.1が登場しました。これはマイナーバージョンアップですが、多くのクールなアップデートがあります。Veo 3.1では、完璧なシーンを作成するのを支援するために、既存の機能にオーディオをもたらしています。
素材から動画へでは、複数の参照画像を使用してキャラクター、オブジェクト、スタイルを制御できます。フローは、あなたが思い描いた通りに見える最終シーンを作成するために素材を使用します。それから、最初から最後までショットを制御することもできます。
フレームから動画へで開始画像と終了画像を提供してください。これにより、複数の動画を結びつけて、本当に無制限の動画長を得ることができます。今では1分以上続く動画を作成できます。各動画は、前のクリップの最後の1秒に基づいて生成されるため、より長い確立されたショットを作成するのに最も役立ちます。
既存のシーンに要素を挿入することもできます。Genie 3で初めて見たものです。シーンから不要なオブジェクトやキャラクターを削除することもできます。非常にクールです。軽くテストしてきましたが、まだ広範囲ではありません。一部の人々はV3よりも優れていると大きな成功を収めていると思いますが、一部の人々はそれほど良くない、あるいは全く良くないと言っています。
コメント欄で皆さんの意見を聞かせてください。さて、動画モデルといえば、Sora自体もいくつかのアップデートを受けました。まず、ストーリーボードがProユーザー向けにウェブで利用可能になりました。GoogleのフローがVeoに対するものとして、ストーリーボードがSoraに対するものと考えることができます。すべてのユーザーが、アプリとウェブで最大15秒の動画を生成できるようになりました。Proユーザーは最大25秒です。
Soraに関するいくつかの簡単なアップデートです。次に、私たちはAIモデルが新しい科学を発見する時代にいます。これは今日の私にとってAIの最もエキサイティングな部分です。GoogleのCEOであるサンダーは、AIと科学にとってエキサイティングなマイルストーンだと言いました。イェール大学と共同で構築され、Gemmaに基づいた、つまりオープンソースでオープンウェイトのCS2 Scale 27Bファンデーションモデルは、がん細胞の挙動に関する新しい仮説を生成し、科学者が生きた細胞で実験的に検証しました。
そして最もエキサイティングな部分は、これらのモデルが、私たちがどれだけの計算能力を投入できるかによってのみ制限されていることです。したがって、がんを解決するためにどれだけの計算能力を投入できるかが関数であるならば、可能な限り多くをそれに投入すべきです。さらなる前臨床試験と臨床試験により、この発見はがんと戦う治療法を開発するための有望な新しい経路を明らかにするかもしれません。非常にクールです、Google。
軍事技術の進化と宇宙データセンター構想
さて、次です。Andrillは私たちの軍隊を未来に導いているようです。彼らはちょうどEagle Eyeをリリースしました。これは軍隊が着用する完全な未来的なヘルメットのようなものです。Eagle-Eyeは、協調的な3Dサンドテーブルを通じて究極の鳥瞰図を提供します。これはそれができることの一例に過ぎません。
もう少しお見せします。リモートミッションリハーサルを実行し、位置を認識するビデオフィードを統合し、移動を調整し、戦闘に勝利します。別のデモ動画があります。繰り返しますが、ビデオゲームのように見えますが、そうではありません。これは実際に私たちの軍隊のための拡張現実です。ご覧のように、左下隅に小さなミニマップがあります。
右上には、これらすべてのステータス更新があります。Assassin’s Creedで得られるようなものもあります。ミッションゴールがある場合、ここで赤と緑で見ることができます。とてもクールです。そして右下に動画があります。彼らは本当にビデオゲームの美学と機能性を取り入れて、それを現実にしています。
本当に素晴らしいです。別の例があります。メニューシステムの見た目さえも。Call of Dutyから直接来たものだと誓います。でもほら、敵を追跡しているのがわかります。ここに味方がいます。車の後ろで追跡しています。とてもクールです。さて、次です。ジェフ・ベゾスは、データセンターが軌道に移動するかもしれないと言っており、多くの利点があります。
1つは一定の太陽エネルギーであり、もう1つはそこが非常に寒いため、これらのシステムを冷却するためにそれほど多くの電力を必要としないかもしれないことです。このクリップを聞いてください。次に起こることの1つは、正確にいつかはわかりにくいですが、10年以上先で、20年以上ではないと思います。私たちは宇宙に巨大なギガワットのデータセンターを構築し始めるでしょう。
これらの巨大なトレーニングクラスターは、宇宙で構築する方が良いでしょう。なぜなら、そこには年中無休の太陽光発電があるからです。次の数十年で、宇宙の地上データセンターのコストを上回ることができるでしょう。そして、宇宙は地球をより良くし続ける場所の1つになるでしょう。それは気象衛星ですでに起こっています。
通信衛星ですでに起こっています。次のステップはデータセンターになり、それから他の種類の製造になるでしょう。それを考えるのはとてもクールで、理にかなっています。1つだけ潜在的な欠点があります。宇宙にデータセンターを構築することは非常に高価になるでしょう。
そしてそのコストは、ここで構築して地球上で電力を供給するコストを上回る可能性があります。さて、本当にクールだと思った視覚化があり、皆さんと共有したいと思いました。これは、Cloud Codeがコードベースをナビゲートしているときの様子です。これをご覧ください。これからご覧いただく青いノードは、コードベースをナビゲートして探索しているCloud Codeです。
そこにいます。このやつがすべてのコード、すべての異なるファイル、すべての異なるディレクトリを通り抜けて、進むにつれて学習しています。私はこの視覚化を見るのがとても楽しいと思いました。そして最後に、AGIが実際に何であるかを定義しようとする新しい論文があります。なぜなら、それは動く目標だったからです。多くの異なる定義がありました。1つの会社からでさえ、定義は変化してきました。
これはダン・ヘンドリックスです。AGIという用語は現在、曖昧な動くゴールポストです。議論の基礎を固めるために、AGIの包括的でテスト可能な定義を提案します。これを使用して、進捗を定量化できます。GPT-4はAGIへの道のり27%でした。GPT-5は58%です。
かなり近いようです。AGIの私たちの定義は、よく教育された成人の認知的多様性と熟練度に匹敵するか、それを超えることができるAIです。これを測定するために、人間の知能の最も経験的に検証されたモデルであるCHC理論から派生した知能の複数の次元を評価します。それに入るカテゴリのいくつかがあります。
一般知識、読み書き、数学、即座の推論、作業記憶、長期記憶の保存と検索、視覚、聴覚、そしてスピード。例えば、モデルに永続的なメモリがない場合、メモリの保存と検索で0%のスコアを獲得します。大規模なコンテキストウィンドウに依存することは、この根本的な制限を隠す回避策である能力の歪曲です。
ところで、この論文の完全な分析をしてほしい場合は、コメント欄で教えてください。というわけで、今日は以上です。Stack AIに感謝します。彼らをチェックしてください。彼らは私たちにとって素晴らしいパートナーです。説明欄にリンクがあります。クリックしてください。私が紹介したと伝えてください。この動画を楽しんでいただけたら、いいねとチャンネル登録をご検討ください。それでは次の動画でお会いしましょう。


コメント