この動画は、Sam AltmanによるGPT-6の記憶機能への言及から始まり、DeepSeek V3.1やQwen画像編集モデルといったオープンソースAIの新展開、主要なバイブコーディングプラットフォームによるagents.md標準化の取り組み、GoogleのOpalアプリ作成ツールのベータ版公開、Boston DynamicsのAtlasロボットやFigure Roboticsの最新デモンストレーション、Metaの第4回AI部門組織再編、そしてNvidiaの中国向け新チップ開発まで、AIテクノロジー分野における幅広い最新動向を包括的に解説した内容である。特にAI記憶機能の重要性やヒューマノイドロボット技術の飛躍的進歩に焦点を当てている。

AI最新ニュース:記憶機能とGPT-6への期待
炎上トレインはまったく止まらんな。GPT-5が出てからたったの2週間程度で、もうSam Altmanがテクニカルに6について語ってるやんけ。CNBCの報道によると、GPT-6について人々は記憶機能を求めてるって話や。Sam Altmanが先週サンフランシスコで記者の連中と会って、プライベートディナーとかやって、GPT-6で何が来るかについて情報を教えたんや。これを聞いてみい。
Altmanはリリース日は言わへんかったけど、人々は記憶機能を求めてる。人々は、AIが自分らを理解できるような製品機能を欲しがってる。彼が言うてるのは、おそらくこれらのモデルにとってさらに深くて意味のある記憶機能のことやろな。何度も言うてるけど、モデルの記憶機能っていうのは信じられんほどの堀や。モデルがあんたのことをよう知るようになればなるほど、それだけ良うなるんや。
あんたと一緒に略語みたいなもんを覚えるし、あんたの好みも学習する。それに効率も格段に上がるんや。なんでかって言うたら、いろんな使用ケースでソリューションへの近道みたいなもんやからな。あんたが好きな種類のこと、どんな風に作業したいかを知ってたら、何回もプロンプトを入力してそこに誘導しようとせんでも、最初からその道筋で始められるんや。
うちの製品は、ほどほどに中道的なスタンスを取るべきやと思う。そんで、あんたがかなり極端に振ることもできるようにすべきや。あんたが「めっちゃリベラルになってほしい」って言うたら、めっちゃリベラルになるべきやし、当然その逆もしかりや。この議論には両面があるんや。もしモデルがあんたが求める通りのことを正確に反映するだけやったら、ソーシャルメディア革命のときと同じ問題が起こる。アルゴリズムのせいで全部がエコーチェンバーになってまうんや。
そのアルゴリズムはエンゲージメントを最大化するように調整されてて、残念ながら恐怖と怒りがエンゲージメントを最大化する傾向にあるんや。せやから当然、そういうのをようけ見ることになったし、特定の投稿とやり取りし始めたら、そういう投稿ばっかり見るようになる。それがエコーチェンバー感情の原因や。一方で、AIは俺が望むもんであるべきや。
これは俺が日々一緒に作業したいと思うもんの反映なんや。これは、フロンティアモデルラボが進んでいく中で解決せなあかん、ほんまに難しい問題や。これはシコファンシー問題と同じようなもんで、モデルがユーザーの言うことに、どんなにばかげてても全部同意してたやつや。
せやから、これがどう展開するか見るのは興味深いな。よっしゃ、次や。
DeepSeek V3.1とオープンソースモデルの進化
DeepSeek V3.1が来たで。オープンウェイトモデルや。DeepSeek社から今すぐダウンロードできる。これはRシリーズのモデルちゃうで。R2は遅れてるって噂されてて、理由は中国がDeepSeekにNvidiaチップやなくて中国製チップを使えって言うてるからや。
でも今はDeepSeek V3.1があるんや。もしこれの徹底的なテストをしてほしかったら、下のコメントで教えてくれ。HuggingFaceでモデルをダウンロードできる。ここにファイル以外はあんまり情報がないな。かなりでかいモデルや。せやからコンピューターにVRAMがようけなかったら、おそらく動かせへん。量子化バージョンを待った方がええ。
うまくいけばそっちは動かせるやろ。中国からもう一個オープンウェイトモデルが出てる。Qwen Image Editっていうやつで、名前の通りや。画像編集モデルで、めっちゃ優秀や。主な機能は、二言語対応の正確なテキスト編集、高レベルのセマンティック編集(オブジェクトの回転、IP作成)、低レベルの外観編集、追加、削除、挿入や。今すぐQwen AIで試せるで。
HuggingFaceでダウンロードできるし、GitHubでビルドプロセスも見つけられる。例をいくつか見てみよか。これがQwenのマスコットや。そんでマスコットがいろんなことをしてる、めっちゃ一貫したバージョンがようけある。これは別の例や。画像回転の例や。この男性の入力画像や。正面視点に回転させる。
これや。めっちゃよう見えるな。もう一個。横からの画像入力。正面視点を取得。後ろからの誰かがいて、正面視点を取得。当然、モデルはこの人がどんな顔をしてるか推測せなあかん。BMWについては、入力画像がある。正面に回転させる。完璧に見えるな。もっとある。
赤ちゃん、犬、カラス、ライオンや。アバター作成もできる。これが入力画像や。そんでプロンプトは「Tシャツを黒いTシャツに変えて、Qwenって文字を入れる。ジブリスタイルに変換」や。これは別の例。3Dカートゥーンスタイルとちびスタイルや。最後に、これが入力画像や。
ビーチにペンギンがようけいて、「ペンギンビーチへようこそ」っていう看板が追加されてる。よう見たら、ペンギン全部がほとんど同じや。実際、違いがわからん。このモデルは変更が必要な画像の部分を分離して、他は全部そのままにするのがめっちゃ上手なんや。よっしゃ、これは別の例や。小さい画像編集やけど、めっちゃ意味がある。
これが入力画像で、ここにきもい髪の房がある。そんで髪の房を除去したら、完全になくなってる。ほんまによくできてる。他は全部、単語も価格も全部同じや。25っていうのも他の価格と右寄せで揃ってるのも同じや。
編集された画像でも同じや。これは別の例や。画像を編集するだけやなくて、実際に画像を理解してるんや。これはアルファベットのAからZで、文字Nの色を青に変えてる。文字の一つだけを青に変えて、そこにある。背景のスワップもできる。
この女性をビーチに置く、教室に置く、バーチャル試着、全部の画像で同じ女性、違う服装、テキスト編集。めっちゃ印象的や。これを試すのが待ちきれんわ。ちなみに、オープンソースモデルを試したい場合、さらにはフロンティアモデルも試して、それらを最大限活用したい場合は、今日の動画のスポンサーであるAWSをチェックしてみい。
AWSのAmazon Bedrockと先端AI機能
Amazon Bedrockには、生成AI アプリケーションを構築する場合に必要なもん全部が揃ってるんや。Amazon Bedrockから必要な4つの重要な機能について教えたる。まず、プロンプト最適化や。プロンプト管理によって、プロンプトの作成、評価、バージョン管理、適切なモデルでの実行が簡単になる。プロンプト最適化では、パフォーマンスを向上させて簡潔にするために、プロンプトを自動的に書き直してもらえる。
そっから、Amazon Bedrockはインテリジェントプロンプトルーティングも提供してる。プロンプトを取って、コストや効率、レイテンシー、何でもええけど、その仕事に最適なモデルにルーティングできる。インテリジェントプロンプトルーティングに何をすべきか伝えて、自動的にルーティングしてくれる。次の大きな機能はプロンプトキャッシングや。
長い繰り返しプロンプトを使ってる場合、プロンプトキャッシングを使えば処理時間を節約してレイテンシーを低くできる。最後に、モデルディスティレーション。これは、より高価な教師モデルを取って、その教師モデルに知識を小さなモデルに移すことで教える、より小さくて高性能なバージョンを作らせるテクニックや。
これらの機能全部をチェックしてみい。下にリンクを貼っとく。Amazonはすばらしいパートナーやった。せやからぜひチェックしてくれ。リンクをクリックして、俺が送ったってわかるようにしてくれ。そんで動画に戻ろか。よっしゃ。
agents.md標準化とバイブコーディングの進化
次は、主要なエージェンティックコーディングプラットフォームが集まって、コミュニティのためにすばらしいことをしたんや。標準のagents.mdを作ったんや。
バイブコーディングやエージェント駆動開発をやってて、Cloud Code、Cursor、Windsurf、Factory、その他を使ってる場合、おそらくそれぞれに対してこんなファイルを複数持ってるやろ。基本的にこれらのファイルが何をするかっていうたら、どんな風にコードを書くのが好きか、どんなルールに従うか、ガイドライン、ベストプラクティス、そういうのを全部一か所にまとめてモデルに教えるんや。
でも標準がなかった。せやから複数のツールを使ってたら、同じコードベースでも複数のファイルを持つことになってた。でも今はagents.mdが全部を標準化してる。説明されてる通り、agents.mdはエージェントのためのreadmeみたいなもんで、AIコーディングエージェントがあんたのプロジェクトで作業するのを助けるコンテキストと指示を提供する、専用の予測可能な場所なんや。
オープンソースや。今すぐダウンロードして使える。そしてOpenAIのCodec、AMP、GoogleのJewels、Factory、Cursor、Rueなどがすでにサポートしてる。せやから、複数の異なるツールでバイブコーディングをしてる人にとっては、これは大きなアップグレードや。よっしゃ、次のやつは興味深いで。実は俺が見逃してたんや。
GoogleのOpalとミニアプリ作成
どうやら、Googleが1ヶ月ほど前にOpalっていう製品を発表してて、AIでこういう使い捨てのミニアプリを作れるんや。「よっしゃ、Matt、1ヶ月前に出たんやったら、なんで今話してるん?」って思ってるやろ。ニュースは今ベータ版でリリースされて、今すぐ試せるようになったからや。
これがOpalや。シンプルなプロンプトでアプリを作れる。ノードベースのワークフローを組み立てて、他の人と共有できる。これはYouTubeで学習する例や。クリックしてみる。ノードベースなのがわかる。全部のノードが繋がってる。そしてこれ全部がシンプルなプロンプトだけで作られたんや。
せやから、URLを収集。YouTube動画のURLを入力。そんでここにプロンプトがある。あんたは複数のソースから情報を理解して抽出できる熟練した転写者や。ツールも変数も与えられる。ここにURLの収集がある。そんで教育コンテンツを分析して、クイズを生成して、表示する。
実行したら、こうなる。スタートをクリック。YouTube動画のURLを入力してくださいって出る。前の動画を取ってくる。入力する。エンターを押す。処理してるのがわかる。動画の転写を抽出。そんで教育コンテンツを分析して、クイズを生成して、レポートを表示する。終わったら、アプリを共有できる。
他のもリミックスできる。気に入ったのを見つけたら、好きなようにリミックスできる。手動で作ることもできる。他のノードベースフレームワークと同じで、入力があって、出力があって、その間に全部ある。別のユーザー入力を作って、何か別のことをして、最後に繋げて、みたいにできる。今は無料で試せる。
試してみい。opal.withgoogle.comや。Googleからもっとある。今日、Made by Googleイベントがあって、Geminiが家庭の音声アシスタント全部を動かすようになるって発表された。家庭での次世代のヘルプを提供する全く新しい音声アシスタントを紹介する。
家庭用Geminiで、家族全体にハンズフリーのヘルプを提供する。めっちゃクールやな。Google IOでのクールな発表を全部見た後でPixel phoneを使い始めたんや。電話でこういう高度なAI機能を使い始めるのが待ちきれん。Apple、どこにおるん?よっしゃ、次はPerplexityや。
Perplexityのスーパーメモリとユーザー理解
CEOのArindが「全てのPerplexityユーザーのためにスーパーメモリっていうのに取り組んでる」って言うてる。前にも言うたけど、記憶がその堀や。本当にすばらしいモデルを開発して、ユーザーを理解して、ユーザーについて学ばせると、めっちゃ個人的でめっちゃ強力になるんや。
せやからAIアプリ企業も、フロンティアモデルラボも、まだやってないならみんな、可能な限り最高のAI記憶を開発することに大きく投資すべきや。彼は続けて「最終段階のテストをしてる。初期テストでは、他の何よりもずっとよく動いてることを示してる」って言うてる。例がここにある。誰かがただ「やあ」って言った。
「やあ、こんばんは。NITHにおるのが見えるな。今日はどないしたら手伝えるかな?電気工学について質問があるか、コースワークで助けが必要か、何か別のことについて話したいか、何でも手伝うで」。この人について山ほど学習してるんがわかる。ただ「やあ」って言うただけやのにな。次、OpenAIのSebastian Bubckが、GPT-5が実際に新しい数学を解いてるっていう証拠付きの主張を出した。
GPT-5による数学的新発見の実証
これを見てみい。主張:GPT-5 Proは新しい興味深い数学を証明できる。証明:きれいなオープン問題がある凸最適化の論文を取って、GPT-5 Proにそれに取り組むよう頼んだ。論文にあるよりもいい境界を証明して、証明をチェックしたら正しかった。詳細は下にある。論文がここにある。
「定理1のステップサイズの条件を改善できるか?仮説は追加したくない。定理1と同じ仮定の下でステップサイズ条件を改善するように取り組んでほしい」。17分後。「はい、同じ仮定の下で」そして新しい解決策を提案し続ける。人工知能でどこまで来てるかクレイジーや。
これらのモデルのコア知能は十分や。前にも言うたし、また言うけど、モデルのコア知能にもう進歩がなくても、それらの周りに構築されてる足場が世界に信じられんほどの価値を提供するやろ。記憶もその足場の一部で、今現在は足場の欠如だけが理由で手つかずの使用ケースがめっちゃようけある。
Sebastianは続けて、それがどう働いたか、何を提案したか、なぜ正しいかを説明してる。これは俺には理解できんほど高レベルな数学やから、説明しようとすらせん。チェックしたかったら、もちろん下の説明にリンクを貼っとく。
Boston DynamicsのAtlasロボットと最先端技術
次、Boston DynamicsがロボットAtlasの新しいデモビデオを出した。これは次世代のロボットや。どんだけスムーズか見てみい。そして、そこに書いてる通り1倍速で完全に自律してる。箱を開けてるのを見てみい。もちろん誰かがそれを邪魔する。また開けようとしてる。ああ、また開けなあかん。ものを取り出し始める。隣の箱に置く。
ゴミ箱にっていうべきやったな。ホッケーのスティックを持った人が箱を動かす。見てみよか。箱を掴んで、ロボットの方に近く動かして、それから作業を続ける。ここで見えるのは、ロボットが視覚化したり、実行したり、おそらく訓練したりもできる仮想環境や。
ロボットアームがどこに行くかを視覚化してるのがわかる。めっちゃクールやな。そんで次に、スポットロボット、犬ベースのロボットの部品がある。優しく拾い上げられる。複数の方法で掴む。両腕で掴む。折り畳む。片づけられるかどうか見てみよか。そこや。
まだちょっと作業が残ってる。もうちょっと速くなる必要があるし、もうちょっと流動的になる必要がある。でもこれは信じられん。ヒューマノイドロボットの進歩は、この数年間見てて絶対にクレイジーやった。せやから、なんでこれがこんなに印象的かって?TwitterのHumanoid Hubが分析してくれてる。彼らのアプローチは長期間言語条件付き操作に焦点を当ててる。
ロボットにしてほしい作業を言うと、それをしに行くんや。簡単な作業ちゃうで。言ってる通り長期間の作業や。センサー入力と言語プロンプトを高頻度で全身制御にマッピングする言語条件付き操作とロコモーション。長ったらしいけど、基本的には何かを伝えるとそれをするんや。それをさせるプロセス、実際の訓練はこんな感じや。
テレオペレート データ収集、つまり誰かがコントロールの後ろに座って手動でやらせて、そこから学習する。そんでパイプラインにキュレーション、大規模モデル訓練、改善を導くための厳密な評価。もっと詳しく、詳細について知りたかったら、下にリンクを貼っとく。Atlasにこれをさせることができるようになった方法について、全体のブログ記事を出してる。
Figure Roboticsと過酷地形での歩行実証
ヒューマノイドロボット関連はそれだけちゃうで。Figure Roboticsからも別のデモビデオがある。これをチェックしてみい。Figureロボットが藪の中を外で歩いてる。これはおそらくFigureのオフィスの近くやろ。ようけ障害物に出くわして、足が挟まって、自分で直して、歩く。あんまり流動的な動きちゃうけど、こんな荒くて難しい地形をナビゲートできるのはやっぱり印象的や。
うん、ちょうどそこで何か壊した。これがFigure 2ロボットで、また強化学習や。これが全部、俺らが向かってる方向や。これらのロボットを制御するエンドツーエンドニューラルネット。CursorにSonicっていう新しいステルスモデルがあって、今すぐ使って試せる。一部の人はこれがGrok codeやって言うてるけど、Grok codeがいつでも出る予定やからな、でもわからん。
でもこれはCursorのチームから投稿された。せやからモデルは間違いなく利用可能で、今すぐ利用できる。試してみい。
OpenAIのインフラ事業参入と業界動向
次、BloombergはOpenAIが実際にインフラゲームに参入する可能性があると報告してる。Google Cloud、Azure、AWSと非常に似てて、必要な開発者や他の企業に自分たちのインフラを売り始める可能性がある。
今すぐにって感じではないようやな。実際にCFOがした、ちょっとした捨て台詞みたいなコメントのように見える。見てみ、将来的には何でも可能や。十分なコンピュートを持ってる可能性もあるけど、今現在では間違いなく余剰能力をよそに売るほどのコンピュートは持ってへんと思う。でも興味深かったから、共有した。
Metaの第4回AI部門組織再編
次、MetaがAIチームの4回目の組織再編をしようとしてて、Business Insiderにより詳しい情報がある。Scale AIのCEOで、今は基本的にMetaのAI部門全体を運営してるAlexander Wangからの要点がここにある。まず、より積極的な役割を果たす。FairはYan Lunのチームや。FairはMSLのMeta Super Intelligence Labのイノベーションエンジンになる。
研究を直接TBD labに送ることで訓練を実行する。TBDは「未定」で、それは未定の彼らの研究所や。会社の別の部門や。Meta Super Intelligence Labsの研究は、新しいチーフサイエンティストでChatGPTの共同創設者のShenha Xiaoが率いる予定や。うまく発音してることを願う。
最近採用したNatt Freemanは、Wangに直接報告する予定で、これはGitHubの元CEOで、Metaの製品にAIを統合することを担当する。Aparna Ramaniが率いる新しいインフラチームも発表してる。MetaエンジニアリングのベテランVPで、LinkedInのプロフィールによるとMetaのAIインフラ全部を率いてる。
MetaはAGI Foundationsチームも解散させてる。これはほんの数ヶ月前に作られたばかりやった。完全なメモを読みたかったら、Business Insiderにある。下にリンクを貼っとく。
Nvidia中国向け新チップ開発の戦略的意味
最後に、Nvidiaが中国専用の新しいチップを作ってる。Reutersの独占記事で、NvidiaがH20を上回る中国向けの新しいAIチップに取り組んでるって。H20は制限のせいで中国専用に販売されたカスタムチップや。
せやからこれはそれのアップグレードになる予定や。チップについてもうちょっと詳しく。暫定的にB30Aとして知られてる。より洗練されたB300のデュアルダイ構成の生のコンピューティングパワーの半分を提供するシングルダイデザインを使う可能性が高い。そう、アメリカを含む他の多くの国が今得られるチップの機能を落としたバージョンになる予定や。
今日は以上や。この動画を楽しんでもらえたら、いいねとチャンネル登録をよろしく。


コメント