
10,812 文字

ほな、ようこそ。いつもと違う設定になっとるのは分かると思うけど、今ニューヨークにおるんや。IBMが新しいAI技術を見せるために呼んでくれて、それについてのビデオはすぐに出すつもりやけど、今日はまず最初のニュースから始めよか。
OpenAIが自社のエージェンティックフレームワークをオープンソースでリリースしたんや。これは驚きやけど、驚きでもないんや。なぜかっていうと、ちょうど1週間前にChatGPT Canvasをリリースしたばっかりで、これがインターフェースの大幅なアップグレードやったからな。
これらがなぜ似とるかっていうと、OpenAIをプラットフォーム企業として見たらええんや。基本的に知能のパイプを提供するっていう。彼らはそれだけをやるって言うてたけど、今はだんだん上流に行っとるのが明らかになってきとる。
このチャンネルでプラットフォームリスクについてよう話してきたけど、今まさにそれが起こっとるんや。今や彼らも自分たちのエージェンティックフレームワークをリリースしとる。ただ、これに関しては何の約束もないって言うとるな。アップデートの約束もないし、サポートもない。今んとこは単なる研究プロジェクトやねん。
でも、OpenAIがエージェントの世界に入ってきたのは面白いわ。ほな、リリースからたった数日で、もう13,000近いスターがついとるんや。オープンソースやし、Swarmっていう名前やねん。実験的で教育的やって。全ての注意書きがついとる。
まだ試してないけど、それなりの機能がすでにあるみたいやな。Swarmは、軽量で拡張性があり、高度にカスタマイズ可能なパターンを探索するもんやって自己紹介しとる。Swarmみたいなアプローチは、単一のプロンプトにエンコードするのが難しい、大量の独立した機能と指示を扱う状況に最適やねん。つまりエージェントってことやな。
Assistance APIは、完全にホストされたスレッドと組み込みのメモリ管理と検索を探しとる開発者にとっては素晴らしい選択肢や。でも、Swarmはマルチエージェントのオーケストレーションについて学びたい開発者向けの教育リソースやねん。
Swarmはほとんど完全にクライアント上で動いて、チャット補完APIと同じように、呼び出し間で状態を保存せえへんのや。
オープンソースやから、おそらく好きなモデルを組み込めるんやろうけど、OpenAIのモデルと一番相性がええんちゃうかな。ここに例があるんやけど、面白いことにニューヨークについてや。
「ニューヨークの天気は?」
トリアージアシスタントが天気アシスタントに転送するんや。これがユニークなところで、エージェント間の転送がすごく明示的にされとる。
天気アシスタントがツールを呼び出して、ニューヨーク市の天気を取得して、「ニューヨーク市は67度です」って返事するんや。
基本的なエージェントの機能やけど、彼らがこの分野に参入してきたのは面白いわ。
次はNVIDIAの話や。NVIDIAが新しいチップセットを初めてクライアントに届けたんや。もちろん、そのクライアントはOpenAIやね。OpenAIは前の世代のチップも最初に手に入れたから、OpenAIとNVIDIAはかなり近い関係にあるんや。
Bojunが言うには、昨日NVIDIAがB200の最初の1つをOpenAIに届けたらしい。この化け物のスペックがすごいんや。まず、この写真を見てみ。綺麗やろ?
前面全体がチップみたいに見えるけど、ここにOpenAIのチームがおって、このGPUの巨大さがよく分かるわ。
これ1枚で、お手頃価格の40万ドルやで。2万台、5万台、あるいはxAIがやったように10万台のクラスターが必要やと想像してみ。これらは基本的に家1軒分のコストやねん。
これらのベンチマークを見てみ。これは訓練性能とH100からの速度向上や。H100を1倍とすると、DGX B200は3倍速いんや。推論速度はさらに大きな改善があって、前の世代のチップから15倍の改善やねん。
この怪物には8枚のNVIDIA Blackwell GPUが搭載されとる。これが最新世代のチップやね。合計1440GBのVRAMがあって、これがすごい。訓練で72ペタフロップス、推論で144ペタフロップスやねん。最大14.3kWを使うんや。
2つのIntel Xeon Platinum 8570プロセッサ、合計112コア、4TBのシステムメモリが付いてくる。
彼らはBlackwellチップの出荷を始めたんやけど、これらのチップには何年も待機列とバックログがあるって聞いたわ。手に入れたいなら今すぐ名前を書いておくべきやね。
今日のビデオはMammothによって提供されとるんや。
Mammoth AIは、最高のモデルを1つの場所に集めて、1つの価格で提供してくれるんや。Claude、Llama、GPT-4、Mraw、Gemini Pro、そしてGPT-1まで。これらのAIに個別に支払う代わりに、Mammothに10ドル払えば、全部まとめて使えるんや。
画像生成もあって、Midjourney、Flux Pro、DALL-E、Stable Diffusionがあるんや。これも全部10ドルでね。
モデルはリリースされたらすぐに更新されるから、最高のモデルに1つの低価格でアクセスするなら、Mammothをチェックしてみてな。m.ai、つまりm-a-m-m-o-u-t-h.aiやで。
もう一度Mammothに感謝して、続きに行こか。
NVIDIAがモンスターみたいなモデルを出したんやけど、僕は旅行中やったから、まだ試せてないんや。Llama 3.1をファインチューニングしたバージョンを出して、これがGPT-4とClaude 3.5 Sonnetを超えとるらしいんや。
Neatr 70B Instructモデルって呼ばれとって、全てのベンチマークで本当によくやっとるみたいや。でも、もちろんベンチマークは無意味やから、自分で試さなあかんな。来週やってみるつもりや。
でも、一番重要なのは、「strawberry」の「r」の数を数えられるってことや。少なくともそれくらいの能力はあるってことやな。
全てのベンチマークでよくやっとって、多くの人が良いことを言うとる。来週テストしたら分かるわ。
次は、Googleが原子力に参入するんや。ちょっと狂ってるみたいやけど、大規模なスーパーコンピューターを大規模に運用したいなら必要なことみたいやな。
GoogleのCEOのSundarが今日発表したんや。「今日、米国でクリーンエネルギーを購入する画期的な契約を、小型モジュール原子炉の建設のリーダーであるKairos Powerと締結しました。これは、クリーンエネルギー源を加速させるという我々の歴史の中での最新のステップであり、AIへの投資をサポートするものです。」
これは最近1ヶ月の間でも初めての原子力の話やないんや。僕はこれが大好きなんや。原子力発電はクリーンで効率的で、基本的に我々、つまりアメリカは、数十年前に起こったいくつかの事故の後に全ての発電所を閉鎖して、それ以来本当に再検討してこなかったんや。
中国が大量の原子炉を建設しとるのは知っとるし、だから我々が始めるのは、しかも民間企業が主導しとるのは、アメリカにとって良いニュースやねん。
特に小型発電所が今のトレンドみたいやな。つまり、より小型でモジュール化されて、国中に分散して、おそらくリスクも少ないんや。
実は原子力エネルギーについてあんまり詳しくないんや。もしかしたら誰かにインタビューすべき話題かもしれんな。コメントで教えてな。
次はAdobeの話や。Adobeがたくさん発表したんやけど、多くの人がAdobeは終わりに向かっとると思ってたんや。つまり、死にかけてるって。テキストから動画、テキストから画像などの全てのAI機能が、基本的にAdobeを殺すんやないかって。
でも、彼らはなんとかついていってるみたいやな。AIの機能を彼らの製品群に組み込んでるんや。彼らは商業的に安全やって言うテキストから動画の製品をリリースしたばっかりや。つまり、所有権があるものか権利を持っているものだけで訓練されたってことやね。
Firefly Videoはテキストから動画、画像から動画をサポートしていて、完璧なプロンプトの一貫性のために設計されとるんや。今週のMAXイベントで多くの例を見せてくれたんやけど、僕は参加できへんかったんや。でも、すごくワクワクする内容やね。
Adobeがついていけてるのは嬉しいことやし、これらは単に製品に投げ込んだ機能っていうわけやなくて、誰も使ってへんってわけでもないみたいやな。
Photoshopの生成系フィル機能は、すでに最も人気のある機能の1つみたいやね。僕はそれをデモして、しばらく前に紹介したけど、基本的に画像の特定の部分をハイライトして、任意のプロンプトを入力するだけで、見ているものを変更できるんや。
当時はかなり印象的やったし、それ以来さらに良くなってるはずやね。
次はWorldcoin、人間識別フレームワークの話や。彼らは新しいものをたくさん立ち上げて、今は単にWorldって呼ばれとるんや。coinを落としたんやね。よりクリーンになったと思うし、素晴らしい決断やったと思う。
実は今日、SaturnとPugetのインタビューを公開しようとしとるんや。彼らはWorldcoinの創設者の1人で、Sam Altmanも別の創設者やね。
Worldが今目指しとるのは、人間らしさを識別することや。基本的に全ての人に識別子を与えるんや。完全にオープンソースで、数ヶ月前にOrbデバイスでニュースになったよな。これは虹彩をスキャンするんや。
これが人間であることを本当に検証する方法で、その情報を取って、ブロックチェーンに保存して、基本的にインターネット上のどこでも人間であることを証明できるんや。
じゃあ、なんでそんなことをするんか?なぜそれが重要なんか?人間らしさをオンラインで模倣できる人工知能があって、それが信じられないほど正確にできて、何千、何百万、何十億のエージェントがインターネット上を走り回っとるとき、はい、あなたは人間です、これは私で、私は人間ですって検証することが重要になるんや。
それが彼らが目指しとることやねん。ただ単に誰かが人間かどうかを検証するだけや。その技術の上に構築できる全てのインフラがあるんや。
Satとのインタビューをチェックすることをおすすめするで。素晴らしかったんや。ASI、UBI、もちろんWorldcoin、そして超知能との未来について話したんや。
次は、別のテキストから動画のモデルが出てきたんや。今回は完全にオープンソースで公開されとるんや。なぜそう言うかっていうと、多くの異なる企業がテキストから動画のモデルを発表しとるけど、Meta、OpenAI、どれも実際にはリリースしてへんのやねん。
これはPyramidFlow SD3って呼ばれとって、Hugging Faceで見つけられるで。Stable Diffusionをベースにしとるんやけど、とにかくチェックしてみて、どう思うか教えてな。
次は、みんながエージェントに参入してるみたいやな。Brett Taylor、シリコンバレーの伝説的な人物で、Salesforceの共同CEOやったし、OpenAIの取締役会長でもあるんやけど、彼がエージェントのスタートアップのために大金を調達して、40億ドル以上の評価を受ける可能性があるんや。
人々は何もほとんどないのに大きな資金調達をしとるんや。彼の場合はそうやないかもしれんけど、過去に何かをやった名前のある人で、今AIにおるなら、巨大な評価額で資金調達できるんやね。
彼のスタートアップはSierraって呼ばれとって、元Salesforceの共同CEOのBrett Taylorが共同創業した人工知能のスタートアップや。成長段階の投資家であるGreen Oaks Capitalが主導して、数億ドルの新規資金を調達しとるんやって。これは情報に詳しい2人が言うとることやね。
情報によると、会社の評価額が3倍になったんや。1月にはたった10億ドルやったのにな。Sierraは、カスタマーサービスなど、特定のタスクを自動化できるAIエージェントを販売しとるんや。音声通話も含めてな。1年ちょっと前に設立されたばっかりやねん。
そやから、40億ドルの評価額はちょうどええくらいに聞こえるわな。
次は、OpenAIがめっちゃ金を失っとるみたいやねん。OpenAIが今死にかけとると思う人がおるかもしれんけど、それは全然違うんや。彼らはただもっともっと資金を調達するだけやねん。ただ、成長が早すぎるんや。
でも、彼らは依然としてVCの投資先として最もホットなチケットやねん。情報によると、2026年には損失が3倍になって140億ドルになるらしいんや。これはめちゃくちゃな額の金やけど、また彼らは歴史上最大のプライベートラウンドを終えたばっかりやから、燃やす現金準備はあるんやろうな。
これら全ては、チームの拡大、新しいモデルの構築、パートナーシップ、そしてそれらのモデルを訓練するための新しいデータの取得に向けられとるんや。そやから、その現金の使い道はたくさんあるんやけど、もちろん慎重にせなあかんな。
次は、Anduril Industries。Oculusの共同創業者が設立した会社や。OculusはMetaに買収されて、創業者は実際にMetaから解雇されてん。そして、彼は大きな怒りを抱えてAndril、防衛技術会社を設立したんや。これは人工知能を防衛技術に融合させるんやね。
彼らは今、Boltっていう新製品をリリースしたんや。Boltは人間が持ち運べる自律型航空機のファミリーで、ISR(情報・監視・偵察)と弾薬の両方のバリエーションがあるんや。基本的に、戦争の未来はこの小さなドローンにあるんやね。
このドローンはAIを搭載していて、超能力を持っとるんや。この技術はめっちゃ魅力的やと思うわ。ドローンと人工知能、そして他の技術の混合やからな。戦争のためのものやけど、彼らが作っとる技術は本当にクールやねん。
Boltファミリーを紹介するで。人間が持ち運べる自律型航空機のファミリーで、ISRと弾薬の両方のバリエーションがあるんや。Bolt Mは地上部隊に単純で致命的で信頼性の高い精密火力を提供するんや。
高度な経済ソフトウェアを使って、オペレーターが4つの単純な決定に集中できるようにしとるんや。どこを見るか、何を追跡するか、どう関与するか、そしていつ攻撃するか、やね。
基本的に、爆発物を詰め込んだドローンやねん。ターゲットを与えたら、その上を飛んで、偵察もできるし、何でもできるんや。必要なら爆発もできるしな。
次は、SpaceXが1、2年前には不可能に思えたことをやってのけたんや。3階建ての建物をロケットの形で空中に打ち上げたんや。上昇して、戻ってきて、空中で2本のチョップスティックでキャッチされたんや。めっちゃクールやで。ちょっとビデオを見てみよか。
はい、これがあのチョップスティックやね。なんでこれがそんなに重要なんかっていうと、まず、これらのブースターは以前は空中に上がって、それから海に落ちて、基本的に分解してしまってたんや。そして、破片を集めて、長期間かけて再構築せなあかんかったんやね。
それからSpaceXは、これらのブースターを地球に戻して、再利用できるように着陸させることを始めたんや。衝撃で爆発するんやなくてな。
今や彼らは実際にブースターをキャッチして、補充して、メインキャビンを上に追加して、それから数時間以内に宇宙に打ち上げ直すことができるんや。
そやから、再利用性と、これらのロケットを軌道に戻すスピードが大幅に加速するんやね。それは、我々が多惑星種になるのにより近づいたってことやねん。
次は、MicrosoftとOpenAIの間の緊張が高まり続けとるみたいやな。Sebastian Bubeck、Microsoftの主要な研究者の1人やったんやけど、Microsoftを離れてOpenAIに行ったんや。
これはOpenAIにとって一種の勝利やね。最近、彼らは大きな頭脳流出を経験しとったからな。BBCによると、彼は過去2年間、MicrosoftのAIモデル開発の公的な顔の1人やったらしいわ。
情報によると、彼のチームはOpenAIの技術への特別なアクセスを利用して研究を推進してたんやって。これは両社の間の財務的・製品開発のパートナーシップのおかげやねん。
繰り返すけど、MicrosoftとOpenAIはめっちゃ近い関係にあるんや。MicrosoftはOpenAIの約半分を所有しとるけど、過去には多くの摩擦があったんやね。
MicrosoftのCEOのSatyaが「今日OpenAIが閉鎖しても、我々は彼らの技術を全て持っとる。我々は彼らがやっとることを再現できる」って言うたんや。それが本当かどうかは別として、公の報告では彼らはOpenAIを競合相手と考えとるらしいんや。
この話がどう展開するか、見ものやね。
次は、新しい非トランスフォーマーモデルの話や。これはZyra AIっていう会社から出たんやけど、今日NVIDIAとの共同で発表したんや。
「Zamba 27Bを紹介します。SSMのハイブリッドモデルで、Mistral、Gemma、Llama3やその他の主要なモデルを品質と速度の両方で上回ります。パラメータ数270億以下のクラスでは最高のモデルです。」
ここで見られるのは、左のY軸にMMLUスコア、X軸に8K入力シーケンス長での最初のトークンまでの時間やね。
最初のトークンまでの時間が最速なだけやなくて、MMLUベンチマークでもLlama 3.1、Mraw 7B、Gemma 7Bと比べて最高品質なんや。
ベンチマークについて僕がどう思うか知っとると思うけど、このベンチマークを出すのは素晴らしいことやけど、実際にモデルを使うまでは信用せえへんのや。
このチャンネルを見とる人なら分かると思うけど、僕は非トランスフォーマーモデルであんまり運がよくなかったんやけど、それでも、またオープンソースのモデルが出てきたのはめっちゃ嬉しいし、Zyraが仕事をして、オープンソースAIコミュニティに貢献してくれたことにめっちゃ感謝しとるわ。
このモデルをテストしてほしいか?もちろんや。コメントで教えてな。
次は、どうやら全員がすぐにSearch GPTにアクセスできるようになるらしいんや。でも、これは本当のSearch GPTやなくて、ChatGPTに組み込まれたSearch GPTみたいなもんやねん。
リアルタイムの情報が必要な何かを検索したら、突然ウェブを検索できるようになるんや。これはすでにある程度できとったんやけどな。
これは奇妙な新しいハイブリッドアプローチで、Search GPTの技術の一部を使って、それをChatGPT製品に組み込んどるんや。
これは理にかなっとるね。なぜなら、彼らはSearch GPTが長期的に正式な製品になるとは言うてへんかったからや。単に実験って呼んどっただけやねん。
でも今、全てのユーザーのChatGPTに表示されるっていう証拠が出てきたんや。
次は、Mrawがいくつかの素晴らしいエッジモデルを出したんや。このチャンネルを見とる人なら分かると思うけど、僕はエッジモデルが大好きなんや。
小さなモデルをエッジデバイスで実行できるのが好きなんや。それがコンピューター、ラップトップ、携帯電話、何でもええねん。
僕は、これらのモデルがめっちゃ垂直的で、めっちゃ専門的で、消費者のハードウェアで実行できる未来を強く信じとるんや。使用ケースの98%には、01レベルのモデルは必要ないんや。正しいタイミングで正しい使用ケースにこれらのモデルをファインチューニングしたら、めっちゃ良くなるし、めっちゃ効率的になる。コスト効率もめっちゃ良くなるし、レイテンシーも低くなるんや。
そやから、本当に小さなモデルをたくさんの異なるデバイスにデプロイするっていうアーキテクチャを強く信じとるんや。そして今、Mrawから新しいのが出てきたんや。
「オンデバイスコンピューティングとエッジユースケース向けの2つの最先端モデルを発表できることを誇りに思います。我々はこれらをMini-ST、つまりMini-ST 3BとMini-ST 8Bと呼んでいます。」
そやから、これらはめっちゃ小さなモデルやね。8Bはより一般的やけど、3Bもどんどん一般的になってきとるんや。小さなモデルやから、絶対に好きやわ。
「これらのモデルは、10B以下のカテゴリーで知識、常識推論、関数呼び出し、効率性の新しいフロンティアを設定しています。エージェントのワークフローのオーケストレーションから、専門的なタスクワーカーの作成まで、様々な用途に使用したりチューニングしたりできます。
両方のモデルは最大128kのコンテキスト長をサポートしていて、Mini-ST 3Bは特別なインターリーブスライディングウィンドウ注意パターンを持っていて、より高速でメモリ効率の良い推論ができます。」
ここにいくつかのベンチマークがあるんやけど、Gemma 2B、Llama 3.2 3B、Mini-ST 3Bを見てみ。Mini-STがほぼ全ての項目で圧倒しとるんが分かるやろ。
8Bくらいのクラスでも、human evalを除いてMini-STが圧倒しとるんや。human evalではLlama 3.1 8Bが勝っとるけどな。
これらはオープンソースのモデルやないみたいやね。ここに価格設定があるんやけど、8Bバージョンが100万トークンあたり10セント、3Bバージョンが4セントやね。
これは商用ライセンスで、研究ライセンスもあるんや。モデルとウェイトをダウンロードしたいなら、研究ライセンスを申請できるんや。完全なオープンソースやないけど、彼らが出したミームがめっちゃ好きやわ。
2023年のMraw 7B、そして突然我々にはこれらの他の素晴らしいモデルがある。Pix-ST、Mraw Small、Mini-st 8B、Mini-ST 3B、Walking Mraw 7Bが未来に向かって歩いとるんや。
次は、先週Teslaのイベントで大きな論争があったんや。Optimusロボットがイベント会場を歩き回っとったんやけど、多くの人が、これらが完全に自律的やなくて、遠隔操作されとったことに気づいたんや。動きだけやなくて、声もやね。
僕はまだめっちゃクールやと思うたんやけど、フォローアップのデモで、彼らは完全に自律的なバージョンのOptimusがTesla工場を歩き回っとるのを見せてくれたんや。基本的に、どこに行くか、床をマッピングして、めっちゃクールに見えるんや。
ここに、それがどんな感じか、スピードアップした例があるんや。
そやから、彼らは基本的に遠隔操作を使って、大規模言語モデルの代わりに音声を使うことで多くの批判を受けたけど、今や彼らはこれらのロボットとの本当の能力の一部を見せつけとるんやね。
次は、AIとは本当に何の関係もないんやけど、これはめっちゃクールな技術やと思うたんや。Power over Skinっていう新しい技術があって、これは基本的にバッテリーが要らへんのや。ただ体からのエネルギーを使うだけやねん。
Andy Kongが言うには、「イヤホンが充電を必要としない世界を想像してみてください。これが我々の研究、Power over Skinのビジョンです。」
基本的には、デバイス用のバッテリーやエネルギー源みたいなもんやけど、何らかの方法で皮膚に取り付けられるんや。指輪、イヤリング、そういったもんやね。
小さくてめっちゃ効率的なデバイスを動かすのに十分なエネルギーを持っとるんや。
もちろん、携帯電話を動かすことはできへんけど、イヤホンはクールな使用例やと思うわ。なぜかっていうと、僕はイヤホンが人工知能のためのより良いフォームファクターの1つやと実際に思うとるからや。
バッテリーのことを心配せんでええなら、ただ耳に入れるだけで、ずっと動いて、バッテリーが必要ないなら、それはめっちゃ魅力的やと思うんや。
次は、Google の一種の秘密のヒット作、Notebook LMに新機能がついたんや。ほな、ヒット作ができたら、それを倍増させるんが一番ええやろ?それがまさにGoogleがやっとることやねん。
Google の Logan Kilpatrick によると、「音声概要がカスタマイズできて、生成前に方向付けできるようになりました。ビジネス向けのNotebook LMもリリースしています。」
そやから、Notebook LMにいくつか新しいアップデートがあったんやね。僕はまだ使うてへんけど、使いたいと思うとるんや。個人的には、文書を投げ込んで、その文書についてのポッドキャストを聴くっていう価値はあんまり分からへんけど、他の多くの人にとっては価値があるって知っとるんや。
それに、僕はオープンソースバージョンを作っとるんやけど、将来的にはチュートリアルをするかもしれへん。それが見たいかどうか、コメントで教えてな。
次は、有料のChatGPTユーザーが今、ChatGPT Windows アプリの早期アクセスを得とるんや。これは、Macで利用できるものとめっちゃ似とるねん。
基本的に、コマンド+スペースバーを押すだけで、ChatGPTが小さな検索バーにポップアップして、そこから会話を始められるんや。
実際、僕は時間をPerplexityとChatGPTで分けとるから、これらのアプリが僕のデバイスでよりネイティブに感じるほど、僕にとってはええんや。
iPhoneのアクションボタンを押して、ChatGPTやPerplexityがより簡単に素早く出てくるのが待ち遠しいわ。今でもできるけど、遅いし直感的やないからな。
でも、Windowsユーザーで有料ChatGPTユーザーなら、今すぐこれらのアプリをテストできるんや。
今日はこれで終わりや。このビデオを楽しんでくれたなら、いいねとチャンネル登録を考えてみてな。次の動画で会おう!


コメント