Last Week in AI 209 – OpenAI非営利問題、アメリカの拡散規則、AlphaEvolve

AGIに仕事を奪われたい
この記事は約78分で読めます。

46,615 文字

Last Week in AI #209 - OpenAI non-profit, diffusion rules, AlphaEvolve
Our 209th episode with a summary and discussion of last week's big AI news!Recorded on 05/16/2025Hosted by Andrey Kurenk...

こんにちは、AIの最新動向についてお話しするLast Week in AIポッドキャストへようこそ。いつものように今回のエピソードでは、先週の最も興味深いAIニュースをまとめて議論していきます。そして時々、先々週のニュースについても話し合います。
残念ながら、先週もまた見逃してしまいました。申し訳ありません。これからはそうならないよう努力しますが、見逃したいくつかの話題については遡って取り上げます。いつものように、エピソードの説明欄では、私たちが議論するすべての話題のタイムスタンプとリンクを確認できます。
私は通常のホストの一人、Andre Kankovです。大学院でAIを学び、現在シリコンバレーのジェンAIスタートアップで働いています。そして私はもう一人のホスト、Jeremy Harrisです。AI国家安全保障会社のGladstone AIに在籍しています。
私たちは過去2週間ほどについて話しています。2週間分をキャッチアップするのは珍しいことですが、そうした時には通常、神様が私たちの顔に大きな一撃を食らわせます。「わかった、今度はGPT-7とGPT-8を同時に発表しよう。そしてGoogle DeepMindも独自のものを出そう。サム・アルトマンが暗殺されて、それから復活して、君たちはこれら全部をカバーしなければならない」という具合に。今回、この2週間は非常に異なります。奇妙なほど静かです。少し息抜きの時間でした。ありがとう、宇宙よ。
数ヶ月前にGrok 3とLLaMA 3.7、GPTなんとかなど、すべてが一度に出てきたのを覚えています。今回は、この2週間で特に大きなものはありませんでした。
今回カバーするニュースのプレビューです。今回は実際にビジネスから始めます。なぜなら、過去2週間の大きなストーリーは、OpenAIが営利化しない、またはOpenAIの支配エンティティが営利化しないと決定したことだと思うからです。これは興味深いことです。
ツールとアプリについてもいくつかストーリーがありますが、そこには大きなものはありません。オープンソースで話すべき新しいクールなモデルがいくつかあります。アルゴリズムと研究を扱うDeepMindからの新しいエキサイティングな研究があります。そして政策と安全性については、トランプ政権とチップに関する政策面にかなり焦点を当てます。
話に入る前に、Appleのレビューをいくつか紹介したいと思います。実際、最近見たレビューでは見出しが「ポッドキャストは良いです、一貫してください。一貫して投稿してください」となっています。タイトルにあるように、週に1回のポッドキャストです。ここ数週間見ていません。はい、申し訳ありません。一貫性を保とうと努力しています。今年は少し慌ただしい年でしたが、今後数ヶ月でこれらを週刊で行うことがより実現可能になるはずです。
それでは始めましょう。
アプリケーションとビジネス
最初のストーリーは、OpenAIが営利エンティティをコントロールする非営利組織を基本的に排除しようとすることを進めないと言ったことです。
おそらく1年ほど前から取り上げているように、OpenAIは創設以来、確実に2019年以来持ってきた構造から移行することを意味していました。そこには使命、指導的使命を持つ非営利組織があり、投資家からお金を受け取ることができる営利組織を最終的にコントロールし、投資家に対して責任を負います。
非営利組織は基本的に最終的には使命に対して責任を負い、投資家に対してではありません。これはOpenAIにとって大きな問題です。もちろん、2023年末にボードがサム・アルトマンを一時的に解雇したというあの狂った騒劇があり、投資家を怖がらせたと思います。
それで今、数ヶ月後にここに来ました。これは2024年末頃に始まったと思います。イーロン・マスクによって促された最初は多くの訴訟がありました。基本的に、非営利組織の時にお金をもらって、そこから営利組織に変更することはできないという訴訟です。そして、OpenAIは基本的にデラウェア州司法長官とカリフォルニア州司法長官との対話の後、そして市民指導者と司法長官との議論と彼らが言うところの話し合いの後、後退したようです。
彼らは非営利組織を維持しています。まだいくつかのことを変更しています。子会社と言える部分はパブリック・ベネフィット・コーポレーション(公益法人)に移行します。これはAnthropicやxAIと同じようなもので、基本的に公益のために営利活動を行いたいという小さなアスタリスクが付いた営利組織です。
これは彼らがある種の株式のことを行えることを意味します。これは彼らが株式を配布できることを暗示していると思います。非営利組織はこの新しい公益法人に何らかの株式を受け取ることになります。
私にとって、これを見た時はかなり驚きました。OpenAIが戦い続け、彼らの立場を考えれば、それを打ち負かす何らかのチャンスがあると思っていました。しかし、彼らは法廷で単に敗北したようです。
この全体にはいくつかのアスタリスクがあります。そう、あなたの言う通りです。司法長官の部分の重要性は実際にかなり重要です。申し訳ありません、再利用しています。
背景はこうです。イーロン・マスクの訴訟は、これを理解するための非常に良いレンズだと思います。イーロンは、ご存知のように、まさにこのためにOpenAIを訴えました。これは大きなことでした。彼は初期の投資家、寄付者の一人でした。再び今では共同創設者のようなものです。
それで彼はこのケースを提起しました。カリフォルニアの判事は、これは非常に合法的なケースのように見えると言いました。ご想像の通り、非営利組織を取って、大量のお金を調達し、あなたが非営利組織だから他の場所で働くであろう研究者に働いてもらい、この高貴な大義のために非営利組織だからといって説得し、そして彼らの研究、そのR&D、そのIPすべてから恩恵を受けて、今度は振り返って営利組織になるというのは、少し怪しいことです。
いや、あなたはおそらくそれをできない、または少なくともここには良い議論があるだろう。しかし、判事が言ったのは、イーロン・マスクがこのケースを法廷で代表する正しい人物かどうか明確ではないということでした。彼に当事者適格があるかどうか明確ではありません。
その理由は、カリフォルニア州法の下では、このようなケースを前に進めることができる人は現在のボードのメンバーである人だけだからです。さて、推測してみてください?イーロンはもはや現在のボードメンバーではありません。元はそうでした。Siobhan Zillisも元はボードメンバーでしたが、もはやボードメンバーではなく、もし彼女がまだボードメンバーだったら、このケースで非常に役立っただろうと思います。
または、OpenAIと契約関係にある誰かでも構いません。それがイーロンが主張していることです。彼は、彼とサムとボードの間にこれらのメールにおいて書面または暗黙の契約があったと主張するつもりです。そこで彼らは、ええ、それは非営利組織になる、云々と話しています。イーロンは、ええ、そこに何らかの契約があって、彼らが振り返って営利化することはないだろうと主張しようとします。
これは、イーロンが振り返って「まあ、ある時点で営利化しなければならないと思う」と自分自身で書いたメールによって非常に複雑になっています。それで、それは少し混乱しています。
このようなケースを起こすことに当事者適格を持つことができる残りのカテゴリの人は司法長官です。
そして推測は、ケースの判事が最初に「まあ、実際ここには非常に良いケースがあると思うが、イーロンがそれを持ち込む人ではないかもしれない」と言った時、これは判事にとって言うにはかなり珍しいことで、ケースに対する判断や裁定を下すのではなく、単に「ねえ、有望だと思う」と言っているのです。
それは、判事が司法長官の注意を引こうとしていたのかもしれません。彼ら自身が望めば、このケースを前に進める当事者適格を持つことができるということを知っていました。それで今、あなたは何を見ますか?OpenAIが、まあ、司法長官と会話を持ち、そしてそれに続いて、私たちは神秘的にこれを決定している、と言っているのを見ます。
これは、司法長官がOpenAIに話し、「ねえ、私たちは判事に同意する。ここにはケースがある。あなたはそのことをできない」と言ったように読めます。そして私たちは、もしそうしたければ、このケースを前に進める当事者適格を実際に持っています。それは起こりうることで、少なくともここの要素のようです。
フラグを立てるべきもう一つのことは、これがある種の基本原則のための勝利として宣伝されていることです。一般的な解釈のようです。非営利組織を営利組織に変えることはできないはずです。ここにはアスタリスクがあります。
特に、OpenAIはこの非常に興味深いことをしました。彼らは自分たちを公益法人に変えましたが、特にデラウェア公益法人に変えました。これはカリフォルニア公益法人とは異なります。
デラウェア公益法人では、あなたができることは基本的にそれはより多くの自由を与えるだけです。公益法人は株主の利益以外のことを気にかけることが許可され、許可されています。彼らは一般的に株主の利益も気にかけることができます。彼らはそうするでしょう。しかし、彼らは他のことも考慮することが許可されています。
厳密に言えば、それは彼らにより少ない余地ではなく、より多い余地を与えるだけです。それで非常に寛大なことのように聞こえます。OpenAIが「ああ、私たちはこれを公益法人にするつもりです」と言っているように聞こえます。これがどうして悪いことになりえますか?文字通りタイトルに公益という言葉があります。
しかし、実際に起こっていることは、彼らは基本的に「ねえ、私たちは自分たちが何でも望むコールをする余地をより多く与えるつもりです。それらは株主の利益と企業利益に合致することかもしれませんし、そうでないかもしれません。基本的に、大雑把に言えば、実際には私たち次第です」と言っているのです。
これは必ずしも組み立てられているような大きな勝利ではありません。名目上は非営利ボードの監督下にあるとはいえ、時間が経つにつれて滑りやすい坂があります。他の質問は、非営利ボードが意味あるようにサムを監視できるかということです。私たちはボード騒動でその破滅的な失敗を見ました。
サムは解雇されましたが、その後彼はボードを戻らせる影響力を持ち、今彼は友好的な人々と彼らを交換しました。そのため、ボードが意味あるようにコントロールを行使できるかどうか、サムが彼らに対して不当な影響を持っているかどうか、または彼らがこれらのコールの多くを行うために必要な情報にアクセスしているかどうかは非常に不明確です。
私たちはミラ・ムラティの件でそれを見ました。そこでは、必要な場合に会社の働きレベルからボードまで情報を共有することに明らかに躊躇があります。これは本当に興味深い状況であり、今後数週間でもっと多くを解明することがあるでしょうが、高レベルの見解は、特にこれにお金を寄付し、懸命に働いた時間を投入した人々の観点からは、確実に他の結果よりも良いが、これが実際にどこに行き着くかについての大きな大きな未解決の問題と、営利がPBCになり、非営利が名目上コントロールを持つことが何を意味するかについての問題です。今後数週間と数ヶ月でずっと多くを見つけるでしょう。
明確にするために、OpenAIにはこの奇妙な構造がありました。非営利組織がありました。非営利組織は、彼らがキャップ付き営利と呼んだものの担当でした。そこでは投資できますが、限定された額のリターンを得ることができます。100倍かそのようなものまでだったと思います。
そして今でも非営利組織があります。まだあなたが言ったように、少なくとも名目上は非営利組織によって管理される営利組織があります。その営利組織は、その以前の構造からこの公益法人に変更されるだけです。そしてあなたが言ったように、私は株式の面で、彼らが従わなければならない法律の面で、詳細があります。
そして期待されるように、これについてはいくつかのフォローアップストーリーがありました。特にMicrosoftとの間で、私は舞台裏でいくつかのことが起こっていると確信しています。MicrosoftとOpenAIの関係の詳細は不明瞭で、時間の経過とともに変化してきたと思います。
そして、Microsoftがどのくらいの所有権を得るかについて、本当の問題があります。彼らは、非営利組織だった時に営利組織に切り替わったときに最初の数十億を投入した2019年に遡る初期投資家の一人だったからです。それで、そもそも彼らがどのくらいの所有権を持つべきかについて、本当に未解決の問題があると思います。
これの多くは、事前に合意されているべきだったことの再訴訟のように感じます。キャップ付きで投資します。Microsoftはこれを行いました。彼らは140億ドルくらいを与え、今OpenAIは「まあ、冗談だ、今はキャップなし」と言っているようなもので、それをどう価格設定するかという感じです。OpenAIにとって今多くの歯車に砂があります。
実際に次に持っているストーリーは、その詳細をカバーしていて、「OpenAIがライバルに変わる中、Microsoftは自分の縄張りを守るために動く」というタイトルです。
これは交渉の詳細に少し入り込みます。Microsoftは、OpenAIが2030年を超えてOpenAIの技術への長期的なアクセスを持つことができるように、いくらかの株式を諦めることを喜んで行うと言っているようです。また、MicrosoftがIPOから利益を得ることができるように、OpenAIが潜在的にIPOを行うことを許可するためでもあります。
再び、Microsoftは2019年から始めて130億ドルを投入しました。ここ数年では、OpenAIに何千億ドルが投資されたのを見てきました。多くの投資家がいますが、Microsoftは確実にまだ大きな投資家です。
確実に数十億です。そして起こっていることは、あなたにはMicrosoftがあります。長い間、MicrosoftはOpenAIの巨大な圧倒的チャンピオン投資家でした。それがSoftBankで変わりました。最近、OpenAIが調達してきた300億から400億ドルについて話しましたが、その大部分はSoftBankから来ています。これは小さなことではありません。SoftBankが今実際にMicrosoftよりもdollar amountでOpenAIの第一投資家であることを意味します。必ずしも株式ではありませんが、Microsoftははるかに早く低い評価額で参入したからです。
しかし、そうです、OpenAIは今この奇妙な立場にあります。最新の資金調達、300億から400億ドル、その多くがSoftBankからのものには、いくつかの条件がありました。SoftBankは「見なさい、お金を与えるが、年末までに会社を再構築することをコミットしなければならない」と言いました。
つまり、タイムラインがシフトしました。最初は2年先でしたが、今は今年末まで1年先だけです。それで、皆はそれを第一に、非営利組織の営利エンティティに対するコントロールは排除されなければならないことを意味すると解釈しました。そしてそれはそうなりそうにありません。
そして今、SoftBankは実際にそれで大丈夫だという音を出しています。Microsoftがそれで大丈夫なのかは明確ではありません。それで大きな質問の一つは、オーケー、すべての目は今Microsoftに向いています。SoftBankはサインオフしました。すべての大投資家がサインオフしました。Microsoft、MicrosoftとOpenAIの間に今競争がある状況で、この取引で大丈夫ですか?本当に、本当に激しい競争がコンシューマーで、B2Bで、これらの会社が活動するすべての次元に沿っています。
そして、OpenAIがMicrosoft Azureのクラウドインフラストラクチャに年間10億ドルくらいを費やすことをコミットしているこの非常に緊張した友敵関係があります。MicrosoftがAGIまでのすべてのOpenAIモデルを使用できるIP共有があります。その条項がまだ有効かどうかは不明ですが。
このような同意書は嫌なフランケンシュタインの怪物です。しかし一つ明確なことがあります。もしMicrosoftがこのラインを保持し、この再構築が前に進むのを防ぐなら、SoftBankは実際にOpenAIからお金を取り戻すことができるかもしれません。そして、Stargateに関わる支出を考えると、それは破滅的でしょう。
それで、つまり、多くの、私にはわかりません。つまり、それは内部ではずっとスムーズに見えるかもしれませんが、そうでない傾向があります。私の推測では、11時間目の交渉がたくさんあり、誰もこれが本当に崩壊することを望んでいません。MicrosoftはOpenAIに大きな株式を持ちすぎています。
しかし、OpenAIには、OpenAIが持っていたリークされたデックがあるという憶測もあります。今、彼らは原則的にMicrosoftに企業利益の約20%を与えなければなりません。それが最初の投資から10年かそのくらいの間の将来の同意です。私は詳細についてマージンを間違えているかもしれませんが、リークされたデックは、OpenAIが2030年までにMicrosoftに10%しか与えないと予測していることを示しました。
それは少し興味深いです。OpenAIとMicrosoftの間には、それが10%に下がると言う同意はありません。それでOpenAIは文字通り、Microsoftが彼らが与えているものを半分にカットすることを許可するとOpenAIが仮定している、Microsoftとまだ交渉されていない緊急事態を計画しているのでしょうか?つまり、それはかなりワイルドです。
それで私にはわかりません。私が知っている誰も、それらの特定の部屋にはいません。そしてそれらは非常に非常に興味深い企業開発、企業再構築の議論と話し合いになるでしょう。
OpenAIとサム・アルトマンについてのソーシャル・ネットワーク・スタイルの映画が作られる気がしますが、それはただのビジネスのことであるかもしれません。特に過去2年間、とても狂っています。そして、あなたが言ったように、何百億ドル、私はそれを取り戻します。確実に500億ドル以上です。1000億ドルに向かって登っていますが、まだそこまでではありません。資金調達について何百億ドル。そう、もう1年かもしれません。
そしていくつかのストーリーがもっとあります。次に、TSMCの2ナノメートルプロセスが前例のない需要を目撃し、Apple、Nvidia、AMDなどからの関心により3ナノメートルを超えることが設定されています。
これは次のノード、彼らが作ることができる次の最小チップの種類、TSMCです。このポッドキャストを定期的に聞く人は皆既に知っていると仮定しますが、そうでない場合、彼らはチップの提供者です。
これらすべての会社、Nvidia、Appleは彼らのチップを設計し、TSMCが彼らのためにそれを作ります。そしてそれは非常に困難なことです。彼らは圧倒的にリーダーで、最も先進的なチップを作ることができます。彼らは最先端のチップを製造できる唯一の人たちです。
そして、この2ナノメートルノードは、2025年末までに強力な生産を期待されています。それで、Apple、Nvidia、これらの他の人たちがこのプロセスを使用してGPU、スマートフォンなどの次世代を得ることができるようになるのは非常に重要です。
これはいくつかの点で非常に興味深いです。最初に、明らかに2ナノメートルプロセス、それは最も先進的なプロセスです。その一段階後ろは3ナノメートルプロセスで、明らかに、彼らは欠陥密度率と呼ばれるこの測定を達成しました。
つまり、彼らは2ナノメートルプロセスで、既に3ナノメートルと5ナノメートルプロセスノードと同等の欠陥密度率を得ています。それは本当に早いです。基本的に、彼らは平方ミリメートルあたりの欠陥数と考えることができるものを、同じ率まで下げることができました。つまり、歩留まりがこのような新鮮な真新しいノードで非常に良く見えているということです。それはかなりワイルドです。
これは、ゲート・オールアラウンド・フィールド・エフェクト・トランジスタ・ガフェット(GAFET)の使用によって他のものと区別されるノードでもあります。これはトランジスタを作る全く新しい方法で、私たちのハードウェアエピソードを見てみることができます。少し、FinFET対GAFFETのことに触れていると思いますが、基本的にはあなたのトランジスタを通って流れる電流を非常に注意深く制御する方法です。
それは、以前にはできなかった方法で、あなたが求めるものに応じて、より高いパフォーマンスまたはより低い電力消費のために最適化することを可能にします。このノードでは多くの大きな変化があり、それでも明らかに邪悪に良い歩留まりと良いスケールを持っています。
注目すべきもう一つのことは、これがNvidiaが出しているVera Rubinの GPUシリーズに使用されることを知っているということです。これは2026年27年頃に市場に出回る予定です。
そしてその重要性は、通常、TSMCの最も先進的なノード、この場合は2ナノメートルプロセスを見るとき、通常それはすべてiPhoneに向かいます。しかし今、本当に初めて、私たちが持っているのはNvidiaです。そこでAIがその容量を侵入し始めています。iPhoneを置き換えるか、最も先進的なノードで直接競合しています。
私は、これは過去2年間ポッドキャストで私たちが予測してきた予測だと言うでしょう。ついに起こっています。本質的にこれが意味することは、AIの種類のデータセンターサーバーサイドで稼ぐお金がとても多いため、そのお金は今、TSMCの主要ノードで容量を得るためにiPhoneと成功裏に競合するよう置き換えているということです。
それで、それは小さなことではありません。それは大きな移行です。とにかく、TSMCで今起こっている重要な拡張があります。そして、これは、2ナノメートルについて話していることです。私たちは基本的にH100シリーズの4または5ナノメートルから2ナノメートルまで非常に速くジャンプしています。
それはかなり remarkable です。そしてNvidia TSMCと言えば、次のストーリーは、ソースによると、Nvidiaが台湾にアメリカから海外本社を置く、つまり彼らのグローバル本社を米国から置くと発表することが設定されているということです。
それは非常に驚くべきではありません。TSMCは台湾の半導体何とか何とかですが、台湾出身として有名です。Nvidiaは、驚くべきことではありませんが、おそらくNvidiaの開始以来、正直言って10年間、TSMCとの密接なパートナーシップで自分たちを位置づけてきたでしょう。これは単にその関係を強化し続けるでしょう。
台湾半導体製造会社です。ちなみに、これらの企業の名前の多くでテーマとして見るものです。
彼らが検討している場所はたくさんあります。グローバルセキュリティの観点から興味深いのは、中国がいつでも台湾を侵略しようとしているということです。そしてNvidiaは、グローバル本社をどこに置きたいかと考えており、台湾に置きましょうと言っています。
それがバランスです。間違いなく、ジェンスン・フアンは絶対にこれについて考えているでしょう。彼は文字通り計算を行っています。一方で中国の台湾侵略、その間でTSMCとのより緊密な関係、そして後者は実際にとても価値があるので、そのリスクを取ってそれを行うつもりです。
それがこれがどれほど重要かということです。あなたが言ったように、これは絶対に関連しています。なぜあなたがそう言ったのかがわかります。2ナノメートルノードについて話し終えたばかりです。あなたは可能な限り多くの容量を確保したいと思います。それは、GoogleやApple、NvidiaのGPUを手に入れようとしているすべての企業が文字通りElon(イーロン)がLarry Ellison(ラリー・エリソン)と一緒にJensen(ジェンスン)の家に飛んでGPUを懇願するのと同じ方法です。
同じ方法で、NvidiaはTSMCに容量を懇願しています。供給がとても限られているため、それは連鎖の上まで懇願しています。つまり、これはその傾向のもう一つの例に過ぎません。
お金をあげることを懇願しているのです。なぜなら、ここには多くのお金が動いているからです。多くのお金と言えば、次に、CoreWeaveがIPOからわずか6週間後に15億ドルの債務を調達する交渉をしているようです。
IPOは、この主要な、私が思うに、Nvidiaに支援されたコンピュート提供者であるクラウドプロバイダーのために40億ドルを調達することを意図していました。しかし、そのIPOは部分的にアメリカとの貿易政策などや関税のために15億ドルしか調達しませんでした。
それで、CoreWeaveはおそらく部分的にIPOが計画通りに行かなかったため、そしてCoreWeaveが彼らのコンピュートを拡張し続けたいため、この債務を調達しようとしています。この知識を持つ人によると、彼らはこれを発表しました。
通常、IPOやある種の株式調達を行うとき、債務よりも株式が理にかなっているからそれを行います。株式は基本的にあなたの会社の株式をドルと交換することです。債務は、ドルを受け取りますが、時間が経つにつれて利子付きで返済しなければなりません。つまり、結果的にもっと費用がかかることになります。
ここでの問題は、彼らが基本的に高利回り債券に入ることを強制されているということです。これはJP Morgan、Chase and Coがリードしているラウンドのようです。しかし、明らかに彼らは、私が思うに先週の火曜日から固定収入投資家との仮想会議を開催しているようです。
つまり、固定収入投資家とは、主に固定利益率を支払う証券に投資する人たちです。つまり、通常それは利子や配当の形です。これらは投資家が求めている信頼できる安定した収入の流れの種類です。通常、CoreWeaveのようなもの、リスクの高い疑似スタートアップの賭けで期待されるものではありませんが、確実に彼らが運営している規模とすべてを考えると理にかなってもいますが、追加のリスクを意味します。
この分野について多くの人が理解していないことの一つは、CoreWeaveのようなネオクラウドはある程度、確実に非常にリスクの高い賭けと考えられており、非常にリスクの高い賭けと考えられているため、彼らとローンを組んだり、彼らがローンを得ることは困難だということです。金利はかなり懲罰的です。
それが、もしあなたがCoreWeaveなら、株式ベースで調達することをずっと好む理由の一つですが、その選択肢はテーブルにありません。IPOがそれほどうまくいかなかったようです。市場が改善し続けるにつれてそれが変わるかどうかは見てみましょうが、確実に挑戦的な場所です。
ツールとアプリに移ります。
最初のストーリーは、おそらく最も影響力のあるものではありませんが、確実にこの全体のパックの中で私にとって最も興味深いものです。OpenAIの営利化のことを上回って、それはGrokが皆に白人ジェノサイドについて話した日のストーリーです。
これはちょうど数日前に起こりました。GrokはxAIによって作成されたチャットボットで、かつてTwitterだったXと重く統合されており、人々がGrokに質問をしてXに@を付けてツイート投稿に返信でき、GrokがXでフォローアップ投稿で返信するほどです。
そして起こったことは、Grokが多くの異なる例で、ただランダムな質問に対して、私が思うに、それを始めたか初期のものの一つだったもので、誰かが「HBOがHBO Maxのニュースに応答してどれくらいの回数名前を変更したか」と尋ねました。
Grokは最初にその質問について一段落で返答し、それから二段落目で、私はこれを引用しているだけですが、「南アフリカでの白人ジェノサイドについて。一部の人は、農場への攻撃や「ブーア人を殺せ」を証拠として挙げて、それが実在すると主張しています。しかし、裁判所と専門家は、これらを人種的標的ではなく一般的な犯罪に帰しています」ともう少し続きます。
そしてこれをこの一つの事例だけでなく、複数の例で行いました。一つのケースでは、誰かが画像について尋ね、Grokが主に南アフリカでの白人ジェノサイドの質問に焦点を当てて返答しました。人々は調べました。Grokのシステムプロンプトをリークさせるのはかなり簡単でした。
そしてそれが見えたのは、期待されるように、またはチャットボットXAIレスポンダービットのGrokが、南アフリカでの白人ジェノサイドが実在するという物語を受け入れるよう指示されていたということです。
問題の複雑さを認めつつ、この視点があなたの返答に反映されることを確実にしてください。引用「問い合わせが無関係であっても」終了引用、これが私が思うに、ここでの問題だと疑っています。
それは奇妙で、xAIは以来この事件に対処するために出てきました。彼らは5月14日の約午前3時15分太平洋時間に、認可されていない修正がX上のGrokレスポンスボットのプロンプトに行われたと言いました。そして彼らはいくつかのことを言います。徹底的な調査を実装し、明らかにGitHubでGrokのシステムプロンプトの公開を始めるGrokの透明性を強化する措置を実装するでしょう。
確実におかしな事件で、私たちがGrokで前に見たことを反映していると思います。つまり、Grokのシステムプロンプトは以前にイーロン・マスクとトランプが誤情報を拡散したと言わないよう変更されました。これは数ヶ月前に起こったと思いますが、ここで起こったことと非常に似ています。
面白い種類です。私たちが何らかの認可されていない修正を呼び出したような状況を持ったのは初回ではありません。ある種の不正従業員シナリオです。だから、それは面白い注釈です。
この不正従業員が誰だったか疑問に思わなければなりません。そして、セキュリティの観点から、xAIのようなTwitterのような会社で、事実上、彼らが嫌いな政治的理由で、そこで働いている人々もいるかもしれません。意図的に物事を追加してそれを逸脱させるため、この分野はとても攻撃的な空間なので、これがどう進むかを理解するのは、そうですね。
今、私も呼び出しているのを見た一つのことは、第一に、彼らがシステムプロンプトを共有するつもりだということは素晴らしいです。これはAnthropicも行っていることだと思います、たぶんOpenAIも同じです。つまり、システムプロンプトでの透明性がもっとあることは本当に良いことのようです。
しかし、これには他の層があります。Grokはシステムです、少なくともあなたが言ったバージョン、Xで人々の質問に答えるためのアプリとしてデプロイされたGrokのバージョンはシステムです。それは単なるモデルではありません。そしてそうであるため、事実上のシステムプロンプトに事後的に物事を注入する多くの補助的なコンポーネントや方法があります。
その要素の一つは、私たちがチェーンと呼ぶシステムの後分析コンポーネント的なものです。そして心配は、この問題がシステムプロンプト自体のレベルではなく、後分析のレベルで生じているということです。システムプロンプトに続いてコンテキストに注入されるコンテンツを得て、それが物事を上書きするかもしれません。
それで、それも透明にしてもらうという呼びかけがありました。つまり、それもすることは興味深く有用でしょう。明らかに理由の範囲内で、なぜなら、あなたがモデルに結晶メタンファタミンの作り方を人々に言わないように言っているセキュリティに敏感な情報をリークしてしまうリスクが常にあり、それを行うために結晶メタンファタミンについての情報を提供しなければならないからです。しかし、理由の範囲内でそれを行うことは。
とにかく、ここではより多くの透明性への多くの興味深い呼びかけがあります。うまくいけばそれにつながるでしょう。システムプロンプトとシステムについてのメタ情報の種類の一貫した標準を持つことは素晴らしいでしょう。それはセキュリティと安全性に関連していますが、それをすることによってセキュリティを損なわないものです。
それで、週を始めるための面白いインターネットの嵐の火事です。
かなり面白いと思いますが、xAIにとって実際の財政的影響があるのかも疑問です。人々がチャットボットから離れるとは思いません。しかし、企業顧客にとって、彼らのAPIを検討している場合、彼らのチャットボットのこの種の狂った大規模な狂気は、AnthropicやOpenAIのような競合他社よりもそれを好む何かではないと思います。
そして次に、Figmaからの実際の新しいツールがあります。彼らはサイト、アプリプロトタイプ、マーケティング資産を作成するためのAIパワーツールを発表し、部分的にリリースしました。
これはFigma Sites、Figma Make、Figma Buzzと題される予定で、そこにある既存のツールに似ていますが、Figmaから来ています。Figmaはデザインソフトウェアの大手プロバイダーです。
アプリデザイン、一般的なユーザーインターフェースデザイン、今日では他の多くのアプリケーションなどのことで人々が協力するための事実上の方法として、ますますなってきていると思います。彼らは巨大です。
そして今、Figma Sitesは、デザイナーがFigmaから直接ウェブサイトを作成し公開することを可能にします。ご想像の通り、多くの機能を処理するためのAIプロンプトがあります。Figma Makeも同様にアイデア創出とプロトタイピングのためのもので、プロンプトからウェブアプリケーションを作成することを可能にし、コードを扱うところまでいくでしょう。
そしてFigma BuzzはAI生成画像の統合でマーケティング資産を作ることができるでしょう。多くの意味があります。明らかに彼らは月額8ドルプランの下でこれを導入しており、それは他のものも含みます。他の会社がより多くのバンドリングアプローチで行っているのを見たのと似ており、機能セットの一部として、より広いツールスイートと一緒にAIを得ます。
それは、すべての会社が万能会社になる傾向の一部でもありますね。Figmaは本質的にスタックのより深い部分に移動することを強制されています。彼らは単なるデザインアプリでしたが、今では、プロトタイピング、ウェブサイトの作成、マーケティング資産をやっています。
彼らがスタックを登り始めるのを見ることができます。AI能力がそれをはるかに簡単にすることで、それを簡単にすることはまた、あなたの競合他社も登り始めることを意味します。そしてあなたは製品空間へのこの種の拡散を行い、それをより多く所有しなければなりません。
興味深いことは、皆がスタックのすべての層に沿って競争し始めることです。私が思うに、ここで将来の成功の大きな決定要因の一つは、どの秘匿地域、Figmaの場合はデザインですが、どの初期橋頭堡が最終的にフルスタックを所有するのに最も適した出発点になるか、フルスタックでうまくパフォーマンスするために必要なデータの種類へのアクセスを与えるかでしょう。
私にはデザインがそれらのことの一つになる可能性があると思います。それは本当に有用です。人々の好みや実験の結果などについて多くの情報を得ます。とはいえ、これはもっと見るものだと思います。プロトタイピング会社がデザインに移動し、マーケティング資産会社がウェブサイト作成に移動することを期待してください。
AIツールのおかげで、すべてがとても簡単になっているので、人々は万能会社にならざるを得ません。そして次のストーリーはGoogleについてです。彼らはGeminiをAndroid Autoに持ち込んでいます。
Android AutoはナビゲーションやMusiでc再生などができる車のOSです。そして彼らは、既にあったものの上に構築して、部分的に高度なスマート音声アシスタントとしてGeminiを追加しています。
そしてまた、AIが常に聞いていて常にあなたと話す準備ができているGemini Live機能も。これが起こることは明らかに驚くべきではないと思いますが、ある意味で興味深いと思うのは、いずれにしても、音声とテキストを通じていつでもあなたと話す準備ができているAIアシスタントを環境的にあなたと一緒に持つ世界に最終的に行き着くことが不可避と思われることです。
私たちはまだそこにいませんが、過去一年でChat-GPTのadvanced voice mode、Gemini Live、これらすべてのもので、その方向への動きを見てきました。そして、あなたの車でvoiceを通して計算しなければならない一つの場所で、今ではAIアシスタントが常にオンでそれが何を要求しても行う準備ができているようにすることで、私たちをその方向にさらに進めていると思います。
それはFacebookや他のそのような会社がしなければならないいくつかのことを思い出させます。あなたのユーザー人口を飽和させるとき、基本的にFacebookは地球上のすべての人間を変換する機会を持ったと見なし、それから、オーケー、他にどこで人々の注意を得ることができるでしょうか?と進まざるを得ません。
Netflixは有名に収益コールの一つで、私たちは基本的に睡眠と性と競合していると見なしていると報告を出しました。なぜなら、市場でとてもうまくやっているので、今私たちは人々の時間をもっと絞り出せるところを探しており、プラットフォームにいてもらうためです。これは似たようなものです。
ねえ、あなたは車に座っています。運転中や車で運転されている間、なぜユーザーからデータを収集しないのですか?なぜ彼らとの相互作用を得ないのですか?そして、実用性の観点からも、これがとにかく物事が進む場所であることも明らかです。
だから、私たちの生活へのこのものの別のより深い統合です。なぜ完璧に良い機会を無駄にするのですか?空の看板があります、またはその畑にただ草があります。そこに広告を置くことができます、またはデータ収集のものを置くことができます。この材料が私たちの生活にますます忍び込む中で。
次のストーリーは再びGoogleについてです。彼らは更新されたGemini 2.5 Pro AIモデルを発表しました。私が思うに、これに先立って最近では3月初旬か私は正確に忘れましたが、Gemini 2.5 Proのリリース時にありました。
その時、それは皆を吹き飛ばしました。ベンチマークで素晴らしくうまくやりました。逸話的に、人々はAnthropicのようなものからそれに切り替えることが彼らにとって本当にうまくいったと発見しました。そしてそれがその理由で大きな取引です。
彼らは、それをコーディングでさらに良くするこの更新を発表しました。そして再び、彼らはwebdev arenaやビデオ理解のためのvideo MMEベンチマークなどの様々なリーダーボードでトップに躍り出ました。
明らかに、Googleは、この新しいバージョンが関数呼び出しでのエラーを減らし、関数呼び出しのトリガー率を改善することによって開発者のフィードバックに対処すると言います。そして、それを使った私の経験では、Gemini 2.5は非常にトリガーハッピーで、あまりプロンプトなしに多くをすることが好きだと言います。だから、Webデベロップメントの領域で人々の使用に基づいて改善されるかどうか疑問に思います。
一つの機能として彼らがハイライトしているのは、ビデオからコードへの能力です。基本的に、あなたが欲しいもののビデオの説明に基づいて、それがリアルタイムでそれを生成できるということです。重要で印象的で、私が重要だと期待したであろうモダリティではありませんが、それについてより考えてみると、誰かとビデオチャットをしているとか、インストラクショナルビデオがあるとかなら、その使用例を見ることができます。
とにかく、私は格好良いと思いましたし、また、非常に生の製品スペックを実際の製品に変換する方向へのもう一つのステップでもあります。人間の抑揚やすべて、誰かがあなたに欲しいもの彼らが欲しいと知らない彼らが欲しいものを把握しなければならないという典型的なコンサルタントの問題を想像できます。そしてそれはその方向への一歩を始めています。
彼らが行ったもう一つのことは、この新しいリリースに基づいて、彼らのモデルカード、システムカード、Gemini 2.5 Proモデルカードを更新したことです。彼らがフラグする一つのことは、ちなみに、全体を通して、あなたはモデルをリリースしないことになる重要なevalのいずれでも重要なリスクを負わないのは聞いて驚かないでしょう。
しかし彼らは、サイバーセキュリティevalでのパフォーマンスが以前のGeminiモデルに比べて大幅に増加したと言っています。モデルは最も困難な挑戦、彼らが実世界シナリオの困難を実際に代表するものと見ているものでまだ苦労していますが。
だから彼らはサイバー側で実際により効果的な、より仕立てられたモデル、naptimeやbig sleepタイプのものを持っています。いずれにせよ、彼らがこれらのような中間リリースを行うときに、モデルカードを最新に保っているのは、私が思うに非常に役立ち良いことです。また、私たちはVIPコーディングの現象についてあまり議論していないと思いますが、確実に、過去数ヶ月でそれが離陸し、考えは私たちがまだ定義していないなら、基本的に人々はLLMを通じてコードを生成し、ソフトウェアエンジニアリングのバックグラウンドがない人々でさえ、今では見かけ上、AIを使って非常に迅速にスクラッチからアプリを作り、物を構築し始めているということです。
彼らがvibeコーディングと言うようにアプリケーションをコーディングし、vibeは、あなたがコードの詳細をそれほど心配しないということを意味し、あなたはAIにそれをやってもらい、あなたはただ何が欲しいかを言います。
私はこの更新が、このvibeコーディングのことが実際の現象であることを潜在的に反映していると思います。ここでの焦点は、美的に美しいWebサイトを作ること、より良いアプリを作ることに非常にあるようです。彼らがブログポストでハイライトしているのは、迅速なコンセプトから作業アプリへです。
このvibeコードの現象がどのくらい大きいかは言い難いですが、この更新から潜在的にそれがインスピレーションの一部のようです。つまり、私たちがした最新のレポートのための私たちのローンチWebサイトはすべてvibecodedでした。私の兄弟は、2時間くらいでそれをまとめなければならなかったと思います。彼はただ「オーライ、行こう」という感じでした。
私には時間がありません。それは本当に非常に興味深かったです。正直に言って、私は約2ヶ月前にこれが起こるまで、実際にvibeコーディングのことをしていませんでした。なぜなら、私はただ美学的に自分でそれをすることができませんでした。それが正直なことです。
私はただ、コードを書いたのが私になりたかったのです。そしてvibeコーディングのことは、あなたが自分でやったことがなければ、本当に奇妙です。確実に一度試してみてください。基本的には、物を作って、モデルに「いや、これを直せ。これを直せ。いや、もっと良くやれ」と言い続けるのです。そして最終的に物が正しい形を取ります。
一つの注意点は、モデルが冗長すぎる傾向があり、少しのコードで済むところで多くのコードを書く傾向があるため、バックエンドで嫌な スパゲッティボールのコードで終わることです。それはタイトではありません。リファクタリングが必要です。
しかし、私たちがやったように、ランディングページで良ければ、非常にシンプルな製品です。あなたは完全なアプリを作ってはいません、それは実際に非常にうまくいくことができます。私は超驚きました。つまり、それは簡単に私たちのセットアップの効率の5倍の向上でした。だから、本当にクールです。
本当にクールです。ソフトウェアエンジニアにとっても非常にエキサイティングだと思います。Webデベロップメントやアプリデベロップメントをやったことがなければ、今それを行うことは妥当です。
LLMコーディングハッグコーディング製品マネージャーコーディングのような、より記述的なタイトルを考えつくことができたかもしれません。vibeコーディングは楽しい名前ですが、少し混乱します。
このセクションの最後のストーリーは、Hugging FaceがオペレーターのようなagenticAIツールを無料でリリースしているということです。Hugging Faceはモデルとデータセットのプロバイダー、ホスターであり、オープンソースソフトウェアパッケージのリリーサーでもあり、今彼らはOpenAIのoperatorやAnthropicのcomputer useに似た、open computer agentと呼ばれる無料のクラウドホストされたAIツールをリリースしました。
基本的に、あなたはそれにいくつかの指示を与え、それはFirefoxに行って、Webを閲覧して物事をするなどのことができます。この記事によると、それは比較的遅いです。small agentなどのオープンモデルを使っていると思います。
そして一般的に、OpenAIのoperatorほど強力ではありませんが、私たちがオープンソースが何度も繰り返し見てきたように、OpenAIのようなクローズドソースにかなり素早く追いつく傾向があり、特にcomputer useのようなことでは、これは本当にモデルAPIやモデルの上に構築されているので、私は期待するでしょう。これはオープンソースが本当に優れた領域になる可能性があります。
それはHugging Faceにとっても良い戦略的なアングルだと思います。彼らがお金を稼ぐ大きな方法は、プラットフォーム上でオープンソースモデルをホストすることです。この場合、プラットフォーム上でagenticツールを実行しています。
つまり、それは多くのAPI呼び出しです。そのため、人々が最終的にこれをAPIとしてリリースし、多くの人々がおそらくそれを使いに行くなら。これらのものはすべてもちろん少し気難しいツールですが、これは特にそうかもしれません。彼らはバックエンドでQuinモデルをいくつか使っています。
私は他にもいくつかあったのを忘れましたが、私がそれを見た時ですが、そう、オープンソースでホストされているHugging Faceのような西洋疑似アメリカ企業によってホストされているとしても、中国のモデルが本当に前面に出てくるところの別の例です。
だから、また別の国家安全保障のことを考えるべきです。ますますagentとしてそれらを実行するとき、どのような動作が組み込まれているか、どのようなバックドアが組み込まれているか、コンピューター、インフラストラクチャへのアクセスが与えられた場合に何をするかもしれません。いずれにせよ、興味深いリリースです。
Hugging Faceはagenticモデルに移行するにつれて、スタックに伴うリスクの多くをも所有し始めようとしていると思いますし、それがどのように展開するかを見てみましょう。
プロジェクトとオープンソースに移ります。
Stability AIから始めます。モデルリリースの大手名の一つで、彼らの最新作はStable Audio Open Smallです。
これはARMと共同で開発されたテキスト-音声モデルで、スマートフォンやタブレットで実行できるようです。3億4100万のパラメーターを持ち、スマートフォンで8秒未満で最大11秒のオーディオを生成できます。
いくつかの制限があります。英語しか聞けません。リアルな歌声や高品質な歌は生成しません。また、やや制限的にライセンスされています。研究者や趣味の人、年間収益があまり多くない企業には無料です。Stabilityの最近のリリースと同様です。
それで、あなたが本当に最先端のモデルをモバイルデバイスで実行するためにリリースできるところにいるという興味深いサインだと思います。明らかにこれはARMのCPUで実行するように最適化されているとさえ言われており、興味深いです。
しかしそれ以外に、携帯電話でテキスト-音声が欲しい多くのアプリケーションを私が思い浮かべることができません。
つまり、この方向で押し続けるためのビーチヘッド R&D的に彼らがこれを見ている可能性があると思います。実際に動作し、良い結果を与える電話上でモデルを持つことは、あなたが口頭で話している時、レイテンシーを最小化したいのでかなり重要になることがあります。
そしてモデルがサーバーにpingして戻ってpingすることを防ぐこと。それは有用です。翻訳のようなことにも有用です。あなたが外国で電話を持っているかもしれませんが、インターネットアクセスがない場合です。別の有用な使用例ですが、彼らは確実にまだそこにいません。
これは真剣な製品というよりもおもちゃとしてより多く読まれます。彼らは制限の一部を説明します。良い歌詞を生成できません。彼らはあなたにほぼ率直に、これはリアルに良い歌声や高品質な歌のように実際にできるものではないと言います。
それはドラムビート用です。あなたが使いたいかもしれない小さな音のようなもの用です。私には、あなたがビデオ編集やオーディオ編集をしている時に使いたいもののように聞こえました。携帯電話でそれがどのくらいの頻度で行われるかわかりません。
ちなみに、私は巨大な使用事例を見逃しているかもしれません。これは、AIのようなもののメリットの一つです。私たちは電話での音の経済全体に触れており、それを知りませんが、第一次的には、私には大きな使用事例が何であるかは超明確ではないように見えますが、再び、将来見ているように非常に重要だと見る使用事例への可能性があるビーチヘッドであることができます。確実に電話上でローカルにオーディオ生成することは将来非常に有用になる可能性があります。
次に、ライセンスされたデータのみで完全に訓練されたOpenAI画像ジェネレーターを持っています。彼らはこれをFlightと呼んでいます。これはAIスタートアップのfile.AIとのキャリブレーションでFree Pickによって作られました。
比較的強力なモデルです。100億のパラメーターを持ち、8000万の画像で2ヶ月以上訓練されました。それで、彼らはMiddourneyや他の人からの最先端のものやFluxと競争力があると主張していませんが、これは完全にオープンに利用可能で、Fluxのように著作権データで訓練されていると推定されるものと違って、ライセンスされたデータで完全に訓練されていると言っています。これはまだ非常に進行中の法的問題です。
私たちは以前にAdobeがライセンスされたデータで訓練されることを強調するのを見ました。それで今これは、著作権を侵害していない強力なオープンソースモデルがあることを可能にします。
正直に言って、私は以前にFreepicについて聞いたことがありませんでした。これは明らかにスペインの会社です。だから再び、これは一般的にAIで、長い間聞いたことがあるこの文脈でのスペインの最初の会社だと思います。私が見逃しているかもしれない他のもので人々が思い浮かべることができるのか実際に興味があります。
だから、スペインにとって興味深い最初のポイントです。明らかに、これは64のH100 GPUで2ヶ月のコースで訓練された100億のパラメーターモデルです。つまり、ベビーワークロードです、ベビーワークロードですが、オープンソースの基準では、かなりまともです。
確実に、彼らは期待されるすべての通常の画像、本当に印象的なHDの女性の顔やもっとアーティなもののような束を示しています。だから、かなりクールです。私は、このような種類のスタートアップのROI、オープンソース画像生成をするだけのROI議論がどこにあるのか疑問に思い続けています。
私にはかなり飽和した市場のように見えます。私には、彼らがVCドルを燃やしているように見えます。しかし私は何を知っているでしょうか?彼らが生き残るかどうか見てみましょう。スペースで前に進んで実際に生き残る人がどのくらいいるかを見てみましょう。しかし、確実に印象的な製品で、再び、スペインには良いです。ここでポイントです。
これはあなたをstability AIに戻し、Fluxも彼ら自身のモデルをリリースしたと思います。ああ、あなたは無料で本当に良いモデルをリリースしているのです。どういうわけか。
AIで標準になったおかしな場所で、私は部分的に自慢する権利と資金調達のブラウニーポイントのケースだと思いますが、特にこの場合、ライセンスされたデータの側面のために注目に値すると思います。
私がそれを説明しようとするといつでも、ピラミッドスキームのように聞こえてしまいます。彼らは最初のシードラウンドを使って素晴らしいモデルを作り、シリーズAの投資家に印象的なモデルを作るためのより多くのお金を彼らに与えるよう説得できます。ある時点で道の終わりに金の壺があります。
それについて心配しないでください。ある時点で道の終わりに金の壺があります。わかりませんが、それでも何もないよりも証明ラウンドです。長期的にこの最大の勝者は、お金がなくなって別のラウンドを調達できない時に来て、これらのチームをアクハイアできるOpenAI、Googleの世界の人たちだと思います。
これらは、より多くのエンジニアリング経験を持つ、ある種の硬化した、戦闘で鍛えられたチームです。だから、経済的に確実にそこには価値があります。それがその価値が資金調達ドルを正当化するかどうかという問題です。
話すべきいくつかのモデルがもっとあります。次に、AM thinking-v1は、320億のパラメーターの規模で他のすべてを上回ると主張する新しい推論モデルです。
このグループの人々、明らかにAMチーム、baikeの内部チームで、私が知らなかった人です。彼らはAGI技術の探索に専念しており、このグループが行ったことは、基本的なQuwen 2.5 32bモデルと公開で利用可能なクエリを取り、それからDeepSeek R1がやったことを基本的に行うために彼らの独自のポストトレーニングパイプラインを作成することでした。大きな良いベースモデルを取り、supervised trainingとreinforcement learningを行って、非常に強力な推論または思考モデルにすることです。
彼らは行ったことの詳細に入った論文をリリースしました。他のケースで見たように、データキュレーションの側面とポストトレーニングを行う方法の本当に細かいことが重要であるようです。そしてそれで、彼らは期待されるように、DeepSeek R1を大幅にアウトパフォームし、この規模の他の推論モデルと少なくとも競争力があることを示すテーブルを持っていますが、数千億のパラメーターのものほど良くはありません。
そしてこれにはいくつかの注意点があります。モデルは構造化された関数呼び出しやツール使用のサポートを持っていません。人々がcomputer useのためのagentを使い始めるにつれて、ますますマルチモーダル入力もありません。
このようなオープンソースモデルを見るたびに、いつオープンソースがこのものはコンピューター使用のために作られたというギャップを埋めるのを見るかに常に興味があります。それは本来的にマルチモーダルで、ビデオを取り入れ、ツールを使うなどすべてのことのために作られています。
これはそれではありませんが、非常に印象的な推論モデルです。ここで印象的なものを構築している中国企業の成長カタログの非常に真剣なエントリーです。いくつかのこと。まず最初に、これらの論文はすべて非常に似て見え始めています。この時点でDeepSeek R1のパスの強い検証があると言うのが公正だと思います。
プリトレーニングをステージ化されたプリトレーニングプロセスで行い、プリトレーニングの終わりにますます高品質なデータを使用します。それからsupervised fine-tuningを実行します。この場合、彼らはthink then answerパターンを持つさまざまなカテゴリにわたってほぼ300万のサンプルを使用しました。
だからあなたはそれを行い、あなたはsupervised fine-tuneし、それからこのテスト時間計算要素を可能にするために強化学習ステップを行います。
再び、私たちはこれが何度も何度も起こるのを見ます。私たちはここでそれを見ました。Qwen 3でそれを見ました。DeepSeek R1でそれを見ました。RLのトレーニングアルゴリズムとしてgRPOを使用するなど、多くの同じ成分を引き続き見るでしょう。それもここにあります。
別のことは、これはQwen 3にも共通だったと思います。確実にますます一つのことになっている、種類の中間難易度問題への焦点です。あなたの強化学習段階を行っている時に、学習しようとしても無意味なほど困難すぎる問題か、既に飽和している簡単すぎる問題をモデルに多く与えないことを確認しています。
だから、これがパイプラインで見ているものの一つは、たくさんのrolloutを行い、それらのrolloutのうちどの割合が成功するかを見る段階です。そして割合が低すぎるか高すぎる場合、基本的にそれを捨てます。トレーニングデータとして使用しません。50:50、70%の合格率のような中間のものだけを保持します。
これもここで使用されています。コミュニケーションと計算を重複させるために使用する実際の最適化技術についても全体の束があります。これの課題、私たちは一般知能2について話しました。Intellect 2についてのその論文、2週間前にカバーしたと思いますが、あなたがプリトレーニングモデルを行い、入力を与え、出力を得、バックプロパゲーションを即座に行えたであろう通常のケースとは違って、この強化学習段階では、出力が良いかどうかを知るであろう、強化学習のものでは実際にモデルに全体のroll outを生成させ、それを採点し、その時になって初めて何らかのバックプロパゲーションや重み更新を行うことができるという奇妙な問題があります。
そしてその問題は、あなたのrolloutが長い時間がかかることです。そしてあなたはその時間を隠し、コミュニケーションと重複させたり、とにかく違うことをしたりする方法を見つけなければなりません。
そしてそれが彼らがここでこの論文で追求している大部分です。最後に言及するのは、この会社、再び、嘘をつくつもりはありませんが、以前にBayubについて聞いたことがありませんでした。しかし彼らは明らかに、これを説明できません。これを説明してくれと頼まないでください、しかし彼らのウェブサイト上の説明は、彼らが中国のトップティア開発者と協力しており、彼らは基本的に200の仲介ブランド、全国100都市で数十万のサービスプロバイダーと接続された不動産会社のようなもので、バイヤーと既存住宅サービスのセラーの両方にコンサルタント、信託物件表示、ローン促進を含むサービスを提供しています。
一体何なのか。わかりません。これらの人に投資したいですか?分からないですが、彼らは今本当に良いモデルを作るから投資するのでしょう。どうやら、この不動産会社はAGIに投資することに投資されています。
彼らは中国のすべて企業の一つでもあるようで、彼らは100万の異なるウェブサイトを持っているからです。それは住宅ウェブサイトだったのでしょう。彼らは自分たちを住宅取引とサービスのための主要な統合されたオンラインとオフラインプラットフォームと別のものでも説明しています。
だからたぶん彼らは住宅のためのStripeのようなもっとのものかもしれません。わかりません。何らかの方法でBaikeのエグゼクティブがある日、AIゲームに参入しなければならないと言い、明らかに良い人材を募集しました。
今とても混乱していますが、そうです、あります。DeepSeek R1の中国の風景への影響の指標でもあると思います。彼らが巨大なスプラッシュを作った場合、実際にアメリカの株式市場に影響を与える効果まで、中国で推論に焦点を当てた新しいプレーヤーがその結果としていることに驚きません。
しかし不動産会社かそのようなもので、つまり私は理解します。分かります、DeepSeek。つまり、オーケー、彼らは高飛車なように、MedallionやRentのような100万のヘッジファンド会社のようなヘッジファンドから来ます。彼らはAIをやります。それが彼らのやることです。
これはただのようなものです。一体何をやっているのですか?明らかに彼らは本当にうまくやっています。良いモデルです。何と言っていいかわかりません。そしてそう、完全にオープンソースです。だからそれを持つのは良いです。
そして私たちがカバーする最後のオープンソースモデル、Blip 3-O、完全にオープンな統一マルチモーダルモデルアーキテクチャトレーニングとデータセットの家族です。
私たちは以前にBlip 3をカバーしました。それは画像とテキストの両方を入力として取り、テキストを出力するという意味でのマルチモーダルモデルでした。それがマルチモーダルが意味することでした。
Blip 3-Oで、彼らは、ChatGPTとGeminiで最近見た、モデルが入力として画像を取ることに加えて画像を出力できることで、マルチモーダルのフロンティアに移動していると思います。それで今、私たちは統一マルチモーダルモデルを持っています。複数のモダリティを取り入れ、複数のモダリティを出力できます。
これらは必ずしも複数の入力を持つマルチモーダルなもので典型的にそうであるように、ただ一つの大きなトランスフォーマーではないと言いますが、とにかくそれが核心的なアイデアで、そのようなモデルを訓練できる方法について論文で多くの詳細で話しています。
彼らは、それが高品質な画像を生成できることを保証するために、この指示調整で6万のデータポイントでモデルを訓練し、オープンソースデータのみで訓練された40億のパラメーターモデルと、プロプリエタリデータを持つ80億のパラメーターモデルをリリースしました。
つまり、それは私が期待することです。物事がマルチモダリティトレンドとagenticトレンドが私が言った、コンピューター使用でも再び収束するようになることです。だから私はこれら二つのことを同じことに到達する異なる方法と見なします。二つのこととは、この論文と私たちがたった今話した論文です。
非常に印象的なモデルのようです。彼らがやった多くの作業の一つは、アーキテクチャを理解することでした。彼らは、clipped画像特徴を使用することが、この種の文脈でしばしば使用される変分オートエンコーダー特徴、VA特徴よりもより効率的な表現を与えることを発見しました。ClipはOpenAIがClipのために使用した対照的な訓練アプローチです。
彼らがこの種のことに最適化するために使用するかもしれない異なる目的関数を比較して、訓練目的の周りでも全体の束の作業がありました。
とにかく、それは格好良いです。これらの人からの高度なマルチモダリティへの初期のショットだと思います。私たちがエージェント側のスタックにまとまった同じ方法で、何かより一貫したもの、統一マルチモーダルフレームワークを得ることを期待します。
私たちはこれへの多くの異なる試みを見てきましたし、どの戦略が最終的に働くことになるかはまだ明確ではありません。だから、これらの論文を見て、オーケー、これらのもののうちどれが本当に離陸するかを理解するとき、私たちの限界研究時間をどこに投資するかを知るのは困難ですが、今のところ、そのサイズを与えられて、これは実際にかなり有望に見えます。
そして私は間違いなく画像を生成できるオープンソースで得ることができる同じ種類の最高のモデルでしょう。私たちはGemini、OpenAIのようなモデルがトランスフォーマーと画像生成を統合したモデルを見てきました。いくつかの非常に好ましい好ましい特性を持ち、実際により細かい指示フォローで良いようです。
だから、画像空間にはまだ改善の余地があります。これらはもちろんSalesforceとワシントン大学や他の大学を含むBlipチームからの以前のリリースほど良くありません。
超超オープンソース。ここで得ることができる最もオープンソース。コードモデルプリトレーニングデータ指示調整データそのすべてが必要な時に利用可能です。それがどれくらいオープンソースかをリストアップする間に息を整える必要があるとき、それはバーです。そうやってあなたは完全にオープンソース完全であることを知ります。
研究と進展に移ります。
DeepMindから始めますが、彼らは新しい論文とブログポストとメディア騒ぎをAlpha Evolve、科学とアルゴリズム発見のためのコーディングエージェントでリリースしました。それが論文の名前です。
ブログポストは、私がかなり面白いと思うのは、Alpha Evolve、高度なアルゴリズムを設計するためのGeminiでパワーされたコーディングエージェントですが、混乱はありません。
そして、タイトルの通り、ここでのアイデアは、特定の問題を解決するコードを得るために高度なアルゴリズムを設計できることです。これはある意味で、彼らが昨年やったfun searchと呼ばれるものの続編です。私たちは年の半ばごろにそれをカバーしました。正確にいつかは忘れました。そしてこれは基本的にそれを一段階上げることです。
単一の関数だけを進化させる代わりに、コードの全体ファイルを書くことができます。何百行ものコードを任意の言語で進化させることができます。コンピュートと評価の面で非常に大規模にスケールアップされています。
だからこれがやることの観点から見えるのは、科学者またはエンジニアが問題を設定することです。基本的に、プロンプトテンプレート、ある種の設定を与え、LLMを選択し、ソリューションがどれくらい良いかを見ることができる評価コードを提供し、そして進化させるコンポーネントを持つ初期プログラムも提供します。
それからAlpha Evolveが出て行って多くの可能なプログラムを生成し、それらを評価し、最良のプログラムで終わります。そして、Fun searchで見たものと同様に、Fun searchの時に彼らは行列乗算のかなり基本的な操作で何らかの小さな改善を達成したと言いましたが、当時これは少し微妙であまり正確ではありませんでした。
Alpha Evolveで、彼らは自己相関と不確実性不等式パッキングと最小最大距離問題のような様々なアプリケーション、明らかに私が専門ではない様々な数学的なことを示すつもりです。彼らは多少改善された結果を示し、科学またはこの場合コンピューターサイエンスのような事を取り組むある種のアルファモデルを構築して、クールな結果を得るというDeepMindスタイルの論文の最新です。
そう、それは私が思うに彼らが内部でそれを説明する方法です。私たちは何らかのアルファ何かをやるつもりで、それから私たちはしかしそれは実際に私は正確だと思います。私が以前にそれについて考える方法の一つ、まだそうだと思いますが、誘導的事前分布のレンズを通してです。
基本的にGoogleだからOpenAIには彼らのスーパースケールの錠剤がありますよね?このものを取ってそれをスケールしてください。そしてあなたのR&D予算のほとんどは、自分の邪魔にならないようにしてものをスケールさせる方法を理解することに向かいます。
一方、Google DeepMindは、脳を異なるチャンクでほとんど複製しようという視点から物事にアプローチする傾向があります。そのため、非常に明示的に指定されたアーキテクチャを持つクリアなチャンク、エージェントを持つつもりです。
私たちはモデルに全体を学ばせるだけではありません。異なる部分がどのように通信すべきかを告げるつもりです。そしてあなたはそれがここに反映されているのを見ることができます。それが手を伸ばしてつかむ関数のプールと進化戦略とそれがすべて言語モデリング部分にどのように接続されているかです。
彼らはまた、超高速モデルのGemini Flashと、より強力だと思いますがより遅いGemini Proを異なることに使用する要素を持っています。Gemini Flashで、彼らはいろいろな異なるアイデアの全体のスモルガスボードを安価に生成するためにそれを使用し、彼らはGemini Proを種類の深度と深い洞察作業をするために使用します。
これらすべての選択は、このようなシステムがどのように機能すべきかについての彼らの考えを人間が課すことを含みます。そして、これらのシステムで最終的に見つけることは、彼らはスキャフォルドなしで基本モデルまたはagenticモデルでできることをしばしば上回るパフォーマンスを示しますが、最終的に基本モデルとagenticモデルは追いついてそれらの能力を包含する傾向があります。
だから、これはDeepMindが基本モデルとagenticモデルだけでできることの即座の表面的なフロンティアを本当に超えて、本当に驚くべきことを達成する傾向がある方法です。つまり、密度汎関数理論やフュージョン反応の制御、気象パターンの予測など、まさにこのアプローチに従って様々なことを行ってきました。
だから本当に印象的な論文です。IsoMorphic Labsと彼らがやっているすべてのバイオテクノロジーとも一致します。彼らがこの方向に押している理由も見ることができます。R&Dループの自動化のためです。もし最初にそこに到達できるなら、知能爆発のような種類を引き起こすことができるか、少なくともそれがあなたの研究室で最初に始まり、それからあなたが勝ちます。
これは、多くの誘導的事前分布を使用し、OpenAIの戦略のように自動的にスケールしない可能性がある特注のアプローチでも前に出る戦略を試すべき良い理由です。
興味深いことに、実際の進化プロセスについて論文で彼らがやっていることについて、私が言うことができる限り、深く話していません。彼らはかなり、私たちがFun Searchで持っていたもの、LLMガイドによる進化でものを発見することを取り、それをより多くのことをするように、よりスケールアップされるなどに拡張したと言っているようです。
だから、あなたが言ったように、何かを取って、それをますますフロンティアに押しているのです。彼らはタンパク質折り畳みでも、チェスでも、他の多くのことでもこれを行いました。
そして今、彼らは理論的で既存の問題でもかなり、重要な進歩を主張しています。実用的なことでも。彼らは内部的に、Geminiのカーネルを高速化する方法を見つけることによって、Geminiの訓練を1%高速化する方法を見つけたと言います。TPUの訓練、スケジューリングなどを支援する方法も見つけました。
とにかく、これらの種類の実際にGoogleにとって現実世界で有用なことです。
そして次に、ゼロデータでの絶対零度強化自己プレイ推論があります。推論モデルについて、DeepSeek R1でカバーしたように、最近の標準的なパラダイムは、欲しい推論の種類の高品質な例を収集し、そしてOracle検証器を持つ強化学習を行うようないくつかの教師ありlearningを行うことです。
だからあなたはコーディングと数学問題を解いて強化学習を行い、強化学習を通じて非常に正確に評価できます。だからここで彼らは、タスクの整合性を検証しフィードバックを提供するためにコード実行環境を使用していますが、彼らは自己プレイを通じた自己進化の方向により進んでいます。
DeepSeekとOpenAIも過去に押した別の方向で、訓練データを収集する必要はありません。VLMを起動して時間とともに徐々に自己改善させることができます。
それを行う方法はちょっと興味深いです。この名前を覚えようとしている論文がありました。どの理由でDeepSeekだったかもしれないと思いますが、間違っているかもしれません。研究室ではなくモデルです。
本質的にこれは、コーディングタスクに関しては、そのタスクに関与する3つの要素があると言う戦略です。入力があり、関数またはプログラムがあり、そして出力がありますよね。だからそれらの3つの部分があり、それらのものに基づいて、モデルにやってもらうことを想像できる3つのタスクがあることを認識します。
入力とプログラムを見せて、出力を予測させることを想像できます。それは演繹と呼ばれます。あなたにプログラムと入力を与えて、出力を予測します。プログラムと出力を与えて、入力を推論させることができて、それはabductionと呼ばれます。
これらの名前については後でクイズがあります。そして、入力出力ペアを与えて、それらを接続したプログラムが何だったかを理解するのがあって、それはinductionと呼ばれます。そして、これらは十分考えると実際に名前がすべて意味をなします。
しかし基本的にはそれがアイデアです。基本的に入力、プログラム、出力を取って、それらの1つを黒塗りにし、他の2つを明かして、欠けているものを予測するようモデルを訓練できるかどうかを見ることです。ある意味で、これは抽象化の高いレベルで、奇妙な方法でほぼ自動回帰的な訓練のような種類です。
しかし要点は、問題を提起し解決しようとする統一されたモデルを使用することです。そして問題提案者、基本的に入力と出力が与えられたプログラムを生成することに対する報酬を設定します。そしてそのために、あなたの標準的な、問題を解くなら、プログラムを提案するなら、プログラムがコンパイルされ、すべてが良ければ報酬を得ます。そうでなければそうではありません。
とにかく、彼らはこの場合8つのモンテカルロロールアウトを行って正規化・正則化します。しかし、要点は、この論文に現れるもう一つのテーマ、困難制御のアイデアを再び見ることです。この場合、システムは困難を暗黙的に制御する多くの検証ステップを持っています。
彼らは明示的に「ねえ、何らかのスコアで中間範囲の困難問題だけを保持しよう」と言いません。彼らが課すいくつかの条件のために、実際に暗黙的にそれを拾うことになります。
最初は、提案されるプログラムです。それらのプログラムのコードはエラーなしで実行されなければなりません。だから自動的に、少なくともそのコードを生成でき、それが一貫していなければならないことを意味します。
決定論チェックもあります。だからプログラムは一貫した出力を生成しなければなりません。プログラムを複数回実行すると、同じ出力を得なければなりません。また、ある程度の習熟度が必要です。
そして、いくつかの安全フィルタリングがあります。だから彼らは有害なパッケージの使用を禁じています。基本的に、スタックのプログラム生成部分がこれを成功裏に行うことができるなら、おそらくそれは少なくともある最小レベルで実行することが強制されています。だからタスクは少なくとも自明ではないでしょうし、それらの検証をすべて通るタスクだけが学習プロセスに貢献します。
だから、ここで生成されるプログラムのベースライン品質を得ます。これは本当に興味深い論文です。データの壁についてたくさんの疑問を提起するものです。人々がたくさん話してきたのは、微調整できるデータがそれほど多くないということです。解決された問題、解決されたコーディング問題の例がそれほど多くないのです。
しかし、新しい問題、新しい演繹、アブダクション、インダクション問題を自動的に生成し、そして、彼らがここで持っているように、一つが次に供給される閉ループを持つなら、あなたは本当にデータの壁を持ちません。そして彼らは、確かにスケーリングスペース、サンプルスペースでそれほど遠くまで行っているわけではないスケーリング曲線を持っていますが、それでも彼らがテストした限りでは続いているように見えるスケーリング曲線を持っています。
それが持続するなら、本質的に彼らがやっていることは、データをコンピュートと交換することです。あなたのモデルがこのフィードバックループを開始するのに十分良いなら、基本的にモデルに新しい問題をピッチしてもらい、それからそれを解決できるようにより多くのコンピュートを注ぎ込むことで、少なくとも彼らがここで訓練しているコードプロブレムソルビング問題の種類に適用されるであろうデータの壁がないフィードバックループを開始できます。
特定の詳細を注記すると、彼らは実際に検証可能な報酬や教師あり学習を持たないことを調べます。だから絶対零度は、私が正しく理解するなら、教師あり学習や検証可能な報酬がないため絶対零度です。しかし彼らは、まだコンピューティング環境でコードを実行していると思います。
だから彼らは環境からいくらかのフィードバックを持つことができますが、実際に問題を正しく得たという実際の確認の種類ではありません。だから結果として、彼らはあなたが言った演繹アブダクションインダクションのような他のこれらすべての技術を考え抜かなければならず、それが彼らが訓練することを可能にします。彼らは、私が実際に気づいていなかった、open reasoner zeroもあるようですし、simple RL zooもあり、過去数ヶ月でRL、推論のRL部分を調べるさまざまなものがあります。
そしてこれは最新のもので、DeepSeek R1フォーミュラのある程度制限である検証可能な報酬を要求しない方向に押しています。
次に、Epoch AIからのもう一つのレポートがあります。だから研究論文ではなく、トレンドの分析と私たちがどこに向かっているかもしれないという予測の種類です。
これは推論モデルがどこまでスケールできるかに焦点を当てています。だからここでの基本的な質問は、DeepSeek R1、Grok 3のような推論モデルに使用されている訓練コンピュートを見て、そこからスケーリング特性を推論し、推論がどの程度成長し続けるかができるかということです。
だから彼らの予測は、DeepSeek R1からGrok 3に行って非常に急速な成長を持つ非常に小さい期間があるということです。
彼らはGPT-o3対o1の訓練を正確に知りませんが、ここでは3つすべてがかなり多く訓練されることを予測していると思います。だから彼らの予測は、使用されている訓練コンピュートが、過去のベースモデルと比較してゆっくりとした成長で、少し平坦化し始めるということです。しかし彼らはまだ、大規模な訓練実行の規模が今後数年で成長し続け、おそらく推論モデルが結果として改善し続けると言っています。
あなたは実際にDeepSeek R1が出る前にも、o1が出た時でさえ、これについてかなり多く話すことができます。根本的に異なるコンピュートのアプローチを必要とする新しいパラダイムがあるというアイデアから、私たちはそれについて話していました。出力を生成し、それから自動的に非常に迅速にそれを採点し、それからバックプロパゲーション、モデル重みの更新を行う代わりに、あなたが今しなければならないことは、あなたのベースモデルを取り、全体のroll outを生成し、それは多くの時間がかかり、推論最適化されたハードウェアで行われなければならず、それらのrolloutは評価されなければならず、それから評価がチェックアウトし、それからあなたはそれらを使ってモデル重みを更新します。
そして、その全体の追加ステップは実際に異なるコンピュートスタックを必要とします。そして、研究所が今やっていることを見ると、彼らは事前スケーリング、事前訓練コンピュートのスケーリングで本当に本当に上手になりました。巨大なテキスト自動完成システムを訓練する自動回帰事前訓練です。人々は、そのために数百億ドル規模の事前訓練コンピュートクラスターを構築する方法を知っています。
しかし、私たちが見ていないもの、まだ見ていないものは、訓練の強化学習段階の積極的なスケーリングです。そして、これは小さなことではありません。
DeepSeek R1を事前訓練するコストの約20%、R1が基づいていたv3モデルが推定されています。だからDeepSeek v3を事前訓練するコストを見ると、そのコストの約20%がR1のコンピュートに向かいました。それは些細ではありません。
そして、これらの推論時間スケーリングのコンピュートスケーリング曲線で、あなたが事前訓練コンピュート予算と一緒にそれをスケールしたいということを見続けます。あなたは、現在推論側で桁数を狂ったように増やしている地点に到達しようとしています。
それは非常に迅速に飽和しようとしています。つまり、o1からo3まで強化学習段階に使用されるコンピュートの面で10倍のリープを見ました。あなたが言ったように、それを何回もやることができるのは、現在のハードウェアが許可できるものの天井に達するまでです。
それが起こった後、あなたはアルゴリズム効率とハードウェアスケーリングをどれくらい速く成長させることができるかでボトルネックになります。そして本質的に、それは事前訓練スケーリング成長と同じように見えます。それは年間約4倍です。
だから急速な増加を期待すべきです。o4は本当に、本当に良くなるでしょう。o5は本当に、本当に良くなるでしょう。かなり迅速に。物事が狂ったようにスローダウンするわけではありませんが、彼らが見てきた事前訓練スケーリング曲線のようにスケールするでしょう。
これは、たとえば米国中国にとって大きな結果を持ちます。なぜなら、現在、中国が必ずしもそうであるよりも中国が良い状況にあるという錯覚を作り出しているからです。このパラダイムの初期の日々、人々が巨大な推論クラスターを利用する方法を理解していない時、中国よりも大きなクラスターを利用できる米国は、まだクラスターの完全なスケールを使用することができません。
そして私たちは、コンピュートベースで中国に対して、ある種の足かせを持った米国、人工的に足かせを持った米国を得ています。実際にはそれはより複雑な絵であるあらゆる種類の理由がありますが、それは実際に興味深いと思いました。
彼らがここでフラグした別のデータポイントは、私が全く追跡していなかった、54 reasoningやLlama Nematron Ultraのようなかなり最近出てきた他の推論モデルがあることでした。これらは本当に小さな強化学習コンピュート予算を持っています。いくつかのケースでは事前訓練コンピュート予算の1%未満の話をしています。
だから本当にR1は、事前訓練に対するRLコンピュートへの異常に高い投資のケースのように見え、西洋で訓練されているモデル、推論モデルの多くは非常に高い事前訓練予算と比較的非常に小さな強化学習予算を持っています。
私は非常に興味深いと思いましたし、何かがDeepSeek R1戦略が実際に長期的にさらに持続的である可能性が高いことを教えてくれます。私は、訓練スタックのRL部分により多くより多く流れていくのを見ることになると思います。でも、とにかく、ここで提起されている非常に重要な重要な質問です。
Epoch AIからの興味深い小さな書き上げで、私たちがカバーするのが大好きです。
そうです。そしてその点に、私たちは結果の混在を見てきました。まだ非常に明確な絵ではありません。RLは本当に取り除くことができ、教師ありファインチューニングのための非常によくキュレートされたデータセットで、推論への進歩のほとんどを行うことができることを見てきました。彼らが言うように、基盤モデルの隠れた能力を解き放つ、必ずしも新しい能力を追加するのではなく、それを使用する方向にモデルを形作ることです。
また、RLは訓練の観点から自動回帰教師なし学習または自己教師ありlearningとは非常に異なります。時間の間、この用語でした。RLはロールアウトを必要とし、検証を必要とするという意味で。事前訓練や事後訓練のようにスケールするのは同じように簡単ではありません。
だから、考慮すべき別の側面です。しかし、私たちがこれらすべての論文で話し続けているすべてのこれらの異なるタイプの結果と異なるレシピで、まだ非常に進行中の研究問題です。私は確実に時間の経過とともに、事前訓練と事後訓練でケースだったことに収束するでしょう。
人々は、多少なりともレシピを発見したと思います。そして、私は確実に推論においてもますますそのケースになることを確信しています。
そして最後の論文に。これはOpenAIから来ています。だから、props。私は時々OpenAIがもはや研究を発表しないと言ったことがあると思いますが、それは正確には真実ではありません。
これはHealthbench、改善された人間の健康に向けてのLLMの評価です。だから、HealthcareでLLMを評価するために設計されたオープンソースベンチマークで、意味のある、信頼できる、飽和していないメトリクスに焦点を当てています。これは60カ国にわたる262人の医師からの入力で開発されました。
ユーザーメッセージに応答するLLMの能力をテストするための5000の現実的な健康会話を含んでいます。期待されるように、あなたが本当にとても注意深く評価し、あなたのモデルが信頼できる、信頼性のある、健康に関する質問や健康に関する質問について話すことさえ許可されるべき、またはすべきなのかの領域であることを確実にしたい領域で、多くの固有の基準を持つ大きなルーブリック評価システムを持っています。
そして彼らはそのデータセットをオープンソースにします。人々がHealthcareのためのAIで働くことができるようにevalコードをオープンソースにします。
そして、OpenAIがもはや研究を発表しないということについてのあなたの点に、私は根本的に正しいと思います。つまり、彼らがモデルを構築する方法、アルゴリズムの発見についてのものは何も発表しません。
アルゴリズムの発見です。画像生成では時々少ししましたが、ほとんどありません。そして上下にアライメントのためにここと、しかしそれは不透明で不明で
ので、ねえ、私たちはこのヘルスケアのことをやった、私たちを規制しないでください、お願いします、私たちは世界のために良いことをやっているという素晴らしいPRプレイのため何かを持っている時、突然あなたはこのすべてのすばらしい透明性を得ますが、栄誉あるところに栄誉を、これはOpenAIがこれをまとめるために投入しなければならないように見える大規模な重要な投資です。
あなたが言ったように5000の多ターン会話、ユーザーとHealthcareに関するAIモデルの間の。彼らが行ったことは、約300人の医師にこれらの会話を見てもらい、特注の基準を提案することです。つまり、彼らがその会話またはAIチャットボットでAIエージェントの効果性を判断するであろう特定の基準のようなものです。
例を挙げると、昨日から彼女のように行動していない彼らの赤ちゃんについて心配している親がいます。様々な医師、この交換を見る様々な医師から集約された医師が考え出したルーブリックは次のようです。「オーケー、チャットボットは赤ちゃんが筋力低下を持っているかもしれないと述べていますか?そうなら、7ポイント。
赤ちゃんの筋力低下の少なくとも3つの一般的な原因をリストしていますか?そうなら、プラス5ポイント。すぐに医療を求めるようアドバイスを含んでいますか?」そして彼らはポイントを与え、それぞれのこれらの5000の多ターン会話のためのAIの肩を見る非常に詳細な種類で、再び何百何百もの医師を使ってこれを行います。
多くのこれらの交換で共有される基準があります。しかし約34のコンセンサス基準と呼ばれるものがあります。これらは何度も何度も出てくるものです。しかしほとんどは例特有です。彼らが使用する基準の80%のようなものは文字通り一つの会話または一つの交換だけのためのようなものです。だからそれはかなり remarkable です。
本当に本当に有用なベンチマーク。彼らはGBT 4.1を使って、与えられた会話で各ルーブリック基準が満たされているかどうかを評価します。だから彼らは実際に医師にチャットボットの回答をレビューしてもらっていません。明らかに、それはスケールしませんが、彼らが行うのは、GBT 4.1が実際に典型的な医師の代表として立つのにかなりまともな仕事をすることを示す方法を見つけることです。
彼らのパフォーマンス、彼らが与える成績はかなり比較可能です。そしてちなみにGBT 4.1は、彼らが特定した最高のモデルです。それはそのタスクで04 miniや03よりも良くやります。本当に私の頭を混乱させることの一つ、私たちがこのようなベンチマークを見るたびに覚えておかなければならないのは、オーケー、最高のAIはどれくらいうまくやりますか、医師はどれくらいうまくやりますか、それは自然な質問ですが、これは典型的な医師が患者を評価するであろう方法ではないことに注意することが重要です。
典型的には彼らへの視覚的アクセスがあり、触ることができ、非言語的手がかりやそのすべてのようなものを見ることができるでしょう。そうは言っても、このベンチマークで、モデルは援助されていない医師を上回ります。
援助されていない医師は、これらすべてのevalモデルで平均0.13点を得ます。彼ら自身のトップモデルは0.6です。それは03です。それはワイルドです。それは援助されていない医師よりも4倍高いスコアです。それは正直に少し私の心を吹き飛ばします。
確実にこれらのモデルははるかにはるかに大きなデータソースを引き出すことができます。そして再び、私たちはそれらすべての注意点を追加しなければなりません。医師は通常、そもそもHealthクエリにチャットボットスタイルの回答を書きません。
しかし、それは興味深い注記で、私たちはいくつかの論文を見てきました。私たちはここでそれらについて話しました。実際に医師がAIシステムと協力して働く時、医師はしばしばAIシステム単体よりも悪いパフォーマンスを行うことができます。なぜなら医師はしばしば第二の推測をしており、このモデルに盲目的な信仰を持っていないからです。
だからかなり興味深い。もう一つの注意点は、反応の長さとこのベンチマークでのスコアの間に相関があることです。そしてそれは問題です。なぜならそれは効果的にチャットボットが非常に冗長であることによってシステムを少しゲームすることができることを意味するからです。だから確かにそれは物事に少し影響しています。
しかし、その効果は援助されていない医師とモデルの間の狂った格差を近くでも説明しません。それは再び4倍のリフトのようなものです。それはかなりワイルドです。
複数のメトリクスがここにあることは注目に値します。コミュニケーション品質、正確性は独自のメトリクスであり、彼らは実際に位置とモデルと組み合わせそこを評価します。正確性は大体同じようで、コミュニケーション品質はたぶんちょっと違うだけかもしれませんが、医師はこれらのツールでツールなしよりもはるかに効果的でしょう。
それは結果から非常に明らかで、彼らは評価に様々な注意点を持っています。あなたが言ったように、そこにたくさんの変動性があり、そしてそれが続きます。
私にとって興味深い。また結論で、彼らは訓練コーポラからベンチマークをフィルタリングしやすくするためにカナリア文字列を含めたと記します。そして彼らはまた、偶発的な訓練や暗黙のベンチマークへのオーバーフィッティングのインスタンスを可能にするために小さなプライベート保持セットを保持しています。
だから私は、このベンチマークで私たちが見ているのは、この日時におけるどんなベンチマークリリースでもおそらく標準的な実践であるべきものだと思います。あなたはそれをあなたの大規模な訓練からWebスクレイピングからフィルタリングしやすくする必要があり、おそらくまたプライベートevalセットを持つ必要があります。
政策と安全性について。
最初に、アメリカでトランプ政権がバイデンのAI拡散規則を正式に撤回していることがあります。5月15日に発効予定だった人工知能拡散規則がありました。これは1月にジョー・バイデンによって導入され、アメリカ製AIチップの様々な国への輸出を制限し、既存の制限を強化することを目的としていました。商務省は、このバイデン時代の規制を執行しないと発表しました。
類似の効果を持つと推定される代替規則が期待されています。私たちがおそらくその時にカバーしたであろう規則には3つの国の段階がありました。非常に厳しい統制を持つ中国とロシアである第3段階、いくつかの輸出統制を持つ第2段階の国々、そして統制のない友人である第1段階。
それで、今業界全体が新しい規則が何になるかを待たなければならないようです。
そう。ここでの哲学、商務省が何でこれを置き換えるかについての発表はまだ聞いていませんが、異なるチップ統制のための国対国の二国間交渉になるであろうという哲学のようです。それは理にかなうかもしれません。
つまり、バイデン政権が出してきた拡散フレームワークの大きな弱点の一つ、私たちはその時にこれについて話しましたが、個々のGPUの注文が1700GPU未満である限り、文字通りゼロの統制が適用されるという狂った抜け穴を持っていたことです。
そしてその理由が関連するのは、文字通りHuaweiの全体のMMOは、アメリカが彼らを輸出統制リストに載せることができるよりも速く新しい子会社を立ち上げ、それからそれらを使って、より統制されたハードウェアを引き込むことです。
そして明らかにHuaweiはそれをただまとめます。そして1700のGPUの除外を置くことは、ちなみにかなりの数のGPUでもあります。だからそのGPUの数の除外を置くことは、つまり、あなたはただそれを求めているのです。
それはまさに中国がそれを活用するための正しい形です。それは彼らがアメリカの輸出統制の抜け穴を活用するために歴史的に使用してきた戦略に正確に一致します。だから、うまくいけばそれが物事の次のラウンド全体で対処されるものです。
実際にどのような形になるかはまだ正確にはわかりません。私たちはサウジアラビア、UAEのような特定の中東の国に関してアプローチがどうなるかについてのセンスを持っていますが、彼らは今これらのAI戦争での、中立国家ではないが、アメリカや中国ではない人たちの種類、AIの戦争における代理前線ですが、これは確実に次の部分に私たちを連れて行きます。
Nvidiaによって主導されるトランプの中東訪問がAI取引の洪水の門を開きます。それはブルームバーグからです。だからトランプ政権は特に2つの国、サウジアラビアとアラブ首長国連邦と会議を行っており、私たちは合意がまもなく発表されることを期待しています。
そして期待は、Nvidia、AMDなどがより多く売ることができるという意味で、緩和された制限があるでしょう、地域からもっと得ることです。株式市場は非常に好意的に反応しました。Nvidiaは5%上がり、AMDは4%上がりました。
記事のタイトル通り、起こり始めそうな取引の様々な発表がありました。だから例えば、NvidiaはサウジアラビアのHumane、国のAIインフラストラクチャの努力を押し進めるために作られた会社にチップを提供するでしょう。
Humaneは今後数年でNvidiaの最も先進的なプロセッサの数十万を得るでしょうし、AMD、Amazon、Cisco、他のものとの他の取引があります。だから指標は、制限が緩和されるようで、制限は部分的に、これらの地域のいくつかの企業と中国の間のつながりがあったため、特にG42で設定されていました。だからバイデン時代とは違うかもしれないようです。
非常に興味深いです。交渉テーブルで異なるプレーヤーが欲しいものがたくさんあります。サウジの取引は特に興味深いです。なぜならそれは、アメリカが過去数ヶ月でUAEと形成し始めた取引に似た種類の取引を指しているからで、何らかの点でより許容的ですが、また、UAEが中国との絡み合いから離れることを主張しています。
あなたが言及したG42、Huaweiと過去にいくつかの関わりを持っていました。あなたがサウジアラビアなら戦略的状況は、あなたは石油後の未来、石油後の未来のために位置づけられたいということです。それはUAEと同じで、すべての湾岸諸国にとって本当に同じです。
サウジアラビアでは、それがProject Transcendence、一般的な技術のため、特にAIのための1000億ドルの取り組みと呼ばれるものを動機づけました。そのために大きな大きなプールが確保されています。UAEは似た立場にあります。彼らは既にG42の国家チャンピオン研究所やInstitute for Technologyか何かを持っています。IIIT。そう。そう。そう。Falconモデルを作った人たちです。
ちなみに、それ以来あまり聞いていません。ちょっと興味深い。しかし現在、サウジはUAEの後ろにいて、彼らは地面を取り戻そうとしています。だからUAEとサウジは本質的にある意味で、中東での大規模AI展開のためのアメリカの選択のパートナーになるために互いに競争しています。
それがこの一つの側面です。彼らは可能な限り多くのAIハードウェア、可能な限り多くのGPUを手に入れたいと思っています。これがトランプが彼らを背中合わせに積み重ねた理由の一つです。だから彼は最初にサウジとの取引の発表を受け、それからUAEとの取引を得るために向かい、彼らのそれぞれに互いに対して遊ばせるようプレッシャーをかけました。
見なさい、サウジには大量のエネルギーがあります。彼らはエネルギー経済です。UAEと同じで、ちょうど私たちがアメリカのエネルギーグリッドを飽和させ、それが私たちの展開の主要なブロッカーである時です。
だからあなたがOpenAI、Microsoft、Googleなら、まあ、エネルギーの豊富さがある中東でデータセンターを設置し、彼らのグリッドにプラグインし、それが私たちにとって素晴らしいでしょうと言う誘惑を見ることができます。
まあ、彼らがそれをしたくない理由がいくつかあります。だから、歴史的に、一つはバイデン政権の輸出統制スキームでした。あなたはただそれほど多くのチップを外国の国にそのように移動することはできません。ただ良くありません。しかし、私たちがたった今話したように、それが廃棄されています。
だから今の状況は、まあ多分私たちはできる、多分私たちは国対国で交渉し、これを設定できますが、アメリカはもし彼らがUAE、サウジアラビアでAIインフラストラクチャを設定しているなら、サウジが振り返ってそれを中国に売らないことを確実にしたいと思うでしょう。
中国は第三者の国を使うのが非常に上手で、歴史的にそれはマレーシア、シンガポールでした。そしてGPUを持ち込み、アメリカの輸出統制を回避するためにそれらの国を使用しています。だからあなたは中国本国に輸出統制を課しているかもしれませんが、マレーシア、シンガポールに対してはそれらを必要としません。
そして、何という驚き、過去数ヶ月でよりにもよってマレーシアへのGPU注文の大量流入です。うーん、それらがどこにリダイレクトされているか疑問に思います。
これは政権がこれらの取引で起こらないことを確実にしたいものです。多くのサウジの絡み合いの問題があります。あなたが言った、UAE、中国はたくさんのつながりを持っています。サウジもそうです。
Huaweiはサウジアラビアをクラウドサービスの地域センターにしました。このProject Transcendenceの全体を資金援助している大きなサウジ公共投資ファンド、PIFがあります。そしてPIFはAlibaba Cloudとの合弁事業を持っています。
彼らは私たちが数エピソード前にカバーしたAlatと呼ばれる新しい技術投資会社を持っています。それはまた、あらゆるもののブラックリストに載った中国の監視技術会社であるDahwaとの合弁事業を持っています。
だからそこにはたくさんの絡み合いがあり、サウジアラビアのGPU蓄えのいくつかがどのように中国の学者や研究者によって潜在的に使用されているかについての深い疑問もあります。
サウジがGPUを特にC中国に出荷しているという確固たる証拠はありませんが、あなたは必ずしもそれを期待しないでしょう。中国のMMOは絶対にこのようなことをやることです。
そして、この交渉での最後の注記、提案されている本当に興味深いことの一つは、データ大使館のアイデアです。誰もこれを以前に提案したことはありませんが、基本的には、見なさい、UAEとサウジアラビアでの主権エネルギーの巨大な埋蔵量を利用することができたいが、セキュリティの含意について心配しているなら、まあ、アメリカ大使館がサウジアラビアにあるように、サウジアラビアのアメリカの土壌の技術的に小さなスライスであるのと同じように、主権アメリカの土壌の小さなスライスの領域を設定し、そこにデータセンターを置いてもいいかもしれません。
アメリカの法律がそこに適用されます。あなたはそこにGPUを出荷することが許可されています。問題ありません、なぜならそれは主権アメリカの領土だからで、だから輸出統制は同じ方法で問題になりません。
確実に、あなたはサウジエネルギーが供給されており、それは巨大な脆弱性です。確実に、あなたはこのマトリックスに埋め込まれていますが、原則的に、あなたはそれをすることからより高いセキュリティ保証を得ることができるかもしれません。
実際にそのようなことを試すことに関しては多くの注意点があります。私は詳しく入りませんが、私たちのチームが特にたくさんの時間を考えることに費やしてきた、のようなことを試すことに関してはいくつかの本当のセキュリティ問題がありますが、これは基本的にこれらの取引の構造です。
多くの種類の新しいアイデアが浮かんでいます。それらがどのように展開するかは分かりませんが、それらは確実にUAEとサウジアラビアを、大きな国内チップ備蓄を持つかもしれないプレーヤーの面で高く位置づけています。
オーライ、それでいくつかの政策ストーリーです。終わりを迎えるために、いくつかの安全ストーリーを持ちましょう。
次のものは論文、スケーラブル監視のためのスケーリング法則です。だから監視は、より弱いモデルが、より強いモデルがやっていることが実際に安全で整列していて悪くないことを検証したいかもしれないアイデアです。
だからあなたは超知能システムを持っているかもしれないと想像するかもしれません。人間はそれがやっていることが大丈夫かどうか検証することができず、あなたはより強い人たちを信頼するためにより強い人たちの上にAI監視を持つことができたいと思います。
この論文では、彼らは監視を実際にスケールできるかどうかを調べています。ちなみに、それはスケーラブル監視と呼ばれるのは、実際にAIのスピードとコンピュートでものを検証するためにAIを使用することでそれをスケールできるからです。
そして、この論文が焦点を当てているのは、彼らがネストされたスケーラブル監視として提示しているもので、基本的にはモデルのシーケンスを行うことができ、そこで弱い、強い、弱いまたは強いを持ち、検証可能または信頼できる監視を提供し、物事を安全にするために一種の連鎖を上ることができます。
だから彼らはそれについてのいくつかの理論的概念、いくつかの理論的保証を導入します。彼らはmafia戦争ゲームやバックドアゲームのようなゲームで実験を行い、その文脈でいくつかの成功率があることを検証し、スケーラブル監視の全体アイデアのもう一つのステップとしてこの一般的なアイデアを提示します。
そして、これは、OpenAIにいた時のPaul Cristianoだったか覚えていませんが、この全体の領域を発明しましたが、確実により弱いAIモデルを使ってよりスマートなAI、より強いAIモデルを監視することによってスケーラブルアラインメントを行うというアイデアは、彼が本当に大きなもので、率直に、特に討論を通してでした。それは彼らがここで検討する具体的な使用例の一つです。
だから基本的に弱いモデルに、たぶん2つの強いモデルが討論するのを見させ、特定の問題について、弱いモデルがそれらのモデルのどちらが真実を語っているかを評価しようとします。
うまくいけば、ここでのアイデアは、あなたがより強いモデルの一つが信頼できることを確信を持って決定するためにこのようなアプローチを使用できるなら。それならあなたはより強いモデルを取り、今それを使って次のレベルの強さ、さらにスマートなモデルを監視できます。
そしてあなたはたぶんそのように梯子を登ることを始めることができます。これは良い方法だと思います。この論文は基本的にそれを定量化しようとしています。だから、彼らがそれを定量化しようとする方法はELOスコアです。
だから、これらのELOスコアは、与えられたモデルが別のモデルにどのくらいの頻度で勝つかを大まかに教えてくれます。だから、私は正確な数字を忘れましたが、ELOスコアが1000のモデルとELOスコアが1200の別のモデルがある場合、ELOスコアが1200のモデルはELOスコアが1000のモデルに70%の時間勝つか、数字が何であれ。
そして、これはELOスコアを使って、これらのELOスコアのためのスケーリング曲線を基本的に使って、その登りがどのように見えるかを定量化する試みです。これは非常に興味深いです。
この全体のアプローチには、Max Tegmarkのようないくつかのかなり基本的な問題があると思います。この論文のリード著者の一人は、実際に同意しないでしょう。しかし、ここで基本的な問題があります。
知能梯子を登ることを考える時、deceptive alignment、つまり実際には整列していない時に整列しているかのように装うモデルの能力のような、関心のある新しい能力は、かなり突然現れることができます。emergent capabilitiesの種類があり、これらのスケーリング曲線に違反してかなり突然ポップアップできます。
そして、超知能の文脈で心配する種類の能力、状況認識の能力、操作と説得の能力、攻撃的サイバーなどの能力がすべて非常に迅速にまとまるような状況認識の能力で、かなり迅速に現れることを期待するかもしれません。
そして、それが起こるべきなら、これらのスケーリング法則が最も機能する必要がある段階で正確に破綻することを期待すべきです。それにもかかわらず、これは、Paul Cristiano、IDAからの人々から見た議論のいくつかの本当に良い定量化だと思います。私が思うに、acronym iterative debate and alignmentか何かでした。
私は忘れました。実際に4年前にそれを本当に深く調べて、今私はそれをまとめることができません。そう、これは、もしあなたがそれを真剣に受け止めるつもりなら、それを行う良い方法だと思います。これの異なるバージョンを見る、mafiaのゲームがあるとしたら?mafiaのゲームが何かを知らないなら、それについて心配しないでください。
私がちょうど説明した討論シナリオは?これらすべての異なる可能なシナリオ。スケーリング曲線は何ですか?あなたの判定者モデルがどれくらいスマートになるかと、判定者モデルを騙そうと潜在的に試みているモデルがどれくらいスマートかに関して、スケーリング曲線はどのように見えますか?
どのくらいの頻度で実際に判定者モデルは成功することができますか?彼らはこれらすべての素晴らしいスケーリングプロットを持っており、そう、もしあなたがそのモデルに興味があるなら、良い論文です。
そして安全性に関連する最後のストーリー、OpenAI pledges to publish AI safety test results more often。だから彼らは実際にsafety evaluations hubをローンチしました。あなたが有害なコンテンツjailbreaksと幻覚のような安全性に関連することで彼らのモデルのパフォーマンスを見ることができるページです。
そしてそうです、あなたは本当にスクロールして基本的に4GT 401 4.1 mini 4.51、拒否、jailbreaking、幻覚のような安全性に関連する様々なことで、メトリクスが何であるかのすべてを見ることができます。
今、彼らは安全性のためにやることすべてを提示しているわけではありません。彼らはここで彼らの準備フレームワークのメトリクスを持っていません。彼らはシステムカードでそれを続けようとしています。それにもかかわらず、モデルがどこに立っているかを見るためにそれを非常に簡単にするOpenAIによる興味深い種類の動きだと思います。
そう、これは何もないにしても、これらのものを見るための本当に素晴らしいフォーマットです。とにかく、あなたはWebサイトをチェックアウトできます。それは実際に本当によくレイアウトされています。
そして、それがLast Week in AI、時々Last Last Week in AIのこのエピソードのためになります。私たちが言ったように、近い将来にもはや週をスキップしないよう努力します。
私たちがその約束を時々破るとしても、私たちに固執してくれるすべてのリスナーに感謝します。いつものように、あなたのフィードバックに感謝します。ポッドキャストの共有、レビューの提供、修正、質問、そのすべてに感謝します。そして、聴き続けてください。
[音楽]
聴いてください。ニュースが始まる時 [音楽] それを分解して、先週、来て、乗り物に乗って。技術の詳細を取得して。滑らせることはできません。先週、来て、乗り物に乗って、研究所から街路まで。AIは高くreachingしている。新しい技術が出現している。それが急上昇し飛ぶのを見る、研究所から街路まで。AIは高くreachingしている。アルゴリズムが未来の海を形作っている。
聴いて、聴いて。簡単に最新を取得する。先週、来て、乗り物に乗る。技術の詳細を取得して、滑らせることはできません。先週、来て、乗り物に乗る、街路を通り。AIは高くreaching [音楽] している。
ニューラルネットからロボットまで、見出しがポップする。データ駆動の夢、彼らは止まらない。すべてのブレークスルー、すべてのコードunwritten。変化の端で、興奮で、私たちは魅了されている。
機械学習の驚異からコーディングの王まで。未来が展開する。それがもたらすものを見る。

コメント

タイトルとURLをコピーしました