元Google社員が語るAI業界の内幕:Meta超知能チームとスケールAI買収の真相

AGI・ASI
この記事は約33分で読めます。

この動画は、元Google社員らがAI業界の最新動向について深く議論したライブストリーム配信である。特にMetaによる140億ドルのScale AI投資、アレクサンダー・ワン氏の超知能チーム参加、そしてAI研究の自己改善能力に関する最新論文について詳細に分析している。また、AppleのAI研究に対する批判的見解や、M&A取引の内幕、さらにはAIモデルの推論能力をめぐる学術論文の問題点まで、業界インサイダーならではの鋭い洞察が展開されている。

ライブストリーム開始とテクニカルセットアップ

さあ、ライブ配信を開始しましょう。6秒経過したところで、何人の方が視聴しているかを確認してみますね。皆さん、ぜひチャットに参加してください。

ジョー、君をクビにしたよ。完璧にセットアップしておいたのに、テキストメッセージも含めて、今まさにライブ配信中なんだから。すべてがうまくいっているか確認させてください。

ジョーは昨日、素晴らしいメキシコ料理を食べたんです。サンノゼのカーテン通りにあるアデリッツというメキシコ料理店で、本当に美味しかったそうです。音声は聞こえていますか。とても良好ですね。

チャットの皆さん、音声レベルについて教えてください。視聴者の一部には、ライブストリーミングをしている人に音声が出ていないと嘘をついて邪魔をするのが好きな層がいるんです。ジョーも同じような目に遭うことがありますね。

出演者の自己紹介

私の名前はジョーダンです。ジョーと一緒にポッドキャストをやっています。ポッドキャスト以前は、Googleで10年間働いていました。ジョーとも一緒に働いていました。Googleでは8年間M&Aを担当し、その後20万人の従業員を抱える大企業を離れて、より小さな会社ということで2500人のSlackに移ったんです。M&Aをやるためでしたが、マーク・ベニオフが「だめだ」と言いました。彼らに買収されて、また大企業に戻ることになり、泣きたくなりました。

その後、Sick Podcastを始めて、SalesforceにいるときにChatGPTがリリースされたので、できる限り統合を試みました。

ジョーのバックグラウンドについても聞かせてください。私のバックグラウンドは多くのテック企業での経験です。

MetaのScale AI投資:140億ドルの戦略的判断

史上2番目の巨額買収

MetaはScale AIとの140億ドルの現金・株式交換取引を最終段階で進めています。これはFacebookにとってWhatsApp以来2番目の大型M&Aです。WhatsAppを買収した際、彼らは時価総額の10%をその会社に費やしました。

当時のWhatsApp買収についてどう思いましたか。私は愚かなアメリカ人で、WhatsAppの素晴らしさに触れたことがなかったので、「一体何をやっているんだ。チャットメッセンジャーじゃないか。なぜテキストメッセージを使わないんだ」と思っていました。

その後、シリコンバレーで私の家に素晴らしいインド人の方々が引っ越してきて(家を貸していたんです)、彼らが「私たちと話したければWhatsAppを使え」と言ったんです。今では何にでもWhatsAppを使っていて、完全に理にかなっています。そして最近、WhatsAppがついに収益化される、つまり広告が掲載されるというニュースが出ました。

ザッカーバーグは基本的にこう言っているんです。「もしすべてのサービスにLLMを搭載するなら、この推論コストが積み重なっていく。事前学習コストやすべてのCAPEXも含めて、これを株主に対してどうにか正当化しなければならない」と。

Scale AIの取引について、人々は「アレクサンダー・ワンに140億ドルを支払っている」と言っていますが、時価総額の割合で見ると1%未満です。彼らは今、数兆ドルの価値があるのと比較すると、この取引が完全に失敗しても、Facebookにとっては四捨五入の誤差なんです。高いアップサイド、最小限のダウンサイドという良いリスクだと思います。

アレクサンダー・ワンの超知能チーム参加

アレクサンダー・ワンはマーク・ザッカーバーグが募集している新しい超知能チームを率いることになります。また、エンジニアたちに8桁から9桁の年俸を提示して参加を求めています。

これは基本的に、Llama 4という大惨事の後でゲームに復帰するためのものです。Llama 4は本当にひどかった。Llama 2のときは、ラップビデオを見せて「これがマーカス・ザッカーバーグだ。なぜなら彼はとてもスワッグがあってクールで、子供たちが言うように『とてもリット』だから」みたいなことを言っていました。私は年老いたミレニアル世代なので、よくわからないんですが。

それがLlama 4が出ると「一体内部で何が起こったんだ」という感じでした。ジョー、なぜあんなに急激にネガティブになったんでしょうか。

彼らは内部的ではなく、公開のベンチマークを打ち負かそうとしていたようで、少し伸ばしたり、少しズルをしたりしたのかもしれません。適切な言葉がわからないんですが。そして、これらのベンチマークで良い成績を取ったと宣伝したものの、モデルは他のことではうまく機能しないように見えたため、非常にネガティブな反応を得ました。そのため人々は熱意を失ったんです。

M&A取引の3つの形態

アクアハイアからフルストック購入まで

M&Aには3つの主要な取引があります:アクアハイアライセンス・アンド・リリース、そしてストック購入です。

アクアハイアは基本的に美化された採用活動です。友人や知人が「GoogleやFacebookに買収された」と自慢しようとするときは、「それはアクアハイア取引だったのか、それともフルストック購入取引だったのか」と聞くべきです。アクアハイア取引だと答えたら、それは基本的に大した金額をもらっていないということで、Googleが「あなたの会社には企業価値がない。私たちはあなたの会社は欲しくない。ただすべての従業員を雇いたいだけで、追加の保持資金として金の手錠を与えるかもしれない」と言ったということです。

HBO の「シリコンバレー」を見たことがある人はいますか。ジョーは見ないんです。なぜなら、それはドリアン・グレイの肖像のような話で、見るとPTSDを引き起こすからです。1エピソード見ましたが、M&A交渉をやっていて、それでPTSDになりました。

でも屋上で創業者たちがビデオゲームをしているシーンがあって、「ここHoolieで何をやっているんだ。買収されたのに何もしていない」という場面があります。「ああ、私たちはただ権利確定を待っているんだ。保持金が支払われるまで3年間ここにいて、その後去る。その間、企業は私たちと何もしたがらない」というやつです。

実際に、ジョーと私がかつて管理していたディレクターの一人が買収されたことがあります。なぜか奇妙なことに、Googleの製品チームは天才だった彼と何もしたがらなかったんです。それで彼はオフィスに座って投資をしたり、子供たちをメンターしたりしていました。VPが何かを言うたびに手を挙げて「あなたがやろうとしていることはわかるが、おそらくうまくいかない」と言うのですが、彼らは無視して、結局彼の言った通りにうまくいかないのです。

2010年代のほとんどの取引はアクアハイア取引でした。なぜなら、ほとんどのスタートアップのアイデアは失敗するからです。

ライセンス・アンド・リリース取引の復活

次にライセンス・アンド・リリース取引があります。これは基本的に「チームが欲しいし、IPの一部も欲しい。あなたのIPはまともだから。でも実際にはビジネスは欲しくない。ホットドッグかホットドッグではないかを判定するアプリみたいなばかげたものを作ったかもしれないが、その下にある画像認識モデルは良くて、それを他のことに再適用しようとする」ということです。

昔、ライセンス・アンド・リリース取引では、投資した1ドルに対して85セントくらい戻ってくるかもしれませんでした。VCはアクアハイア取引では何も得られませんが、ライセンス・アンド・リリースなら運が良ければ10セント、もしかしたら1ドル全額戻ってくるかもしれません。

規制環境が変化し、今ではこれらのAI企業が「ライセンス・リリースが再び流行っているので、規制の追及を逃れるためにそれらの取引を始めよう」と言っています。

フルストック購入取引では全員が報酬を得ます。SalesforceがSlackを買収したとき、GoogleがWhizを買収したとき、これは基本的に「あなたの株式に巨額のプレミアムを支払う」ということを意味します。投資家は100倍、1000倍、あるいはばかげた倍率のリターンを得ることになります。これらが人々が金持ちになる大きな素晴らしい取引です。

FTC審査を回避するライセンス取引

ライセンス取引がFTCの監視を逃れる理由について説明しましょう。FTCにとって多くのことは、鉄道を解体するために使われた独占禁止法に基づいています。当時、ギルデッド・エイジの鉄道や石油会社が過度の権力を持ち、その影響力を使って中小企業を圧迫していると人々が考えていたからです。

FTCが見るのは、例えば検索市場があるとしましょう。GoogleがBingのような他の検索プレイヤーを買収しようとしたとします(意味がないでしょうが)。FTCは「ちょっと待て、Googleはすでに市場の80-90%を持っている。それでBingを買って数パーセント増やしたら、すでに独占状態でそれに取り組んでいるが、今度は超独占になる。価格を上げるか何かするだろうから、これを防ぐ」と言うでしょう。

しかし、ライセンス・アンド・リリース取引では会社を買収しているわけではありません。IPの一部と人員を取るだけで、その組織はまだ存在し、勝手に死んでも構わないのです。重要なのは、以前のようなFTCの審査を受けないということです。

今、FTCは変わる可能性があり、「Scale AIの取引では、確かにMetaは49%を所有していて過半数は持っていないが、実質的にアレクサンダー・ワンはまだ取締役会にいて、おそらく取締役会席を得るだろうし、アレクサンダー・ワンはFacebookにとどまるためにより多くのお金、おそらく株式で得るだろう。彼がScale AIの将来についてFacebookが望むことと一致すると思うか」と言うかもしれません。答えはイエスです。だから彼らは49%ではないものの、事実上の買収だと言って調査する可能性があります。しかし、様子を見ましょう。

この種の取引を行うと、規制のファストトラックを得ることができます。3日前にGoogleがWhizを320億ドルで買収したと発表したのを見た人はいますか。3年前にその会社を始めて、320億ドルの支払いを得たのです。2度目の買収でした。以前にMicrosoftに買収されたことがあったからです。今、彼らが抱える唯一の問題は、個人的にヨットだけでなく、サポートヨットやヘリコプターが飛来できるヨット空母が欲しいということです。

その取引の問題は、ニュースが入ってきたことです。FTCがWhizについて審査を行っているのです。だから彼らは1年間の承認を経なければなりません。FTCは今、テック企業を好んでいません。共和党も民主党も彼らを嫌っています。FigmaとAdobeの取引のように、物事が破綻する可能性があります。

Adobe取引が破綻したのは、英国のCMA(FTCの英国版)がその取引をブロックしようとしていたからです。そこでAdobeは「もう歩き去って、巨額の解約料を支払う」と言いました。10億ドルだったと思います。「実際にこの取引に過剰に支払った。ここに10億ドルある」と言って、株主はその取引が破綻したときに非常に喜びました。

ジョー、あなたは以前Adobeで働いていたので、その業界をよく知っています。AdobeがFigmaと競争できなかったのは驚くべきことです。彼らには多大な警告があったでしょう。アプリがオンラインに移行し、コラボレーション機能が加わるのを見ていました。すべての生産性アプリで見られました。Figmaの最初の製品は描画製品で、Adobe側のIllustratorと本当に競合していました。Figmaの創業者が望んでいた方法では離陸しませんでした。彼らはもっと大きなビジネスを望んでいたので、図面に戻って、今日私たちが見るFigmaになったより設計重視の製品を思いついたのです。

Adobeには少なくとも2年間、この脅威が来ることの警告がありました。彼らは多額のお金を費やして独自のチームを構築し、おそらく5年以上かけて競合製品を構築しようとしました。名前は何かMXだったと思いますが、熱意を生み出すことができず、結局Figma買収時にそれを閉鎖しました。

そしてFigmaを買収したとき、彼らは途方もない金額を支払いました。AdobeはFacebookよりもかなり小さいので、時価総額の数パーセントだったと思います。支払った金額は取締役会が実際に投票する必要がある閾値のすぐ下だったと思うので、CEOと彼のチームは限界をちょうど下回る取引をまとめ、承認を必要としませんでした。おそらく承認を得られなかったでしょうから。そして取引が破綻したとき、誰もが歓声を上げ、彼らの株価は回復しました。

取引に過剰に支払っているかどうかの良い兆候は、ウォール街が買収会社の株式をどれだけひどく叩くかです。通常、あまりにも高すぎると株価は大打撃を受けます。

Meta株は過去2日間で大幅に上昇しています。ザッカーバーグがこのAI目標に倍増していることを人々が歓迎しているからです。2つの良いニュースがありました。1つは彼がAI組織を再構築していること、2つ目はWhatsAppを収益化していることです。

Scale AIの企業価値と将来性

創業から現在まで

Scale AIは2016年にアレクサンダー・ワンとルーシー・グオによって設立されました。彼らはデータラベリングと評価を行っています。2つの異なるサブ組織があります。

ルーシー・グオはScaleにとどまるのか、それともMetaに来るのかという質問ですが、彼女はScaleにとどまるようです。彼女はかなり有名なので、彼女も参加するなら言及されたでしょう。彼は「共同創設者のルーシーも参加する」と言ったでしょうが、彼が送った声明では「私はまだScaleの取締役会にいて、ほとんど何も変わらない。戦略担当チーフスタッフが率いることになる。彼がCEOになり、戦略担当者がCEOになる」とだけ言っていて、ルーシーについては何も言っていませんでした。

Scale AIの2つのビジネスがあります。1つは基本的に、OpenAIやGoogleなどのLLMプロバイダーが支払うPhDレベルのデータトレーニングセットを行うことです。Googleは以前使っていましたが、今回の取引のせいで撤退の合図を送っています。

他の企業も皆撤退していますよね。他にどの企業が聞いたか忘れましたが、大手プレイヤーは皆撤退の合図を送っていると思います。OpenAIから聞いたところでは「大丈夫だ、とどまる」ということでした。Amazonが何をしているのか聞くのは興味深いでしょう。

もう1つのビジネスは、Amazon Mechanical Turkのようなもので、10万人の従業員がいて、他の種類のデータセットのデータラベリングを手伝ってくれる請負業者です。

Metaが本当に買収しようとしているもの

Metaが本当に購入しているのは、アレクサンダーとエネルギーを組織に取り込むことです。そうすれば、以前の大混乱を好転させることができるかもしれません。また、Scale AIのデータパイプラインを使用してモデルをトレーニングする能力も得られます。

興味深いことに、私とジョーは過去1年半にわたって番組で合成データについて話してきて、「合成データがますます出てきている。検証された報酬を使ったRL、信頼度レベルを与えることができるモデルが出てきていて、直感を信頼したいと言って、実際にある程度パフォーマンスを向上させることができる」と言ってきました。これはScale AIのビジネスに下流の影響を与えるはずです。

そして、Scale AIが昨年の収益目標を逃したのを見ました。10億ドルに達するはずでしたが、代わりに8億7000万ドルに達しました。私たち一般人にとってはまだ多額のお金ですが、彼らが期待していたほど急速な成長ではありませんでした。それでプレッシャーを受けていました。

また、評価額を見ると、Facebookがこの取引に投入した金額を以前の評価額と比較すると、出口価値においてそれほど大きな上昇ではありませんでした。これは、私たちがこの種のビジネスの終わりに近づいている可能性があることを彼らが認識しているのかもしれないと思わせました。

ジョー、企業の営業サイクルについて会話中に良い点を述べていましたが、それについても何か見えているのでしょうか。

取引が遅延していることを示す多くの方法があると思います。人々が「このデータセットは必要ないかもしれない」「他にこのデータを生成する方法があるかもしれない」「合成データが利用可能になるかもしれない」「自分で合成データを生成できるかもしれない」などと考え始めると、企業営業でよくあることは、営業サイクルが延長されることです。つまり、取引の署名がどうにかして遅延するのです。

営業担当者が進行中の取引のセットを見て、すべてがますます遅延する傾向があることがわかると、それは本当に悪い兆候です。ブックが遅延している場合、物事が減速していること、それらの取引の多くが実際には成立しないこと、営業サイクルが環境の何かによって影響を受けていることを想定します。それは製品が適切でないか、経済環境が減速しているか、何か大きなことが起こっていることの兆候です。それがScale AIの営業に起こっていたとしたら、創業者が神経質になるのは簡単に想像できます。

おそらく「今が良い時期に脱出する時期かもしれない」と考えているでしょう。これ以上高く持っていけないし、これがピークかもしれないし、取引をする適切な時期かもしれない、ということです。

私はこれをアレクサンダーにとってのメガウルトラスーパー成功だと見ています。この地点に到達することは素晴らしいことです。Twitterで多くの憎悪を見ていて、「この会社には価値がない、彼らがやっているのは請負業者だけだ」などと言っています。「では、自分で140億ドルの出口を得てみろ。できないのなら、Wendy’sに戻れ」と思います。皆がここで起こったことを称賛し、Facebookを責めすぎないべきだと思います。

彼らはこの資本を持っていて、AI組織を活性化する必要があります。それを軌道に乗せることができれば、適切に行われた場合に収益を増加させる大きな機会になります。

潜在的なリスクと課題

地平線上のリスクの1つは、GoogleがScale AIの契約から撤退することですが、Facebookはアレクサンダーとクルーを獲得することに重点を置いているので、実際には気にしていないと思います。しかし、他の顧客も離れる可能性があり、収益の12-15倍の倍率で過剰に支払っているかどうかという問題があります。今年の残りで収益が10億に達するか、それより少なくなるかはわかりません。

もう1つは文化的な不一致です。アレクサンダーは28歳で、小さな会社で働いていて、物事を動かし、製品を出荷し、物事を成し遂げる方法を知っています。そして彼はFacebookという巨大な政府に行き、政治を通じて働きます。物事を成し遂げるのは非常に困難です。マークとの連携はあるかもしれませんが、組織の他の部分を通じて必要なことを成し遂げるのは、砂の中で金庫を押すようなものかもしれません。それがどうなるかはまだ見ものです。

ジョー、あなたは以前Facebookで働いていましたが、アレクサンダーがその組織に入る際に直面する可能性のある障害について何か考えはありますか。

そのような大きな組織では常にリスクがあります。すでにそこにいて、これが自分の担当範囲の一部だと考えている人たちがいます。FacebookはすでにAIとMLに取り組んでいるチームがいくつかあります。ヤン・ルカンのチームから一昨日リリースがあったばかりです。それがおそらく最大の問題でしょう。

彼の視点からは、内部の動きがあるでしょうか。他のチームからの人が彼のチームに参加するのか、それとも人々が彼の最高の人材を引き抜こうとするのか。きっとポジション争いが起こっているでしょう。そして最後に、Facebook自体はまだ規制当局の調査下にあります。だから彼らにとって不確実な環境です。

Apple のAI研究論文に対する批判

研究の動機に対する疑問

AppleがLLMは推論できないという論文について話しましょう。Appleが何を動機にしているのかよくわからないんです。奇妙なことです。投資家は彼らがAIに関して遅れを取っていると認識していて、それが彼らがAIが製品に準備ができていないと思っているのか、内部で独自のストーリーがまとまっていないのか、正確に何が問題なのかは明確ではありません。しかし、彼らは確実に他の大手テック企業に遅れを取っています。

これは私が見た少なくとも2番目の論文で、彼らは主にこれらのAIシステムが十分に良くない、プライムタイムの準備ができていないということを指摘するためにエネルギーを費やしています。そして人々は最初強く反応します。「ああ、神よ、これらのAIシステムは何か重要なことができない」といった具合に。そして徐々に、モデルを少し上手に使えばこれらのことをかなりできることに気づき、論文は無関係に消えていきます。これは少なくともこの2回は起こったと感じています。

ウェス、これについてどう思いますか。これはあなたが認識している方向性と一致していますか。

そうですね、これの背後にある点が何なのか理解できません。LLMは推論できないというタイトルの論文やブログ投稿をいくつか見ました。何から始めればよいかわからないほど多くのことがあります。

何かができるかできないかについて話しているなら、人間は4分間マイルを走ることができますかと言ってみましょう。1000人の人間が4分間マイルを走るのに失敗するのを見た場合、それは何かを証明しますか。いいえ。それはおそらく不可能だということを強く示唆するかもしれませんが、4分間マイルを走る人の1つの例を見れば、それは反証されます。

だから、LLMが何かに失敗する100万の方法を見せることができても、それが推論できないか、考えることができないかを証明しますか。それが1つ目です。2つ目は、LLMに関して考えるとか推論するとかいうのは何を意味するのでしょうか。それは非常に人間中心的なことだからです。

LLMは推論できないと言う人たちに聞いてみましょう。それを反証する例を挙げてください。もし正しいことをさせたら、彼らが推論できることを証明する例は何でしょうか。例を思いつけないなら、この会話は意味をなしません。

論文では、N+5以降で基本的に解決不可能になる川渡り問題があります。つまり、その時点で解決不可能なので、モデルはおそらく解決不可能だと言って、彼らはそれを0点とマークします。

また、モデルがコンテキストウィンドウ内で問題を解決できないほど賢いが、問題を解決するツールを作成できる場合、Pythonコードなどを使ってそのツールを構築してから問題を解決する場合、それはなぜ推論ではないのでしょうか。

以前の「LLMは推論できない」論文(数年前の、Appleではない誰かの論文)では、通常、モデルが持つ何らかの制限を攻撃しようとします。以前のパズルの多くは、これから言おうとする文の単語数を数えることができないというものでした。まだ推論がなかったので、それを考え抜いて、そのデータを取得してから数えることができませんでした。

人間もできないことです。私は次の文が持つ単語数を言う前に予測できません。書いて、言ってから数えないと。

多くの問題は家具の配置のようなもので、特定の制約を満たす必要がありました。今、推論モデルがあるので、もちろんそれらすべてで100%成功するでしょう。だから今では厳密に、他の論文もコンテキストウィンドウの制限がありました。ただコンテキストウィンドウが失敗するところを叩いているだけです。

このApple論文は現在100%コンテキストウィンドウです。だから、それには多くの欠陥があります。1つ目は推論とは何か、2つ目はLLMが推論として適格なことをする例は何か、その時点で「はい、彼らはそれができる」と言うでしょう、そして3つ目は既存の制限をただ叩かないでください。

誰かが制限を拡張した場合、もっと興奮するでしょう。「ここに私たちがぶつかった制限があります。それを克服するためにこれらのことを試しました。そのうちの1つは成功したかもしれません」と言ったら、それは私をもっと興奮させるでしょう。それは貢献です。

モデルは推論できないとGenericに言う論文を発表するとき、反応は「いや、モデルにXをさせることはできない」となる実際の危険があり、誰かがすぐに振り返って、論文のより困難な問題の1つであった10個のディスクを使ったハノイの塔を03 Proの1つのモデルにやらせました。それをツール使用なしで正しく行いました。それは一連の長い動きなので非常に驚くべきことです。

そして他の誰かがツール使用でClaudeの以前のバージョンでそれを行いました。論文の主要な例の1つは、論文が発表されてから数週間以内に、コミュニティの一部の無名の人によってすでに反証されました。それはちょっと悲しいことです。核心となる論文を証明するためにあまり努力を払わなかったということを意味します。

科学的真実の受容に関する考察

これらの様々な研究論文がLLMを攻撃したり、ヤン・ルカンのような人々がプレスツアーで攻撃したりするのを見ると、マックス・プランクのこの引用を思い出します。「新しい科学的真実は、その反対者を説得して光を見せることによって勝利するのではなく、その反対者が最終的に死に、それに慣れ親しんだ新世代が育つからである」

私の姪を見ていると、彼女はChatGPTと遊んで話しかけることができ、非常に嬉しそうです。20年、30年後に彼らの世代がこれらの質問にそれほど焦点を当てて考えるかどうか疑問に思います。

私自身にとって、ベンチマークとベンチマークポルノについて言えば、GPT-4が出た初期の日々にベンチマークの飛躍と物事がどのように改善されたかを見るのはクールでした。これは意味がありました。しかし時間が経つにつれて、他の企業がやっているゲーム、例えば「GPT-4のワンショットと私たちのモデルの10,000ショットを比較してみよう。このベンチマークでどう改善したか見てください」といったゲームに注目するようになりました。

だから私はSweetLancerや他の測定法により焦点を当て始めました。例えば、ChatGPTがリリースされたとき、Fiverrでの求人投稿が17%減少しました。人々が「このモデルを使えるから、クリップアートやコピーエディターは必要ない」と言っていたからです。Stack Overflowもトラフィックが完全に激減しています。

私にとって大きな指標は、SweetLancerのようなベンチマークになるでしょう。人々が実際の開発者と働いていると思ってLLMにお金を払っているのに、お金を交換していることを知らない場合です。

明確にしておきたいのは、開発者にとって将来的に多くの仕事の安定性があると思います。エンジニアリング作業はコーディング以上のもので、問題の枠組み設定、内部または技術的複雑さへの対処などがあります。私は「すべての仕事がなくなる」という人の一人ではありません。

私にとって大きな指標は、様々なテック企業で働いている友人たちから「私たちは特定の役割を担うAIエージェントの代わりに人員を見送ることにした」と聞くときです。まだそれを聞いたことがありません。これらすべてのスタートアップが「私たちはエージェント的なこれやそれ」と言っているとき、彼らはLLMを使って人々を補強しているのです。それはクールですが、そのもので人員を置き換えているわけではありません。

Apple Maps の失敗から学ぶ教訓

最後に、話をまとめるために、2012年にAppleに何が起こったか覚えていますか。どんな論争があったでしょうか。

Apple Mapsです!Appleは「GoogleとGoogle Mapsなんてくそ食らえ。自分たちでやる」と言いました。そしてApple Mapsができて、Apple Mapsは人々を間違った方向に案内していました。

私はGoogleのオフサイトを組織していて、サンタクルーズ山脈に行く予定でした。Bevmoに行って高品質な酒で買い物カート2つ分を手に入れ、それからArmadillo Williesがリブとブリスケットなどでいっぱいのバンで現れる予定でした。そして公園チームが現れてジオキャッシングをする予定でした。サンタクルーズでは夏が美しいです。

バスで運転手が私たちをそこに連れて行き、彼が行っているルートを見ていて、どこかで引き返していると思いました。彼のところに行って「大丈夫ですか」と言うと、「申し訳ありません。このApple Mapsが間違った方向に案内しています」と言いました。座席の皆が笑い始めて「Google Mapsをダウンロードして。大丈夫になります。Androidを手に入れて」と言いました。

その論争は非常に大きく、AppleのシニアVPの一人が辞任し、ティム・クックに大きな痛い傷跡を残しました。彼はオペレーションの人なので、すべてが完璧なフィット&フィニッシュを望んでいて、おそらくその1年か2年間、マップで道に迷ったという人々の文句を絶えず聞いていたでしょう。

彼の脳に刻み込まれたのは、「二度と、iPhoneで何かをローンチするつもりなら、完璧でなければならない」ということだったと思います。LLM側では、そのフィット&フィニッシュレベルまで到達できず、「もういい、Siriインテリジェンスは2026年半ばまでアップグレードしない」と言いました。その数字に到達できるかどうかさえわかりません。

だから他の企業に勝てないなら、批判して、AI研究論文をリリースし始めて「この技術は最悪だ」と言うのです。それが今Appleがいる場所です。できないから批判しているのです。

最先端AI研究:推論と自己改善の論文

外部報酬なしの推論学習

「外部報酬なしに推論を学ぶ」というバークリーからの論文について話しましょう。これは奇妙です。私はこれについてのビデオを作る予定なので、まだ読んでいない人のために説明すると、これは不思議で、なぜこれが直感的に理にかなっているのか100%理解できません。

検証可能な外部報酬を使う代わりに、モデルが質問に答える能力にどれだけ自信を持っているかを見ようとしているようです。もちろん、より自信があればあるほど、正しい答えを得ることと相関しているのです。自信がなければ、そうではありません。

信頼度とは、答える方法についてどれだけ多くの異なる分岐アイデアを持っているかという意味のようです。より狭いということは信頼度を示唆し、100万の異なることがあり得るなら、それは自信がないということです。しかし、彼らは答えにより自信を持つことが強化学習の報酬だった場合どうなるかと尋ね、どういうわけかそれが精度を向上させました。

これは直感的に意味をなしますか。これについてどう思いますか。

内部信頼度を強化学習の種類のスコアリングメカニズムとして使っているんですね。信頼度は実際にはモデルをどう訓練するかを教えてくれるわけではありません。ただこの回答がより正しい可能性が高いと言っているだけで、それから正しい答えと元の質問を選んで、モデルの別のラウンドでRL訓練をすることができます。

そこで2つのステップが起こっています。しかし、あなたに同意します。信頼度を使って答えがより正しい可能性が高いかどうかを決定するのは、無から有を得ているように見えます。答えが正しいかどうかを知るべきではないでしょうか。

しかし、この信頼度ベースのメカニズムを見る前に、セルフコンシステンシーのようなものを見ました。モデルを16回、32回、または64回サンプリングして、最も一般的だった答えを取るのです。これも奇妙です。まず、同じ質問を何度も何度も尋ねると、なぜ答えが異なるのでしょうか。それはモデルの統計的性質によるものです。

そして、統計的性質があるなら、より頻繁に正しい答えを与える傾向があり、正しい答えは一緒にクラスターする傾向があるのに対し、間違った答えはより分散している傾向があります。彼らは異なる方法で間違っているからです。それは奇妙です。

いずれにせよ、セルフコンシステンシーでも、この内部信頼度でも、結果は正しい答えを得ることです。そして正しい答えに元の質問を加えて、RLのラウンドを行います。そこから得られるモデルは、始めたものよりも強力です。これも少し疑わしいです。そしてそのプロセスを繰り返すことができます。なぜなら今、より強力なモデルがあり、さらに多くの正しい答えについてさらに自信を持っているからです。

これのどのくらいが、ジョー、ある意味で剪定のようなものだと思いますか。これらのモデルで事前訓練を行い、すべてのテクニックとRL側は、ノイズを削り取り、必要な蒸留された情報にモデルを到達させるのを助ける優秀な庭師のようなものではないでしょうか。パフォーマンスが向上します。その類推はどれくらいひどいものでしたか。

それは素晴らしい質問で、剪定は良い類推だと思います。事前訓練、つまりテキストデータの大きなコーパスでの通常の訓練を見ることができ、それがモデルに世界についての多くの情報と多くのアイデア、良いアイデアか悪いアイデアかわからないアイデアを与えていると言うことができます。それはインターネットデータなので、あらゆる種類の異なるアイデアがあり、モデルはそのデータのパターンを探しています。

正しい答えがそのパターン形成によって導かれると仮定しなければなりません。パターンは正確性に向かう傾向があるからです。それも一貫性に関連しているからです。その事前訓練の終わりにモデルにあるのは、多くの良いアイデアですが、モデルはまだ確率的で、そのコレクションには悪いアイデアもあります。

あなたの剪定の類推は、正しい推論のトレースや正しい方向を特定し、それらを強調することのようなもので、それが強化学習のすべてです。強化の部分では、悪い答えを排除するのではなく、正しい答えに重みを加えて、悪い答えをちょうど色あせさせるのです。

MIT の自己適応言語モデル

MIT からの自己適応モデルについて見てみましょう。本当に興味深いことを示しています。彼らには素晴らしい類推があります。学校に行き、すべての教科書を読み、すべての講義を読み、それからノートを書き、すべての情報をノートに圧縮し、それからそのノートを使って勉強し、そのノートから勉強するという学生のようなものです。それは非常に効果的です。

興味深いことに、彼らはそれを行っていますが、モデルは教師ありファインチューニングを通じてこれらの自己編集を行い、重みを変更することもできます。基本的に、特定のタスクを行うためにファインチューニングされた、いわばモデルの脳の動作を変更し、自分自身でそれを行っています。

私たちが話していることの1つは、自律AIエージェントはまだすぐそこにはないかもしれないということです。これらのものは長期的なタスクで崩れる傾向があり、長期的な一貫性と一貫性がないからです。その理由の一部は、モデルが静的だからだと思います。つまり、訓練されて、それが仕事に行くようなもので、1日目には特定の脳を持っていて、それは変わりません。100日目に情報、知識を更新しません。書き留めることができるもの以外は。

これはもう少し流動的に見えます。リアルタイムで知識ベースと重みと能力を更新できるという意味で。だから、これは大きな問題のように思えますが、この論文について話せますか。

この論文はさらに恐ろしいです。私はその宿題をしていません。ジョーかウェス、あなたが持っていますか。

この論文は前の論文と非常に似たアイデアを使っています。モデルにフィードバックや訓練の提案を求めて、それからウェスが言ったように、実際にモデルの重み自体でファインチューニングを行うのです。

RL訓練を検証者や報酬信号が必要なものとして考えるなら、あなたの報酬は、訓練したいものに特定のテストを実行した後、モデルの重みを修正するような訓練の後です。それがどれだけうまくいくかを見て、それがRL側に戻ってくる報酬です。

2つのことを一度に訓練しているのです。いくつかの例、理解してほしい新しいデータでモデルの重みを訓練し、元のモデルを訓練パラメータと例をどれだけうまく提案できるかで訓練しています。それはかなりクレイジーです。モデルを他のモデルの訓練方法を理解するように訓練しているようなものです。

ウェスと私は以前これについて話しましたが、それは長いサイクルです。10億パラメータという比較的小さなモデルを使っていると思いますが、LoRAベースの訓練更新を行い、それからいくつかのテストを実行するのに60秒かかります。それはRL報酬信号を待つには長い時間です。

小さなモデルでもコンピュートの量がかなり大きいということを見逃しましたが、大きなモデルの場合、1つの新しいデータアイテムを訓練するだけでも更新を得るのに数分待つかもしれません。

この方法について恐ろしいことの1つは、なぜLoRAアップデートだけなのかということを示唆していることです。完了後にアップデートを廃棄することに注意してください。彼らが実際に欲しいのは報酬信号だけです。しかし、多くのそのようなサンプルを行った後、それらすべてを収集して、別のモデルを更新したい場合の訓練セットとして使用することができます。

さらに、最初のモデルに小さな訓練実行のハイパーパラメータだけでなく、モデル自体への変更を求めることもできます。レイヤーをいくつ持つべきか、レイヤーをどれくらい広くするべきか、注意メカニズムを変更するかもしれない、トランスフォーマースタック自体にどんな変更を加えたいかもしれません。それは通常RLリサーチャーやMLリサーチャーがすることですが、元のモデルにそのような種類の質問をすることもできます。そうすれば、フィードバックを得るまでのより長い期間があるでしょう。

研究者の一人がTwitterで、最終的なアイデアは教師と生徒モデルのようなものだと言っているのを見ました。それらを分離し、すべてのデータがより良い提案をするモデルを訓練するために使用されます。

Alpha Evolveに似たより多くのものが出てくるのを見ています。アイデアは、これらの大型言語モデルをパイロットとして持ち、その周りに様々な足場を持つことです。モデルが多くのものを投げ出し、トリックは出力をどれだけうまく評価できるかのようです。

出力を評価してテストし、それからダーウィンの目標機械のような何らかの進化的樹探索を行うことができるなら、それは同じことです。自分自身のコーディング能力を向上させることができます。だから、出力を評価してから、このクラスターまたはこのアイデアの系譜が本当にうまくいっているようだ、その系譜を考え抜こうということができるなら、最終的な出力を評価できる場合、それは信じられないほどうまく機能するようです。

彼らが同じことをしている別の論文を見ました。カタンの開拓者をプレイングしていて、かなり上手になり、多くの異なることをテストし、オンラインで研究して戦略を見つけています。おそらくこれを確実に多くのことに適用できるでしょう。

NvidiaのDr. Jim Fanとチームは、Nvidia の Voyager と Eureka などで最初にそれを行った人の一人だったと思います。最初に見たとき、「待って、この物はGPT-4から多くの答えをサンプリングするだけでシミュレーションでこれらのロボットを訓練する能力を向上させている」と思いました。

論文の最後で、タスクの難しさが向上するにつれて、人間よりも良くなるだけでなく、人間が思いつくアイデアとモデルが思いつくアイデアの間に発散があると言っていたのを覚えています。だからそれは私たちが必ずしも考え抜くことができない、思いつくことができない新しいアプローチのようなものです。私は「もしこの進歩を止めるものが何もなければ、非常に興味深いアプリケーションがたくさんありそうだ」と思いました。

Anthropicの論文は、彼らがMLリサーチャーの仕事を自動化することにどれだけ近づいているかについて話しているし、OpenAIも同じメトリックについて言及しています。なぜなら、あなたがほのめかしているのは、平均的なMLリサーチャーが平均的な日に行う種類のタスクを処理できるシステムを実証できれば、自動化されたシステムが自分自身のチームメンバーの努力を補強するような種類の離陸を得るでしょう。そして、あなたが言ったように、どこかで上限に達しない限り、収穫逓減がない限り、ただこの傾斜を得て、システムはただ改善し続けるでしょう。

OpenAIにはML Paper Benchがあると思います。文字通り、機械学習実験についてのPhD論文を与えられた場合、コードベースを複製し、その実験を実行し、それを確認できるかということです。まだそこには到達していませんが、どんどん良くなっているようです。だからある時点でその線を越えると感じています。

この自己適応言語モデル論文は確実にその方向への一歩です。彼らの最後の提案は、さらに1年か2年の作業を行えば、その方向にもう一つ大きなステップがあるだろうということをほのめかしています。

MLリサーチャーとそのチームの平均的なタスクを実際に処理できるようになるまで、どれくらい離れていると思いますか

それは非常に、つまり、明らかに私には全くわかりません。これらのことについてあなた方に委ねます。しかし、要点は、ライブストリームの皆さん、今ライブチャットにいる皆さんにとって、あなた方はでたらめを聞いたときにそれを指摘するからです。だから誰かがどこに行くか、何が必要かについてクレイジーなアイデアを持っているなら、あなた方は「いや、これが理由だ」と言います。そしてそれに対する非常に良い説明をします。

しかし今私たちが聞いているように、AI研究が自動化されたらある種の離陸というアイデアは、何らかのクレイジーな科学的パイプドリームではありません。これらの論文が示唆し始めているように、私たちがそれに近づいているかもしれないのです。

サム・アルトマンの最近の論文「穏やかな特異点」を読んだと思います。私に飛び出してきたフレーズの1つは、再帰的自己改善の幼虫段階にいると彼が言ったことです。私はStarcraftをプレイしていたので、Zergを思い浮かべて「私たちは今感染していると言っているのか」と思いました。

しかし、それを見る巧妙な方法だと思います。なぜなら、まだそこにはいないが、その糸を引き続けるとほつれそうなこれらの多くのことを見ているからです。Alpha Evolveやこの他のすべてのもので、それはすべて私たちがその再帰的自己改善AIに近づいているように見えます。限界にぶつかるかもしれませんが、わかりません。

減収逓減を見ると仮定しても、指数関数的ではなくS曲線だとしても、S曲線でもまだ長い道のりを歩むことができます。そして上の限界に達したとき、それは他の潜在的改善を明らかにすることができます。これらの大型モデルの単なる訓練で上限に達すると思っていましたよね。GPT-5がそれほど差し迫っておらず、それほど良くなく、Claude 4についても同じで、Metaは言うまでもありません。

しかし、テスト時間計算、推論時間が入ってきて、それは別のスケーリングの種類の環境で、そこでもまだ大きな改善を見ています。それもある時点で上限に達すると仮定します。モデルに何かに取り組むために1時間か2時間を与えても、30分与えるのと比べて大きな改善は得られないでしょう。正確な限界がわからないとしても、それは大丈夫です。それはモデルの能力をスケールする別の独立した方法で、今議論している種類のことは3番目か、今何番かわかりませんが、興味深い改善を得る別の方法かもしれません。そしてそれが上限に達しても、おそらく他の方法を明らかにするでしょう。

収穫逓減の法則とボトルネックは常に異なる方法で現れ、私たちは改善する方法を見つけるでしょう

多くの人々がやろうとしていることは、人類にとって制限が永遠にない地点に達するという万能薬を売ろうとしていることです。私たちは3Dメガネをかけてポップコーンを食べて、AGIが離陸するのをただ見ているのです。

このML研究者を自動化するためにこれらのモデルを使うことについて、私にとって指標となるのは、これらのAIラボが今採用を遅らせているか、特定の役割により少ない給与を払っているかということです。これらの研究者の一部に年間100万、200万、300万ドルを払っていて、それは会社の他の場所に行く可能性のあるお金だからです。

そして、それは必ずしもうまくいかないかもしれません。私たちが非常に感謝しているドクター・マイクが「でもジョーダン、起こりうることは、今度はより多くのAIエンジニアを雇って、これらのモデルを使ってさらに効率的にしたいということかもしれない」と言うかもしれません。皮肉屋は「コードベースを50倍にして、ここで物事をより複雑にしたいかどうかわからない。おそらく状況により多くの体を投げることは答えではない」と言うかもしれません。

それがすべてどのように揺れ動くかを見るのは興味深いことです。私たちは115-120分の制限に達していて、パート2に移らなければなりません

まとめと今後の展望

ライブストリームを約1時間20分に制限したかったので、ここでSVIC podcastでこの会話を続けることにします。まだ私たち3人ですが、もう少しQ&Aをやる予定です。

次に私たちが話したかったのは、DeepSeek、中国です。DeepSeekの新バージョンは、以前OpenAIに似ていたのに対し、今度はGeminiモデルにより似ているように聞こえます。DeepSeekの訓練アプローチを分解した論文もあります。GRPOとPOの比較や興味深い発見があります。

皆さん、どこにも行かないでください。このリダイレクトをどうやるかを理解して、その後1、2分以内に参加します。Riversideでの録画を停止して、すべてがアップロードされるようにします。元々送ったカレンダーのリンクで会いましょう。

誰も去らないでください。1、2分でこの会話を続けます。そこで会いましょう。

コメント

タイトルとURLをコピーしました