元Google役員が明かす次に来るもの…

Google・DeepMind・Alphabet
この記事は約51分で読めます。

この動画は元Google役員らによるAI業界の最新動向に関する詳細な解説である。MetaによるScale AIの140億ドル買収、Appleの物議を醸すAI研究論文、自己改善型AIモデルの進歩、そして中国のDeepSeekの台頭まで、業界内部の視点から幅広いトピックが議論されている。特にM&A戦略、規制回避手法、そしてAI研究の自動化に向けた技術的進歩について深く掘り下げており、AI業界の未来を占う重要な洞察が含まれている。

ex-Google Director Just Revealed What's Coming Next...
WATCH PART 2 HERE:The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the...

配信開始とScale AI買収の話題

今日はお忙しい中お越しいただき、ありがとうございます。いくつか素晴らしい話題について話し合う予定です。実は私、メモを持ってくるのを忘れてしまいましたが、まあ大丈夫ですね。そして最初に申し上げておきたいのは、ここではRiversideからOBSまで、様々な技術を使用しているため、このライブ配信が技術的な問題なく完璧に進行する可能性は0%だということです。皆さんにあらかじめ警告しておきます。

それから、我々は皆イーロンのようにケタミンをやっていますので、そういうものだと思ってください。後でGammaを使ってScale AIとこの買収騒動について発表を作成する予定です。では、WesとJoeが最初に何について話したいか聞かせてください。

Joeが素晴らしい論文をいくつか送ってくれました。私は以前にそのうち1つしかカバーしていませんでしたので、ぜひそれらについて話し合いたいと思います。Scale AIがMetaとやっていることはどの程度興味深いものなのでしょうか、それとも大したことではないのでしょうか。そして確実に言えるのは、国防総省とシリコンバレーの技術企業、そして戦争関連のものとの間にますます重複が見られるということです。

あなた方は業界のインサイダーですから、ライブ配信を見ている多くの人にとって、これは真の内部者の視点になると思います。もちろん、あなた方の意見はGoogleやこれまで働いた会社の意見ではなく、あなた方個人の見解であることは明らかです。そのことについてぜひご意見をお聞かせください。

我々は確認済みの陰謀論者です。私はスタートレックの制服を脱いだばかりでした。ショーのために着ていくべきでしたね。David Shapiro風に昔ながらのスタイルで話そうと思います。あなたはセキュリティ担当ですか?あなたのは金色ですか、それとも赤色ですか?私のは赤です。レッドチームですね。ブルーチームの人もいることは知っていますが、このエピソードを最後まで見るのは誰になるか知りたいだけです。私はレッドチームなので最初に死ぬのです。それが運命なのです。

残念ながら私は映画俳優組合のメンバーではないので、早めに殺されなければなりません。では、私は企業の売国奴なので、さっそくプレゼンテーションを作成しましょう。

Meta×Scale AI:140億ドルのパワープレイ

その間、私はマイクをいじりますので無視してください。そしてJoe、Wesは、いつでも私の話を遮って何か持ち込んでもらって構いません。

モデルがこの写真を選んだのですか?実際、私がMark Zuckerbergと言ったら、彼のチェーン付きの写真が出てきました。これはストック写真か、それとも本当に印象的なものかのどちらかですね。

ライブ配信のコメントで「この気持ち悪い奴は、俺がSam Altmanの悪口を言ったときに俺をチャンネルからブロックした」と言っている人がいますね。いや、私があなたをブロックしたとしたら、それはあなたが嫌な奴だったからでしょう。

さて、Meta×Scale AIの140億ドルパワープレイです。MetaはScale AIとの140億ドルの現金・株式交換取引を最終調整中です。これはFacebookにとってWhatsApp買収に次ぐ2番目に大きなM&A案件となります。WhatsAppを買収した際、彼らは当時の時価総額の10%をその会社に支払いました。

WhatsApp買収が発表された当時、あなたの反応はどうでしたか?私は愚かなアメリカ人で、WhatsAppという素晴らしいものに触れたことがなかったので、「なぜこんな取引をするんだ?これはただのチャットメッセンジャーじゃないか。なぜテキストメッセージを使わないんだ?」と思っていました。

そして最終的に、シリコンバレーで家を借りていたのですが、素晴らしいインド人の人たちがたくさん引っ越してきて、彼らは「もし私たちと話したいなら、WhatsAppを使う必要がある」と言いました。それで今では私はWhatsAppをあらゆることに使っており、完全に理にかなっています。そして最終的にJoe、WhatsAppが収益化されるというニュースが出ました。ついに広告を入れ始めるのです。

あなたはしばらくの間そのことを提唱していましたね。その赤ちゃんを収益化しなければならないのです。そういうものです。

それで、私はZuckが基本的に「もしLLMをすべてに入れるなら、この推論コストが積み重なっていき、事前学習コストとすべての設備投資を考えると、株主に対してこれを何らかの方法で正当化する必要がある」と言っていると見ています。

とにかく、Scale AIの取引について、人々は「彼らはAlexander Wangに140億ドルを支払っている」と言っていますが、時価総額の割合として見ると1%未満です。現在は数兆ドルの価値がある一方、当時とは比較になりませんが、この案件が完全に失敗しても、Facebookにとってはまだ端数に過ぎません。私はこれは良いリスクだと思います。高いアップサイドの可能性があり、ダウンサイドは最小限です。

Alexander WangがMark Zuckerbergが募集している新しい超知能チームを率いることになります。そして彼はエンジニアたちに電話をかけ、8桁から9桁の給与を提示して「ぜひ参加してください」と言っています。そしてこれは基本的に、Llama 4の大惨事の後で彼らをゲームに復帰させるためのものです。

Llama 4は本当にひどいものでした。私は文字通りラップビデオを見せて「あれがMark Zuckerbergだ。彼はとてもクールでスワッグがある」と言っていました。子供たちの言葉で言えば「彼はとてもイケてる」みたいな感じです。私は年老いたミレニアル世代なのでよくわかりませんが。そしてLlama 4が出てきたときは「一体何が起こっているんだ?」という感じでした。

Joe、内部で何が起こったのですか?なぜそんなに早く、そして否定的な方向に転じたのでしょうか?彼らは内部的ではないが公的なベンチマークを打ち負かそうとしていたようで、少し無理をした、少しごまかしたのかもしれません。適切な言葉がわからないのですが、そしてこれらのベンチマークで良い成績を出したと宣伝したものの、モデルは他のことでは良い成績を示さなかったため、非常に否定的な反応を得ました。それで人々は熱意を失ったのだと思います。

M&A取引の種類と規制回避戦略

Machine Learning Street Talkの人が基本的に25分間のビデオを作って、これはすべてGoodhart’s lawやCampbell’s law(社会科学オタクのための法則)だと言いました。基本的に「雇用を増やす必要がある。その数字に焦点を当てよう」と言うと、人々はゲームをして「よし、スプーンで溝を掘る人を雇おう」と言うようになります。ここでのベンチマークでも同じことが起こっています。

しかし人々は恐らくM&Aで何が起こっているのか混乱しているでしょう。Jordan、これについて光を当ててください。私はHoliday Inn Expressから戻ったばかりなので、これについて最善の見解を提供します。

主要なM&A取引には3種類あります:アクアハイア、ライセンス・アンド・リリース、そして株式購入です。

アクアハイアは基本的に美化された採用活動です。ですから、友人や知り合いが「GoogleやFacebookに買収された」と自慢しようとするときは、「それはアクアハイア取引だったのか、それとも完全な株式購入取引だったのか?」と聞くべきです。もしアクアハイア取引だと言うなら、それは基本的に彼らが実際にはほとんど何も支払われなかったということを意味し、Googleが「あなたの会社には企業価値がない。我々はあなたの会社は欲しくない。ただあなたの従業員全員を雇いたいだけで、追加の保持金を支払うかもしれない。それは金の手錠だ」と言ったということです。

HBO の「Silicon Valley」を見た人はいますか?Joeは見ないでしょう。なぜなら、それは「ドリアン・グレイの肖像」のような話で、見るとPTSDになるからです。私は1エピソード見ましたが、M&A交渉をやっていて、それを見てPTSDになりました。

でも、すべての創設者が屋上でビデオゲームをしているシーンがありました。「待って、君はここで何をしているんだ?彼らが君を買収したのに、君は何もしていない」「ああ、我々はただrest and vestしているんだ。保持金が支払われるまで3年間ここにいて、それから去るんだ。その間、企業は我々に何もしてほしくないんだ」。

私とJoeが昔管理者をしていたとき、私が管理していたディレクターの一人が買収されました。何らかの理由で、Googleの製品チームは天才である彼に何もしてもらいたくなかったので、彼はただ自分のオフィスに座って投資をし、子供たちのメンタリングをしたりしていました。そして彼はVPが何かしようとするたびに手を上げて「あなたが何をしようとしているかわかるが、おそらく上手くいかないだろう」と言うのですが、彼らは彼を無視し、案の定失敗するのです。

とにかく、2010年代のほとんどの取引はアクアハイア取引でした。なぜなら、ほとんどのスタートアップのアイデアは失敗するからです。

それからライセンス・アンド・リリース取引があります。これは基本的に「我々はあなたのチームが欲しいし、あなたのIPの一部も欲しい。あなたのIPはまあまあだが、実際にはあなたのビジネスは欲しくない。なぜなら、あなたは『ホットドッグかホットドッグじゃないか』アプリを作ったかもしれないが、それは愚かだが、その下に素晴らしい画像認識モデルがあって、それを他のものに再適用しようと思っているから」ということです。

昔、これらのライセンス・アンド・リリース取引では、投資した1ドルに対して85セントくらい戻ってくるかもしれませんでした。運が良ければ10セント戻ってくるかもしれないし、もしかしたら1ドル全額戻ってくるかもしれません。

しかし、規制環境が変わったのです(後で詳しく説明します)。そして今、すべてのAI企業が「ライセンスが再び流行している。規制の熱から逃れるためにそれらの取引を始めよう」と言っています。

それから完全な株式購入取引があり、これは誰もが支払いを受ける取引です。SalesforceがSlackを買収したとき、GoogleがWhizを買ったとき、これは基本的に「あなたの株式に対して巨大なプレミアムを支払う」ということを意味します。投資家は100倍や1000倍、あるいはばかげた倍率を得ることになります。これらがお金持ちになる大きな素晴らしい取引です。

FTC規制回避戦略

ライセンス取引がFTCのレーダーの下を潜り抜ける理由について説明しましょう。FTCにとって多くのことは、鉄道を解体するために使用された独占禁止法に基づいています。当時、金ぴか時代の鉄道や石油会社が強すぎる力を持っており、その影響力を使って中小企業を圧迫していると人々が考えていたからです。

そこでFTCが見るのは、例えば検索のような市場があるかどうかです。我々は皆、もしGoogleがBingのような他の検索プレイヤーを買収しようとしたら(それは意味をなさないでしょうが)、FTCが「ちょっと待って。Googleはすでに市場の80-90%を持っている。それでBingを買って数パーセントポイント増やしたら、FTCは『あなたはすでに独占状態にあり、それに取り組んでいるが、これは超独占のようなものになる。価格を上げるだろうから、これを防ぐ』と言うでしょう」ということを知っています。

しかし、ライセンス・アンド・リリース取引をする場合、会社を買うのではなく、IPの一部と人材を取るだけですが、その組織はまだ存在し、死のうが構いません。しかし重要なのは、以前のようなFTCの審査を受けないということです。

今、FTCは変わって、Scale AIの取引でMetaが49%を所有し、過半数は持たないが、実質的にはAlexander Wangがまだ取締役会にいて、おそらく取締役会席を得るでしょうし、Alexander WangはFacebookにとどまるためにさらにお金、おそらく株式を得るでしょうから、彼はFacebookがScale AIの会社の未来のために望むことと一致すると思いますか?はい。だから彼らは、49%ではないが事実上の買収だと言って調査する可能性があります。しかし、我々は見守るしかありません。

これらのタイプの取引をすると、規制の迅速な承認を得ることができます。3日前に見たかもしれませんが、Googleが数ヶ月前にWhizを320億ドルで買収すると発表しました。その取引は、彼らが3年前にその会社を始めてから320億ドルの支払いを得たということです。それが彼らの2回目の買収でした。以前にMicrosoftに買収されたことがあったからです。

今彼らの唯一の問題は、ヨットだけでなく、支援ヨットとヘリコプターが入れるヨット空母を手に入れたいということです。しかし、その取引の問題は、ニュースが入ったことです。FTCがWhizについて審査を行っているので、1年間の承認を経なければならず、FTCは今技術を好きではありません。共和党も民主党も彼らを嫌っています。

Figma-Adobe取引のように、事態が崩壊する可能性があります。Adobe取引が崩壊したのは、イギリスのCMA(彼らのFTCのようなもの)がその取引をブロックしようとしていたからで、Adobeは「もうやめよう」と言って巨大な解約料を支払いました10億ドルだったと思います。「実際に我々はこの取引に高く支払いすぎた。これが10億ドルだ」と言って、株主たちは取引が崩壊したときに非常に喜びました。

Joeはその業界をよく知っているので詳しく説明してください。昔Adobeで働いていましたね。AdobeがFigmaと競争できなかったのは驚くべきことです。つまり、彼らは大きな警告を受けていました。アプリがオンラインに移行し、コラボレーティブになっていくのを見ていました。すべての生産性アプリで見られました。

Figmaの最初の製品は描画製品で、これは本当にAdobe側のIllustratorと競合していたでしょう。しかし、Figmaの創設者が望んでいた方法では離陸しませんでした。彼らははるかに大きなビジネスを望んでいたので、図面に戻って、今日見ているFigmaになったよりデザインに焦点を当てた製品を思いつきました。

Adobeには少なくとも2年間の警告があり、この技術が来ることを知っていました。彼らは大金を費やし、自分たちのチームを構築し、おそらく5年以上にわたって競合製品を構築しようとしました。確かMXという名前だったと思いますが、それは決して多くの熱意を生み出すことができず、彼らはFigma買収を行ったときに最終的にそれを閉鎖しました。

そして彼らがFigmaを買収したとき、彼らは途方もない金額を支払いました。つまり、AdobeはFacebookよりもかなり小さいので、おそらく時価総額の数パーセントだったと推測します。そして彼らが支払った金額は、取締役会が実際に投票しなければならない閾値のすぐ下だったと思います。つまり、CEOと彼のチームがその限界の下に入るようにこの取引をまとめ、承認を必要としなかったのです。なぜなら、彼らがその承認を得られなかっただろうと確信しているからです。そして取引が崩壊したとき、誰もが歓喜し、彼らの株価は回復しました。

よく言われました。彼らは確実にあの取引で高く支払いすぎていました。取引で高く支払いすぎているかどうかの良い兆候は、ウォール街が買収会社の株式をどれだけひどく叩くかです。あまりにも高すぎる場合、通常は株価が暴落するのを見るでしょう。

感嘆符として、Meta株は過去2日間上昇しています。ZuckerbergがこのAI目標に倍賭けしていることを人々が歓迎しているのです。2つの良いニュースがあります。1つは彼がAI組織を再構築していること、2つはWhatsAppを収益化していることです。私たちがここにいる皆が「ああ、あなたたち企業の売国奴たちがうんぬん」と言っているのは知っています。我々はただウォール街がここで何が起こっているかについてどう思っているかを教えているだけです。我々が気にするのは、あなたがWesのチャンネルにライクとサブスクライブしてくれることと、我々のチャンネルにもしてくれることだけです。

Scale AIの実態と将来性

ライセンス・アンド・リリースについて人々が話さないもう一つのことは、買収された会社からの責任がないということです。会社を買収すると、その全体の法的履歴と責任を買収することになります。彼らは以前にとんでもないことをしていた可能性があり、あなたはまだそれに対して責任を負うことになります。

以前なら弁護士たちは「まあ、それは数百万ドルの価値の会社だった。おそらく追求したくない」と言うでしょう。でも今はGoogleが所有している、それは数兆ドルの企業だ。これは集団訴訟にとって興味深いかもしれません。

余談として、私がGoogleで働いていた買収の1つは、我々の最も迅速に完了した取引の1つでした。取引の通知を受けてから2-3週間で完了しました。それはアクアハイアで、Homejoyという会社からでした。基本的に彼らがやっていたことは、あなたの家の清掃サービスのUberになろうとしていました。これはUberがカリフォルニア州と戦争状態になり、Uber運転手を請負業者として分類し、正社員ではないとする提案を得る前のことでした。

Homejoyはまだそこまで到達しておらず、彼らはビジネスでうまくやっていましたが、Uberほど大きなポケットを持っていませんでした。そして彼らは次のラウンドの資金調達のまさに最中にいて、カリフォルニア州が彼らに対して訴訟を起こしました。

それを組織していた女性(名前は忘れましたが、彼女は素晴らしい人でした)は、効果的に「まあ、すべてのVCが撤退したので、資金調達はないだろう」ということになりました。それで彼女は我々のところに来て、我々はアクアハイアを行うことができました。我々は「カリフォルニア州の訴訟とは何の関係も持ちたくないが、あなたの従業員全員がGoogleで良い仕事に就けるようにしよう」ということでした。

それで我々はそれをかなり迅速に完了し、我々がすべての人々に良い仕事を与え、ピンクスリップを渡さず、彼らが住宅ローンを支払い、Googleで素晴らしいことができるようになったので、それは私のお気に入りの取引の1つでした。

ライセンス取引が再びクールになっています。ここに主要なものがあります。我々にはMicrosoft Inflection ライセンス・リリース取引で6億5000万ドルがあります。それからGoogleとCharacter AIで27億ドルがあります。それによってGoogleはNoam Shazerと他の数人を得ました。Noamは「Attention is All You Need」の著者の一人で、本当に本当に優秀なエンジニアで、そこから約30人の研究者を得ました。

それからAmazonがAdeptとの取引で3億3000万ドルを行いました。そして我々にはMetaのScale AI取引があり、これは投資ですが、彼らはCEOと一握りの従業員も得ているので、ライセンス・リリースのように感じられます。

Meta Scale AI取引はGoogle Character AI取引に非常に似ているように感じられます。あなたが言ったように、彼らはCEO創設者と数人の主要研究者を抽出している部分が非常に似ています。彼らはある種規制当局を避ける方法でそれを構造化している、それも同じように感じられます。そしてすべてのコンポーネントを見た後、アクアハイアのように見えるもののための信じられない金額です。

しかし今、評価ポイントについてのスライドがありますが、あなたが言ったように、これは確実に信じられない金額に見えます。

Scale AIは2016年にAlexander WangとLucy Guoによって設立されました。彼らはデータラベリングと評価を行っており、その下に2つの異なるサブ組織があります。Lucy GuoはScale に残るのですか、それともMetaに来るのですか?彼女はScaleに残るように見えました。彼女はかなり著名なので、彼らは言及したでしょう。

Alexander Wangが送ったメモでは、自分がまだScale の取締役会にいること、そして戦略担当のチーフスタッフがCEOになることなど、ほとんど何も変わらないと述べていました。しかしLucyについては何も言っていませんでした。

彼らには2つのサブ組織があります。Scale AI Oneは基本的に、OpenAIやGoogleのようなLLMプロバイダーが支払うPhDレベルのデータ学習セットを行っています。Googleは以前使っていましたが、この取引のために撤退の合図を送っています。他の会社も皆そうです。皆がこれらの使用をやめています。

他にも大手プレイヤーがいると思います。OpenAI は「我々は問題ない、留まる」と言っているのを聞きました。Amazonが何をしているかは興味深いでしょう。彼らはそこでは主要プレイヤーになってきていますが、少し眠っています。

それから、Amazon Mechanical Turkのような他のビジネスがあり、約10万人の従業員がいて、彼らは請負業者として、他のタイプのデータセットのデータラベリングなどを手伝ってくれます。

Metaが本当に買っているもの

Metaが本当に買っているものを見てみましょう。私はこれを、Alexanderとエネルギーを組織に取り込んで、うまくいけば事態を好転させることができるようにすることだと見ています。なぜなら、Llama 4の前に長い間、それは一種の混乱状態になっていたからです。そして彼らはScale AIのデータパイプラインを使ってモデルの学習を支援する能力を持つでしょう。

しかし、最も興味深いことは、私とJoeが過去1年半にわたってショーで合成データについて話し続けていることです。「合成データがますます出てきている。今では検証済み報酬を伴うRLがある。モデルが出てきて、信頼レベルを与えることができ、『直感を信頼する』と言って、実際にある程度パフォーマンスを向上させることができる。これはScale AIのビジネスに下流の影響を与えるはずだ」と言っています。

それで我々は、Scale AIが昨年の収益目標を逃したことに関してそれの一部を見ました。10億ドルを達成するはずだったのに、代わりに8億7000万ドルだったのです。我々のような普通の人間にとっては、それでもたくさんのお金ですが、彼らが期待していたほど速い成長ではありませんでした。それで彼らはそれからプレッシャーを受けていました。

それからまた、評価を見ると、Facebookがこの取引に投入した金額と彼らの以前の評価と比較して、出口価値にそれほど大きな押し上げはありませんでした。これは私に、彼らがこのタイプのビジネスの終わりに到達する可能性がある地点に到達するかもしれないと実感していたのかもしれないと思わせました。

Joe、企業営業サイクルについて我々の会話の間にあなたが良いポイントを作ったと思います。彼らもそれから何かを見ていたかもしれません。それについて詳しく説明してもらえますか?

取引が遅延していることを示す多くの方法があります。そこで、人々が「もしかしたらこのデータセットは必要ないかもしれない」「もしかしたら合成データが利用可能になるかもしれない」「もしかしたら自分で合成データを作ることができるかもしれない」というようなことを考え始めると、企業営業でよくあることは、営業サイクルが延長されるのを見ることです。取引の署名がどういうわけか遅延するだけです。

それから営業担当者は進行中の取引のセットを見て、それらがすべてますます遅延される傾向があるのを見ると、それは本当に悪い兆候です。あなたの帳簿がそのように遅延されている場合、物事が減速していると仮定する種類があり、それらの取引の多くは実際には成立せず、あなたの営業サイクルが環境の何かによって影響を受けているという兆候です。

それは製品が正しくないか、経済環境が減速しているか、または何か大きなことが起こっているかの兆候です。そしてそれがScale AIの営業に起こっていたとしたら、創設者が神経質になることは簡単に想像できます。

まさにその通りです。そこで、おそらく「これ以上高く持っていくことはできないかもしれない。おそらくこれがピークで、取引をする適切な時期かもしれない」と考えているのでしょう。

私はこれをAlexanderがこの地点まで到達したことのメガ・ウルトラ・スーパーサクセスだと見ています。Twitterで彼には価値がないとか、彼らがやることはすべて請負業者だとかいう多くの憎悪を見かけますが、私は「よし、それなら154億ドルの出口を自分で手に入れてみろ。できないなら、Wendy’sに戻れ」と言いたいです。だから皆、ここで起こったことを拍手すべきで、Facebookを「彼に140億ドルを使った」と言ってそんなにストレスを与えるべきではないと思います。

彼らはこの資本を持っており、AIまたは組織を活性化する必要があります。彼らがそのショーを軌道に乗せ、物事を進めることができれば、それは適切に行われれば収益を増やす巨大な機会です。

リスクと文化的ミスマッチの可能性

地平線上のリスクを見てみましょう。Google がScale AI契約から撤退していることですが、FacebookはAlexander とクルーを得ることにより焦点を当てているので、それを本当に気にしていないと思います。しかし他の顧客が去る可能性があり、彼らが収益の12-15倍で支払い過ぎているかどうかという疑問があります。今年の残りで収益が10億に達するかそれ未満かはわかりません。

それからもう一つは文化的ミスマッチです。Alexanderは28歳で、小さな会社で働き、物事を動かし、製品を出荷し、物事を成し遂げる方法を知っています。それから彼は巨大な政府であるFacebookに行き、政治を通じて働き、物事を成し遂げるのは非常に困難です。彼はMarkと一致するかもしれませんが、組織の残りを通じて必要なことを成し遂げるのは、砂の中に金庫を押すようなものかもしれません。

それがどのように機能するかはまだ見えません。Joe、あなたは以前Facebookで働いていました。Alexがその組織に入って直面する可能性のある潜在的な障害について何か考えはありますか?

そのような大きな組織には常にリスクがあると思います。すでにそこにいる人々がいて、これが自分たちの担当だと考えています。つまり、FacebookにはすでにAIとMLに取り組むチームがいくつかあります。一昨日、Yann LeCunのチームからリリースがありました。だからそれがおそらく最大の問題でしょう。

それから彼の視点から見ると、内部の動きがあるでしょうか?他のチームからの人々が彼のチームに参加するのか、人々が彼の最高の人材を引き抜こうとするのか?だから地位争いが起こっていることは確実でしょう。そして最後に、Facebook自体はまだ規制当局による調査を受けています。だから彼らにとっては一種の不確実な環境です。

Facebookの独特な採用戦略:ブートキャンプシステム

皆さんは映画「Office Space」や「Half Baked」を見たことがありますか?監獄でリスの主人が出てきて「彼は俺の仲間だ。囚人たちが彼を攻撃しようとしているから彼をいじめるな」というシーンがあります。Joe、あなたはFacebookでのオンボーディングで似たような経験をしたかもしれません。彼らがFacebookでエンジニアを特定のチームに配分する奇妙な方法について少し話してもらえますか?

それは実際に彼らの強みの一つだと思います。彼らにはブートキャンプと呼ぶ本当に興味深いトレーニングプログラムがあります。Facebookに入ってくる新規採用者は、通常特定の仕事やチームに配属されません。彼らはただ入ってきて、このブートキャンプトレーニングに行きます。彼らは数週間から数ヶ月間そこにいて、会社内で物事を行う方法を学ぶトレーニングセッションを受けます。非常に迅速に製品の一部に変更をチェックインする方法も含まれます。通常、彼らは初日に製品の一つに変更をチェックインするという目標を持っています。

一方で、Facebook内のすべてのチームは、欲しい小さな変更やバグ修正をパッケージ化し、新規採用者が入ってきてキューから何かを取り出し、初期プロジェクトとして取り組むことができるように選別しています。そのバグや問題を提出したチームの誰かがその上にリストされており、新規採用者として入ってきてそのバグに取り組んでいる人が質問があれば、その人に連絡することができます。

これは既存の従業員にとって、新規採用者が自分のチームに欲しい人かどうかを見る完璧な瞬間です。彼らは低ストレスの環境でそれを行っています(少なくとも既存の人にとっては低ストレス)。そしてこの新しい人を評価する機会です。どのくらい優秀で、どのくらい速いか。そして彼らが気に入った人を見て、その人が特定の能力を示していると、その場で彼らを引き抜こうとします。

理想的には、Facebookにとって入ってくる新しい人々は、最初の数日間で2つか3つの内部チームに引き抜かれることです。なぜならそれは彼らが素晴らしい人を雇ったことを意味し、彼らが多くのスキルを示していることを意味し、チームが新規採用者の絶え間ない流れを持っていることを意味するからです。

しかし、ほとんどの人にとっては奇妙です。なぜなら、彼らは採用と引き抜きを配置から分離しているからです。つまり、チームへの割り当てから。

昼食で彼らがあなたを巡って争った面白い話をしてください。

私がそこに行ったとき、私はすでにプライバシーに取り組むチームを構築することになっていることを知っていました。だから私はいわゆる配属された人でした。すでにどのチームに参加するかを知っていました。しかし私はブートキャンプを経験したかったのです。すべてのシステムを学び、彼らの採用プログラムがどのように機能するかを見る興味深い可能性だと思ったからです。

だから彼らに、マネージャーとしてではなくICとして入ってくるにもかかわらず、普通のようにブートキャンプに入れてくれと言いました。そして私が一つずつバグ修正をしながら、私が興味を持ったすべての異なるシステムに当たろうとすると、人々が「ああ、あなたはこのことについて知っている」と言うでしょう。

いくつかのバグはクライアント側のJavaScriptに関するものだったので、私はそれについて知っていました。別のバグセットはローカライゼーションに関するもので、私はずっと以前からそれについて長い歴史を持っていました。そして3番目のバグセットは広告に関するもので、Google時代から少し知っていました。

バグを修正するたびに、リストされている誰かと話をするのですが、私はまだ彼らのシステムを理解しておらず、彼らと関わって、問題は何か、これらの可能な修正についてどう思うか、どのように追求すべきかなどすべての質問をします。そして必然的に彼らは「ああ、あなたはこれに興味があるようですね。フルタイムでこれに取り組むチームに参加したいですか?」と言います。

そして私は「ああ、私はすでにどのチームに参加するかを知っています」と言います。そして彼らは「それなら、なぜまだバグを修正していて、まだブートキャンプにいるのですか?」と言って、ある種フラストレーションを感じるのです。

昼食を食べに座っているとき、2人のマネージャーが飛び込んできて「チームのように見える」と言った部分があります。そして、squirrel masterのような超シニアな人が来て「いや、彼は私と一緒だ。行こう、Joe」と言いました。そして両方のマネージャーが一種のすくみました。

チームリーダーであるならば、雇用について積極的であることがFacebookでの核心的な能力だと思います。なぜなら、彼らは激しい競争状態にあり、それが本当に得意なら、あなたはそこにいて、ブートキャンプをしている人々が通常座っている地域に来て、チームと混ざり合い、データベースでやり取りしたことで知っている名前に顔を付けようとします。

それは非常に興味深いことですね。それがどのように設定されているかはとてもうまく機能するように聞こえます。チームに誰かをただダンプされるのではなく、彼らがどのような感じで働いているかを見る機会があり、その後彼らがあなたのチームに引っ張られることを要求するという考えが好きです。それは配置のようなものですが、採用の第2ラウンドのようなものでもあります。あなたは内部に入り、その後あなたが働きたいチームに引き抜かれるのです。それは興味深いアプローチです。それは一般的ですか、それとも珍しいですか?

それは非常に珍しく、あなたは知っているように、Facebookにとってはかなり高価なことです。なぜなら、これらのすべての人々が公式に仕事と割り当てられたタスクを持つのが最大1ヶ月遅れるということを意味するからです。彼らはこのブートキャンプにいる間。そして彼らはこれらのすべての人をトレーナーとして支払うので、歩き回っている人々と、様々なチームからの人々がFacebookでのさまざまなシステムの動作方法やさまざまな種類の作業の実行方法について1時間のセッションを行う人々がいます。

それもまた彼らにとっての一種の費用です。そして、すべての新しい人々がクラスに参加し、プロジェクトを進め、ホールモニターのような人々から助けを得ているこの巨大なエリアがあり、それもまた高価です。

そして、すべてのチームはバグレポートと改善要求を慎重に選別して、データベースに入れていることを知っています。彼らが自分たちのために作業を取っておいているのではなく、新しい人ができる塊を意図的に取っておいているということです。彼らはすべての情報がそこにあり、文脈のない人にとって完全であることを慎重に確認しなければなりません。それらすべてが非常に高価です。

そして私はFacebookがその投資を行ったことを評価しています。入ってくる新しい人は、すべてのシステム、すべてのチーム、会社の運営方法、物事がどのように行われるかについて学ぶ途方もない機会を持っています。文字通り初日に実行中の製品に変更を加えることは非常に危険ですが、彼らは新しい人が入ってきて数ヶ月ごとにFacebookをダウンさせることを非常に誇りに思っています。バグを誤ってチェックインすることによって。

そして最後に、すべてのチームがこれらの新しい人々に直接接触する素晴らしい方法であり、その逆も然りです。そして最終的に彼らのマッチを見つけるのです。試してから買うのは素晴らしいです。

そしてバグの導入について話すと、私はあるポッドキャストを聞いていて、ディレクターが課題を与えられ、実際にある地理的地域のFacebook のサイトの一部をダウンさせました。なぜなら、彼女はどういうわけかFacebookに対してサービス拒否攻撃を行ったからです。彼女は恐怖に陥りましたが、エンジニアたちがやってきて「いや、あなたは我々が考えていなかった脆弱性を発見した。今我々はそれを修正するつもりだ」と言いました。

これをWes、Googleのやり方と比較すると、私はGoogleの新しいnoodleオリエンテーションにいつも行っていました。なぜなら、会社を買収するとき、私が人事の主要連絡先だったし、私の仕事は人事の残りが私の人々を傷つけるのを防ぐことだったからです。これらは私のものでした。

だからGoogleのオリエンテーションのためにあなたがすることは、1週間から1週間半座って、我々のオリエンテーションとやっていることについてのミーティングとビデオを見ることでした。そしてあなたは非常に段階的にコードベースに触れるかもしれませんが、Facebookでは1日目にJoeのようにそこにいて、何かをしていました。多くの人々はコードスタックに飛び込んで仕事に取りかかる能力を持つことを高く評価しています。

論争的なApple研究論文について

では、他に何について話しましょうか?進行中の信じられない研究について少し触れたいと思います。Appleの論文について簡単に話し合えますか?それについてどう思いますか?Joe、まず始めてください。物議を醸すものから始めましょう。

Appleが何に動機づけられているのかわからないのです。つまり、それは奇妙です。なぜなら、投資家は皆、彼らがAIでゆっくり進んでいると認識しており、それが彼らがAIが自分たちの製品に準備できていないと思っているのか、内部的に自分たちの話をまとめていないのか、正確に何が問題なのかは明確ではありません。しかし、彼らは確実に他の大手技術会社に遅れをとっています。

これは少なくとも私が見た2番目の論文で、これらのAIシステムが十分に良くない、プライムタイムの準備ができていないことを指摘することにほとんどのエネルギーを費やしています。そして人々は最初「ああ、神よ、これらのAIシステムは重要なことができない」のように強く反応しますが、その後徐々に、モデルを少し上手に使えばかなりこれらのことができることに気づき、論文は無関係に消えていきます。

これは少なくとも2回起こったと感じるので、この種の研究でAppleが何を考えているのか本当に明確ではありません。あなたはこれに同意しますか?これはあなたが感じる方向ですか?

そうですね、私はこの背後にある目的が何なのか理解できません。このような論文やブログ投稿をいくつか見ましたが、そのうちの1つは文字通り「LMは推論できない」と呼ばれていました。そしてどこから始めればいいのかさえわからないほど多くのことがあります。

なぜなら、第一に、何かが何かをできるかできないかについて話している場合、人間は4分間マイルを走ることができますか?もし1000人の人間が4分間マイルを走ることに失敗する例を見ても、それは何かを証明しますか?いいえ。それは不可能かもしれないことを強く示唆するかもしれませんが、4分間マイルを走る人の1例が必要で、そうすればそれが反証されたと言えます。

だから1つ目、LMが何かをするのに失敗する100万の方法を私に見せても、それは彼らが推論できない、考えることができないということを証明しますか?それが1つ目です。第2に、LLMに関して考える、推論する、あるいはそのようなことは何を意味するのでしょうか?なぜなら、それは一種の非常に人間中心的なことだからです。

だから、LMは推論できないと言う人々に、その仮説を反証する例を挙げてくださいと聞くなら、私が彼らに何かを正しくやらせたら、彼らが推論できることを証明する例は何でしょうか?例を思いつくことができないなら、この会話は意味をなしません。

また、論文では川渡り問題があり、それはN5+後では不可能です。基本的にその時点で解決不可能になります。だからモデルはおそらく解決不可能だと言い、彼らはそれを0点とします。

また、モデルがコンテキストウィンドウ内でこの問題を解決できないほど賢いが、問題を解決するツールを作成できるとしたら、Pythonコードやそれに類するものを使ってそのツールを構築し、その後問題を解決するなら、それはどのように推論ではないのでしょうか?なぜ我々はそれを定義として選ぶのでしょうか?

そして数年前の以前の「LMは推論できない」論文は、AppleのものではなくOSTN他の誰かのものでしたが、通常彼らがしようとすることは、モデルが持っている何らかの制限でそれを打つことです。以前のパズルの多くは、それが言おうとしている文の単語数を数えることができないというようなものでした。推論がまだなかったからで、それを考え抜き、そのデータを取得してから数えることができませんでした。

それは言わなければならなかった。人間も同じことはできません。私が次の文を言う前に、次の文が何語になるかを予測することはできません。私が最初にそれを言って数えない限り。問題の多くはそのようなもので、家具の配置で特定の制約を満たさなければならないようなものでした。

今、推論モデルがあるので、もちろんそれらのすべてで100%成功するでしょう。だから今は厳密に、他の論文でもコンテキストウィンドウの制限があったので、コンテキストウィンドウが失敗する場所でそれを打ちのめしていました。そしてこのAppleの論文は今100%コンテキストウィンドウです

だからそれはそのようなことの1つです。多くの欠陥があります。第1に推論とは何か、第2にLMが推論の資格があると言う何かをする例は何か、そしてそれらの既存の制限だけでそれを打ちのめさないでください。

誰かが制限を拡張したり、「ここに我々がぶつかった制限があり、これは我々がそれを克服しようとしてやったことで、おそらくそのうちの1つが成功した」と言ったりしたら、私ははるかに興奮するでしょう。それは貢献でしょう。

あなたの質問、モデルが推論できることをあなたに納得させるものは何か、それは素晴らしい質問です。そして最後に、私は彼らに、モデルはXができないと一般的に言う論文を発表するときは、反応が「いや、あなたはモデルにXをさせることができない」であり、誰かがすぐに振り返って、論文のより困難な問題の1つである10枚のディスクでハノイの塔をやるためにo3 Proの1つを得たという本当の危険があると言うでしょう。

それはツール使用なしで正しく行いました。それは長い一連の動きなので、一種の驚くべきことです。そして他の誰かがClaudeの以前のバージョンでツール使用でそれを行いました。論文の主要な例の1つが、論文が発表されてから数週間以内にコミュニティの誰かによってすでに反証されました。それは一種の悲しいことです。あなたのコア論文を証明するためにあまり努力を払わなかったことを意味します。

そうですね、そうですね、たくさんの問題があります。我々が両方とも言ったことにプラス1です。古いGoogle+議会、ごめんなさい、ハート、古い習慣は死にません。

これらのLLMを攻撃したり、報道ツアーでYann LeCunのような人々が彼らを攻撃したりするこれらすべての異なる研究論文を見るとき、それは私にMax Planckからのこの引用を思い出させます。彼は「新しい科学的真理は、その反対者を説得し、光を見させることによって勝利するのではなく、その反対者が最終的に死に、それに馴染みのある新しい世代が成長するからだ」と言いました。

それは良いですね。私は今私の姪を見ていて、彼女はChatGPTと遊んで話すことができ、私がかつて立ち上がって得ることになるよりも幸せです。そして私は彼らの世代が20年、30年後に何を考えるか疑問に思います。彼らがそのような質問にそれほど焦点を当てるかどうか。

だから私自身にとって、ベンチマークとベンチマークポルノ、つまり最初の日々でGPT-4が出てきたときなどに、ベンチマークの飛躍と物事がどのように改善されたかを見るのは、これはクールで、これは理にかなっていました。しかし時間が経つにつれて、他の会社がやっているゲームを見て、「GPT-4と1ショットで比較するのに対して、我々のモデルで10,000ショットをやろう。このベンチマークでどのように改善したか見て、すごい」のようになりました。

だから私はUpwork Freelancerや他の指標により焦点を当て始めました。例えば、Fiverr。ChatGPTがリリースされたとき、彼らの求人投稿は17%減少しました。なぜなら、人々が「このモデルを今使うことができるし、クリップアートやコピーエディターは必要ない」と言っていたからです。Stack Overflowは彼らのトラフィックが完全に破綻するのを見ています。

私にとって大きな指標はより多くのベンチマークfreelancerになるでしょう。そこでは人々が実際の開発者と一緒に固定された問題で働いていると思って、LLMとお金を交換していることを知らずにお金を交換しています。

明確にするために、開発者、私はあなた方の将来には多くの雇用保障があると思います。エンジニアリング作業はコーディングよりもはるかに多いのです。それは問題の枠組み設定、内部や技術的複雑さの対処などです。私は皆のJobsがなくなるという人の1人ではありません。

私にとってより良い指標は、「我々は特定の役割を担うAIエージェントの代わりに人員を増やすことを控えることにした」と言っている技術会社で働いている友人から聞くときです。まだそれを聞いていません。それは私にとって大きなことです。

だからすべてのスタートアップが「ああ、我々はエージェントこれやあれやそれ」と言うとき、「あなたはLLMを使って人々を強化しているが、それで人員を置き換えているわけではない」ということです。

とにかく、それが私の種類の接線です。ああ、最後に、すべてを家に持ち帰るために、皆さんは2012年にAppleに何が起こったか偶然覚えていますか?当時の論争は何でしたか?

Apple は「GoogleとGoogle Mapsをくそくらえ。我々は独自のものを作る」と言ってApple Mapsを作成しました。そしてApple Mapsは人々を間違った方向に導いていました。私はGoogleのオフサイトを組織していて、Santa Cruz山脈に行く予定でした。

Beamでショッピングカートいっぱいの高品質のお酒を2台分手に入れ、ArmadilloWilly’sがリブとブリスケットでいっぱいのバンで現れる予定で、パークチームがジオキャッシングをしに現れる予定でした。Santa Cruzで夏は美しく、運転手がバスで我々をそこに連れて行っていました。私は彼が行っているルートを見ていて、どこかで引き返していると思いました。

私は彼のところに行って「大丈夫?」と聞きました。彼は「申し訳ない、このApple Mapsが間違った方向に導いている」と言いました。席にいる皆が笑い始めました。「いや、いや、Google Mapsをダウンロードして、大丈夫になる。Androidを手に入れて」。

その論争はとても大きく、AppleのシニアVPの1人が辞任しなければならず、Tim Cookは巨大な痛手を負いました。彼は運営担当者で、すべてが完璧で、フィットアンドフィニッシュを望んでいます。おそらく彼は1年間あるいは2年間、人々がマップで道に迷ったことについて絶え間なく文句を言われることを聞いたことがなかったでしょう。

それが彼の脳に焼き付いたと思います。「iPhoneで何かを起動するつもりなら、それは完璧でなければならない」。そしてLLM側では、彼らはそのフィットアンドフィニッシュレベルまでそれを得ることができず、「くそ、だからSiri Intelligenceは2026年半ばまでアップグレードされない」と言いました。彼らがその数字を達成するかさえわからないほど巨大な「ような」ことです。

だから代わりに、他の会社を打ち負かすことができないなら、あなたがすることは彼らを批判し、AI研究論文をリリースし始めて「ああ、この技術は吸う」と言うことです。それがApple が今いる場所です。彼らはできないから批判しているのです。

それが私の読みですが、Joe、Wesの考えを聞きたいです。

それはあなたのものです、Wes。私は繰り返しますが、アイデアがありません。それは確実に合理的に聞こえます。

外部報酬なしに推論を学ぶ直感的論文

我々が時間的に少し遅れていることに気づいています。いくつかのより魅力的な論文について取り上げましょう。Intuitor論文、外部報酬なしに推論を学ぶについて話しましょう。ここに本当にすぐに持ってくることができます。我々の美しい顔をブロックするでしょう、あるいは誰かがチャットで我々の大きくて美しい、スマートな、彼らは何と言いますか、大きくて美しい禿げた顔や頭やそのようなものと言いました。彼らは私をメガマインドと呼びます。はい、それは良いです。

Berkeleyから出た外部報酬なしに推論を学ぶ、これは奇妙です。私はそれについてビデオを作る予定なので、まだこれを読んでいない人にとって、それは奇妙で変です。なぜこれが直感的に実際に多くの意味をなさないのか、100%理解していません。

なぜなら、何らかの検証可能な外部報酬を使用する代わりに、モデルが質問に答える能力にどの程度自信を持っているかを見ようとしているように見えるからです。もちろん、より自信があるほど、正しい答えを得ることにより相関します。あるいは自信がないなら、そして信頼、私は彼らが信頼によって何を意味するかの背後にある数学を説明します。

基本的にそれは、それがどのように答えるかについてどれだけ多くの異なる分岐アイデアを持っているかのようです。少し狭いところでは信頼を示唆し、100万の異なることかもしれないなら、それは自信がありません。しかし、彼らは、我々がそれを訓練し、強化学習報酬がそれが答えにより自信を持つことだったとしたら、どうにかしてそれがその精度を改善したと聞きました。

それは直感的に意味をなしますか?あなたたちはそれについてどう思いますか?

あなたは内部信頼を強化学習の採点メカニズムの一種として使っているのですね。だから信頼は実際にモデルをどのように訓練するかを教えてくれるのではなく、ただこの応答がより正しい可能性が高かったと言い、その後正しい答えと元の質問から選んで、モデルの別のラウンドでRL訓練を行うことができます。だからそこで起こっている2つのステップの種類があります。

同感ですが、何もないところから何かを得ているように見えることです。答えがより正しい可能性が高いときを決定するために信頼を使うことは、答えが正しいかどうかを知っているべきではないのでしょうか?しかし、この信頼ベースのメカニズムを見る前に、自己一貫性のようなものを見ました。

そこでは、モデルを16回、32回、あるいは64回サンプリングして、最も一般的だった答えを取るだけです。それもまた一種の奇妙です。まず第一に、同じ質問を何度も何度も聞いても、なぜ答えが異なるのでしょうか?それはモデルの統計的性質に起因します。

そして第二に、統計的性質があるとして、それは私により頻繁に正しい答えを与える傾向があり、正しい答えは一緒にクラスターする傾向があるのに対し、間違った答えはより広がっている傾向があります。彼らは異なる方法で間違っているからです。それは一種の奇妙です。

とにかく、私がそれをやる方法、自己一貫性やこの内部信頼、最終結果は私が正しい答えを得ることで、その後正しい答えと元の質問を取って、RLのラウンドを行います。私がそれから得るモデルは、始めたものよりも強いです。それもまた少し疑わしいです。

そして私はそのプロセスを繰り返すことができます。なぜなら、今私はより強いモデルを持っており、それはさらにより多くの正しい答えについてさらに自信があるからです。

Joeのうち、これのどのくらいがプルーニングのようなものだと思いますか?我々はこれらのモデルで事前訓練を行い、RL側のすべてのこれらの技術は、ノイズを切り取ろうとする素晴らしい庭師のようなもので、我々が必要とする蒸留された情報に到達できるポイントにモデルを支援してパフォーマンスを改善する。その類推がどれくらいひどかったか教えてください。

それは素晴らしい質問で、プルーニングは良い類推だと思います。なぜなら、彼らが事前訓練と呼ぶもの、テキストデータの大きなコーパスでの通常の訓練を見ることができ、それはモデルに世界についての多くの情報と多くのアイデア、良いか悪いアイデア、誰が知っているかのようなアイデアを与えていると言うことができるからです。それはインターネットデータなので、あらゆる種類の異なるアイデアです。

そしてモデルはそのデータのパターンを探しています。そして我々は正しい答えがそのパターン形成によって導かれると仮定しなければなりません。パターンは正確さに向かう傾向があるからです。なぜなら、それもまた一貫性に関連しているからです。

だからその事前訓練の終わりにモデルにあるものは、良いアイデアの束ですが、モデルはまだ確率的で、そのコレクションには悪いアイデアもあります。だからあなたのプルーニングの類推は、正しい推論トレースや正しい方向を特定し、それらを強調することです。それが強化学習のすべてです。強化部分、あなたは悪い答えを排除しているのではなく、正しい答えに重みを加えて、悪い答えを単に色あせさせているのです。

もし彼らが道の下で何らかの方法で、インターネット上の人々のアイデアがとても悪くて、我々のモデルを愚かにする特定の地域を特定することができたら、それはどのような一撃でしょうか?

データセットのクリーンアップが行われていると思います。我々の最近のリストのいくつかの論文は、データセットをクリーンアップすることについてでした。彼らがデータセットをクリーンアップする方法の1つは、別のモデル、あるいは理想的にはより強いモデルに、データを見て、データセットから低品質の情報を排除しようとすることです。それもまた訓練をかなり改善します。

彼らはQwenでそれをやっていましたね?Qwenは本当に素晴らしい仕事をしました。彼らは非常に大きなパイプラインを持っており、最近の論文があったと思います。Open Thoughtsと言いたいのですが、そこで彼らは同じアプローチを使ってかなり大きなオープンソースの種類のデータセットを作成しました。多くのフィルタリング、多くの品質チェック。

そして我々が見た論文の1つでも、実際に生成する合成データに基づいてモデルの重みを変更する訓練について見る必要があるでしょう。プルーニングの話をしていますが、Suresh Patelは数人のAnthropic研究者を彼のチャンネルに出演させ、彼らは少しこれについて話しました。

研究者の1人は、すべての能力がモデルに閉じ込められているかもしれないと言いました。一度訓練されると、それは潜在空間のどこかにあり、RLはプルーニングと言う代わりに、必要なものを引き出すと言いました。それは同じ類推の種類です。

だからそれはそのように聞こえます。そこには最初に目に見えるよりもはるかに多くのものがあるかもしれませんが、強化学習で、我々は一種の適切なものを出現させています。なぜなら、それは何が間違っているか何が正しいかのデータまたは何らかの信号を持っているように聞こえるからです。強化学習は一種のその信号を強化するのを助け、それはそれがすでにそこに焼き込まれているという考えを強化し、我々はただそれを取り出す必要があります。

それは直感的には意味をなさないように見える永続的な動きのような感覚を持っていて、この方法で何かを得るべきではないように思えます。そしてScale AIの会話に戻ると、私が理解している限り、彼らのビジネスは大きな高品質のデータセットを生成することで、それらのデータセットの多くはこの種の強化学習訓練に使用されます。

我々が最近議論してきたこの論文のリストは、すべてゼロからデータセットを作成するか、合成データや内部一貫性や信頼性やあなたが好む技術に沿って、手で管理された大量の高品質データセットなしでモデルを強化する方法を理解することについてです。

しかし、それは手で管理された非常に大きな高品質データセットの価値が少ないことを暗示しており、それはScale AIの中核ビジネスです。

そうですね。そして別の論文、本当にすぐに画面に出させてください、これはMITから出たself-adapting modelsです。彼らが見せているのは、これらの…彼らはここに素晴らしい類推があります。だから学校に行き、すべての教科書を読み、すべての講義を読み、その後彼らのノートを書き、すべての情報をノートに圧縮し、その後そのノートを使って、そのノートから勉強する学生のようなものです。それは非常に非常に効果的です。

だから彼らがやっているのはそれの種類ですが、モデルはまた、教師ありファインチューニングを通じてこれらの自己編集を行い、重みを変更することができます。基本的にモデルの脳の仕組みのような重みを変更して、いわば特定のタスクを行うために微調整されます。それを自分でやります。

これは本当に興味深いようです。なぜなら、我々が話していることの1つは、多分AIエージェント、自律的なAIエージェントはまだ角の向こうにないかもしれないということです。なぜなら、これらのものは長い地平線タスクで崩壊する傾向があり、その長期間の一貫性と一貫性を持たないからです。

その理由の一部は、モデルが静的だと思います。だから彼らは訓練されて、そして仕事に行くようなものです。そして1日目にあなたは特定の脳を持ち、それは変わりません。100日目にあなたは書き留めることができるもの以外の情報知識を更新しません。

これはより流動的なようです。なぜなら、それはリアルタイムでその知識ベースとその重みとその能力を更新できるからです。だからこの論文について話すことができますか?それは一種の大きな取引のように思えるからです。

この論文はさらに怖いです。私は全体の作業をJoeやWesに行っていません。どうぞ。

この論文は、以前に議論していたものと非常に似たアイデアを使っています。モデルにフィードバックや訓練提案を与えるように求め、その後あなたが言ったように、Wes、実際にモデルの重み自体でファインチューニングを行うことです。

そして、検証者や報酬信号を必要とするRL訓練について考えているなら、あなたの報酬は、モデルを訓練した後、その重みを修正した後、あなたが訓練したもの、あなたが理解してほしい新しいデータに特化したいくつかのテストを実行し、それがどれくらいうまくやるかを見ることです。そしてそれがRL側に戻ってくる報酬です。

だからあなたは一度に2つのことを訓練している種類です。あなたは何らかの例、あなたがそれに理解してほしい新しいデータでモデルの重みを訓練していて、元のモデルを別のモデルをどのように訓練するかを提案することができる程度について訓練しているのです。それはかなり狂っています。

あなたはモデルを別のモデルをどのように訓練するかを理解するように訓練している、そして私とあなたは以前にこれについて話しましたが、Wes、それは長いサイクルです。彼らが非常に小さなモデル、10億パラメータという比較的小さなものを使っているにもかかわらず、それでもLoraベースの訓練更新を行い、その後いくつかのテストを実行するのに約60秒かかります。それはRL報酬信号を待つのに長い時間です。

私はその部分を逃しましたが、小さなモデルでもそれを行うのに計算量がかなり大きいように聞こえます。

そうです。そして大きなモデルだったら、1つの新しいデータアイテムを訓練するために更新を得るために数分待つかもしれないと想像できます。だからこれは長いサイクルです。

この方法について怖いもう一つのことは、なぜLoRa更新だけを行うのかを示唆していることです。彼らが終わった後に更新を捨てることに注意してください。彼らは本当にただ報酬信号が欲しいのです。しかし、そのような多くのサンプルを行った後、あなたはそれらすべてを収集し、それを別のモデルを更新したい場合の訓練セットとして使用することができます。

さらに、あなたは最初のモデルに小さな訓練実行のためのハイパーパラメータだけでなく、おそらくモデル自体への変更のようなものを求めることができます。レイヤーをいくつ持つべきか、レイヤーはどのくらい幅があるべきか、あるいは注意メカニズムを修正するかもしれません。通常はRL研究者やML研究者がやるようなことですが、そのような種類の質問を元のモデルに聞くことができます。

そして今、あなたはフィードバックを得る前にさらに長い期間を持つでしょう。

そうですね、そうです。研究者の1人、Twitterで注意しましたが、私はあなたもノートにそれを持っていたと思いますが、最終的なアイデアは教師と学生モデルのようなものだと言いました。だからそれらを分離し、そのすべてのデータがより良くなって、そのようなものを提案するモデルを訓練するために使用されます。

そして、私はAlpha Evolveに似たものがますます出てくるのを見ています。だからアイデアは、これらの大きな言語モデルをパイロットのような種類として持ち、その後その周りに様々な足場があることです。モデルは多くのものを投げ出し、トリックは我々がアウトプットをどれくらいうまく評価できるかのようです。

もし我々がアウトプットをテストまたは評価することができ、その後何らかのDarwin目標マシンを行うことができるなら、同じようなものです。だからそれは自分自身のコードする能力を改善することができます。だからもしあなたがアウトプットを評価することができ、その後何らかのその進化的ツリー検索を行うことができるなら、ああ、このクラスターまたはこのアイデアの系統は本当にうまく機能しているようです。その系統について考えて、それは信じられないほどうまく機能しているように見えます。

もし我々が最終的なアウトプットを評価することができるなら。私は彼らがSettlers of Katanをプレイする同じことをやった別の論文を見ました。そしてそれはかなり上手になり、多くの異なることをテストしています。オンラインで研究をしている場合、戦略を見つけ、おそらくそれを多くのこと、確実に適用することができます。

私たちはおそらく、正確にコピーアンドペーストするのではなく、そのアイデアを取って多くのことに適用するのをますます多く見るでしょう。私はDr. Jim FanとNvidiaチームが、NvidiaのVoyagerとEurekaなどでそれを行った最初の人々の1人だったと思います。

最初に見たとき、「待って、この機能はGPT-4からの答えの束をサンプリングするだけで、シミュレーションでこれらのロボットを訓練する能力を改善している」のようでした。そして論文の最後で、彼らはタスクの難易度が良くなるにつれて、それがいくつかで人間より良くなるだけでなく、人間が思いつくアイデアとモデルが思いつくアイデアとの間にこの発散があると言っています。

だからそれは我々が必ずしも考え抜くことができない、思いつくことができない新しいアプローチのようなものです。私は「なんてこった、この進歩を止めるものが何もなければ、多くの非常に興味深いアプリケーションがありそうだ」と思いました。

とにかく、だから私はanthropicの論文がML研究者の仕事を自動化することにどれくらい近いかについて話していることを考えています。そして私はOpenAIも同じメトリックについて言及していることを知っています。なぜなら、あなたがほのめかしているのは、彼らが平均的なML研究者が平均的な日に行うようなタスクを扱うことができるシステムを実証することができるなら、彼らの自動化されたシステムが自分のチームメンバーの努力を増強するような一種の離陸を得るでしょう。

そして、あなたが言ったように、どこかで天井に達しない限り、何らかの収穫逓減がない限り、ただこの傾斜を得て、システムがただ改善し続けるでしょう。皆が建物を去ったのです。

そうです、絶対に。OpenAIには彼らのML paper benchがあると思います。文字通り機械学習実験についてのPhD論文を与えられた場合、彼らはコードベースを複製し、その実験を実行し、それを確認することができるかのようなものです。そしてそれはまだそこまで到達していませんが、どんどん良くなってきています。

だからある時点でそのラインを越えると感じます。

この自己適応言語モデル論文は確実にその方向への一歩です。そして最後での彼らの提案は、彼らがもう1年か2年の仕事を行えば、その方向へのもう一つの大きなステップになるということをほのめかしているようなものです。

彼らのチームで平均的なML研究者の平均的なタスクを実際に処理することができるようになるまで、どのくらい離れていると思いますか?

それは非常に…つまり、私は明らかに全くアイデアがありません。私はこれらのことについてあなたたちに従います。しかし要点は、ライブチャットで今見ている皆にとって、あなたたちがBSを聞いたときにBSを呼び出すので、もし誰かがそれがどこに行くか、何が必要かについて狂ったアイデアを持っているなら、あなたたちは「いや、これが理由だ」と言います。

そしてあなたたちは非常に良い説明をしてくれます。しかし今聞いているように、AI研究が自動化されれば何らかの離陸のアイデアは、狂った科学的なパイプドリームではありません。これらの論文が示唆し始めているのは、我々がそれに近づいている可能性があるということです。

私はSam Altmanの最近の論文、gradual singularity or gentle singularityを読んだと思います。穏やかなものです。友好的な特異点、再起動したよりも良いブランディングを早く始めなければなりません。

しかし、私に飛び出した1つのフレーズは、彼がそれを我々は再帰的な幼虫段階にいると呼んだことです。それはとても不幸でした。我々はLaravelを使うので、私は「ああ、神よ」と思いました。つまり、私は以前にStarcraftをプレイしていたので、頭の中でZergを考えています。我々が今感染するつもりだと言っているのですか?何が起こっているのですか?

しかし、私はそれを見る興味深い方法だと思います。なぜなら、それは「いや、我々はまだそこにいない」ということだからです。しかし、我々はもしその糸を引き続けたら、それが解けるであろう多くのことを見ています。Alpha Evolveやこの他のすべてのもので、我々はその再帰的自己改善AIに近づいているのです。

そしてたとえ何らかの限界に達するとしても、我々は知りません。たとえそれが指数関数的ではなくS曲線だとしても、それは大丈夫です。S曲線でもあなたを長い道のりに連れて行くことができ、上部で限界に達したときでも、それは他の潜在的改善を明らかにすることができます

我々はこれらの大きなモデルの訓練だけで天井に達すると思っていました。GPT-5が差し迫っておらず、Claude 4もそれほど良くないし、Metaの件も言うまでもありませんが、テスト時間計算、推論時間が入ってきて、それは別のスケーリングの種類の環境でした。そして我々はそこでもまだ巨大な改善を見ています。

それもまた天井に達すると仮定します。モデルに1時間か2時間何かに取り組ませても、30分与えるのに比べて大きな改善は得られないでしょう。正確な限界が何かはわかりません。それは大丈夫です。それはモデルの能力をスケールする別の独立した方法です。

そして我々が今議論しているこの種のことは、3番目か、何番目かわかりませんが、興味深い改善を得る別の方法かもしれません。たとえそれが天井に達しても、おそらく他の方法を明らかにするでしょう。そして収穫逓減の法則とボトルネックは常に何らかの異なる方法で現れ、我々はそれを改善する方法を見つけるでしょう

多くの人々がやろうとしていることも、人類にとって制限がない地点に達するという万能薬を売ろうとしていて、我々はただ3Dメガネをかけてポップコーンを食べ、AGIに離陸させるだけです。

そしてこの自動化されたML研究者全体について、私はこれらのモデルを使って、指標はこれらのAI研究所が今採用を遅らせているか、特定の役割により少ない賃金を支払っているかでしょう。なぜなら、これらの研究者の一部に年間100万、200万、300万ドルを支払っているからです。そしてそれはあなたの会社の他の場所に行くことができるお金かもしれません。

そしてそれは必ずしも、Dr. Mikeが我々が超感謝している彼が言うように機能しないかもしれません。Jordanも言うかもしれませんが、今何が起こる可能性があるのは、今あなたはより多くのAIエンジニアを雇い、これらのモデルを使って彼らをさらに効率的にしたいかもしれません。

そして反対論者は、我々のコードベースを50倍にしてより複雑にしたいかどうかわからない、状況により多くの人材を投入することが答えではないかもしれないと言うでしょう。だからそれがすべてどのように展開するかを見るのは興味深いでしょう。

我々は115-120の制限に達していると思うので、パート2に移る必要があります。

配信継続とDeepSeekの話題

我々はSVICポッドキャストでこの会話を継続する予定です。まだ我々3人ですが、継続するだけです。少しQ&Aをする予定なので、皆さん少しお待ちください。我々はこれをリダイレクトして継続する予定です。

次に話したかったのは、多くの時間をこれらのことについて話すのに費やしましたが、それは非常に興味深かったのですが、おそらくさらに興味深いことが来ると思います。なぜなら、我々が話したかったのはDeepSeek、中国です。

DeepSeekの新しいバージョンは、以前はOpenAIに似ていたのに対し、Geminiモデルにより似ているように聞こえます。DeepSeekを訓練するための彼らのアプローチを分解する論文があります。GRPOとPO、そしてそこでいくつかの興味深い発見があります。だからそれを確実にカバーしたいと思います。その論文があるので、どこにも行かないでください。

コメント

タイトルとURLをコピーしました