元Googleディレクターが全てを明かした…

AGIに仕事を奪われたい
この記事は約24分で読めます。

14,290 文字

This Former Google Director Just Revealed Everything...
Make sure you check out part 2 of the podcast: here's a playlist SVIC Podcast made specifically for my listen...

まず、ピーター・ティールはサム・アルトマンに数年前こう言ったんです。「もう資金提供はしない。私のプログラムから君を追い出した。そしてOpenAIからこれらのEA(実効的利他主義)の人々を排除しないと後悔することになるぞ」と。サムは「ああ、まあ、政治とかそういうのがあって…」と言いました。ティールは明確な警告をしたんです。
Googleやその他の企業で働いているとき、社内にいると単に技術について話すだけでもNDA(秘密保持契約)違反になったり問題が起きたりします。そのため、企業の運営内部にいたことがなく、どのように意思決定がなされるのかを間近で見たことのないレックス・フリードマンのような人たちが、くだらないことを考察して語るのを見ることになります。
私たちの番組はそういった表面的な話を避けるタイプです。今、大規模言語モデルで同じことが起きています。これが次の大きな波であり、私はとてもワクワクしています。少し怖くもありますが、強化学習をスケールアップすると解釈可能性が少し失われるようですから。これは最初に話したことに戻りますが、私たちはこれらのシステムを本当に設計しているわけではないのです。
そしてその裏側にあるのは、それらが成長または発達した後でも、私たちは実際にどのように機能しているのか理解できないということです。エンジニアたちのグループがいて、「この装置を分解して中がどのように機能するか理解しましたか?」と尋ねると、彼らは「分解して組み立て直しましたが、まだどのように機能するのかわかりません」と答えるようなものです。なんてことでしょう?その通りです。
素晴らしい、録画中です。ライブ配信ではなく、録画です。もし失敗したら、カットしますよね?もちろんです。ウェスが何もカットされないことに気づく瞬間を見つけられるかどうか試してみてください。ウェスの経歴を飛ばしてAIの話に直接行きたい場合は、10分25秒からスタートしてください。
ジョー・テルノウスキーはエンジニアでテックリーダーです。元GoogleとFacebookのエンジニアディレクターで、Apple、Microsoft、Splunk、Wealthfront、Adobeでも役職を務めてきました。ジョーダン・ティビドー。名字の発音は合ってますか?ジョーダン・ティビドー。ひどい名字ですね。「T」で…放送に残しておきましょう。ティピドー。
そう、フランス系カナダ人のゴミみたいな名前なんです。だからこちらにアメリカの国旗を置いて、バランスを取っているんです。フレームの外にありますね、Riversideさんが編集で入れられますから…そうそう、あれです。FOXニュースの速報です。
あなたの近所にマイノリティがいます。オーケー、いいですね。いいですよ、ここで笑わずにセリフを言わせてください。さあ、ジョーダン。最終編集用に撮りましょう。番組の終わりに使いたいですね、確かに。アウトテイクとして。ジョーダン・ティビドーはテクノロジーのビジネスと人間的側面に焦点を当てており、Google在籍10年以上、M&A(合併・買収)分野で8年間働き、その後SlackとSalesforceで働いた経験からテクノロジービジネス、戦略、M&A、組織ダイナミクスの理解を深めています。また、彼はGoogleの社内トークプログラムを先導し、レイ・ダリオやティム・フェリスなどの著名人にインタビューしました。そして、ウォジツキー…面白い名前ですね、ウォジツキー…彼女はYouTubeのCEOでしたか?23andMeのCEOです。あなたの姉のスーザンがYouTubeを経営していましたが、残念ながらスーザンは亡くなりました。彼女はYouTubeを買収しようと言った人で、それは史上最高の買収の一つになりました。
まあ、後で整理しますが、それが適切に聞こえるかを確認したかったです。そのまま使いましょう。良いですよ。ここで私たちがどれだけ即興でやっているかがわかりますね。この研究室でこの録画をしているんです。とにかく使ってください。コメントは読まないでください。では、始めましょう。あなたのバックグラウンドと、どのように始めたのかを教えてください。
ええ、私はインターネットで10年以上活動しています。最初は独自のオンラインマーケティングから始めました。その頃、私がフォローしていた非常に成功している人がいました。彼はテキサスにいて、私はカリフォルニアにいましたが、彼はeコマース分野で新しいスタートアップを立ち上げていました。彼は自分のオーディエンスに「Eメールマーケティングをやってくれる人を探している」と声をかけていました。これは2013年頃のことです。
そこで私は「カリフォルニアからテキサスに引っ越して、知らないスタートアップに参加するのは狂気なのか?」と考えました。でも「試してみよう」と思い、連絡を取り、数回面接をして、気に入られて入社しました。私は3番目の従業員でした。そして彼らはそのビジネスを急成長させました。1年目の終わりには2000万ドル以上になり、最終的には年間3300万ドルほどになったと思います。何千万という規模です。私は3番目の従業員でした。オーナーが2人いて、そのうちの1人が義理の兄弟を雇い、それからマーケティングディレクターがいたので、私は5番目の人間でしたが、技術的には3番目の従業員でした。
私はそこでオンラインマーケティングを学んでいました。彼は毎月100万ドル近い広告費を使っていました。私は彼の部屋に座って、ただひたすらメモを取っていました。「よし」と思って、Eメールマーケティングやスプリットテストなど、あらゆることを実行しました。
しばらくそれを続けていましたが、2015年から2016年頃、私が働いていた会社の一つが内部問題や訴訟などを抱えるようになりました。その話の結末ですが、あるとき主要な人物とマーケティングディレクターが大喧嘩をして、彼が「くそったれ、帰るぞ」と言って出て行ったんです。そのとき私はそこで2ヶ月働いていました。彼らは私に「君は彼の仕事ができるよね?」と言ってきました。私は「ええ、もちろん、なぜできないの?」と答えました。ホリデイエクスプレスで寝てきたんですよ。リフレッシュして準備はできています。
そこで私はイエスと言いました。合理的にはそんなに強いイエスを言うべきではなかったかもしれませんが、彼がやっていたことを引き継いで、すぐに多くのことを学びました。次の数ヶ月で、eコマースやオンラインマーケティング、そのテクノロジーについて多くを学びました。当時はクレジットカードやホスティングなど、多くの技術が必要だったんです。
それは超複雑なものではなく、ロケット科学というわけではありませんが、知らなければならない小さなことがたくさんありました。その後、2015年から2016年に自分のeコマースビジネスを始め、かなりうまくいきました。それによって、仕事をしなければならない状態から、少し余裕ができました。お金持ちになったわけではありませんが、経済的な心配はしなくてよくなりました。
そして2022年末、イーロン・マスクが「ChatGPTがとんでもなくレベルアップしている」とツイートしました。私は「ChatGPTって何だ?」と思って調べたとき、全てが繋がりました。「これに全力で取り組まなければ」と思いました。最初は何をするかわかりませんでしたが、とりあえずeコマースに組み込もうと考えました。カスタマーサービスの自動化ができると思ったんです。ただ、この分野で何かをしなければならないと感じました。それが私のスタートです。
YouTubeにいくつか動画をアップしたら注目されるようになりました。私はただ学ぶのが楽しかったんです。MicrosoftやOpenAIなどの企業が発表した論文を全て読み、ハイライトし、その結果をYouTubeに投稿したところ、人々が好んでくれました。「この分野を学びながらお金を稼げる」というのは夢のようでした。
私のチャンネルについて最も議論を呼ぶのは、サムネイルで私が作る顔だけです。多くの人には表面上わかりにくいかもしれませんが、YouTubeの仕組みは他のプラットフォームとは大きく異なります。他のソーシャルプラットフォームではアルゴリズムがコンテンツを表示しますが、YouTubeではクリエイターが選んだサムネイルとタイトルだけが表示されます。
人々がコンテンツを見るためには、そのサムネイルが素晴らしいものでなければならず、高いクリック率を持つ必要があります。そして一旦クリックしたら、視聴を続けてもらう必要があります。「クリックアンドスティック」と呼ばれるものです。サムネイルをクリックしてコンテンツに留まるということです。
今では様々なツールがあります。現在は3つの異なる画像をアップロードでき、最もクリック率と視聴率の組み合わせが高いものが表示されます。多くの人が私の動画フィードを見て「なぜ全て同じ顔のサムネイルを使うのか」と言いますが、それは視聴者がクリックするからです。私はいつも3つの異なるサムネイルをテストし、それを超えるものを見つけることが目標ですが、視聴者の皆さんが何故かいつもその顔をクリックするんです。責めないでください、皆さんがクリックしているんですから。ゲームはゲームです。今変えたら「古いサムネイルはどうした?こいつは売り切れた」と言われるでしょう。
私たちの動画で最初に注目を集めたのは「OpenAIには競争優位性がない」というものでした。私は10分にクリップして編集したのですが、サムネイルを作るのが面倒で、私の小屋の古い背景が映っていました。人々はそれが散らかっていると思っていますが、実際はとても清潔です。私はこんな感じで手を上げて「まあいいか」と思いました。そしてそれが私たちの史上最も視聴された動画の一つになりました。
ChatGPTを初めて使ったときの印象が知りたいです。多くの人が同じ経験をしたと思いますが、あなたの考えが聞きたいです。ChatGPTは良かったですし、何かがあると感じました。でも私にとって衝撃的だったのはGPT-4が登場したときでした。MicrosoftがプロトAGI(汎用人工知能)と呼んでいました。「AGIの兆し」という論文でした。
そこで本当に明らかになったのは、説明するのが難しいのですが、基本的にGPT-3.5は特定のプロンプトに対して何を言うべきかを理解しているものの、あまり深く考えていないような印象です。一方、GPT-4ではより深いプロセス、より深い理解が見られます。
「AGIの兆し」論文の一例では、ガンジーがアメリカ大統領候補を推薦する手紙を書くというものがあり、その候補は陽子という素粒子でした。これはどういう意味なのか?ガンジーがそれについて何を言うのか考える必要があります。表面上は全く意味をなしません。
GPT-3は宿題をしていないけれど何を言うべきか知っている子供のようで、「ジョージ・ワシントンは素晴らしい大統領でした。彼を誇りに思います。彼は素晴らしかった」といった感じです。一方、GPT-4は抽象的な概念を本当に分解して説明できます。
「英語を話せるけど宿題をしていない子供から、もっと高度なものへジャンプした」と思いました。「これが続けば、さらに進化し続ければ、驚くべきことが起きるだろう」と感じました。私のChatGPT体験は、GPT-3.5とGPT-4を比較したときに本当に実感しました。
あなたはこれらの論文を全て読んでいたとのことですが、学術的バックグラウンドや他の科学分野の論文を読んだ経験はどうですか?これらの論文はかなり難解で、統計学やコンピュータサイエンスの混合した表記がたくさんあります。それらを読み進める動機は何だったのでしょうか?
実は過去に様々なワークアウトに興味があり、マイク博士の話を聞いていました。フィットネスコミュニティでは、クレアチン補給が筋肉収縮にどう役立つかなどの研究について深く掘り下げます。YouTubeでフィットネスコミュニティの人々が様々な研究について説明するのを聞いた経験はあります。
これはADHDのようなもので、世界の99%のことに興味が持てないけれど、ドーパミン反応を引き起こす1つのことには執着してしまうんです。それに取り憑かれて、他のことではできない集中力を発揮します。以前は様々なフィットネス研究や健康関連の情報に興味を持っていましたが、今はAIと機械学習に切り替わりました。本当に超集中していないと、他のことでこれはできません。
これらの概念を理解しようとしたのは、あまりにも驚くべきものだと感じたからです。また、皆さんの意見も聞きたいと思っています。機械学習やニューラルネットの背後にある概念は非常に奇妙で異なっており、私たちが何か全く新しく人生を変えるようなものを発見したように思えます。
例えば、私たちが過去に読んだSFで、アイザック・アシモフのロボット工学三原則やスタートレックなど、全ての作品では人工知能は人間が設計し、発明し、綿密に作り上げたものとして描かれていました。しかし現在では、私たちが構築しているというよりも、育てているように思えます。バクテリアをペトリ皿で培養するように、適切な環境を作れば増殖するような感じです。私たちは発明しているわけではありません。これは理解できますか?
そうですね、私は詳細なレベルでは設計していないと言えます。車を設計するような方法ではありません。部品が適切に組み合わさるようにすることもしていません。庭を育てるようなものです。環境を整えて、種をまき、全てうまくいくことを願うんです。戻ってきたとき、それが良い庭になり、植えた野菜が実るという感じです。これらの実験を見るとき、私はそのような類推を感じます。
また、非常に暫定的な結果から始まり、小さく弱いもので、ほとんど機能していなかったものが、徐々に丘を登るように、論文ごとに少しずつ良くなりました。GPT-3.5からGPT-4を見たとき、論文ごとに大きな進歩を遂げていることがわかります。これはより尊敬され、より有能になっています。
そして彼らは支えを徐々に切り落とし始めました。「全ての人間の例を取り除き、自己対戦で学習させよう」という感じです。そうすると、トレーニングのために設定する環境がさらに重要になり、直接設計に費やす労力は相対的に少なくなりました。
人間のデータを排除したとき、本当に飛躍し、次のレベルへ移行したように思えます。DeepMindが発表している内容やDeep Seek R10は素晴らしい読み物でした。まさに「人間のデータを排除するとどうなるか」を示しています。
DeepMindは最近、教師あり微調整は記憶化であり、強化学習は一般化であるという論文を発表しました。人間のデータを与えると、私たちを模倣することを学び、それは良いものです。アルファ碁が李世ドルを破ったように、世界チャンピオンと同等のレベルになります。
次のレベルでは自己対戦などを行うと、李世ドルを破ったモデルを100%の確率で破るモデルが生まれます。人間のゲームから悪い習慣を学んだモデルを超えるのです。この同じことが大規模言語モデルでも再現されています。これが次の大きな波であり、私はとてもワクワクしています。
少し怖くもありますが、強化学習をスケールアップすると解釈可能性が少し失われるようです。私たちは解釈可能性について本当に完全に迷子になっています。これは最初に話したことに戻りますが、私たちはこれらのシステムを本当に設計しているわけではありません。
そしてその裏側にあるのは、それらが成長または発達した後でも、私たちは実際にどのように機能しているのか理解できないということです。複雑な機械が目の前にあり、エンジニアたちのグループに「これを分解して中がどのように機能するか理解しましたか?」と尋ねると、彼らは「分解して組み立て直しましたが、まだどのように機能するのかわかりません」と答えるようなものです。何てことだ!そうなんです。
今Microsoftで働いているとしましょう。シニアエンジニアで、OpenAIのモデルがデータセンターで動作するようにする責任があるとします。CEOから「それらがどのように機能するか理解できたか?自分たちでモデルを構築して、彼らに支払いを続けなくても良いか?」と質問されたら、「まだどのように機能するのか理解できていません。自分たちでは小さなモデルを訓練することしかできません」と答えることになります。
これは非常に新しいことです。他のどんな技術でも、世界のどこかに、それがどのように作られ、どのように機能するかを知っているエンジニアが生きているか死んでいるかのどちらかです。何も人間が正確に何が入っているのか知らなかったことはありません。これは異なっており、私たちは本当に何が起きているのか知らないのです。
最近、AnthropicのDario Amodeiが解釈可能性とニューロンやニューロンのクラスターが何をしているかを理解する進展について論文を発表しました。彼らはこの分野で興味深い研究を発表していますが、彼は5年以内にこれらの理解に大きな進歩があると信じていると言っています。しかし、AIの進歩のスピードを考えると、それでは遅すぎるでしょう。進歩はしていますが、十分な速さではありません。
現在、メディアの注目を集めている3つのグループがあります。破滅論者、否定論者、夢想家です。破滅論者はAIアラインメント(調整)の人々です。ヘレン・トナー、ダニエル・K(名字は何だっけ)、それからヤン・レクンやティビドーなどがいます。
AIアラインメントの人々を破滅論者と呼ぶことに反対する人もいますが、区別するために言えば、OpenAIには実際に仕事をしているAI準備チームがいて、モデルが子供を騙したり、自殺念慮に同調したりしないようにしています。それは有効なレッドチーミングであり、誰も反対しません。
しかし、15〜20年後のシステムについて考えているAIアラインメント派もいます。彼らは全ての仮定のクラスターに焦点を当て、現代のシステムが自己破壊することなく通常のタスクを実行できないよう混乱させる方法を模索しています。
私たちの番組では、今日のAIシステムについて実用的にアプローチすることに焦点を当てています。Googleなどの企業で働いていると、技術について公に話すことはNDA違反になるため難しいです。そのため、企業運営や意思決定プロセスの内部を知らないレックス・フリードマンのような人たちが考察するのを見ることになります。私たちの番組はそういった表面的な話を避けるタイプです。
そして破滅論者に加えて、否定論者もいます。どんなに技術が進歩しても「このテクノロジーはダメだ」「どこにも行かない」「使いたくない」と言い続ける人たちです。ChatGPTが注目を集めたとき、Salesforceにいた現AIの副社長は「LLMは過大評価されている」と社内のSlackで言っていました。「私たちの方法の方が優れている」と。しかし数週間後、マーク・ベニオフと話した後、魔法のように考えが変わり「ChatGPTは実際に良い」と言い始めました。
ヤン・レクンのような人たちもいます。彼は優れた人物で、バックプロパゲーションに多大な貢献をした非常に賢い人ですが、AIがどこに向かうべきかという彼の考えやJeepaについての見解を持っています。しかし、現在はLLMの時代であり、コードを書けない一般の人々でもコピーライティングやその他の作業の手助けとして使えることを政治的に理解していません。
彼はそれを認識して祝福するよりも、「これはAGIではない」ということに焦点を当てています。しかし人々は「誰が気にするの?今の仕事の15〜20%を手伝ってくれるのがわかっているだけでいい」と思っています。8時間の勤務が6時間になれば、子供たちと過ごす時間が増えるのですから。
最後のグループは、明日のAGIに焦点を当てる夢想家たちです。OpenAIにいるAIアラインメント派の一部の人々は、AIを信じすぎるあまり、彼らがやっていることがAGIにつながり、意識的に考えるコンピュータが私たちの進化を助けると考えています。
昔、「GoogleのAI研究者として何百万ドルも稼いでいるのを辞めて、このOpenAIという会社に入り、AGIに取り組む」という人たちは、そういう信念を持つ必要がありました。多くの人が彼らを笑っていました。「真の信者」という本があり、現在の世界は欠陥があると考え、約束の地に到達するために社会的なミッションや変化を押し進める必要があると考える人々について書かれています。私は彼らを「AI真の信者」と呼んでいます。
彼らは素晴らしい人々で、LLMがスケールアップすることについて正しかったのです。しかし、彼らは変な考えを持ち始め、「これらのシステムが核コードを入手して全てを破壊する」と考え始めます。待ってください、タイムアウト。実際にミサイルサイロで働いた人と話したことがありますか?私の叔父はミサイルサイロで働いていました。それらは全て機械的なものです。核ミサイルを発射するトラックを動かそうとした場合、銃口で狙われ、「撃てば死ぬ」と言われるのです。LLMが時々幻覚を見る可能性があるのに、核ミサイルの発射に接続しようとする政府はないでしょう。
私たちの番組は、AIに肯定的でありながらも、AGIの信者たちはクラックを吸いすぎており、破滅論者たちは行き過ぎ、否定論者たちはLLMが実際に何かを成し遂げていることを認めるべきだという立場です。これが私の考えです。ウェス、ジョー、あなたの考えを聞かせてください。破滅論者、否定論者、夢想家について。
仰ったこと全てに100%同意します。AIの破滅論者たちの多くは非常に賢い人々で、彼らが提示する議論の多くはAI研究に関する知識に基づいています。彼らが問題の具体的な例や、なぜそれが難しいのかについて話すとき、彼らは知識があるように見えます。彼らが言うことの多くに同意します。はい、これらは難しい問題です。はい、私たちはこれらの問題を解決していません。そして彼らは「だから私たちは5年以内に全員死ぬ」と言います。その飛躍で私を失いました。
「PDMスコア」という言葉を聞くと、精神的にチェックアウトします。「私のPUMスコアは20〜30%です」と言われても、何に基づいているのか?なぜそれが15%から20%に変わるのか?「Super Forecasters」という本があり、世界最高の予測者たちがどのように予測を行うかについて書かれています。多くの場合、人々は指で「25%、20%」と適当に言っています。
私が不快に思うのは、企業環境で実際に物事を進め、前進させようとしているとき、「自分の精神的不安のために、いかなるテクノロジーの立ち上げも赤旗を上げて阻止する」という悪魔の代弁者ゲームをする人たちがいるからです。
ブレイク・レモインがLambdaに恐怖を感じたときのことを思い出します。今では皆笑いますが、彼は2020年にLambdaを見て、テストエンジニアでもあり、Google社内の誰もがこのシステムの仕組みを説明したにもかかわらず、それが意識を持っていると思いました。何かが動いているのです。今では取るに足らないと思われますが、当時はそういう主張をする人たちによって会社の方向性が完全に狂わされていました。でも、ウェス、話を遮ってすみません、どうぞ続けてください。
そのモデルはGPT-2レベルだったんですよね?だいたいそうです。面白いですね。まだ一部の人々はそれを信じていますが、特に音声モードなど、今はより生き生きとしているので、より理解できます。Sesame AIを試しましたが、とても現実的で生き生きとしていました。何が本物で何が本物でないか、それと単に対話するだけでは見分けるのが難しいです。
AIの破滅論者については、彼らの思考プロセスにはある程度の敬意を持っていますが、「皆が死ぬ」という結論には全く納得できません。その飛躍は私には理解できません。否定者については、多くの人々が進歩を否定しているのは奇妙です。ヤン・ルンまたはラン(どう発音するにせよ)、彼の最近のJeepaに関する講演を見ました。彼のアプローチは理にかなっています。言葉の入出力だけを考えるのではなく、抽象的な概念をエンコードするという方法です。
私たち全員が「犬」とは何かを考えることができます。それぞれ異なる表現を持っているかもしれませんが、全員がそれを説明し、描き、音を作ることができます。重要なのは、入出力が同じトークンではないということです。抽象的な表現があります。Jeepaはそういうものだと理解しています。私には理解できます。でもなぜLLMに対する敵意があるのか理解できません。機能しているように見えますね。あなたが言ったように、今はLLMの時代です。
このテクノロジーがどこまで私たちを連れて行ってくれるかを見極めましょう。彼が先を見据えているのは良いことかもしれません。10年後には「誰かがそれに取り組んでいて良かった」と言うかもしれません。しかし、これ以上進歩しないと言う人たちは少し奇妙です。私が見ているのは、2016年からアルファ碁からアルファゼロに至るまでの大きな進歩、自己進化や自己対戦の考え方です。
それから狭いタスクで超人的なAIから、より一般的なLLMへと移行しました。これは超人的ではありませんが、一般的に「知的」です。何を投げかけても、「これを試してみよう、あれを試してみよう」と試みます。時には良く、時には素晴らしくなります。そして今、これら2つの異なるAI技術の系統が収束しているように思えます。アルファ碁やアルファゼロから学んだことをLLMに適用しています。
OpenAIの人々の一人がSEOIA Capitalのサミットで、次の大きな波は訓練時の計算力や推論時の計算力から、強化学習に大量の計算力を投入することになると話していました。NVIDIAも同様に、Isaac Gymでシミュレーションを使ってロボットを訓練しています。もし彼らが大規模言語モデルで強化学習をスケールアップして、自己学習でコーディングができるようになれば、それは非常に有望です。さらにそれをスケールアップすれば、驚くべき進歩が非常に速く見られるでしょう。
コーディングは他の多くのことを解き放つ大きなユースケースだと思います。私のチャンネルで最近紹介した研究では、中国の研究者とアメリカの研究者が協力して、まさにそれを実現しています。「絶対理論家」と呼ばれるもので、人間のデータなしで、教師あり微調整なしで、完全に強化学習でAIモデルにコーディングを教える方法を研究しています。
彼らは2つのモデルを作り、1つは「提案者」で様々な質問や問題を提案し、もう1つは「解決者」で問題を解決します。この論文を見ると、彼らは本当に何かを捉えています。どうやって自己対戦させるのか、教師と生徒の関係を築くのか。結果は良好です。これを大きなモデルに適用し、強化学習をスケールアップすれば、これらのモデルが信じられないほど優れたコーダーになる可能性があります。
このアプローチは一般化します。問題Xや問題Yの解き方を単に記憶するのではなく、「これらの問題を見て、まだ見たことのない問題を全て解決できる」という具合です。未見のデータに一般化するのです。これが今後数年で機能すれば、コーディングで急速な発展が見られるでしょう。もしそうでなければ、少しAI冬の時代になるかもしれません。以前に何度か起きたことがあります。
絶対ゼロの論文は非常に画期的でした。これは長い研究の系譜の一部です。1960年代だったと思いますが、サミュエルズがチェッカーのプレイヤーを作り、自己対戦させてチェッカーで誰にも負けないレベルになりました。それからテソロとバックギャモンのプレイヤーが同じことをしました。チェスではディープブルーチームがいました。
碁では、碁盤が大きく、手の組み合わせが多いため解けないと考えられていましたが、アルファ碁が登場しました。シルバーと彼のチームは「人間のデータで訓練しないで、自己対戦だけで学習させたらどうか」と考え、アルファゼロとアルファゼロムーが誕生しました。同じエンジンでチェス、碁、将棋をプレイできるようになりました。
これは信じられないことで、同じアーキテクチャで3つのゲーム全てで超人的なプレイができるようになりました。そして「絶対ゼロ」チームはあなたが説明したように、提案者と解決者を作り、より難しいコーディングの課題が提案され、解決者がより難しい問題を解決できるようになり、それらのトレーニング例でさらに強化学習を実行します。
これで提案者がより賢くなり、さらに難しい問題を提案できるようになります。ガラスの天井を破るまで自己強化のループを続けるのです。このアルゴリズムと自己強化の性質は非常に強力で、以前にも証明されています。
私が論文を見て考えたのは、これを現実世界の問題にどう応用するかということです。ゲームではわかります。2人プレイヤーのゲーム、ボード上の完全な情報、単純なルールなどです。自己対戦を構築する方法はわかりますが、数学の問題や法的事例の推論などにどう応用するのか見当がつきませんでした。
この論文で2つのことがわかりました。1つはコードでそれを実現する方法を見つけたことです。コードを評価して、実行されたかどうか、正しい答えを出したかどうかを確認できます。しかしもう1つは、コーディングが上達するにつれて、数学の問題を解くのも上達したことです。彼らは数学問題でトレーニングしていないのに、コーディングだけでそれが上達したのです。「コーディングが上達すると数学も上達する?一般的な推論能力が向上している?」と思いました。
答えはまだわかりませんが、論文では触れられていません。これは6400万ドルの問いです。報酬モデルを正しく設定することは、OpenAIのWindsurfの買収に関連しています。人々はコードを生成して、私がやっていたように、ChatGPTからコードをコピーしてIDEに貼り付け、動作するか確認し、エラーがあれば修正するという作業をしています。多くの人が手作業でこれを行っています。
しかしOpenAIの問題は、何が私にとって機能したかを見ていないため、そのデータを訓練に活用できていないことです。Windsurfを買収することで、どの開発者がコミットしているコードを使用し、何が機能していないかを確認できるようになりました。それによって報酬信号を得て、モデルのトレーニングに役立て、さらに改善することができます。
AGIが明日にもプロジェクト計画全体を引き受けるという話をするチャンネルを見ると、「どうやってLLMをトレーニングするための報酬モデルを作るのか」と思います。プロジェクトの当初の目標はXだったが、現実が変わってYになり、CEOが政治的な理由でZに変更したというような状況に対応することはまだ達成していません。そのため、私は今日何ができるかに絞って考えるようにしています。
例えば、CLAのCEOが1年半前に「もうWorkdayもSalesforceも使わない」と言いましたが、それを何で置き換えるのでしょうか?AIエージェントですか?スタビリティAIのE-modの人のように、彼の目は見ても誰も中にいないような感じです。誰かが彼に「WorkdayはAIエージェントに置き換えられる」と言ったようですが、「待ってください、タイムアウト」です。
そのAIエージェントが70%の時間幻覚を見て、正しい給料を支払わなかったら、従業員は喜ぶと思いますか?人々がどれほど怒るか想像できますか?また、WorkdayはSarbanes-Oxley法などのコンプライアンスのための記録システムでもあり、これに違反すると連邦政府から訴訟を受けます。
今日のニュースでは、ClarinaのCEOが「実際に人間を再び雇い始め、WorkdayとSalesforceを廃止したというのは言い過ぎで、実際には別のベンダーに移行しただけだった」と発表しました。この分野での問題は、誇大宣伝が先行し、多くの詐欺師が存在することです。
AIラボを運営している人々は、次のラウンドの資金調達のために宣伝したいという動機があります。トップAI研究者を引き寄せるために、「実はAGIを持っていて、それにアクセスできるのは私たちと一緒に働く場合だけだ」と思わせたいのです。そのため彼らは誇大宣伝をし、それが「明日にはすべてのエンジニアが置き換えられる」「すべての仕事がなくなる」という恐怖を生み出します。
しかし、彼らがその火遊びをし過ぎると、カリフォルニアの規制当局のような人々を目覚めさせてしまいます。カリフォルニアでは去年、AIモデルをリリースするには第三者による検証が必要という法案がほぼ可決されそうになりました。第三者ベンダーがコーディングスタックを調査し、赤旗を挙げればクリアする必要がありました。
「完全解決策の誤謬」を信じる人(AIアラインメント派の人々が信じているもの)がいたらどうでしょうか?システムを立ち上げる前に、あらゆる可能性のある外部性や何が間違う可能性があるかを知る方法があると彼らは考えています。親の世話をしたり子供を育てたりした経験がある人なら、それが不可能だということを知っています。
しかし、そういう人物が「これらのシステムをもう立ち上げさせない」と言ったらどうなるでしょう?AIの奇跡が遅くなり、新技術を取得する能力が低下し、中国に追い越されるでしょう。実際、ジョー、これは良い話のきっかけです。シリコンバレーがかつては平和と愛を掲げていたのに、突然戦争に行きたがっているような全体主義的な風潮が起きているのはなぜでしょうか?
何が起きているのでしょうか?皆が変わっています。DeepMind、Dario、彼らは今や中国に対して警戒しています。反対しているわけではなく、「中国を恐れなさい、守られる必要がある」と言っています。何が起きているのでしょうか?
はい、それに答えたいですし、Googleが「OpenAIを打ち負かす」という話についても触れたいです。また、ベンチマークの飽和やギルドが怒る理由についても話したいのですが、それを知りたければ、まずウェスの動画に「いいね」と「登録」をして、パート2のボタンをクリックしてください。

コメント

タイトルとURLをコピーしました