
22,149 文字

こんにちはダニエル。こんにちはヤン。お二人にお会いできて本当に嬉しいです。ついにお互いのスケジュールを調整して、今日はあらゆることについて話し合うことができました。このツールの向こう側から私の興奮をお伝えすることはできませんが、お二人にお会いできて本当に嬉しく思っています。時間が経てば、きっと直接お会いできることを願っています。それでは、ポッドキャストへようこそ。
まず、お二人にそれぞれ自己紹介をしていただきたいと思います。特に人生のストーリーはどのようなものか、どうやって深層学習の分野に入ったのか、そして簡単に研究分野について教えてください。一人ずつお願いします。ダニエルから始めていただいて、その後ヤンにお話しいただけますでしょうか。
はい、もちろんです。まずポッドキャストにお招きいただき、ありがとうございます。
私の経歴について説明しますと、基本的にコンピューターには常に興味を持っていました。8歳の時からすでにプログラミングを始めていて、当時はBASICでした。大学では最初に化学を学びました。自然科学にかなり興味があったからです。しかし後にコンピューターサイエンスに転向しました。それが私にとってより適していたからです。これは深層学習のブームが始まる前のことでした。
深層学習に入ったのは修士課程の時で、サイドプロジェクトとして取り組んでいました。コンピューター断層撮影スキャンでの椎骨検出に取り組んでいて、深層学習がすでにそこにありました。畳み込みニューラルネットワークが利用可能になっていて、それを使い始めました。これらの問題に対してどれほどうまく機能するかに非常に驚きました。
基本的にその時点で深層学習に入ることを決め、この分野で博士号を取得することにしました。現在、マインツ大学のミシェル・ファントのグループで博士課程の研究を行っています。そこでもニューラルネットワークを扱っており、主に化学と物理学の分子特性と等変ニューラルネットワークに取り組んでいます。これらはその点で関連性があります。そして2024年にARCチャレンジを始めて、それが基本的に私を大規模言語モデルの世界にも導きました。
私の名前はヤンです。私もマインツで学んでいます。実際、私はコンピューターサイエンスではなく数学から始めて、学士課程の早い段階でコンピューターサイエンスに転向しました。私の最初の深層学習プロジェクトは学士論文で、楔形文字のスキャンに対する光学文字認識を試みました。これは最古の既知の言語だと思いますが、たくさんの粘土板があり、異なる文字を分類できる深層学習システムを書こうとしました。それは本当に楽しく、その後も深層学習に取り組むのを止めませんでした。
現在、ダニエルと同じグループで博士号の勉強をしています。つまり、私たちは同僚です。私の分野はより細胞ベースまたは非常に離散的なパターンの方向で、ニューラルネットワークが基本的におもちゃのデータでどのように一般化するかです。セルラーオートマトンや非常に単純なバイナリ関数です。
素晴らしいです。ダニエルとヤン、自己紹介をありがとうございました。
録画開始前にお話ししていたように、ARCチャレンジでの勝利を通じてお二人を見つけ、また機械学習ストリートトークチャンネルでも拝見しました。それは素晴らしい講演と素晴らしいインタビューでした。2024年のARCチャレンジに参加した動機について興味があります。当時何が動機だったのでしょうか。
私から始めましょうか。
ARCチャレンジを見つけたのは、実際のコンテストが始まる1年前だったと思います。それは非常に興味深い問題だと思いました。当時の多くのベンチマークがすでに飽和し始めていたからです。ImageNetの問題などの時代で、基本的に大きなモデルをダウンロードして、数ステップファインチューニングを試して、90.5%ではなく91%の精度を得るというようなものでした。
ARCチャレンジはすぐに困難な問題のように見えました。問題を見るとき、私はいつもコンピューターサイエンスの脳回路を活性化させて、機械学習モデルについて考え始める前に、まずこれを解決するアルゴリズムをどう設計するかを考えます。ARCの問題は、個々の問題ごとには、このパターンを取ってそのパターンに置き換えて少し動かすというアルゴリズムを設計するのはかなり簡単なのですが、それが一般化しないのです。
これを見て、これは不可能だと思いました。これらの問題を一般的な方法で解決し始める方法について、最も軽微なアイデアすらありませんでした。それが私の中に残っていて、コンテストが始まった時、少し遊んでいくつかのことを試し、ダニエルと話していました。それから休暇に行って戻ってきたら、彼が「できた、これはできる」と言っていました。
実際、私はチャレンジがすでに進行中の時にそれについて学びました。ヤンがここで私に教えてくれました。これはクールなチャレンジだ、見てみてと。彼はすでに大規模言語モデルでいくつかの予備的な作業を行っていたと思います。問題の数パーセント、おそらく10%か15%を取得していました。私はそのチャレンジを非常に興味深いと感じ、私も試してみるべきだと思いました。ヤンが休暇中の時に実験を行い、おそらく30%かそこらを公開評価セットで得ることができました。
大規模言語モデルがこの問題に非常にうまく機能することがわかりました。そしてその時点のどこかで、チャレンジに参加してKaggleの問題を解決しようと決めました。しかし、最初のコードをKaggleに提出した時、これは本当にフラストレーティングでした。以前は公開評価セットで30%くらいでしたが、Kaggleでは最初は3%、その後10%程度しか得られませんでした。
その後、Kaggleのタスクが公開セットとは異なることがわかりました。それらははるかに解決が困難でした。しかし、その後も続けて、プログラムを少し改良したと思います。私たちにはかなりうまく実行するチャンスがあることがわかりました。私はいつもダニエルより少し悲観的でしたが、彼は押し続けて「トップ5に入れる、トップ3に入れる、トップ2に入れる」と言っていました。私は「運が良ければそうかもしれないが」と思っていましたが、うまくいきました。非常にうまくいきました。
素晴らしいです。発表された論文を再読したと思いますし、フランソワ・ショレからのARCチャレンジの本来の起源に戻りました。これを一般の聴衆に説明するとして、ARCチャレンジが何であったか、そして何であるかを、あなたたちの言葉でどのように説明しますか?
最も抽象的な方法で言うと、これは多くの異なる認知パズルを表すチャレンジです。IQテストやそのようなもののようなものです。困難な部分は、これらの概念的問題のそれぞれが互いに異なることです。繰り返される問題もありますが、ほとんどがユニークです。機械学習の分野では、私たちが持っている豊富なデータ量のおかげでモデルがうまく機能しますが、ここではそれが存在しません。
したがって、人間がこれらの認知問題を解決するために使用する事前知識をある意味で理解する必要があり、それに非常によく設計されています。良いチャレンジで、理解しやすく、人間として見るのは簡単ですが、機械がこれらの認知パターンに基本的に適合するのは非常に困難です。
研究者がこのチャレンジに取り組むことの長期的な意味について、どのように見ているか興味があります。現在2025年のチャレンジがあることは知っています。特に汎用知能を開発するという考えの中で、これがどのように発展していくと見ていますか?
非常に興味深いことです。新しいチャレンジははるかに困難で、ARCチャレンジの基本的なアイデアは、基本的にそれらのタスクを解決する新しいアプローチの開発を刺激することでした。興味深いことは、2024年のARCで実際に起こったことはそれとは全く違うということです。なぜなら、誰もが大規模言語モデルを使うことを選び、実際にチャレンジの意図であった全く異なるモデルを使った人は誰もいなかったからです。大規模言語モデルが非常に多くのデータで事前学習されていたため、少しのファインチューニングでこのチャレンジを完全に支配したため、基本的に非常に優秀でした。
それはおそらく実際の意図ではありませんでしたが、新しいチャレンジでは、おそらくいくつかの新しいアプローチが必要だと思います。推論アプローチ、思考の連鎖、そしておそらく新しい他の技術について考えています。ARC2で何が良いかは非常に興味深いでしょう。
ARC1で新しいアプローチがそれほどうまく機能しなかった理由の一つは、それについて考えてみると、研究データセットだと思います。マイケル・ホーデルがこの素晴らしい大きなARCタスクのデータセットを作成しました。そして、それが私たちがタスクで大規模言語モデルを訓練できた唯一の理由です。しかし、問題がより困難で同じではないARC2にはそれがありません。それらは分布から少し外れていて、より複雑です。おそらくここでは新しいアプローチが必要でしょう。
それは、ARCについて本当に興味深いことの一つでもあると思います。なぜなら、毎週のように新しい大規模言語モデルが登場し、毎回ベンチマークで少し良くなっているのを見ると、これで95%、あれで90%となります。しかし、ベンチマークは少し信号を失いつつありますよね。ARCコンテストは、基本的に概念的思考や分布外思考に対してはるかに明確な信号です。だから、それに取り組むのは非常に興味深いです。
私にとって際立った一つの側面は、あなたの論文を読んでいた時、また標準的な大規模言語モデルを使うだけでは、あなたが得たような精度を達成できないかもしれないという考えを破ったすべての作業を見た時でした。ダニエルがおっしゃったように、新しいARC2アプローチでこれを変える必要があるかもしれません。2024年のARCでのあなたのアプローチを振り返って、お二人ともすでにARC2の準備をしていると仮定していますが、現在、ARC2に向けたアプローチで取り組んでいることは何ですか?これは共有できないことでしょうか?
新しいARCチャレンジにはまだそれほど取り組んでいません。私たちが持っているオフラインデータで古いアプローチを少しテストしましたが、まだ何も提出していません。主に私たちが書いた論文で忙しいからです。ARCコンテスト用にICMLに小さな論文を書き、現在受理されています。しかし、興味深いアプローチがたくさんあると思います。公開されている一つは「事前学習なしのARC AGI」です。彼らも最初のコンテストに論文を提出したと思います。
それについて非常に興味深い部分は、基本的にそれほど多くの追加の学習データを必要としないことです。事前学習は行わず、各タスクを個別に学習するだけだと思います。そのような方向のアプローチは非常にうまく機能すると思います。なぜなら、第2回コンテストでは非常に強くデータ制約があることを念頭に置く必要があるからです。現在の大規模言語モデルとこれらの技術の現状を見て、お二人ともARCチャレンジでこの分野にいただけでなく、研究分野でも探求してきました。現在、言語モデルの最先端の主要な制限や潜在的な技術的境界として何を見ていますか?毎週新しいものがあるとおっしゃいましたが、あなたの視点から、これらのシステムの現在の課題と制限として何を見ていますか?
それについて考えてみると、これらのモデルに欠けているのは、処理する情報を保存するための内部レジスタやメモリの状態かもしれません。問題は、大規模言語モデルに「電話を発明したのは誰で、その人はいつ生まれたのか」というような2段階の質問をして、1段階で答えてくださいと言うと、大規模言語モデルは答えることができないということです。なぜなら、大規模言語モデルが持っている唯一のメモリは、基本的に自分が生成した出力だからです。最初に名前を書けば、おそらく質問に答えることができますが、直接的には機能しません。
これは現在の大規模言語モデルアプローチの欠点だと思います。推論モデルでも同じことが起こります。推論は生成された出力に保存された内部メモリである非常に長いトークンチェーンにつながり、これらの長いトークンシーケンスは長い計算や長いシーケンスに対する非効率的な注意などの他の問題につながります。大規模言語モデルにデータを処理するための何らかの内部ストレージを与えることで、より良い方法があるかもしれないと思います。どうやってそれを行うかはわかりませんが、それが一つの欠点だと思います。
そして、もちろん、持続的なメモリがありません。大規模言語モデルを起動するたびに、同じ状態にあります。それも現在の大規模言語モデルに欠けているものです。
1段階解決の問題は推論によって少し解決されていますが、完全ではありません。例えば、数独の例で私たちのアプローチをテストしました。数独パズルを解こうとするのですが、これは大規模言語モデルにとって非常に困難です。なぜなら、最初のスペースが欠けている数独パズルを設計することができ、それを正しく解決するために大規模言語モデルは最初の空のスペースをすぐに解決しなければならないからです。しかし、これが実際にパズルを解く最も困難な部分になるように設計することができるので、大規模言語モデルがこれを1段階で解決するのはほぼ不可能です。
推論は役立ちますが、ダニエルが言うように、ある時点で非常に高価になります。推論を使って数独パズルを解くように大規模言語モデルに頼むと、1つのスペースを埋めるために数独パズルを20回繰り返すようなことになるので、ほとんど終わりません。非常に高価です。
非常に興味深いと思われるアプローチがいくつかありますが、それらのどれも問題の核心を解決するかどうかはわかりません。基本的にGoogleがGemini拡散モデルを発表し、私はそれをテストしましたが、拡散ベースの大規模言語モデルがこれらのタイプのなぞなぞを非常によく解決できると主張する論文があるにもかかわらず、数独パズルも解くことができます。まもなく登場する非常に強力なアプローチがあると思いますが、それが何かはまだわかりません。
エネルギー効率も、これらのモデルが進化している範囲の一つとして見ています。明らかに、より小さなフットプリントを取る小さなモデルについて多くのノイズがあります。大規模言語モデルの最先端に関して、これを潜在的な制限と機会としてどのように見ていますか?
それはARC2の問題の一つですよね。Kaggleコンペティションがあり、提出しなければならず、12時間フラットで実行される必要があります。リーダーボードや最高のARCモデルが何かをチェックすると、現在はo3ですが、1つのタスクの計算に数千ドルかかり、これは完全にクレイジーです。
ある意味で、私たちのソリューションでも見たのは、ソリューションを見つけることと比較して、ソリューションが正しいかどうかを評価する方が簡単だったということです。これは典型的なコンピューターサイエンスの問題で、ソリューションを見つけることと比較して評価する方がしばしば簡単です。現在のアプローチはしばしば推論方向や推論方向でスケーリングしていると思います。テスト時間学習やより長い推論トレースなどですが、基本的に正確性のためにコンピュート能力を交換するだけで、ある時点でそれはもう使えなくなります。曲線はほとんど指数対数的で、コストの線形増加に対してパフォーマンスが得られます。
言語モデル周辺の消費者クラスのアプリケーションについて、もう一つアプローチしたいことがあります。現在、一般的な顧客や一般ユーザーの80%から90%、おそらくそれ以上の割合が、基本的にこれらのモデルとのチャットベースのインタラクションを使用していると思います。多くの場合、モデルが理解を模倣することに非常に優れた仕事をしているという点があり、この分野の異なる思想的リーダーが異なる意見を持っているのは明らかですが、普通の素人に近づいて、明らかにチューリングテストの観点から見ると、それは理解テストを破り、完全に通過します。
広範囲の最終顧客、システムの最終ユーザーにとって、システムが非常に優れた仕事をしているように見える理解のシミュレーションをどのように見ていますか?あなたは理解が実際に何を意味するかを定義する科学的アプローチを取っていると思います。しかし、基本的に日常的にそれを再利用している消費者クラスにとって、それは彼らの理解の課題の多くにほぼ準備ができているように見えるかもしれません。この二分法と理解をどのように取り組み、アプローチしますか?
それは複雑な質問だと思いますし、どの程度広く当てはまるかわかりません。大規模言語モデルやチャットモデルを過小評価している人がたくさんいる一方で、明らかにそれらを大幅に過大評価している人もたくさんいます。
しかし、私でさえ現在気づいているのは、私の専門外の質問があるとき、生物学や社会科学の何かについてわからないことがあるとき、o3に尋ねて、それがインターネット検索などを行うと、時間が経つにつれて、基本的にそれをダブルチェックする量を減らし続けているということです。それをますます信頼し始めています。
それが良い兆候なのか悪い兆候なのかわかりませんが、ある時点で、大規模言語モデルを事実確認するあなたのスキルレベルは問題を見つけるのに十分ではなくなります。しかし、その時点で、あなたはいずれにせよ他の答えを見つけることはできなかったでしょう。平均的な消費者であるか、専門外であるかのように、化学について何かをChatGPTに尋ねれば、私はそれを信頼しなければなりません。Googleで検索してもより正確な解決策は見つからないでしょう。だから、理解しているかどうかがほとんどの消費者にとって実際に何かを変えるかどうかわからないのです。
これが興味深い理由は、広範囲の顧客として、一般的な問題の範囲を解決する場合、あなたが言った例ですが、化学の答えを見つけるのに時間を費やし、本を読んだりGoogle検索したりすることと比較して、最も便利で、おそらくより少ない認知負荷で怠惰なアプローチは、80%から90%であっても、それが私が追求するのに十分であれば、明らかに持っているものを受け入れることです。
技術者として彼らと話すとき、多くのユーザーにとって、なぜこれにもっと時間を費やすのかと私は言います。それは本当に良い仕事をしている、私は持っているもので満足している、と。明らかに、それが手に負えなくなり、人々がカットから出てくるすべてが真実だと仮定するリスクがあります。私はいつも心の奥でこれについて考えています。私たちが作っている進歩と、それが最終顧客に生み出す価値との比較です。私は本番アプリケーション指向の消費者クラスのアプローチから来ていて、この二分法が非常に興味深いと思う場所だと思います。明らかに、数学的操作を行う場合、より主観的な場合と比較して特定の精度に焦点を当てたいのに対し、部分的な精度がその特定のモデルのパフォーマンスと比較してまだ十分である場合です。
比較として、現在の自動運転業界を考えます。Waymoが10万キロメートルあたりの事故が人間のドライバーよりもはるかに少ないことを示す研究を発表したと思います。しかし、人間よりも確率が低いにもかかわらず、機械がミスをするたびに人々はまだ非常に怒っています。私たちは基本的に人間と比較して機械の成功に対して異なるバーを持っています。なぜなら、私たちは機械での厳密な99.999%の正確性に慣れているからです。
毎回機能しないなら、それは愚かな機械です。ほとんどの場合、あなたと同じくらい良く、またはあなたよりも良くできるにもかかわらずです。しかし、人間がそれを行うのと比較すると、時々間違いをするアシスタントがいる場合、他の人間については、基本的にエラー修正やものをダブルチェックするプロセスを構築しています。
機械がそれを行う時、はるかにフラストレーティングです。ChatGPTをより良くするように教えることができないからです。「いいえ、あなたは間違ったことをした。次回はこのようにして」と言うことはできません。ダニエルが以前に言ったように、ChatGPTを再び立ち上げると、それは同じモデルです。間違いから学ぶことはできません。
これは、プログラミングアプリやウェブサイトなどの複雑なタスクを解決するために大規模言語モデルを使用する時にも行うことだと思います。実際に、それが人々やモデルのチームであるかのように、モデルを複数回呼び出します。ある意味で人間のチームに非常に匹敵します。私たちが大規模言語モデルをそのような方法で使用するこのアプローチは、その点で非常に興味深いと思います。私たちは皆、すぐにエンジニアではなくマネージャーになるでしょう。
私はそれを、最初から構築するのではなく、このシステムのキュレーターやガーデナーにほぼなると表現します。ベンチマークについてのあなたの見解が興味深いです。明らかに異なる見解を聞きます。Llamaの新しいバージョンが発売された時、多くの人が明らかに、それがベンチマークに合格し、打ち負かすように最適化され、ほぼ訓練されたという話をしました。
ARCAGIも汎用知能の新しいベンチマークとして形成されています。これらのベンチマークの役割についてのあなたの見解は何ですか?また、ARCAGIと同様に、時間の経過とともに、より良いベンチマークの定義は何でしょうか?
現在、ベンチマーク問題がありますよね。それらは非常に迅速に飽和していると思います。昨日ダニエルと話したのですが、ベンチマークの問題は、ソフトウェアエンジニアリングや簡単な数学、小学校、さらには博士レベルの数学などの広い問題に対してベンチマークを構築できる場合、ベンチマークの存在はしばしば、どこか他の場所の豊富なデータセットや大規模言語モデルの訓練で使用できる幅広いトークン数の存在を暗示することです。
データセットをキュレートできるなら、データが基本的に存在するため、大規模言語モデルはこのデータセットに適合することを学習できます。これにより、大規模言語モデルにとって困難なデータセットを作成することが非常に困難になり、これがデータセットがすべて非常に迅速に飽和する理由の一つです。しかし、人々はモデルの能力にまだ非常に不満足な場合があります。ある意味で、それはベンチマーク可能な問題に対するある種のオーバーフィッティングです。
ARCは、作成するのに非常に高価なベンチマークであることで、その問題を回避します。このベンチマークを作成するのは非常に労働集約的だと思いますし、それに使用できるデータセットはそれほど多くありません。基本的にARC問題の1兆トークンが存在しないため、1兆トークンの基盤モデルを構築することはできません。
ベンチマークのもう一つの点は、ベンチマークと組み合わせた各モデルに対して、データがモデルに提示される非常に特別な方法があることです。このベンチマークを処理するための特別な事前プロンプトがあります。したがって、ベンチマークの結果は、普通の人間がモデルにランダムな方法で尋ねる時に得るものを表していないかもしれません。それも違いがあり、それも大規模言語モデルの一般的な問題だと思います。それらは非常に有能ですが、問題を特別な方法で提示する必要があります。良いソリューションを見つけるためにそれに依存しています。入力フォーマッティングはしばしば大規模言語モデルの問題だと思います。
大規模言語モデルが解決できる数学問題をいくつか見ましたが、それは単に彼らが解釈しなければならないグラフィックだからです。しかし、実際には非常に簡単な問題ですが、大規模言語モデルは写真を読むことができませんでした。今日では読むことができますが、良くなっています。
私の側から、ベンチマークを見る時、一歩下がってこの質問をします。人間の知能を支配的な知能の一形態として知っていますが、今日ベンチマークと呼んでいるものは何でしょうか。明らかにIQテストがあり、基本的にそれが知能を測定する唯一の方法ではないことから離れています。異なる形態の知能について考えます。空間知能、運動知能、ベンチマークファミリーをほぼテスト場として見ています。
すべてのベンチマークを通過することが知能であると言うのではなく、一つのベンチマークでオーバーフィッティングしているかもしれませんが、別のベンチマークでアンダーフィッティングしているかもしれません。それはまだその種における知能の別の形態や異なる知能の木として存在するかもしれません。人間の知能をベースラインとして、時間の経過とともにこれらのベンチマークの進行について考え続けています。
その観点から見るのは非常に興味深いと思います。問題は、大きなモデルがその方向で評価するのが困難だということです。しかし、例えば、空間知能や読解知能などのベンチマークセットがあったら本当に魅力的だと思います。10の異なるデータセット、それらに適合する10のベンチマークがあり、これらの知能タイプの8つでモデルを訓練し、それが異なるタイプの知能に一般化できるかどうかを尋ねるというようなものです。そのようなものが得られれば、それは素晴らしいでしょう。
しかし、明らかに大きな研究所は、彼らが最高のモデルを欲しがるため、それを試すことに興味がないでしょう。だから、彼らは常に持っているすべてのデータを使用するでしょう。そのようなアブレーション研究を行わないでしょうし、少なくとも後でモデルを公開しないでしょう。
もしかすると、これはARCで行われていることと少し似ているかもしれません。事前訓練された大規模言語モデルを取り、いくつかの例でARCで試すと、これは少しその方向に行くと思います。モデルとは非常に異なるタイプの問題です。
少し異なるアプローチを取りましょう。つながっているが切断されているという意味です。フランソワ・ショレのプログラム合成が本当の知能、生物学的知能と呼ぼうものを模倣する中心であるという見解を見ると、特に汎用知能のようなものに到達するためにそれが中心であることについて、あなたの見解は何ですか?それはベンチマーク、さらにはARCAGIについての私たちの会話につながっています。プログラム合成やその他の今後のブレークスルーを含むこれらのアプローチが、AGIに向けてどの程度関連していると見ていますか?
それもとても難しい質問です。プログラム合成がARCに対する正しいアプローチかどうかをいつも考えています。しかし、それについて考えるたびに、私には間違っているように感じられます。少なくとも厳密な意味では、プログラム合成について考える時、Pythonコードのようなものを考えるからです。
ARCタスクを解決する時、どのように解決するかを説明できます。すべての青いオブジェクトを探して、それを右に3ピクセルシフトするというように言うことができます。ある意味でそれはプログラムですよね。それは指示のセットですが、非常にファジーな指示のセットです。広く適用可能な。
コンピューターサイエンスプログラムを行う場合や、プログラムを定義する場合、それはしばしば非常に制限されています。青いオブジェクトをすべて右に3ピクセルシフトすると言っても、青いオブジェクトとは何でしょうか?プログラムがこのアルゴリズムを実行できるように、単純な概念でさえ定義するのに多くの作業を費やします。
この方向に何かがあります。ARCで機能するプログラム合成を行う方法があると思いますが、非常に強力な基盤となるドメイン固有言語か何かがない限り、これらの問題を解決するためにPythonコードを生成できるとは思いません。
しかし、ある意味で、このファジーなタイプのプログラムは、人間の知能がどのように機能するかかもしれないと思います。なぜなら、私たちも時々より曖昧なカテゴリで考えるからです。ARCで推論モデルを使って解決しようとする推論モデルとの平行線もあります。それもルールを推論し、自然言語でそれらを記述し、それらを適用しようとします。
知能との何らかのつながりがあると思いますが、それは切断されていると思います。この問題を解決するルールを推論し、ルールを見つける必要があり、その後何らかの方法でそれらを適用できる必要があります。それは奇妙に正確に行うのが困難になる可能性があり、人間の脳がこれをどのようにうまく行うことができるかわかりません。
そのようなアイデアを伝えることさえも、ARCタスクの挑戦だけを見て訓練データを見ない人間と、全体のタスクを見る他の人間を取ると、全体のタスクを見る人間はおそらく他の人間にタスクを解決する方法を完全に説明できるでしょう。他に何も見る必要さえありません。だから、私たちは他の人間にそのような問題を解決する方法をアルゴリズム的に説明する方法、またはプロンプトする方法を理解しています。それは伝達さえできるほど一般的でファジーな方法でです。
それはクレイジーです。そして、それを大規模言語モデルや機械学習でのタスクにどのように適用するかわかりません。しかし、それは汎用知能やより良い大規模言語モデル、より良いAIの方向への大きなステップだと思います。
あなたが知っている今後のブレークスルーとアプローチのこの部分にとどまって。お二人とも明らかに2024年のARCチャレンジと今後のチャレンジでパートナーシップを組んでおり、お二人が同意する多くのアイデアを共有していると仮定しています。お二人が個別に意見が合わないことは何ですか?個別に意見が合わないアイデアは何ですか?
それは非常に良い質問です。私たちがそれほど意見が合わないとは思いません。アプローチについて長い議論をすることがよくありますが、最終的に一人がそれが良い道だと思わない場合、もう一人がそれをテストし、うまくいけばうまくいき、うまくいかなければうまくいきません。だから、私たちは非常にテスト駆動開発です。
私たちはそれほど意見が合わないとは思いませんが、異なる概念的アプローチを持っています。それは私たちが意見が合わないことかもしれません。何が間違っているかの視覚的説明を持つことが非常に重要だと思います。一方、ダニエルは「いいえ、ただ考えてください。明らかです」という感じです。
その点で、ARCチャレンジを解決する時にも少し異なるアプローチを持っていました。私は視覚化してみよう、ここで何が問題かを見てみようとしていましたし、私はただプログラムしてテストし、うまくいくかどうかを見て、うまくいかなければ他のことをテストしましょうという感じでした。少し異なるアプローチでしたが、一緒にかなりうまく機能したと思います。基本的に異なるデバッグアプローチです。
素晴らしいです。世界のこれらの技術の状況について、より異なる方向に話題を変えたいと思います。特に、これらの集中の多くが米国のシリコンバレー、特にそこから生まれた企業に見られる可能性があります。お二人ともドイツにいて、ここでのAI研究の状況をほぼ代表していると見ています。
汎用AI研究とお二人が行っている作業のこの展望について、ヨーロッパでのあなたの見解は何ですか。これが現在どのように進んでいるかを見ることに特に興味があります。また、ヨーロッパがこの分野での全体的な進歩において果たす場所についても。
あなたがおっしゃるように、AI研究のほとんどは非常に米国中心的ですよね。それは少し悲しいことです。ヨーロッパにはMistralがあり、いくつかのクールなことをして時々現れますが、AnthropicやOpenAIやGeminiと同じような最先端や人気はありません。
しかし、ヨーロッパ、特にあなたが出身地であるか現在座っているスイスにいくつかのクールなスタートアップがあることを知っています。現在リーダーボードで1位にいるUFA Labsや、リーダーボードで3位または2位にいるGiotto AIなどと話しました。彼らは非常にクールな実験を行っており、OpenAIやGoogleと比較してプレッシャーが非常に激しいため、より実験的なアプローチに扇形に広がっていると思います。
基本的に、GoogleやAnthropicやOpenAIのような大きな研究所がおそらく試さない非常にワイルドなことや非常に興味深いアイデアを彼らは試します。しかし、わかりません。彼らが閉じたドアの後ろで何をしているかわからないからです。
また、少し政治的になりますが、現在の政権のために、人々がヨーロッパをもう少し見始めるかもしれません。少なくともそれを望みます。ここでもっと多くのことが起こるといいでしょう。
ヨーロッパでは少し困難かもしれません。しかし、ポイントは、基本的にここでこれらの大きなモデルを訓練するためのそれほどの計算能力を持っていないということです。それが、スタートアップがより多くの異なる実験的なことを試す理由だと思います。大きな会社が訓練する大きなモデルに追いつくことは不可能だからです。もちろん、ヨーロッパでそのような大きなモデルを訓練したい場合、より多くの規制問題もあります。
ドイツでは電気代が非常に高いです。だから、ここでは試そうとさえしないでしょう。どこか他の場所で何かを借りるかもしれません。
しかし、お二人が魔法の杖を持っていて、それを使ってヨーロッパで起こっていることの方法を変えたり、特にこの分野を進歩させたりできるとしたら、何を変えることを期待しますか?今後数年間で物事が魔法のように変化し、現れることを何を期待しますか?
政治には非常に多くの二次効果があるため、言うのは困難です。しかし、少なくともよく議論されているのを見るか感じるのは、ヨーロッパのスタートアップ文化が少し弱すぎるということです。私が知っている興味深いスタートアップのほとんどはスイス、ベルリンの一部、ロンドンの一部にあると思いますが、かなり稀です。
例えば、私と一緒に勉強している人々のほとんどは、スタートアップをすることを考えないでしょう。シリコンバレーやトルコのような場所が持っている同じ推進力や同じ文化を持っていません。それに対してはるかに多くのサポートがあるといいと思います。
例えば、シリコンバレーのY Combinatorを見ると、彼らはスタートアップをしたい人や良いアイデアを持っている人に大金をばらまいています。ヨーロッパにはいくつかの類似したものがありますが、Y Combinatorのように大きく、参入しやすいものはありません。だから、私たちは文化を失い、そのような文化のサポートを失い、その方向で何かをする政治的意志も少し失っていると思います。
私の観点から欲しいのは、ヨーロッパでY Combinatorのようなものです。そうすれば、彼らからお金をもらえるからです。いいでしょうね。
私もこれに完全に同意します。それも私の最初の考えでした。私たちはシリコンバレーのようなスタートアップ文化を何らかの形で失っているということです。スイスにはいくつかの興味深いスタートアップがあると思いますが、ドイツではAI分野にはそれほどスタートアップ文化がありません。
Y Combinatorか何かに行くと、彼らはしばしばあなたに少なくとも半年間はシリコンバレーに移住することを望みます。だから、それは人々を米国に引き込む非常に効率的な方法です。
確実に主権AIの出現を見ています。特に私たちが住んでいる風景で、ヨーロッパがAI法を持ち、明らかにその成長を形成し支援するためにお金をプールしようとしています。領土や国や大陸が彼らの境界内でより主権的なAIセットアップを構築し始める際に、これがあなたのレーダーにどの程度あるかについて。
あなたはそれについて考えますか?これはあなたの研究の応用においても心に留めておくべきことですか?
少しです。時々本当にビジネスアイデアではなく、面白いアプリのアイデアや面白いウェブサイトのアイデアを持っています。それらはほとんど何にもつながりませんが、頭の中でアイデアを弄ぶのが好きです。一度AI法を読んだことがあり、それを読むと、私のアイデアは不可能だったように聞こえました。彼らは大規模言語モデルが人々に感情的に影響を与えることを許可されていないというようなことをそこに持っていたからです。
しかし、それを通読すると、最初に思っていたよりもはるかに厳しくありません。しかし、問題はAI法の存在さえもが人々からスピードを奪っていることです。それは小さな不便ですが、十分な小さな不便を積み重ねると、人々は何かをしようとしなくなります。ドイツのデータ保護規制でも同じことです。
文句を言い始めたくはありませんが、それらをまったく好きではありません。彼らが行うことにしばしば良い理由があることは知っていますが、システムからスピードを奪っています。時々行き過ぎて、おそらく大きな企業を対象とするように作られました。しかし、小さな企業にとって、これらの規制は大きな問題です。
規制は大きな企業にとってしばしばより簡単だと思います。なぜなら、彼らは大きく、それを解決する人々を雇うことができるからです。それを解決する作業は基本的に同じです。どれだけ大きいかに関係なく。
これが本当に変化し、機能するモデルを予見しますか?明らかに、あなたがおっしゃったように規制の良い部分を保持し、おそらく特定のサイズの大きな企業に適用し、収益への影響を知る方法で。個人のデータ周辺の権利が保護されるのを見たいが、特にそれが理想的な初期段階にある場合、イノベーションと市場投入時間を遅くしたくないからです。ドイツやヨーロッパ全般で機能しなければならない場合、良いモデルがどのように見えるかについて考えることはありますか?
政治に深く入ると、それは本当に困難な質問です。小さな企業に対してしばしば免除があり、それは良いことです。しかし、すべての政府がこれがある意味で問題であることを知っていると思います。基本的にドイツのすべての政党が彼らのアジェンダの一部として規制緩和を持っていました。だから、誰もがそれが問題であることを知っていますが、解決するのが困難な問題です。なぜなら、規制を減らしたいが、多くの規制は何らかの良い理由のために存在するからです。
うまくいけば、大規模言語モデルか何かでこれを解決できるかもしれません。うまくいけば、多くのことをデジタル化でき、規制が扱いやすければ完全に問題ないでしょう。ドイツの規制大規模言語モデルに「私は会社を始めています、何をしなければなりませんか、どうか神様助けてください」と尋ねることができて、それが処理しなければならない3つの要点を吐き出し、それで終わりです。それは問題ないでしょうが、悲しいことにそのようにはなっていません。
何か間違ったことをしたら、これが後で私を台無しにするのか、それとも本当に悪いのか、それともただ大丈夫な悪いのかという恐れがほぼ常にあります。
ダニエル、それを構築しましょう。すべての規制問題を解決するデータ保護大規模言語モデルを構築しましょう。
多くの法的質問が関わっているため、これらすべてを解決できる大規模言語モデルを構築するのは困難かもしれないと思います。それから再び、あなたの大規模言語モデルが間違ったアドバイスをした場合、誰が責任を負うのでしょうか。私たちではなく、それは大規模言語モデルの責任です。
これを政治的なポッドキャストにしないために、しかし、お二人が行っている作業に興奮することを話し始めましょう。研究をしていることは知っていますし、これらのチャレンジにも参加しています。あなたを興奮させるか、地平線上にある潜在的なアイデアやブレークスルーがありますか。研究者としての役割やこの分野での作業において、毎日あなたを夜に眠らせなかったり、毎日興奮させたりするものはありますか?
いくつかあります。起こっていることがあまりにも多いので、追いつくのは非常に困難ですが、現時点で興味深いアイデアはすべて推論方向にあると思います。そして、おそらくGemini拡散のような拡散大規模言語モデルのようなものです。それは非常にクールで非常に高速ですが、どの程度うまくスケールするかわかりません。
しかし、それらが適用できるとは思わなかった分野でも強化学習を使用した推論に非常に興味深いアプローチがあります。名前を忘れましたが、数週間前に魅力的なストーリーを生成しようとする論文がありました。ストーリー執筆大規模言語モデルのようなもので、強化学習を使用してそれを訓練しています。RL WLMか何かだと思いますが、何と呼ばれているかわかりません。
強化学習を行う時、それでも信号が必要だからです。生成されたテキストが良いテキストか悪いテキストかという信号です。魅力的なストーリーであるという信号は明らかにありません。多くの人がいない限り。だから、代わりに彼らが行うことは、ストーリーの最初の部分を選んだ後に推論を行い、推論ステップがストーリーの残りが生成される確率を最大化することを望んでいます。
基本的に、大規模言語モデルはストーリーを書いた人の心に入ることを学習します。それは明らかに非常にうまく機能します。明確な報酬信号がないという問題を非常にエレガントに回避するため、非常に興味深いです。そのようなことは非常に興味深い可能性があり、そうでなければ次のOpenAIモデルを待っています。2週間以上かかることはないでしょう。
私も現在推論モデルと、それらをどのように訓練するか、そして最初に推論トレースを持たずに何らかの推論プロセスを訓練することが可能かどうかに非常に興味があります。通常、問題の解決につながる作業推論トレースを持っています。それらを大規模言語モデルに与えます。
しかし、例えばARCの場合、問題がどのように解決されるかを教えてくれる推論トレースを基本的に持っていません。モデルが最初からそれらを自分自身で生成し、これらのタスクを解決する方法はありますか?モデルが人間が生成したデータなしで、またはそれで始めずに、推論を自分で学習することは可能でしょうか?それは私が考えている興味深い質問です。
最近、ポッドキャストの文脈外で誰かと話していました。これはつながっています。推論システムでのアイデアと潜在的なブレークスルーについてのあなたの見解を得たいと思いました。この人は進化生物学者で、人間と比較して多くの時間について話していました。なぜそれをしたのか、なぜその答えに到達したのかを誰かに尋ねると、彼らは説明してくれますが、説明のプロセスは時々、またはほとんどの場合、推論プロセスを正確に記述するほど正確ではありません。
この人は基本的に、推論モデルを見て、推論の連鎖を定義することは基本的にモデルがこれを構造化された方法で考えることを強制すると話していました。しかし、生物学的知能を反映させる場合、多くの場合、偏見、影響、感情があり、それらを推論の文脈に入れることや、さらには言語化することさえ非常に困難です。
進化生物学者の観点から、彼は推論プロセスを構造として作るために愚かにしているとほぼ感じていました。実際には人間では非常に有機的で、非常に混乱している可能性があります。お二人は個別にこのアイデアをどのように見ていますか?そして、推論システムの台頭をどのように見ていますか?
人間の思考や人間の推論をモデルに適用するのは常に非常に魅力的ですが、少なくともいくつかの場合には正しくないと思います。推論トレースはモデルがバックグラウンドで実際に考えていることに忠実ではないと主張する論文がいくつかあると思います。推論トレースを持つことができ、モデルが最終的に出力する結果は完全に異なるものです。
しかし、言うのは困難です。推論トレースで非常に解釈可能に感じるにもかかわらず、私たちはまだある種の解釈可能性を失っていると思います。しかし、それらは十分ではないと思います。それらはモデルが何をするかを理解するためのツールとして見られるべきではなく、より計算プロセスのようなものとして見られるべきです。説明として使用すべきではなく、モデルがその方向に進んだということだけです。少なくともそれが私が思うことです。
例えば、AI数学オリンピアドがあり、そのためにDeepSeek推論モデルで少し遊びました。彼らは時々非常に愚かでした。非常に複雑な数学問題があり、いくつかのケースでモデルはこの数学問題を解決するための完全に正しい推論トレースを生成しました。しかし、最後の文で、しかしその解決策は間違っているように見えるので、代わりに5と答え、それから5と答えました。そこで何が起こったかわかりませんが、本当に奇妙でした。
推論がモデルを特定の思考方向に制約するように感じるにもかかわらず、それが常に真実だとは思いません。
人間の推論プロセスは、おそらく部分的に無意識であり、自然言語で完全に説明できるかどうかわかりません。したがって、モデルが人間の自然言語で推論する場合、物事について考える時に人間が実際に行うこととは異なることをするかもしれません。
また、大規模言語モデルはテキストデータでのみ訓練されているため、彼らが書くことや答えることは人間が書くであろうことのモデルに過ぎないが、人間が書くであろうことのモデルでもあり、人間が考えることではないという問題もあります。それが私がここで意味したことです。それは人間が言語で表現しなければならないため、何を考えたかと尋ねられた場合に人間があなたに言うであろうことでもあります。
言語がない世界で推論を説明することがどのように機能するかについて誰かと議論していました。それを考えるのは非常に詩的な方法だと思います。
素晴らしいです。今日の会話のほぼ最終段階に結論付けています。この変化のペースを美しく説明したと思います。ヤンが2週間待てば何か全く新しいものが来ると言及したと思います。AI研究者として、明らかに焦点を保つ必要がありますが、周りで起こっていることに関して最新の状態を保つ必要もあり、それは明らかに大きな挑戦だと仮定しています。
しかし、それを研究するのではなく、技術実装に焦点を当てたアプリケーションの誰かのような人にとって、文字通り注意障害のADHDプロセスを経験しているような感じです。一つの論文から一つのモデルへと常に移動し、追いつくべきことがたくさんあります。お二人に興味があります。これほど多くの情報がある世界で最初に見られるアプローチは何ですか?
これほど多くのことが起こっています。あなたの分野内で明確な焦点を持ちながら、物事の最上位にいることをどのようにバランスを取りますか?それが私の質問の第1部です。第2部に行く前に、あなたの入力を待ちます。
私は非常にキュレートされたTwitterフィードを持っていると思います。興味深い論文を投稿する多くの人をフォローしています。それは毎日です。現在の研究情報を得る最良の方法がTwitter、現在のX.comであることは非常に迷惑で奇妙だと思います。好きではありませんが、まだ他に何も見つけていません。しかし、私はそこで役立つことを願って何かに取り組んでいます。
同時に、私は多くをざっと読みます。見た論文を見て、これは私が解決しようとしている問題に関連しているかと尋ねます。それから少し再帰的に行います。主なアイデアは何か?理解できるか?これをどのように適用できるかが明確か?そしてそうなら、実際にこれを適用しようとする時にのみ論文に戻ります。
必要な情報のみを各時点で取得しようとします。そうでなければあまりにも多いからです。いくつかの例外があります。他のすべてを打ち負かす非常にクールなモデルがあると思う場合、彼らがどのようにそれを行ったかを知りたいです。だから、時々コードに入り、時々GitHubをチェックし、論文をより注意深く読みます。しかし、見る論文の95%について、非常に迅速にざっと読み、これは私にとって重要かと自分に尋ねます。
また、非常に短時間にこれほど多くのことが起こっているため、ニュースの発展をフォローするのは非常に困難だと思います。私は主に自分の研究を行っている分野で最新の状態を保とうとしており、それが私にとって最も重要だと思います。一般的なことについては、彼は常に非常によく情報を得ているので、ヤンに尋ねます。
この分野に入ろうとしている、おそらくアプリケーションとしてそれを適用することを考えており、すでにモデル作業研究が世界中で起こっている小さな方法と大きな方法でのブレークスルーのこの全体的な多様性に圧倒されている人にとって、彼らが入るための、理解し、何が起こっているかを理解し、遊び回るためのアドバイスは何でしょうか?第二に、この分野に貢献するためのアドバイスは何でしょうか?ゼロから始める場合のアドバイスは何でしょうか?
彼らが働きたいレベルによります。基本的にアプリケーション側でおっしゃったように、どの程度大規模言語モデルが必要かによって、モデルが何をするかを理解するのは非常に簡単か非常に困難です。ChatGPTや他の大規模言語モデルの周りのラッパーのみを行う場合、完全なモデルをブラックボックスとして扱い、それが奇跡だと仮定できます。テキストを入れ、テキストが出て、完璧、機能します。
その場合、モデル選択を変数として保持することが非常に重要だと思います。そうすれば、切り替えてテストし、どちらがうまく機能するかを確認できます。このプロンプトはうまく機能するか?ここでより高速な推論を行うことができるか?それはあなたの制限によります。
もう少し深く入り、ロジット確率か何かを使用するなど、大規模言語モデルに近いことをしたい場合、大規模言語モデルが何をするかについて広い理解を持つべきです。非常に深く入る必要はありません。使用されるコードを理解する必要はありませんが、モデルが自己回帰的であること、トークンに対する確率分布を生成することなどの意味を理解すべきです。
研究方向に行き、モデル自体で実際に作業したい場合、モデルに存在するコードの一部を読むことは驚くほどアクセスしやすいと思います。Hugging Faceコードは基本的に、Hugging Faceに存在する各モデルに対してモデリングファイルを持っており、そこにモデルが印刷されています。それらはそれほど複雑ではありません。その上により多くのものが積み重ねられていますが、大規模言語モデルの中心基盤は非常に理解しやすく、非常にハック可能です。
だから、いくつかの変更を試し、レイヤーを置き換えたり、トークン埋め込みで実験したりすることができます。私の意見では、人々にとって非常にアクセスしやすいです。
私がARCと大規模言語モデルに入る前に驚いたこともそれでした。理論は知っていましたが、コードや実装方法は知りませんでした。実際にそれよりもはるかに複雑だと思いました。最終的に、それは単純な構成要素を複数回積み重ねただけで、かなりアクセスしやすく、現在はコンピューター的観点からもアクセスしやすいです。数十億パラメーターのような小さなモデルを消費者GPUで実行し、実験し、ファインチューニングできます。現在、かなり多くのことが可能だと思います。
人々は、小さなデータセットでのファインチューニングや、アーキテクチャでの小さな変更でどれだけのことができるかを過小評価していると思います。それが可能だとは思いませんでしたが、ARCコンテストでダニエルが基本的に完全な埋め込みレイヤーをわずか50チャンネルで置き換えただけで、完璧に機能し、それが機能することに完全にショックを受けました。
慎重かつ正しく行えば、小さな変更に対してモデルは驚くほど堅牢で、すべてのパラメーターを基本的に正しく取得しなければならなかった古いモデル、ConvNetsと比較して、訓練プロセスでも堅牢です。Transformerは主に標準パラメーターでいくつかの受け入れ可能な結果に訓練されました。
完璧ではありませんが、古いアーキテクチャと比較してかなりうまく機能すると思います。
素晴らしいです。まとめたいと思います。お二人とこの会話をすることができて光栄です。無制限の時間と機会のスペースで、多くの場所に行くことができたでしょう。
お二人が共有したいことはありますか?人々があなたに連絡する方法、質問がある場合の接続方法、どこでよりアクセスしやすいかなど?
私たちと話したい人は誰でも、LinkedInで非常に簡単に見つけることができます。友達リクエストを送ってください。おそらく受け入れるでしょう。私は研究についてチャットするのが常に嬉しいです。また、Googleで検索するだけで私たちの両方のメールも見つけることができると思います。それほど匿名ではないと思います。必要であれば、ARC論文にあると思います。
素晴らしいです。ヤン、ダニエル、ありがとうございました。お話しすることができて光栄でした。質問に答え、この件について良い雑談を交わすために時間とエネルギーを取っていただき、本当に楽しかったです。感謝します。
招待していただき、ありがとうございます。お話しできて良かったです。
興味深い話をありがとうございました。同感です。


コメント