ファインチューニングに代わる強力な選択肢

Poeticの共同創業者兼共同CEOであるイアン・フィッシャーが、ファインチューニングに代わる革新的なアプローチを語る。同社が開発する再帰的自己改善型AIシステムは、既存の大規模言語モデルの上に構築される「高床式」のアーキテクチャにより、数億ドル規模のモデル訓練コストを回避しながら最先端の性能を実現する。ARC-AGI V2やHumanity’s Last Examといった難解なベンチマークで最高水準の結果を達成し、ファインチューニングの半分以下のコストで優れた性能を発揮する。元Google DeepMind研究者としての10年の経験を持つフィッシャーは、AIの民主化とスタートアップのイノベーション加速を目指し、あらゆる企業が最先端モデルの恩恵を受けられる未来を描いている。

The Powerful Alternative To Fine-Tuning

Poetiq is a new startup founded by former DeepMind researchers that recently achieved a major jump on the ARC-AGI benchm...

AIとの日常的な実践が未来を作る
Poeticとは何か―ファインチューニングとの違い
スタートアップが本当に必要としているもの
Poeticの実際の使い方
ベンチマークでの驚異的な成果
Humanity’s Last Examでの成果
創発的行動への科学的アプローチ
強化学習とは異なる新しいパラダイム
コンテキストエンジニアリングの自動化
スタートアップがPoeticを利用するには
Google DeepMindからPoeticへの道のり
エンジニアへのアドバイス

AIとの日常的な実践が未来を作る

世界は本当に速いスピードで変化していますよね。これは少し当たり前のことかもしれませんが、とにかく色々試してみるべきなんです。毎日何かしらAIを使って実践してみる。去年の夏、私は週末を使ってGPT-4の助けを借りてiPhoneアプリを作ってみました。そんなことは10年ぶりでしたよ。

でも本当に速くて簡単だったんです。それももう随分前の話で、8ヶ月くらい前のことですからね。今はもっと速く、もっと簡単になっています。自分に制限をかけないでください。想像できることは何でも、AIを使ってどこまでできるか試してみるべきです。そうすれば世界をより良くすることができますから。

Light Coneの新しいエピソードへようこそ。イアン・フィッシャーは、LLM向けの再帰的自己改善型AI推論ハーネスを構築しているPoeticの共同創業者兼共同CEOです。以前は10年間Google DeepMindで研究者として働き、数年前にはY Combinatorを通じてモバイル開発ツールの会社を立ち上げました。ようこそ、イアン。

ありがとうございます。ここに来られて本当に嬉しいです。

Poeticとは何か―ファインチューニングとの違い

Poeticって何ですか? 強化学習とはどう違うんですか? コンテキストエンジニアリングとはどう違うんですか?

Poeticで私たちが構築しているのは、再帰的自己改善システムなんです。再帰的自己改善というのは、AIの聖杯のようなもので、AIが自分自身を賢くしていくというものです。私たちが得た核心的な洞察は、他の人々が提案してきたあらゆる方法よりも、はるかに速く安価に再帰的自己改善を実現できるということでした。

もちろん、私たちの特定のアプローチが何なのか詳細には触れられませんが、世の中にある大半のアプローチでは、新しいLLMをゼロから訓練する必要があります。LLMをゼロから訓練するには数億ドルのコストがかかり、数ヶ月の労力が必要なんです。

そうすると、AnthropicやOpenAIが次のモデルをリリースしたら、あっという間に追い抜かれてしまうわけですね。

その通りです。もちろんAnthropicやOpenAI、Googleも訓練による再帰的自己改善を探求していますが、通常は自己改善のステップごとに新しいモデルを訓練する必要があるというレベルでやっているんです。

スタートアップが本当に必要としているもの

それって実際、スタートアップが本当に本当に欲しがっているものの決定的な要素のように思えます。次のモデルの利点を活用したいのは分かっているんですが、ファインチューニングの世界に足を踏み入れた瞬間、数百万ドルから数億ドルを費やすことになります。そして何が起こるかというと、お金を燃やしただけで終わるんです。なぜなら、次世代のフロンティアモデルが出てきて、もう追いつけなくなるからです。

一方、あなた方のシステムを使えば、常に箱から出したままのものよりも優れたものを手に入れられるわけで、それこそが聖杯のようなものですね。

そうです。私たちは、大規模言語モデルの上に構築している人たちにとって、これは信じられないほど価値があると考えています。フロンティアモデルを競合相手とは見ていません。彼らは私たちが使っている竹馬、つまり私たちがその上に立つための竹馬を作ってくれている存在なんです。その基盤層がなければ、Poeticは存在できませんから。

実際、最もスマートなモデルであるということは、本当にわずかな差のゲームなんです。でもそのわずかな差がとても重要なんですよね。

その通りです。

Poeticの実際の使い方

実際にはどうやって始めるんですか? つまり、基本的にどんなスタートアップでも使えるものを構築されたわけですよね。本当に竹馬のようなものです。

私たちが構築したのは、あなたの特定の問題に対して自動的にシステムを生成できるシステムで、常に基盤となる言語モデルよりも優れた性能を発揮します。しかも、おっしゃっていたような大規模なコストをかけずに済むんです。

苦い教訓なしにPoeticがなかったら何をしていたかというと、おそらく「よし、まずは自分たちが取り組んでいる特定の問題について、数万件の例を含む大規模なデータセットを収集しよう」と言っていたでしょう。そして、手に入る最良のモデル、フロンティアモデルかオープンウェイトモデルのどちらかでファインチューニングを行うことになります。

そのファインチューニングに多額のお金を費やすことになります。計算コストが非常に高いんです。そして最終的に、ファインチューニングの元になったものよりも優れたものが手に入りますが、その時にはもう新しいモデルが出ていて、それがあなたのファインチューニングしたものよりも優れているんです。

3年前にGPT-3.5の上でファインチューニングしたとして、その後GPT-4が出てきたら、あなたを完全に圧倒してしまいます。また同じことをやり直すのか、それとも廃業するのか。場合によっては後者になってしまいます。

Poeticを使えば、最終的に手に入るのは、今ではハーネスと呼ばれているもの、あるいはエージェントシステム、何と呼んでも構いませんが、一つまたは複数の言語モデルの上に乗るシステムで、それらよりも優れた性能を発揮します。新しいモデルが出てきても、同じハーネスが完全に互換性を持っています。さらに大きな性能向上を得るために何も変更する必要はありません。

さらに、使いたい新しいモデルに対して最適化を続けることもできるので、さらに良くできます。数億ドルを失うこともありません。実際、ファインチューニングにかかるコストよりもはるかに安価にこれを実現できるんです。

ベンチマークでの驚異的な成果

実際に何度もこれをやってきましたよね。去年の12月に最初の論文を発表したとき、ARC-AGI V2でトップに躍り出たのを覚えています。他のベンチマークでも何度もやっていますよね。それはどんな感じでしたか?

ARC-AGI V2は、私たちがステルスモードから出て、本当に難しい問題に取り組めることを人々に知らせるものでした。特に、私たちのシステムが非常に効果的な推論システムを生成できることを示したかったんです。Poeticメタシステムと呼んでいるものですね。

Gemini 2 Flash Thinkingがちょうど出たばかりで、45%でリーダーボードの本当に劇的なトップにいました。そして2日後、私たちが結果を発表したんです。それよりもはるかに高い性能を示せることを示しました。

彼らがソーダを出すと、あなた方が毎回その真上に来るというのは、正直に言って見ていて驚異的です。それが竹馬を持つということなんですよね。どんなモデルが出ても、Poeticを使えばそれより高くなれる。それって本当に素晴らしいことです。

興味深いのは、Gemini 2 Flash Thinkingの半分のコストだったということです。なぜなら、はるかに安価なモデルであるGemini 2 Flash Proの上に構築していたからです。それでも最終的には公式検証で9パーセントポイントの改善を得られました。彼らが45%で70ドル台だったのに対し、私たちは54%で1問あたり32ドルでした。

Humanity’s Last Examでの成果

最近、Humanity’s Last Examで驚くべき結果を発表されましたよね。それについて詳しく教えていただけますか?

Humanity’s Last Examは、多くの異なる分野の専門家によって書かれた2,500問の本当に本当に難しい質問のセットです。それらの分野の博士号取得者にとっても挑戦的であることを意図しています。AIはまだ合格していません。でも私たちは55%に到達しました。これは先週AnthropicのClaude Opus 4.5から出た以前の最先端よりもほぼ2パーセントポイント高いんです。彼らは53.1%で、私たちは55%でした。

Humanity’s Last Examが公表していないことの一つは、これらの結果を得るためのコストです。あなた方の場合、この実行は6桁未満で行われましたね。具体的にはいくらでしたか?

コストについては何も公表していませんが、最適化には10万ドル未満のコストがかかったとは言えます。

これは印象的です。なぜなら、大規模基盤モデルの訓練実行はそれぞれ数億ドル規模だからです。そして会社としては、わずか7人なんですよね。

その通りです。7人の研究科学者と研究エンジニアです。

創発的行動への科学的アプローチ

それは印象的です。あなた方のアプローチで非常に興味深いのは、多くの優秀な創業者がモデルで行っている創発的行動に対して、非常に科学的なアプローチを取っているということだと思います。

エージェントで非常に良い結果を得ている多くの創業者は、基盤となるモデルを切り替え可能な共通レイヤーとして扱っています。例えば、GPT-o1のような特定のタスク、検証が非常に難しいバグはそちらに送られ、アーキテクチャはClaude Opus 4.5に送られるといった具合です。でもあなた方は、人間が指揮するのではなく、これを自動的に行っているんです。非常に印象的です。

何かもっと特別なことが起こっていると思います。どのように機能するのか少し教えていただけますか?

魔法のように聞こえますね。何を教えていただけますか?

核心的なことを突いていますね。これらのハーネスは、コード、プロンプト、データで、一つまたは複数の言語モデルの上に構築されているんです。原理的には手作業で構築することもできますし、Claude Codeなどを使うこともできます。

でも実際には、これらをうまく機能させるためのすべての洞察を得るには多くの作業が必要です。Poeticで開発した核心技術は再帰的自己改善なんです。Poeticメタシステムと呼んでいる再帰的自己改善システムがあります。

そのシステムの出力は、難しい問題を解決するシステムです。難しい問題というのは、例えばGPT-o1に渡しても信頼性の高い堅牢な結果を得るのに苦労するようなものです。

これは私たちにとって非常に大きな利点です。これらのシステムをはるかに自動化された方法で生成できるということは、チームを雇って特定のタスクを解決するための独自のエージェントを作ろうとするよりも、はるかに迅速かつ安価にできるということです。

それだけでなく、これは本当に自動化された最適化プロセスなので、すでにその作業を行っている場合、特定の垂直市場を追求しているスタートアップで、自分のエージェントをまとめ上げて、問題をかなり理解していると思っている場合でも対応できます。うまく機能しているかもしれませんが、もっと良いものが欲しい、または本当に必要な場合、私たちのところに持ってきていただければ、エージェント全体またはその一部を最適化できます。プロンプトだけ、推論戦略だけなど、特定のニーズに応じて様々なことができます。

強化学習とは異なる新しいパラダイム

これは強化学習とは全く異なるパラダイムのように聞こえます。OpenAIがo1をリリースしたときに、通常の事前訓練から強化学習へというS字曲線を経験しましたが、これは新しいもののように感じます。特別に聞こえます。RNNに似ているように思えます。強化学習とは全く異なるパラダイムですよね。

取り組んでいる特定のタスク、解決しようとしている問題の特定のタイプ、そして作業している基盤モデルによって異なります。でも、効果的には、作業している各モデルまたはモデルのセットには、それぞれ独自のS字曲線があると言えます。

Poeticシステム、Poeticメタシステム自体にも独自のS字曲線があります。Poeticメタシステムが良くなり、基盤モデルが良くなるにつれて、扱っているS字曲線がどんどん高くシフトし続けることがわかります。最終的に飽和するか、AGIに到達するまでです。

AGIに到達する、超知能に到達する。竹馬を考えると、先に天井に到達するかもしれませんね。

それが目標です。

先に天井に到達したい。

コンテキストエンジニアリングの自動化

私たちが働いている多くのスタートアップ、それから私の余暇時間には、かなりのコンテキストエンジニアリングをやっています。調整したり、評価を調整したり、コンテキストを詰め込んだりしています。

プロンプトエンジニアリングやコンテキストエンジニアリングの再帰的自己改善版を持つというのは、どんな感じなんですか?

作業しているデータを見るのに多くの時間を費やしていません。代わりに、Poeticメタシステムにそのデータを見させています。メタシステムは、コンテキストにもっと多くのものを入れる必要がある、もっとコンテキストを詰め込む必要があると考えれば、そうします。より良い性能を得るために多くの例を生成する必要があれば、それをやってくれます。

特にARC-AGIのプロンプト出力を見るのは非常に興味深かったです。それらを読んで、「まあ、これは人間が書いたものではないな」とはっきり言えます。予想外のものがあって、本当にシンプルな例を作りました。例の一つは実際には間違っているんですが、変更しませんでした。「まあ、これが出力したものだから、そのままにしておこう」という感じです。物事をいじりたくなかったんです。

歴史的に機械学習では、常にデータセットを本当によく知る必要がありました。でも今は、それをAI自体にアウトソーシングしています。AIの仕事はデータセットを理解し、失敗モードがどこにあるのか、エージェントがより良い性能を得るために使える堅牢な推論戦略はどこにあるのかを見つけることなんです。

どのくらいが、出力がはるかに優れたプロンプトになることで、どのくらいがハーネス自体が適切な方法でコンテキストを詰め込んだり要約したりリランクしたりすることなんですか? つまり、いくつかのメガLLM呼び出しがあって、それぞれの呼び出しから最大限の成果を得るにはどうすればいいかということです。

それは問題ごとに確実に異なります。でも実際に見てきたのは、DeepMindでの最後の論文では、この再帰的自己改善のことはやっていませんでしたが、本当に難しい問題を解決するためにこれらのハーネスを手動で構築できることを示していました。

そこで見たのは、これらの非常に難しい問題に対してプロンプトを本当に一生懸命手動で最適化したということです。この特定のケースでは、それである程度まで到達できました。取り組んでいた最も難しいタスクでは、Gemini 1.5 Flashで約5%の性能に到達しました。これはかなり前のことです。

そして推論戦略を追加したとき、5%から95%になったんです。これが私たちが通常見ているものです。多くの人が何らかの自動プロンプト最適化を行っています。DSPyは非常に人気のある論文で、多くの人がそれを実装しています。それである程度の性能向上は得られますが、実際に推論戦略について考えれば得られるものには遠く及びません。推論戦略は、より良いプロンプトだけではなく、本当にコードで書かれることになります。

スタートアップがPoeticを利用するには

スタートアップがエージェントを竹馬に乗せるためにPoeticを使いたい場合、何をすべきですか?

今のところ、まだ何もリリースしていませんが、poetic.aiに行けば、早期アクセスにサインアップするボタンがあります。本当に難しい問題を抱えているスタートアップや企業で、それを信頼性が高く堅牢にするためにできることすべてを試したけれど、そこまで到達できない、もっと何かが必要だという場合は、お知らせください。

そういう問題を探しています。取り組んでいることを教えていただければ、私たちから連絡します。準備ができたら最初にお知らせします。

Humanity’s Last Examのトップにいるなら、それはかなり大きいことです。つまり、もうそこまで到達しているわけで、竹馬は基本的にどんなエージェント企業もソーダになれるようにするということですね。

それが狙いです。ARC-AGIの結果とHumanity’s Last Examの結果は、私たちが持っている二つの異なる能力を示していると考えています。推論を本当に改善できること、そしてこれらのモデルから深い知識抽出を本当に改善できることです。

そうすれば、苦い教訓に対して完全に免疫がつくわけですね。

その通りです。

Google DeepMindからPoeticへの道のり

話題を少し変えますが、気になっていたことがあります。10年以上前にGoogleに来られたのは、最初のY CombinatorスタートアップであるPortableを買収されたときですよね。

Portableはモバイルアプリをクロスプラットフォーム、Androidなどに移植するものでした。再帰的自己改善AGIとはかなり違いますよね。どうやってその飛躍を遂げたんですか? Googleに入ってから何が起こったんですか? 何か違うことをやりたいと思ったきっかけは何ですか? その話を聞きたいです。

買収は、次に本当にやりたいことについて考える素晴らしい機会でした。Google自体、本当に多くの異なることができる場所です。だから、次の旅でどこに行きたいか考える時間を取りました。

私が最もワクワクする問題は、実際にはAIとロボティクスだと気づきました。その分野で世界最高の人々の多くが、当時Googleにいました。だから彼らに話しに行きました。

Google Researchの新しいAIロボティクスチームに参加させてもらえました。これは私にとって素晴らしい機会でした。それは私のバックグラウンドではなかったので。私のバックグラウンドはコンピュータセキュリティで、その後このクロスプラットフォームモバイル、システム構築のようなものでした。

このチームに参加できて、正直に言うと、すぐにハードウェアは難しいと気づきました。ロボティクスはその時点では野心的すぎました。でも機械学習には本当に情熱がありました。だから機械学習研究だけをやるように非常にハードな切り替えをしました。それをGoogleで、その後DeepMindで約10年間やったんです。

エンジニアへのアドバイス

今日、よりAI側、おそらく応用AI側に入って、AIを中心にスタートアップを構築したいエンジニアに対して、どんなアドバイスがありますか? どう考えるべきでしょうか?

世界は本当に速く変化しています。これは少し当たり前かもしれませんが、とにかく物事を試すべきです。毎日何かAIで何かをするんです。

常にAIが何ができるかの境界を見つけるよう自分を押し上げるようにしてください。そして構築したいものを構築するんです。私自身も、去年の夏、週末を使ってGPT-4の助けを借りてiPhoneアプリを作りました。10年間やっていなかったことです。

とても速い。とても速くて簡単です。それももう昔のことで、8ヶ月くらい前です。今はもっと速く簡単になっています。

自分を制限しないでください。想像できることは何でも、AIを使ってどこまでできるか試してみるべきです。そうすれば世界をより良くすることになります。

今日はこれで時間です。イアン、私たち全員に竹馬を与えてくれて本当にありがとうございました。Y Combinatorで使うのが待ちきれません。Gary’s Listで使うのも待ちきれません。やることが本当にたくさんあります。

お招きいただきありがとうございました。とても楽しかったです。