
13,811 文字

推論について考える一つの方法は、長く考えることで利益を得られる問題があるということです。人間には、システム1とシステム2という考え方がありますな。システム1はより自動的で本能的な反応で、システム2はより遅い、プロセス駆動型の反応です。
ある種の課題では、長く考えても利益がありません。例えば、「ブータンの首都は何や?」って聞かれても、2年間考えたところで、正解率は上がりませんわ。ちなみに、わたしも首都の名前は知りませんけどね。
でも、長く考えることで明らかに利益がある問題もあります。典型的な例が数独パズルです。理論的には、可能性のある解答をたくさん試していけば、最終的に解けるはずです。正解を見つけるのは簡単やからね。
(音楽)
今日はノーム、ハンター、イルゲの3人の研究者をお迎えしています。3人とも、OpenAIのProject strawberryこと01の研究者です。01は、OpenAIが本格的に取り組んだ一般的な推論時間計算の第一歩です。今日は、推論、思考の連鎖、推論時間のスケーリング則などについて、チームの皆さんとお話ししたいと思います。
イルゲ、ハンター、ノーム、今日は来てくれてありがとうございます。そして、01を世に送り出したことおめでとうございます。まず最初に聞きたいんですが、これがうまくいくという確信はずっとあったんですか?
ノーム: この方向性は有望やという確信はあったと思います。でも、ここに至る具体的な道筋は最初から明確やったわけやありません。01を見ると、一晩でできたもんやないことがわかります。何年もの研究の積み重ねがあるんです。その研究の多くは実際には実を結ばなかったんですが、OpenAIと多くのリーダーシップは、この方向性で何かが生まれるはずやという確信を持っていて、最初のつまずきにもかかわらず投資を続ける意思があったんです。最終的にそれが報われたんやと思います。
ハンター: 私は最初からノームほどの確信はありませんでした。言語モデルを見つめて、数学やその他の推論を教えようとしてきましたからね。研究にはいろいろな浮き沈みがあります。うまくいくこともあれば、うまくいかないこともある。今回取り組んでいた方法が効果を上げ始めたとき、多くの人にとって「あっ」という瞬間がありました。私もその一人です。
モデルが問題解決に異なるアプローチをしているのを読み始めたとき、私の中で確信が芽生え始めたんです。OpenAIは一般的に、非常に実証的でデータ駆動型のアプローチを多くの場面で取ります。データが語り始め、データが意味を持ち始め、傾向が一致し始めたとき、我々が追求したいと思うものが見えてきます。私にとっては、そのときに本当の確信が芽生えたんです。
イルゲはどうですか? あなたはOpenAIに長く、5年半もいますよね。最初からこのアプローチがうまくいくという確信はありましたか?
イルゲ: いいえ、AIへの道筋について、私は何度か間違ってきました。最初は、ロボット工学が前進の道やと考えていました。だから最初にロボティクスチームに参加したんです。具現化されたAI、AGIがそこに向かうと思っていました。でも、行き詰まりにぶつかることもありました。
在職中にチャットGPTが登場しましたが、今から考えればパラダイムシフトでしたね。世界中の人々と共有できる普遍的なインターフェースを持つことができました。今、この推論のパラダイムを押し進める新しい道が開けたことを嬉しく思います。でも、長い間、それは私にとって明らかではありませんでした。
ノーム: ディープ強化学習は幻滅の谷を脱したとツイートしましたが、それについてもう少し詳しく教えてもらえますか?
確かに、Deep Mindのアタリの結果から始まって、ディープ強化学習がホットな話題になった時期がありました。私は当時博士課程にいて、2015年から2018年、2019年頃の雰囲気をよく覚えています。ディープ強化学習が話題の中心でした。
ある意味では、多くの研究が行われましたが、確かに見落とされていたこともありました。見落とされていたことの一つは、GPTのようなアプローチを使って、膨大なデータで学習することの力でした。
ある意味で驚くべきことです。なぜなら、ディープ強化学習の偉大な成果の一つであるAlphaGoを見ると、確かに強化学習のステップがありましたが、それ以前に推論のステップがあり、さらにその前に人間のデータから学習する大規模なプロセスがありました。それがAlphaGoの基礎を築いたんです。
そして、これは一種の不純物だと見なされるようになりました。多くのディープ強化学習は、人間のデータなしで、ゼロから学習することに重点を置くようになりました。Alpha Zeroは素晴らしい結果を出し、実際にAlphaGoよりもずっと良い成績を上げました。
でも、ゼロからの学習に焦点を当てたことで、GPTのパラダイムがしばらくの間、レーダーの下に潜んでいたように思います。OpenAIは例外で、初期の結果を見て、その投資を倍増させる確信を持っていました。
確かに、ディープ強化学習が注目を集めていた時期がありました。でも、GPT-3が登場し、他の大規模言語モデルが登場して、ディープ強化学習なしでも大きな成功を収めたとき、一種の幻滅の時期がありました。多くの人がディープ強化学習から離れたり、信頼を失ったりしました。
今、01で見ているのは、ディープ強化学習にも場所があり、他の要素と組み合わせると非常に強力になり得るということです。
多くのディープ強化学習の結果は、ゲームプレイのような明確に定義された環境で得られましたが、01は、ディープ強化学習がもっと一般的な、境界のない設定で使われた最初の例の一つですか? それが正しい見方でしょうか?
ノーム: はい、それは良い指摘やと思います。多くの注目を集めたディープ強化学習の結果は非常にクールでしたが、その適用範囲は非常に狭かったです。
かなり有用なディープ強化学習の結果もあり、かなり一般的な強化学習の結果もありましたが、GPT-4のようなインパクトのあるものはありませんでした。
この新しいパラダイムでは、今後、そのレベルのインパクトをディープ強化学習から見ることができると思います。
同じ流れで、もう一つ質問があります。AlphaGoの結果を覚えていますが、李世ドルとの対局で37手目の一手がありました。あの一手は誰もが驚きましたね。01で同じような経験をしましたか? 01が何かを言って、それが驚きで、考えてみると実際に正しくて、トップの人間よりも優れていると思えるような瞬間はありましたか? それともそれは02や03を待つ必要がありますか?
ハンター: 思い浮かぶのは、モデルをIOI競技会に出場させる準備をしていたときのことです。プログラミングコンテストの問題に対するモデルの回答を見ていました。ある問題で、モデルは奇妙な方法で問題を解こうとしていました。詳細は覚えていませんが、競技プログラミングに詳しい同僚たちが、なぜこんな方法を取るのか理解しようとしていました。
天才的なひらめきというわけではありませんでしたが、モデルが実際の解き方を知らなかったので、別の方法を見つけるまで頭を悩ませていたんだと思います。
問題は解けたんですか?
ハンター: はい、解けました。他の方法を知っていれば簡単だったはずの方法を使ったんです。具体的な例は思い出せませんが、それが興味深かったですね。
プログラミングコンテストの結果には、そういった面白いことがたくさんありました。IOI競技会のプログラムを公開していると思いますが、そこを見ると、モデルが人間とは少し違うアプローチで考えたり、問題に取り組んだりしているのがわかります。
実際のIOI競技会では、人間がとても苦戦した問題をモデルが半分の得点を取れたものがありました。逆に、人間が得意とした問題でモデルがほとんど手も足も出なかったものもありました。これは、モデルが人間とは異なるアプローチで問題に取り組んでいることを示しています。
イルゲ: モデルがいくつかの幾何学の問題を解くのを見たことがあります。その考え方にはとても驚きました。例えば、球体があって、その上にいくつかの点があり、ある事象の確率を求める問題があったとします。モデルは「これを視覚化しよう。点を配置して、そう考えると…」というように進めていきました。
私は「おっ、言葉を使って視覚化して、それが文脈を理解するのに役立っているんだ」と思いました。人間の私もそうするでしょうし、01がそうするのを見て本当に驚きました。
興味深いですね。つまり、人間にも理解可能で、実際に人間の問題の考え方の境界を広げるようなものだということですね。解読不可能な機械言語ではなく。本当に面白いですね。
01の道のりで、「あっ」という瞬間はありましたか? あるいは、ハンターさんが言ったように、最初はこの方向性がうまくいくとは確信していなかったけど、それが変わった瞬間はありましたか? 「あっ、これは本当にうまくいきそうだ」と思った瞬間は?
ハンター: はい、ありました。私はOpenAIに約2年半いて、その間ほとんどの時間を、モデルをより良く数学の問題を解くようにすることに費やしてきました。その方向でいろいろな作業をし、様々な特別なシステムを構築してきました。
01の軌道上で、この方法でモデルを訓練し、多くの修正と変更を加えた後、数学の評価でこれまでの他のどの試みよりも高いスコアを出したという瞬間がありました。そして、思考の連鎖を読んでみると、それらが異なる性質を持っていることがわかりました。
特に、行き詰まったときに「待って、これは間違っている。一歩下がって、正しい道を見つけよう」と言うのが見られました。我々はこれをバックトラッキングと呼びました。長い間、モデルがバックトラッキングする例を見たいと思っていました。
自己回帰的な言語モデルがバックトラックするのは見られないだろうと感じていました。なぜなら、それらは単に次のトークンを予測し、次のトークンを予測し、次のトークンを予測するだけだからです。
そして、数学テストでこのスコアを見て、バックトラッキングを含む軌跡を見たとき、私にとってはそれが「ワオ」という瞬間でした。私が結びつかないと思っていた何かが結びついたのです。そのとき、私の確信は大きく成長しました。
ノーム: 私も同じ話です。おそらく同じ頃だったと思います。私は、チャットGPTは応答する前に本当には考えないという考えで参加しました。それはとても速いです。そして、AIがより長く考えることができ、はるかに良い結果を得るという、これらのゲームでの強力なパラダイムがありました。
そして、言語モデルにそれをどう持ち込むかという疑問がありました。私はそれにとても興味がありました。でも、それを言うのは簡単ですが、実際にそれを実現するのは別問題です。
我々はいくつかのことを試みました。他の人々も様々なことを試みていました。特に、我々が望んでいたのは、バックトラックする能力や、間違いを認識する能力、あるいは異なるアプローチを試みる能力でした。そのような行動をどのように可能にするかについて、多くの議論をしました。
ある時点で、ベースラインとして少なくとも試すべきことの一つは、AIにより長く考えさせることだと感じました。そして、より長く考えることができるようになると、バックトラッキングや自己修正など、我々が可能にしようと考えていたことがほぼ自然に現れることがわかりました。
これらが、非常にクリーンでスケーラブルなアプローチから生まれているのを見て、私にとっては大きな瞬間でした。そこで、これをさらに推し進めることができると非常に明確になり、物事がどこに向かっているのかが明らかになりました。
ハンター: ノームは、テスト時の計算能力への確信をどれほど強く持っていたかを控えめに言っていると思います。彼が参加した初期の1対1のミーティングで、テスト時の計算能力とその力について話していたのを覚えています。
プロジェクトの様々な時点で、ノームはただ「モデルにもっと長く考えさせてみよう」と言い、そうすると良くなりました。彼はただ、我々がそれまでそうしなかったことを不思議そうに見ていました。
評価で、01がSTEM分野で顕著に優れているのに気づきました。以前のモデルよりもSTEM分野で優れています。それについて大まかな直感はありますか?
ノーム: 先ほど述べたように、生成するよりも検証する方が簡単な推論タスクがあります。そのカテゴリーに入らないタスクもあります。STEM問題は、我々が考える難しい推論問題に分類されると思います。それが、STEM系の科目で向上が見られている大きな要因だと思います。
理解できます。関連して、研究論文で、01がかなり高い合格率でOpenAIのリサーチエンジニア面接に合格したと書かれていました。それについてどう思いますか? 将来的に、OpenAIは人間のエンジニアの代わりに01を雇うことになるのでしょうか?
ハンター: まだそこまでのレベルには達していないと思います。100%ではないかもしれませんが…もしかしたら面接をもっと難しくする必要があるかもしれません。
01は、少なくとも私には、他のモデルよりも優れたコーディングパートナーに感じます。すでに我々のリポジトリにいくつかのプルリクエストを作成しています。ある意味で、ソフトウェアエンジニアのように振る舞っています。
ソフトウェアエンジニアリングは、より長い推論から利益を得るSTEM分野の一つだと思います。現在見ているモデルの推論は数分程度ですが、私が実際にコードを書くときは、数分以上考えます。
これらをさらにスケールアップし、この傾向線に従って01をより長く考えさせることができれば、より多くのタスクをこなせるようになるかもしれません。
内部でAGIを達成したことがわかるのは、すべての求人情報を取り下げたときでしょうね。そのとき、会社は非常に上手くいっているか、非常に苦しんでいるかのどちらかでしょう。
01が人文科学で優れるようになるには何が必要だと思いますか? 推論や論理、STEM分野が得意になることが、自然に人文科学の能力向上につながると思いますか? それとも、推論時間をスケールアップすることで、どのように展開すると思いますか?
ノーム: そうですね、先ほど言ったように、モデルをリリースして、何が得意で何が不得意なのか、人々が何に使うのかを見るのが楽しみです。モデルの生の知能と、様々なタスクにどれだけ役立つかの間には明らかにギャップがあります。ある意味では非常に役立ちますが、もっと役立つ可能性があると思います。
より一般的な有用性を引き出すには、まだいくつかの反復が必要だと思います。
イルゲ: はい、その通りです。我々はAGIに焦点を当てています。単一のアプリケーションが優先事項なのではなく、AIに到達することが目標です。
AGIの定義は人それぞれだと思いますが、私個人的には、経済的に価値のある仕事のうち、どれだけの割合を我々のモデルやAIシステムがこなせるかということだと考えています。これは今後数年間で大きく上昇していくでしょう。
それは感じたときにわかるものだと思います。そして、我々はゴールポストを後ろに下げ続け、「これはまだそうじゃない」と言い続けるでしょう。ある日、我々はAIの同僚と一緒に働き、彼らは現在我々がしている仕事の大部分をこなし、我々は別の仕事をしているでしょう。仕事をすることの意味するところ全体のエコシステムが変わっているでしょう。
あなたの同僚の一人が、AGIへの道筋における推論の重要性について良い説明をしていました。大まかに言えば、「どんな仕事でも途中で障害に直面する。その障害を乗り越えるのは、推論する能力だ」というものでした。
推論の重要性とAGIの目標、そして経済的に有用なタスクを遂行する能力との間の素晴らしいつながりだと思いました。これが推論とは何か、なぜそれが重要なのかを考える最良の方法でしょうか? それとも、他のフレームワークを使っていますか?
ハンター: これはまだ決定されていないと思います。なぜなら、これらのAIシステム、これらのモデルの開発段階の多くで、我々は異なる欠点や失敗を見てきたからです。我々はこれらのシステムを開発し、評価し、その能力を理解しようとする中で、多くのことを学んでいます。
他に思い浮かぶのは、推論に関係するかどうかわかりませんが、戦略的計画や発想などです。優れたプロダクトマネージャーと同じくらい優れたモデルを作るには、ユーザーが何を必要としているか、何が重要かについて、多くのブレインストーミングや発想が必要です。
これは推論なのか、それとも推論とは少し異なる種類の創造性で、別の方法で対処する必要があるのでしょうか? その後、それらの計画を行動に移すことを考えるとき、組織を動かして物事を成し遂げるためにどう戦略を立てるかを考えなければなりません。これは推論でしょうか?
おそらく推論の部分もあれば、別のものもあるでしょう。最終的には全てが推論に見えるかもしれませんし、あるいは新しい言葉を思いつき、そこに到達するために新しいステップが必要になるかもしれません。
この一般的な推論の問題について考えるとき、数学の領域を考えるのが助けになります。モデルに数学の問題を与えたとき、どう考えているかを読むのに多くの時間を費やしました。明らかに、障害にぶつかり、そして「待って、他のことを試してみよう」とバックトラックするのが見えます。
その思考プロセスを見ると、数学を超えた領域にも一般化できるかもしれないと想像できます。それが私に希望を与えてくれます。答えは分かりませんが、希望はあります。
私に躊躇を感じさせるのは、01がすでに私より数学が得意なのに、ソフトウェアエンジニアとしては私ほど優れていないということです。そこにはまだミスマッチがあります。まだやるべきことがあります。もし私の仕事が全て数学の問題を解くことや高校の数学コンテストに出ることだけなら、私は失業していたでしょう。今のところ、まだ私にできることがあります。
思考の連鎖と舞台裏の推論を見ることができるという話が出ましたが、おそらく答えられない質問かもしれませんが、面白いのでお聞きします。
01のリリースに関するブログで、なぜ思考の連鎖が隠されているかを説明し、「部分的には競争上の理由から」と正直に書いてあったのは素晴らしいと思います。その決定は議論を呼ぶものだったのでしょうか? それとも、どのくらい物議を醸したのでしょうか?
隠すのは論理的な決定だと思いますが、公開することを選んだ世界も想像できます。ただ興味があって聞いてみました。
ノーム: 議論を呼ぶものではなかったと思います。フロンティアモデルのモデルの重みを共有したくない理由と同じで、モデルの背後にある思考プロセスを共有することにはたくさんのリスクがあると思います。同じような決定だと思います。
素人に、あるいは素人同士で説明できますか? 思考の連鎖とは何で、例を挙げられますか?
イルゲ: 例えば、積分を解くよう求められたとします。ほとんどの人は紙とペンが必要で、複雑な方程式から始めて、単純化のステップを踏み、最終的な答えに至る過程を書き出すでしょう。答えは1かもしれませんが、そこに至る過程が思考の連鎖です。数学の分野で言えばそんな感じです。
今後の道筋について話しましょう。推論時間のスケーリング則は、私にとって、あなたたちが発表した研究の中で最も重要なグラフでした。事前学習のスケーリング則と同様に、画期的な結果だと思います。
申し訳ありませんが、大げさに聞こえるかもしれません。でも、ここでの意味合いはかなり深遠だと思いませんか? そして、分野全体にとってどういう意味があると思いますか?
ノーム: はい、非常に深遠だと思います。01のリリースを準備していたとき、私が不思議に思っていたのは、人々がその重要性を認識するかどうかでした。我々はそれを含めましたが、それはやや微妙な点です。
そして、多くの人々がそれが何を意味するかを認識したことに、私は本当に驚き、感銘を受けました。AIが壁にぶつかっているとか、停滞しているのではないかという懸念が多くありました。事前学習が非常に高価になり、ますます高価になっているからです。学習するデータが十分にあるのかという疑問もありました。
01、特に01 Previewについての主要な教訓の一つは、今日のモデルが何ができるかではなく、それが将来何を意味するかです。我々がこの異なるスケーリングの次元を持つことができ、それがこれまでほとんど未開拓であるという事実は、大きな意味を持つと思います。
そして、それは多くの人々が認識していたよりも天井がずっと高いということを意味すると思います。
モデルに何時間も、何ヶ月も、何年も考えさせたらどうなると思いますか? 何が起こると思いますか?
ハンター: 01を何年も持っているわけではないので、それほど長く考えさせることはできていません。
ノーム: 世界平和を解決するタスクが今も動いているかもしれませんね。考え中、考え中、考え中…
ハンター: はい、アシモフの「最後の質問」という短編小説みたいですね。大きなコンピューターサイズのAIに「エントロピーをどうやって逆転させるか」と聞くんです。AIは「もっと考える時間が必要だ」と言います。そして物語は進み、10年後に見てみると、まだ考えています。100年後、1000年後、1万年後…
ノーム: そう、「まだ意味のある回答を出すのに十分な情報がありません」というような感じですね。
人: 経験的に、何が起こると予想しますか? 現在のモデルはIQ120くらいだと聞きました。つまり、非常に賢いですね。推論時間の計算をスケールアップしていくと、IQの上限はあると思いますか? 無限のIQになると思いますか?
ハンター: 重要なのは、これは誰かが与えたある特定のテストでIQ120ということです。これは、我々が気にするすべての異なる領域で120レベルの推論ができるということではありません。創造的な文章などでは40以下だと話しています。
だから、このモデルをどう外挿するかを考えるのは難しいです。これらのベンチマークについて話すとき、我々が強調した結果の1つはGPQでした。これは通常PhD学生に与えられる質問で、典型的にはPhD学生が答えられるものです。AIは現在、このベンチマークで多くのPhDを上回る成績を出しています。
しかし、それはあらゆる面でPhDよりも賢いということではありません。人間にはできて、AIにはできないことがたくさんあります。だから、これらの評価を見るときは、それが人間の知能の代理として通常測定される特定のものを測定しているという理解が必要です。AIがそのテストを受けるときは、少し異なる意味を持ちます。
イルゲ: その質問への答え方の一つは、モデルがすでに得意なことについて、より長く考えさせることで、さらに良くなることを期待できるということです。
私のツイッターでの大きな瞬間の一つは、以前教わった数学の教授が01について感銘を受けたとツイートしているのを見たことです。彼は、人間によって解かれたが、AIモデルによって解かれたことのない証明を01に与え、それが理解して解いたのです。
これは、私たちが何か本当に興味深いものの入り口に立っているように感じました。新しい数学研究の有用なツールになりつつあるのです。小さなレンマや、実際の数学研究のための証明ができるなら、それは本当にブレークスルーになるでしょう。
だから、より長く考えさせることで、その特定のタスク、つまり本当に優れた数学研究アシスタントになるという点で、より良くなることを期待しています。
現在得意でないことについて、より長く考えさせることでどうなるかを外挿するのは難しいです。その進化の道筋はどのようなものになるでしょうか。そして、得意でない問題について永遠に考え続けたら、無限のIQはどのように見えるのでしょうか。
代わりに、現在得意なことに焦点を当てて、「これらについてより長く考えさせたら、ああ、数学研究に役立つようになるだろう。ああ、ソフトウェアエンジニアリングに本当に役立つようになるだろう」というようにゲームを始めることができます。そうすれば、将来がどのように進化するかが見え始めるでしょう。
人: 推論時間の計算をスケールアップする上でのボトルネックは何ですか? 事前学習の場合、膨大な計算能力と膨大なデータが必要で、莫大なお金がかかります。事前学習のスケーリングのボトルネックを想像するのは簡単です。推論時間の計算のスケーリングを制約するものは何ですか?
ノーム: GPT-2が登場し、GPT-3が登場したとき、より多くのデータとより多くのGPUを投入すれば、はるかに良くなることは明らかでした。それでも、GPT-2からGPT-3、GPT-4に至るまでには何年もかかりました。
非常にシンプルに聞こえるアイデアを取り、実際に非常に大規模にスケールアップするには、多くの作業が必要です。ここでも同様の課題があると思います。シンプルなアイデアですが、実際にスケールアップするには多くの作業が必要です。それが課題だと思います。
ハンター: はい、そうですね。OpenAIに参加した、より学術的志向の研究者を驚かせるかもしれないことの一つは、我々が解決する問題の多くが、研究問題というよりもエンジニアリング問題だということです。
大規模システムを構築し、大規模システムを訓練し、これまでに発明されたことのないアルゴリズムを全く新しいシステムで実行することは、誰も考えたことのない規模で行うのは本当に難しいです。だから、これらのシステムをスケールアップさせるには、常に多くの困難なエンジニアリング作業が必要です。
イルゲ: また、モデルをテストする対象を知る必要があります。標準的な評価やベンチマークはありますが、まだテストしていない領域があるかもしれません。テスト時間により多くの計算能力を費やして、より良い結果が得られる領域を探しています。
人: モデルに無限に近い計算能力を与えたときに何が起こるかを理解するのに苦労しています。人間である私は、天才であっても、最終的には脳によって制限されます。しかし、推論時間にどんどん計算能力を追加できます。
これは例えば、全ての数学の定理がこのアプローチで最終的に解けるようになることを意味するのでしょうか? あるいは、限界はどこにあると思いますか?
ノーム: 無限の計算能力… たくさんの計算能力… 無限に近い… アシモフの物語に戻りますが、1万年待つとしても…
でも、本当に難しい数学の定理を解くのに、これがどのようにスケーリングするのかについては、まだよくわかっていません。未解決の核心的な数学の問題のいくつかを解くために、本当に1000年考えさせる必要があるかもしれません。
そうですね、十分長く考えさせれば、理論的にはすべてをLeanで形式化し、可能なすべてのLeanの証明を網羅的に探索して、最終的に定理にたどり着くことができるでしょう。
数学の問題を解くアルゴリズムはすでにありますよね。
ノーム: その通りです。無限の時間があれば多くのことができます。
人: では、明らかに考える時間が長くなるにつれて収穫逓減があるということですね。
01について最大の誤解は何だと思いますか?
ハンター: 大きな誤解の一つは、「strawberry」という名前が漏れたとき、人々はオンラインで有名な「strawberryにはいくつのRがあるか」という質問に答えられないからだと思ったことです。
実際はそうではありません。その質問を見たとき、我々はモデルについての内部情報が漏れたのではないかと本当に心配しました。しかし、我々が知る限り、そのような漏洩はありませんでした。プロジェクトの名前が「strawberry」で、イチゴについての推論に関する人気の質問があったのは、完全な偶然でした。
私が知る限り、「strawberry」と名付けられた唯一の理由は、ある時点で誰かがコードネームを考える必要があり、その部屋にいた誰かがイチゴの箱を食べていたからです。それだけです。
ノーム: 「Coud」よりは親しみやすいですね。
実際、私はかなり印象的だと思いました。人々がどれだけ理解してくれたかに。
我々が発表したとき、どのように受け取られるか確信が持てませんでした。内部でも大きな議論がありました。人々は「すべてのことでより優れているわけではない」と失望するのだろうか、それとも「数学の性能がすごい」と感銘を受けるのだろうか、と。
我々が本当に伝えようとしていたのは、今リリースしているモデルについてではなく、これがどこに向かっているかということでした。それが十分に理解されるかどうか確信が持てませんでしたが、理解されたようで本当に嬉しかったです。
人: 01に対する批判で、公平だと思うものはありますか?
イルゲ: 確かに、すべてのことでより優れているわけではありません。遊んでみると、かなり奇妙なモデルです。インターネット上の人々は、より良い結果を得るための新しいプロンプト方法を見つけています。まだ多くの奇妙な部分があります。
誰かが以前言及していましたが、エコシステムが我々のプラットフォームで作業し、よりインテリジェントな製品やものを作ることに興味があります。01でそれがどのように進むか本当に興味があります。
まだ非常に初期段階です。約1年前、人々はGPT-4などで本当にこれらの言語モデルプログラムを理解し始め、それがより賢いソフトウェアエンジニアリングツールなどを可能にしていました。01を使って人々が構築する中で、同様の発展が見られるかもしれません。
人: 我々がまだ話していないことの一つは01 miniです。01 miniについて多くの興奮を聞いています。人々は一般的に小さなモデルに興奮しているからです。推論を維持し、世界知識の一部を抽出できれば – ディープニューラルネットはそれほど効率的なメカニズムではありませんが – それはかなり decent な結果になると思います。
01 miniについての興奮と、それが表す一般的な方向性について、どう思いますか?
ノーム: 研究者としても、非常に興奮するモデルです。モデルが高速であれば、普遍的に有用です。だから我々も気に入っています。
これらは異なる目的に役立ちます。また、より安価で高速なバージョンと、より重くて遅いバージョンの両方があることに興奮しています。異なることに役立つので、そこで良いトレードオフを見つけられたことは確かに嬉しいです。
ハンター: その表現が好きです。進歩がどれだけ前進できるかと、どれだけ反復できるかの掛け算であることを強調していると思います。
少なくとも我々の研究では、01 miniは我々がより速く反復することを可能にします。より広いエコシステムの人々にとっても、これらのモデルで遊ぶ人々にとっても、01 miniはより速く反復することを可能にするでしょう。
そのため、少なくともその理由で、本当に有用で興奮する人工物になるはずです。
人: AIの分野で起業している創業者たちは、GPT-4と01をいつ使うべきかをどのように考えるべきでしょうか? 01を使うには、STEM関連、コーディング関連、数学関連の何かをしている必要がありますか? それともどう考えるべきでしょうか?
ノーム: 彼らがそれを解明してくれたらいいのですが。01 Previewをリリースした動機の一つは、人々が最終的に何に使うのか、どのように使うのかを見ることでした。
実際、01 Previewをリリースする価値があるかどうかについて疑問がありました。しかし、早い段階で人々の手に渡し、どのようなユースケースに本当に役立つのか、何に役立たないのか、人々が何に使いたがるのか、そしてどのように改善すべきかを見たいというのが、リリースの理由の一つでした。
人: 現時点で01について、人々が最も過小評価していることは何だと思いますか?
イルゲ: 名前をつけるのが少し上手くなってきたということですかね。「GPT-4.5 思考モード」とか呼んでいないですからね。
人: 「Strawberry」だと思っていました。「Coud」だと思っていたので、わかりません。「思考モード」は響きがいいですね。
02や03、その先に来るかもしれないものについて、何に最も興奮していますか? 0.5とか何でも。
イルゲ: アイデアが尽きたわけではないので、どう展開するか楽しみです。研究を続けていきますが、フィードバックを得るのが最も楽しみです。研究者として、我々は明らかに理解できる領域に偏っていますが、製品の使用から多くの異なるユースケースを受け取るでしょう。
「ああ、これは興味深いことを推し進めるべきだ」と言うかもしれません。我々の想像を超えて、異なる分野でより良くなるかもしれません。
ハンター: ブログ投稿で傾向線を示しましたが、その傾向線がどのように延長されるか見るのが本当に面白いと思います。
人: 素晴らしいですね。良い締めくくりになりました。今日は本当にありがとうございました。


コメント