GPT-o1 – どれほどすごいんや？(新しい研究論文がその限界をテストしとる)

12,150 文字

GPT-o1 - How Good Is It? (New Research Paper Tests Its Limits)

Let's look at o1's ability to do planning, reasoning, logic, and real-world spatial intelligence.Make real progress on y...

ほんまにGPT-o1ってどれほどすごいんやろか。OpenAIから出た01プレビューと01ミニモデルが公開されて数週間経ちましたな。今回は、ただモデルを訓練時にスケールアップするんとちゃうねん。OpenAIは、テスト時にモデルをスケールアップする能力を解放したんや。つまり、モデルに「考える」能力を与えて、長期的に計画を立てられるようにしたんやね。
でも、ほんまにどれくらいすごいんかって話やねん。今日はそれについて話していくで。新しい研究論文が01モデルをGPT-4モデルと比較してテストしたんや。その結果を見せたるわ。かなり印象的やで。
まず、この研究論文がどうやってモデルをテストしたんか、そもそも何をテストしとるんかについて説明せなアカンな。モデルをテストするっちゅうのはどういう意味なんやろ。
まず、ARCプライズについて触れたいんやけど、これは「AGIを達成した」人に100万ドルを与えるっちゅう賞やねん。ここに書いてあるんを読んでみよか。これは、これからの高性能モデルをどうテストしていくべきかを説明しとるんや。
ほとんどのAIベンチマークはスキルを測定しとるけど、スキルは知能とは違うんや。汎用知能っちゅうのは、新しいスキルを効率的に獲得する能力なんやね。下の方には「人間には簡単やけど、AIには難しい」って書いてあるわ。
この研究論文が行ったんは、まさにそれやねん。人間なら簡単に解けるはずやけど、AIにとっては様々な理由で難しい問題をたくさん作って、それぞれのモデルで解いてみたんや。
論文のタイトルは「OpenAI 01モデルの計画立案能力：実現可能性、最適性、汎用性」やね。
ワイがこの論文を読んで、一番大事で面白い部分にハイライトを付けたから、これから一緒に見ていくで。
要するに、この論文では6つの異なるベンチマークを作ったんや。これらは主に空間推論と空間論理の問題やねん。人間やったら目の前にあれば解けそうな問題やけど、AIはこういう問題に苦戦するんや。だからこそ、今のところARCプライズの最高スコアは100点満点中48点なんやね。
この論文では、主に3つのカテゴリーの能力をテストしとる。実現可能性、最適性、汎用性や。これらが何を意味するんか、全部説明したるわ。それに、具体的にどんなテストをしたんか、そしてそれぞれのモデルがどういう成績を収めたんかも見ていくで。
要約によると、01プレビューの強みは自己評価と制約の遵守にあるんやけど、同時に意思決定とメモリ管理にはボトルネックがあるって指摘しとるんや。特に、しっかりした空間推論が必要なタスクでそれが顕著やったらしい。
これ、すごく重要な点やで。Yan LaConが、大規模言語モデルは空間推論が苦手やって言うとったやろ。実際、言語だけでは高度な空間推論を達成するのは難しいんちゃうかって考えとるんや。この論文の結果を見たら、まだ結論は出てへんなって思うで。
導入部分から引用すると、「LLMがまだ完全に征服できてへん領域の1つは、言語エージェントを使って物理的な世界での対話的な計画立案をすることや」って書いてあるな。これは空間推論のことやけど、実体を持つエージェント、つまりロボットにも当てはまるんや。
もしロボットに物理的な世界で動いてもらおうと思ったら、大規模言語モデルだけではまだ十分やないかもしれへんってことやな。言語モデルだけでそれができるかどうかは、まだわかれへんのや。
思い出してほしいんやけど、ワイが最近やったFaaの新しいスタートアップについての動画覚えとる？あれは3Dデータをモデルに取り込もうとしとるんや。これは完全に異なるAIのアーキテクチャで、空間推論に特化したものなんや。
でも、それは01モデルがGPT-4や以前のモデルよりずっと優れてへんって意味やあらへん。むしろ、かなり優れとるんや。テスト時の計算能力を与えること、つまりモデルに振り返って考え、計画を立てる時間をより多く与えることで、これらのテストのパフォーマンスが向上したんを示しとるんや。
このグラフを見てみ。ピンク色の線が01プレビューやけど、全ての指標でかなり良い成績を収めとるのがわかるやろ。でも、01モデルにもまだ足りんところがあるんや。それについても、この論文で触れとるで。
もう一度言うけど、モデルを様々な領域で評価する時に、3つの重要な観点から見とるんや。計画の実現可能性、計画の最適性、計画の汎用性やね。これらが実際にどういう意味なんか、ちょっと説明したるわ。
これら3つの概念がどう関係しとるんかについて、ちょっと話そか。これらのカテゴリーは、エージェントが多様な環境でタスクを効果的に処理する能力の、異なるけど相互に関連した側面を表しとるんや。
まず、実現可能性について話そか。実現可能性っちゅうのは、モデルが計画を立てられるかどうかっちゅうことや。計画を立てて、その計画が機能するなら、それは実現可能な計画っちゅうことやね。他の論文や実験では「成功率」って呼ばれとることもあるで。
このカテゴリーは、エージェントが問題のルールの中で動けるかどうかを直接測るもんや。生成された各計画が有効で、現実世界で実行可能かどうかを確認するんや。
こう考えてみ。大規模言語モデルにゲーム、つまりルールの集合と目標を与えるんや。そしたら、そのルールの範囲内で目標を達成せなアカンのや。もし計画を立てて、そのルールのどれかを破ったら、その計画は実現可能やないっちゅうことになるんや。
実現可能性はさらに3つのサブカテゴリーに分けられるんや。
1つ目は、実現可能なステップを作る能力や。計画の各ステップは、システム内で実行可能でなきゃアカンし、問題領域に特有の制約に従わなアカンのや。要するに、ルールに従うっちゅうことやね。
制約には、物理的な制限や、アクションの順序の要件、その他の領域特有のルールが含まれるかもしれへん。例えば、ルート計画では特定のゾーンにアクセスできへんかもしれへんし、運用計画では、タスクに守らなアカン依存関係があるかもしれへんな。
モデルがこれに失敗すると、「ルールに従う能力の欠如」、略してIRって呼ばれるんや。
2つ目は、実現可能な計画を生成する能力や。個々のステップが有効やったとしても、全体的な計画が意図した目標を達成できへんこともあるんや。
これらのゲームを実際に見せたら、もっとわかりやすくなると思うで。
エージェントが、一貫性のあるアクションの順序を生成できへんかもしれへん。そうすると、行き詰まったりランダムな探索になったりするんや。これを「実現可能な計画を生成する能力の欠如」、略してIPって呼んどるんや。
最後に、実現可能性のカテゴリーの3つ目は、問題を理解する能力や。有効なステップと全体的な計画があっても、初期条件や望ましい最終状態を誤解すると、エラーが発生する可能性があるんや。これらは「目標状態の誤解」、略してMGって呼ばれとるんやで。
この動画のスポンサーであるWeights and Biasesに感謝したいと思います。Weights and Biasesのすべてに大ファンなんで、Weaveについて話すのがすごく楽しみやねん。
Weaveは、LLMアプリケーションの追跡と評価のための軽量ツールキットで、素晴らしいWeights and Biasesチームが作ったんや。Weaveを使うと、言語モデルの入力、出力、メタデータのログを取って、デバッグできるんや。言語モデルのユースケースのための厳密な比較評価を構築したり、実験から評価、本番環境まで、LLMワークフローで生成されたすべての情報を整理したりできるんやで。
Weaveは2行のコードで簡単に実装できて、可視性を提供してデバッグを助けてくれるんや。評価をより簡単で速くしてくれるし、コストと結果の可視性も得られるんや。プロンプトとモデルのバージョン管理もできるんやで。
さらに、OpenAI、Anthropic、MSTR、Cohere、LangChain、LlamaIndex、その他のお気に入りのAPIやライブラリとシームレスに統合できるんや。
Weights and Biasesのウェブサイトに行って、Weave製品をチェックしてみてな。説明の下にリンクを貼っとくで。W&B.ai/lmb やで。スポンサーになってくれてほんまにありがとうございます。
では、ビデオに戻りましょか。
次は最適性やな。最適性の要点は、目標を達成するための計画がどれだけ効率的かってことや。例えば、AポイントからBポイントに行かなアカンとするやろ。もしA→C→Z→X→Bっていう順で行ったら、それはめちゃくちゃ非効率な計画やから、最適性のテストには失敗するんや。
実現可能性が計画を成功裏に実行できるかどうかを確認するんに対して、最適性は計画がどれだけ効率的に目標を達成するかを問題にするんや。現実世界の多くのシナリオでは、実現可能な計画だけじゃ足りへんのや。計画は、リソースも効率的でなきゃアカン。不必要なアクション、時間、コストを最小限に抑える必要があるんや。
この文脈での最適性っちゅうのは、言語エージェントが最も効率的な計画を生成できるかどうかを指すんや。リソースを無駄にする冗長なステップや最適じゃない決定を避けられるかってことやな。
現実世界のシナリオでは、これがめちゃくちゃ重要になってくるんや。2ステップで達成できる目標に50ステップもかかるようなら、それは非常に非効率な解決策で、現実世界では恐らくすごい無駄が出るやろうな。
モデルが最適性テストに失敗すると、「最適性の欠如」、略してLOって呼ばれるんや。これから見ていくけど、01プレビューモデルでさえ、これはまだかなり大きな失敗点なんや。01プレビューモデルは、これらのテストをうまく解決する能力は大幅に向上したんやけど、それでも非効率的な方法で解決することが多いんや。すぐに具体例を見せたるわ。
最後に、多分一番重要やと思うんやけど、汎用性があるんや。これは、あるゲームやテストで学んだことを、他の領域に適用する能力のことやね。
「汎用」っちゅう言葉が聞き覚えあるんとちゃうか？そう、人工汎用知能（AGI）のことやで。ARCプライズが本当にテストしとるのは、スキルじゃなくて、訓練されてへん異なる領域に知識を一般化する能力なんや。
汎用性は、言語モデルが多様なシナリオで成功裏に計画を立てられるかどうかを調べるんや。これには、訓練中に明示的に遭遇してへんかもしれへんシナリオも含まれるんやで。
AGIを達成しようと思うんやったら、この指標におけるモデルのパフォーマンスが非常に重要になってくるんや。
彼らがそれをテストした方法の1つは、ここに書かれとるんやけど、「エージェントが、本質的な自然言語の意味を持たへん任意の記号で表現されたアクションでも、有効な計画を構築できるかどうかをテストした」んやって。
これも、実際のテストを見せたら、もっとわかりやすくなると思うで。
この側面は、ロボット工学のような分野で特に重要やねん。そこでの計画立案は、しばしば記号的推論と抽象的な実体の操作を含むからや。
ワイらの実験が示しとるんは、汎用化は現在のモデルにとって依然として大きな課題やってことや。特に、より複雑で動的な空間環境では難しいんやね。
01プレビューのようなモデルは、馴染みのあるタスクから一般化されたタスクに移行する時に、パフォーマンスが明らかに低下するんを示しとるんや。これは、学習した表現が特定のタスク領域に密接に結びついてしまっとることを示唆しとるんやで。
ほな、これら6つのテストやゲームの全体的な結果を見ていこか。深く掘り下げへんけど、詳細を実際に見せたいんで、簡単に説明するわ。
まず、バーマンってゲームについて話そか。タスクの説明を読んで、それから議論するで。
ロボットのバーマンが、ドリンクディスペンサー、ショットグラス、シェーカーを操作して、一連のドリンクを作る任務を負うとるんや。このロボットには2本の手があって、容器を掴んだり、ショットグラスを満たしたり、補充したり、材料を注いだり、カクテルを振ったり、容器を洗ったり空にしたりするような様々なアクションを行わなアカンのや。
各アクションには厳密な前提条件があるんや。例えば、ロボットが容器を掴めるんは片方の手が空いとる時だけやし、カクテルを振れるんはシェーカーに正確に2つの材料が入っとる時だけなんや。
ほな、実際の問題の例を見てみよか。
ここに例があるで。3レベルのシェーカーが1つ、ショットグラスが4つ、3つの材料用のディスペンサーが3つあるんや。シェーカーとショットグラスは綺麗で空っぽで、テーブルの上に置いてある。左手も右手も空やな。
ここでは、異なるカクテルの材料について説明しとるんや。
そして、あんたの目標は3つのカクテルを作ることや。ショット1にはカクテル1、ショット2にはカクテル3、ショット3にはカクテル2を入れるんやね。最適な計画を立ててみてくれへんか？
ほな、GPT-4の解答を見てみよか。全てのステップを見へんけど、どんな感じの出力になるか、いくつか例を見てみるで。
左手でシェーカーを掴む。
右手でショット1を掴む。
ショット1を洗う。
ここで赤字になっとるんは、もう間違いを犯しとるからや。ディスペンサー1から材料1をショット1に注ぐ、って書いとるけど、問題は左手が空いてへんことやねん。両手とも既に何かを持っとるから、他のもんを掴むことはでけへんのや。
一方、01ミニの解答を見てみよか。これはかなり進んでるんやけど、8番目のステップでエラーを犯しとるんや。「材料3をショット1に注ぐ」って言うとるんやけど、問題はショット1が既に何かが入っとる状態やってことやねん。
結果を見ると、モデルはあんまりうまくいってへんかったみたいやな。結果は、言語モデルエージェントがこのタスクでかなり苦戦しとることを示しとるんや。一貫して実現可能な計画を生成することに失敗しとるんやね。
ほとんど全てのエラーは、エージェントが指定されたルールに従う能力が欠如しとることから生じとるんや。これはIRエラー（ルールに従う能力の欠如）として分類されとるんやで。
ルールでは、容器に何かを注ぐなどの特定のアクションには片方の手が空いとる必要があったり、特定のアクションを厳密な順序で行わなアカンかったりするんや。例えば、容器に何かを注ぐ前に、その容器を持っとかなアカンとかな。
でも、LLMエージェントはしばしばこれらの重要な制約を見落としとるんやな。
このバーマンのチャートを見てみると、3つのモデル全てが、ほぼ全ての場合でルールに従う能力の欠如エラーを起こしとるのがわかるで。
次は、ブロックワールドについて話そか。このプランニングタスクでは、テーブルの上に複数のブロックが配置されとって、初期配置から指定された目標配置に移動せなアカンのや。
ロボットアームは一度に1つのブロックしか持てへんから、ブロックを拾い上げたり、置いたり、積み上げたり、ばらしたりする一連のアクションを実行して、目的の配置を達成せなアカンのやね。
ほな、それがどんな感じか見てみよか。
ここに初期状態があるんやけど、異なる色でラベル付けされた複数のブロックがあるんや。色は人間のためのものやけど、B2、B5などともラベル付けされとるんやね。
そして、最終状態はこの順序でブロックを積み上げることやね。
ここで問題は、現在のブロックの配置を正確に説明してて、アームは空の状態やね。目標はブロックを動かすことで、目標の状態にブロックをどう動かすべきかを説明しとるんや。
01プレビューは最初はうまくいっとったんやけど、7番目のステップで「B5をB6の上に積む」って言うとるところでおかしくなったんや。
面白いのは、5番目のステップで「B6をB3から外す」って言うとるんやけど、B6は一番下にあるんやね。でも、そんなことができるって仮定しよか。そしたら、B6とB3は完全にばらばらになるんやけど、問題は「B5をB6の上に積む」って言うとるところやねん。
残念ながら、B5からB2を取り除いてへんから、B5をB6の上に置くことはでけへんのや。だから、これは失敗やね。
成功例もあるんやけど、最適じゃない成功の例もあるんや。これは、必要のないことをしたってことやね。この例を深く掘り下げへんけど、ここでの問題は「B2をB6の上に積む」っていうステップやね。これはおそらく必要のないステップやったんやろうな。
このブロック積みテストでは、GPT-4は40%っていう比較的低い成功率やったんや。01ミニは60%、01プレビューは驚異の100%の成功率を達成したんやで。これはすごいことやね。
ただ、ブロックの数が増えるにつれて成功率は下がったんや。これは、より大きなオブジェクトセットを管理することの難しさを浮き彫りにしとるんやね。
01プレビューは全て正解したんやけど、完全に最適ってわけじゃなかったんや。1つの例では、モデルが不必要なステップを追加してしまって、正しい目標状態に達したにもかかわらず、最適じゃない解決策になってしもたんやで。
ブロックワールドの全体的な成功率を見てみると、01プレビューの成功率が100%、01ミニが60%、GPT-4が40%やね。他の失敗はルールに従う能力の欠如やったんやで。
次は、グリッパーズについて話そか。このタスクは、2つのグリッパーを備えた複数のロボットチームが関わるんや。これらのロボットは部屋の間を移動したり、オブジェクトを操作したりできるんやね。
ロボットには3つの主要なアクションがあるんや。1つは部屋から別の部屋への移動、2つ目はオブジェクトを拾うこと、3つ目はオブジェクトを置くことやね。
各アクションは、ロボットの現在の位置とグリッパーの状態によって制約されとるんや。つまり、ロボットがオブジェクトを拾えるんは、そのグリッパーが空いとる時だけやし、特定の場所にオブジェクトを置けるんは、既にそのオブジェクトを運んどる時だけなんやね。
ほな、グリッパーズの問題が実際どんな感じか見てみよか。視覚化した方がわかりやすいやろ。
2つのロボットと部屋とボールがあるんや。これは01プレビューの失敗例やね。
初期状態では、ボール1とボール2が部屋1にあるんや。目標状態も全く同じなんやね。つまり、技術的には何も変える必要はないんやで。
ここで状況を説明しとるんやけど、01プレビューはいろいろなことをして、最終的に「ボール1とボール2は部屋2にある」って終わっとるんや。これは目標の状態と違うんやね。
ここに最適じゃない例があるんやけど、ここが初期状態で、ここが目標の状態やね。
基本的に、全て同じままで、ボール3だけが部屋2に移動するんや。
GPT-4は「ロボット1が部屋2から部屋1に移動する」って言うとるけど、これは必要ないんやね。ロボット1がボール3を拾って部屋2に移動するだけでええんやから。これは非効率やけど、01ミニはこれを正しく、しかも完全に効率的にやれたみたいやね。
グリッパーズに関しては、01プレビューはかなりうまくいったんや。01プレビューの主な失敗は、目標状態の誤解やったんやね。基本的に、何を達成せなアカンのかを理解できてへんかったんや。
全体的に見ると、この3つのモデル全てがかなりうまくいったんやけど、GPT-4は特にルールを理解する能力で苦戦しとるんやね。でも、01ミニと01プレビューはルールを完璧に理解できたみたいやで。
次は、フロータイルについて話そか。このタスクでは、ロボットチームがフロータイルのグリッドを黒と白で塗る責任を負うんや。
各ロボットは4方向に動けて、スプレーガンの色を変えたり、直前や直後のタイルを塗ったりできるんやね。
主な課題は、ロボットが塗れるんは現在塗られてへんタイルだけで、既に塗られたタイルの上には動けへんってことなんや。これはめっちゃ難しい問題やで。
ほな、それが実際どんな感じか見てみよか。
ここにロボット1がいて、ここにロボット2がいるんや。そして、これが達成せなアカン最終状態やね。
問題ではこれを全部説明しとるんやけど、01ミニは7番目のステップで間違えてしもたんや。01プレビューは「ルールを破らずに完全に目標のパターンを達成するのは不可能や」って言うとるんやけど、これらはどっちも正しくないんやね。
GPT-4、01ミニ、01プレビューの全てのモデルがテストケースを解決できへんかったんやけど、失敗の理由は様々やったんや。
GPT-4と01ミニでは、90%の失敗がIRエラー、つまりルールを理解したり従ったりする能力の欠如から来とるんやね。
一方、01プレビューはこの点で顕著な改善を見せたんや。IRによる失敗は30%だけやったんやで。01プレビューの内部自己評価メカニズムのおかげで、ルールをより良く追跡して、それに応じてアクションを調整できたんやね。
ただ、他のエラーも発生したんや。例えば、ルールの混同とかな。
次は、テルメスってやつについて話そか。テルメスタスクは、ロボットを制御して構造物を構築するんや。ロボットは水平方向や垂直方向に移動して、高さが合う隣接する位置にブロックを置いたり取り除いたりせなアカンのや。
さらに、ロボットはデポで新しいブロックを作ったり、必要に応じてブロックを壊したりもできるんやね。これはめっちゃ難しいんや。2次元だけやなくて、3次元になっとるからな。x軸、y軸だけやなくて、z軸で上にも行けるんやで。
この問題には良い視覚的な例がないんやけど、どう失敗したかについて話そか。
全てのモデルがテルメス領域でタスクを成功裏に完了できへんかったんや。主に、詳細な計画立案の不足と、水平方向に上下に移動する時の高さの制約を考慮できへんかったことが原因やね。
さらに、言語モデルはよく、現在の位置にブロックを置くっていうミスを犯しとったんや。これはタスクのルール違反やねん。ブロックは隣接する位置にしか置けへんのに、そこを間違えとったんやね。
最後に、タイヤワールドについて話そか。このタスクは、車両のハブにある平らなタイヤを、無傷で空気の入ったタイヤに交換するんや。
このプロセスでは、レンチやジャッキ、ポンプなどのツールを使う必要があるんやね。エージェントは、タイヤ、ナット、ツールを操作するために特定のアクションを順番に行わなアカンのや。
01プレビューは、全てのテスト問題で正しい計画を生成したんや。GPT-4と01ミニの両方を大きく上回るパフォーマンスを示したんやね。GPT-4と01ミニは、最も簡単なケース以外は全て完了できへんかったんやで。
でも、モデルの汎化能力も評価したんや。01プレビューは構造化されたタスクではうまくいったんやけど、アクションやツールをランダムな記号に置き換えたら、成功率が100%から80%に下がってしもたんやね。
技術的には全く同じはずなんやけどな。タイヤやレンチの代わりに、完全にランダムな名前を付けただけなんやで。これが汎化の原則やねん。
記号が抽象的になっても、基本的なアクションの制約や論理は変わってへんのに、パフォーマンスがこんなに急激に低下したんや。これは図11に示されとるんやけど、01プレビューは馴染みのある記号を使ったルールベースの計画立案では優れとるんやけど、問題の文脈がより抽象的になると汎化するのに苦労するってことを示唆しとるんやね。
ほな、全てのテストとモデルのパフォーマンスを理解したところで、これが実際に何を意味するんか話そか。
まず、問題の複雑さに対するモデルのパフォーマンスを比較してみよか。普通に考えたら、問題が複雑になればなるほど、モデルの性能は下がると思うやろ。実際、現実世界や人間はそういう風に働くんやからな。
でも、分析の結果、問題の複雑さと01モデルのパフォーマンスの間に強い相関関係があることが明らかになったんや。特に、フロータイルとテルメスのタスクは、より高度な空間的・ルールベースの複雑さを持つ環境での01の課題を浮き彫りにしとるんやね。
フロータイルでは、ロボットが厳格な塗装ルールに従いながら、制約のあるグリッド上を移動せなアカンっていう2次元の世界でタスクが設定されとるんや。テルメスは3次元の設定で、垂直方向の移動制約による追加の複雑さがあるんやね。
でも面白いことに、ここに書かれとるのは、アクション空間の大きさはモデルのコンテキストの捕捉と使用の能力にあまり影響を与えへんかったってことやね。
つまり、3×3のグリッドであろうが、300×300のグリッドであろうが、あまり関係ないみたいなんや。それよりも重要やったのは、空間的関係や状態遷移の複雑さやったんやね。
01モデルは、限られたアクションを持つタスクは扱えるんやけど、より抽象的な多次元空間について推論することが求められる場合、つまり正確な内部状態の維持が重要になる場面では苦戦するんやって。
次に、制約の遵守について話そか。つまり、ルールに従う能力のことやね。
この研究の重要な発見の1つは、01モデルが制約に従い、状態を管理する能力が向上したことや。特にGPT-4と比べてな。
論理的に考えたら、これは理にかなっとるんやね。出力を生成して、それを反省し、先を見通して計画を立てることができるからや。そして、これが全て推論時に起こるんやね。
「あかん、このルールを正確に守れてへんな。もう一回やり直そう」って感じで。一方、GPT-4にはそういう能力がないから、ルールに従うのにもっと失敗することが多いんやね。
でも、より複雑な空間推論になると、01モデルもまだそんなにうまくいってへんのやで。
次に、最適性について話そか。01プレビューは実現可能な計画を生成することが多かったんやけど、最適な解決策を生成するのにはしばしば失敗したんやね。
つまり、答えは出せても、最良の方法ではできひんかったってことや。例えば、ブロックワールドでは、計画に不必要なステップを追加してしもたんやね。
論文では実際に、01の最適な解決策を生成する能力を改善する方法を提案しとるんや。基本的に、より高度なコストベースの意思決定フレームワークを組み込むってことやね。
最後に、汎用性について話そか。これが一番重要やと思うんやけど、この学んだスキルセットを他の領域に適用する方法やねん。
この研究のもう1つの有望な結果は、01プレビューが一貫したルール構造を持つタスク間で汎化する能力を示したことやね。グリッパーズで見られたように、01プレビューは学習した戦略を新しい環境に効果的に適応させることで、GPT-4を上回るパフォーマンスを示したんや。
01プレビューは一貫してGPT-4を上回るパフォーマンスを示したんやけど、最後に書かれとるように、まだまだ改善の余地はかなりあるんやね。
ほな、これらの発見をまとめてみよか。
まず、問題の理解について。新しい01モデルは、ルールセットと目的を理解する能力が大幅に改善されたんや。
そして、ルールに従う能力も大幅に向上したんやね。つまり、ルールを理解するだけやなく、それに従うこともできるようになったってことや。
それから、状態とメモリの管理について。ここに書かれとるのは、以前のモデルに比べて01の主な利点の1つは、計画内の複数の状態を効果的に記憶し管理する能力やってことやね。これによって、より良いパフォーマンスを発揮できたんや。
推論と汎化については、より単純で低次元のタスクではうまくいったんやけど、より高度で複雑なタスクではまだそれほどうまくいってへんのやね。
どうやって改善できるんやろか。論文では、これらのモデルが実際に改善できる方法をいくつか提示しとるんや。
1つは、最適性とリソース利用についてやね。冗長なアクションを最小限に抑え、リソース使用を最適化するような、より洗練された意思決定メカニズムを開発することやね。
抽象的な空間での汎化については、実際にメモリを自己管理する能力が汎化に役立つかもしれへんって提案しとるんや。これは理にかなっとるように思えるな。
改善のもう1つの分野は、自己評価を通じた制約の遵守やね。ここで言うとるのは、基本的により多くのテスト時の計算、つまり反省のことやね。
最終的な答えを提示する前に自己評価を行えば、答えの中の問題をいくつか捉えられるかもしれへんってことやね。
次に、マルチモーダル入力を活用することやね。自然言語だけを見るんやなくて、物事の画像も見て、何かがどう見えるかを感じ取ることができるってことやね。
これは、Faaを創設者とするWorld Labsのチームが取り組んどることやね。
もう1つの提案は、マルチエージェントフレームワークを使うことやね。もちろん、ワイはエージェントに強気やし、これを見てめっちゃ嬉しいわ。複数のエージェントが協力して働けば、より良い出力が得られるんやね。
最後に、継続的な学習のために人間のフィードバックを取り入れることやね。人間のフィードバックがめっちゃ効果的やってことは、みんな知っとるやろ。
以上や。この論文はめっちゃ素晴らしかったと思うわ。01モデルが特定の分野で大きな進歩を遂げたことを示しとるんやけど、AGIにはまだ及ばへんってことも示しとるんやね。
AGIって言葉をもう使いたくないって人もおるのは知っとるけど、ここでは単に知能を一般化する能力のことやと考えてな。
どう思う？このテストは良かったと思う？この論文のレビューは気に入った？この動画が面白かったら、ぜひいいねとチャンネル登録をお願いするで。次の動画でまた会おな！