
4,515 文字

みんなと一緒に、ほんまにo1がどないに動いてるんか理解しようとしてたんやけど、週末にチャットGPTからBANされてもうたわ。
思考の連鎖とか推論の連鎖がどないに動いてるんか聞いたらあかんらしいねん。
でもな、ワイらの運がええことに、ワイの表面的な分析以外にも、めっちゃ深い分析をしてくれてる人がおるんや。
そこから面白いことがわかってきたから、今日はそれについて話していきたいと思うわ。
一人は世界でも指折りの数学者で、大規模言語モデルについてよう語ってはる人や。
もう一人は、AIに関するトークンエコノミクスについてよう解説してはる人やねん。
心配せんでもええで、暗号資産とは全然関係ないからな。
せやから、AIフラックスへようこそ。さあ、始めていこか。
まず、エイデン・エムラウが明らかにした面白い情報から見ていこう思うねん。
彼の書いてることが好きな理由は、大規模言語モデルの核心的な概念を分解して、それを現実的な使用規模で語ってくれるからや。
普通、これはトークンあたりのコストと、特定のプロンプトに対して異なるモデルが使用するトークン数に関わってくるんや。
思考の連鎖っちゅうのは、基本的に大規模言語モデルがコア機能を呼び出す前にもっと作業するってことやから、もっとトークンを使うと思うやろ?
でも面白いことに、プレビューと正式リリースを比較してみると、特にo1ミニを見ると、ミニはプレビューより長く推論せんし、推論中の応答も長くないんや。
更に面白いのは、これをGPT-4やGPT-4オムニと比べると、ここでの「ステップバイステップで考える」オプションが、似たようなトークン数を消費してるんや。
これ、o1モデルがほんまに「進歩」しとんのかって疑問が出てくるわな。
もしかしたら、PhD級のタスクに特化した、いわゆるチェリーピックされた実験かもしれんのや。
ここで見てるのは、オープンルーターのデータやねん。
一つはo1プレビューのリクエストあたりの中央値トークン数、次はo1ミニ、そして各々のトークンの内訳や。
内訳は、プロンプトステップ、推論ステップ、完了ステップに分かれてるんや。
皮肉なことに、全体的に見ると、o1ミニの正式リリースではプロンプトに使うトークンがずっと少なくなってて、面白いことに後半、つまり9月16日月曜日の方に分布が偏っとるんや。
もちろん、OpenAIがユーザーからのデータを使ってこれらのモデルを積極的に改善してることは知っとるから、これ自体はそんなに驚くことやないんやけどな。
でも、パフォーマンスがこれほど変化してるのを見るのは面白いわ。
エイデンがDatadogで可視化してるオープンルーターのデータを見ると、もっと面白くなるんや。
基本的に彼の推測では、OpenAIは単にo1ミニのベストを使ってるだけやと。
トークンの選び方や使い方を見るとそれも納得できるんやけど、これが将来のモデルにどれだけ影響するかって疑問が出てくるんや。
「ベスト」っちゅうのは、推論時にどのトークンを使うかを選んでる時のことやねん。
だからこそ、GPT-4の「ステップバイステップで考える」がo1と似たようなトークン数を使うんや。
結局のところ、o1の中身はまだGPT-4なんやけど、確信のある答えを出す前にもうちょっと手順を踏んでるだけやからな。
そのモデルがどうやって確信を定義してるかって話やけど。
つまり、この振る舞いを見ると、o1の正式リリースとo1プレビューは根本的に違うモデルやってことになるんやろな。
重要なのは、o1ミニが基本的にフルo1リリースの半分くらいのトークン数で、効率がフルモデルの2倍以上ってことやな。
ワイのアカウントがGPT-4からBANされる前に気づいたことで好きやったのは、o1ミニの応答にはフルモデルにはない「バースト性」があるってことや。
最初は速くて、だんだん遅くなっていくんや。
これは、COTSやベストオブN選択みたいな技術を使うと予想される動きやな。
基本的に、すぐにやりたいプロンプトと、もっと考えたいプロンプトがあるってことや。
でも面白いのは、o1ミニはいつも人間の読む速度の少なくとも1.5倍以上で動いてて、それ以下にはならへんのや。
ユーザーとのやり取りの流れとしては、めっちゃクールやと思うわ。
ただ、これはOpenAIがAPIから返してくれる生データに基づいてるから、時間が経つにつれて変わったり進化したりする可能性はあるな。
今週末に出た一番面白い情報は、世界で最も有名な数学者の一人であるテレンス・タオがo1とGPT-4を比較してコメントしたことやな。
簡潔に言うと、このモデルは本当に印象的やけど、以前のモデルからの明らかな改善やと。
以前のモデルの能力は、実際には無能な大学院生に近かったんや。
でも、能力を改善して、コンピュータ代数パッケージや証明支援ツールみたいな他のツールと統合するのを1、2回繰り返すだけで、「有能な大学院生」レベルに達するかもしれんな。
つまり、o1はまだそこまでの一般化はできてへんってことや。
ワイも、まだまだ道のりは長いと思うわ。
でも面白いのは、キャリアのほとんどを数学の仕事や証明に費やし、たくさんの問題を書いたり、これらを集中的に研究したりしてきた人が、これを実際に本物のモデルやと考えてるってことやな。
ただし、o1に与えるレベルの問題を自分で解決できる人が、それがうまく機能してるかどうかを理解するには、まだかなり注意深い観察が必要やと。
例えば、ワイが何か野生的な証明をこれに入れたとしても、プロの数学者やないワイには、それが実際に合格したかどうかを判断するのは難しいやろな。
これは、誰かがo1やこのストロベリーモデルについて話して、「完璧や」「今まで見た中で一番すごいもんや」って言うときに、常に覚えておくべき重要なことやと思うわ。
面白いのは、OpenAIのアカウントがあれば実際に開けるたくさんの実験を提供してくれたことやな。
ここでの全ての例を、実際のOpenAI o1とのやり取りで裏付けたんや。
面白いことの一つは、o1に比較的単純な問題に対する創造的で斬新なアプローチを思いつかせたり、強制したりすることはできへんかったってことや。
解決策を証明したり、解決策に到達したりはできたけど、必ずしも新しい解決策には到達してへんかったんや。
彼は基本的に、モデルに十分な数学的背景がないからやと考えてて、特に「数学定理証明器」と呼ばれるものでトレーニングされてへんかったからやと思ってるんや。
定理証明器自体がめっちゃ複雑で、これだけで一本の動画が作れるくらいや。
ワイも大学でこれらをよう使ったからな。
定理証明器は基本的にコンパイラに似てて、「証明可能に正しい」言語で動作するんや。
例えば、フライトコントローラーやペースメーカーに入れるソフトウェアを書くとするやろ。
関数や関数の組み合わせのあらゆる可能な出力を理解して、絶対に望まない結果にならないことを確信したいような場合に、定理ソルバーってもんを使うんや。
基本的に、コードを取り込んで、それを通して、そういう場合やってことを保証してくれるんや。
特定のソフトウェアを強化するのにも最高のツールやし、暗号化技術の開発にもよう使われるんや。
彼の考えでは、o1にこれのもっとええ例を与えたら、問題解決能力や、その能力の斬新さがめっちゃ改善される可能性が高いんやと。
ほんまに面白かったのは、ログを掘り下げて、タオがこのモデルとどうやってコミュニケーションを取ったかを見ることやった。
基本的な問題から、ワイには何が起こってるのかさっぱりわからへんような複雑な証明まで扱ってたんや。
ここで彼は、o1の痛点や、これらの問題を「解決する」能力や、これらのテストに「合格する」能力が、どこにあるのかを明確に詳しく説明してたんや。
そして、それがどんどん重要でなくなってきて、現実世界の問題に近づくにつれて、「これが現存する最高の大規模言語モデルや」って主張がどれだけ有効なんかを疑問視し始めたんや。試験で使うようなおもちゃの問題やなくてな。
テレンスが言うた面白いインフラ関連のコメントの一つは、GPUが豊富なプレイヤーが限界に達すると、オープンソースモデルが重要な役割を果たす可能性があるってことや。
これは、様々な分野に特化した小さなモデルを構築するスキルを向上させる必要があるってことを示唆してるんや。
それらが全て単一のソースや単一の巨大なモデルから来るわけやないっちゅう考え方やな。
この研究と、OpenAIの特定のクローズドボックス・エンジニアリングで面白いと思うのは、エキスパートの混合を使っても、一般化された巨大なモデルが実際に何ができるのかがわかるってことやな。
面白いのは、大規模に観察し始めてる情報や証拠を見ると、エキスパートの混合で必ずしも展開されへん、分散した小さな特定のモデルが、これから見ることになる道筋である可能性が高いってことや。
OpenAIがもってるデータ量や、彼らが合成的にデータを生成するために使ってるメカニズムやインフラがあったとしてもな。
確かに彼らは最大のモデルを持ってるし、理論的には最も強力な一般化モデルを持ってるんやけど、問題は、OpenAIが何千人ものエンジニアを雇ったとしても、必ずしも思いつかへんアプローチや、進まへん道があるってことや。
それが、オープンソースでの勝利や改善のロックを解除して、他の分野に波及する可能性があるんや。
この分野のクロスポリネーションがめっちゃ面白くなってきてるんは、全てのエンジニアを買収して一箇所に集めて、「もう誰も俺らに勝てへんで」って言うことはできへんってことを示してるからや。
現在の業界はそんな感じやないんや。
これはめっちゃクールやと思うで。
だって、これがどんなに印象的やとしても、世界最高の数学者たちでさえ、GPUが少ない人や、家のオフィスで数枚の3090や4090を使って面白い仕事をしてる人たちに、まだまだ希望を見出してるってことやからな。
小さなGPUが、高価なデータセンターGPUと比べても、価値やスピードの面でまだまだ勝ってる場合が多い理由を説明するコンテンツも楽しみにしててな。
今週の後半に、その動画を見てみてや。
みんなはどう思う?
明らかにここにはたくさんのデータや証拠があるわな。
テレンス・タオの数学スタジオンへのリンクも貼ったんで、そこで彼の作品を直接見ることができるし、全ての例も見られるで。
でも、みんなはどう思う?
o1は好きか?
正式リリースはプレビューよりめっちゃええとか、違うと思うか?
他のクローズドソースモデルと比べて、製品やアプリケーションを作るのに、これらのトークンエコノミクスが気になるか?
コメント欄で教えてくれたら嬉しいわ。いつも皆の意見が聞きたいんや。
せやから、いつも通り、何か学んでもらえたらええなと思うわ。
ワイらのコンテンツが好きやったら、ぜひ「いいね」「登録」「シェア」してくれたらありがたいわ。
ほなまた次回お会いしましょう。


コメント