🍓ストロベリーはAGIなんか? みんなが見落としてるもん – 幻想 VS 現実

AIに仕事を奪われたい
この記事は約11分で読めます。

6,530 文字

🍓Is Strawberry (o1) AGI? What Everyone is Missing -- Fantasy VS Reality
A practical, real world perspective on OpenAI's Strawberry 🍓 AI model and processContact Us Today for a Free Custom AI I...

おはようさんどす。この動画はオープンAIのストロベリーについてのもんどす。AGIなんかどうか、誰も言うてへんことでめっちゃ重要なことを話すわ。AIの世界でストロベリーがどういう位置にあるんか理解するのに欠かせへんことやねん。
ほんで、幻想と現実をしっかり分けて考えていこか。実用的な観点から見ていきたいんや。ふわふわした見方でもあかんし、かといって否定的すぎるんもあかん。怖がってる人らがおるからって、あるいはストロベリーの機能を限定的に捉えようとしてるからって、ただ否定するんはあかんのや。
わいは42ロボットAIのCEOのデイビッド・フッドや。うちの会社では組織がAIを導入するのを手伝うてるんや。関連する動画へのリンクを貼っとくわ。最近撮ったGPTXのユースケースの落とし穴についての動画やな。他にもストロベリーについて語ってる良い動画があるから、それらへのリンクも貼っとくで。わいの話の補足になると思うわ。
まずはストロベリーの基本的なところから見ていこか。これがストロベリーの能力や将来的な影響を理解するのに役立つと思うわ。
まず、100%確実とは言えへんけど、GPT-4oのファインチューニング版やと考えるのが妥当やと思うわ。ストロベリー自体はモデルだけやのうて、一連のプロセスの連鎖なんや。モデルだけやのうて、もっと複雑なもんなんや。
それに、合成データを使ってファインチューニングしたんや。GPT-4oを使って推論データをたくさん生成して、創造性を最大限に高めて、人間にフィードバックの良し悪しを判断してもらったんや。良いフィードバックを使ってGPT-4oのバージョンをファインチューニングしたんや。
ほんで、自分自身と議論するような感じになってるんや。古典的な思考の連鎖だけやのうて、もっと複雑なことをしてると思うわ。特に科学やコーディング、数学みたいな論理的な分野での推論に特化して訓練されてるんや。
他の分野では全然改善されてへんところもあるんやけど、これはオープンAIにとって画期的なことなんや。今まで成功してきたのは、AIモデルだけやったからな。ChatGPTを例に挙げると、モデルを除けばめちゃくちゃしょぼいソフトウェアやねん。開発者が週末で作れるようなもんや。
ChatGPTの成功はモデル自体にあったんやけど、ストロベリーはモデルだけやのうて、プロセスでもあり、システムでもあり、アルゴリズムでもあるんや。モデルと統合されたもんなんや。
基本的にはモデルが中心やけど、モデルへのプロンプトの仕方にも工夫があるんや。異なるステップで異なるプロンプトを使ってると思うわ。ただ、確認されてるのは1つのモデルを使ってるってことと、合成データを使ってファインチューニングしてるってことや。思考の連鎖も使ってるらしいわ。
ほんで、ストロベリーが何をしてるんかについて、色んな意見があるんや。技術的には確率的オウムやって言う人もおるけど、実質的にはそうやのうて。同じように、本当に推論してるんかって議論もあるんやけど、実際のところは推論してへんねん。
推論を使ってるだけで、トレーニングセットから最も関連性の高い推論を見つけて、目の前の状況に適用してるだけなんや。関連するものがなかったり、重要な部分が欠けてたりしたら失敗するわ。
でも、実質的には推論してるんや。出てくる結果は多くの場合、人間のような推論で、場合によっては人間以上のもんになるんや。ただ、科学やコーディング、数学に特化してるってことを忘れたらあかんで。これらの分野で改善されてるんや。
特にコーディングの能力はめっちゃ向上してる。うちの開発者らは数ヶ月前にGPT-4からClaudeに切り替えたんやけど、今はコーディングにストロベリーを使うって言うてるわ。かなり良くなってるらしいわ。
ほんで、ベンチマークの結果を見せてるんやけど、ちょっと問題があると思うわ。一つ重要なのは、ストロベリーはモデルだけやのうてプロセスも含むから、他のモデルと比べるんは公平やのうてってことや。
これはオープンAIが初めてAIエンジニアリングの分野に足を踏み入れた証拠なんや。だからこそうまく機能してるし、問題を解決できるんや。これはこのチャンネルで話してきた、LLMをツールとして使うってことと直接関係があるんや。
テストについてもう少し詳しく見ていこか。もし意見が違うなら、コメントしてくれたらうれしいわ。議論したいし、あんたらの意見も聞きたいんや。「すべての面ですごいんや!」って言う人もおるやろけど、それはあんたらの意見やからな。
他の人らがやった深掘りとかテストについては、あんまり詳しく触れへんわ。個人的に一番気に入ったのは、AAINのビデオやな。ストロベリーが実際に何をするのかについて深く掘り下げてて、現実世界での実用的なアプローチを取ってると思うわ。
すべてがバラ色やのうて、すべてがゴミでもない。ある部分ではバラ色やし、ある部分ではゴミやし、ある部分では人が思ってるんとは違うんや。ええビデオやで。
デイビッド・シャピロもいくつかビデオを出してる。最初は軽く見てたんやけど、それはわいも同じやったな。でも今では重要やと思うようになったらしい。わいはそこまでやないけど、確かに一歩前進やと思うわ。他の人ほど強くはないけどな。後で説明するわ。
テストについては、マシュー・バーマンのがええと思う。ほとんど論理とコーディングのテストやけど、それがバーマンの専門分野やからな。そういう分野ではめっちゃ良い成績を出してる。何ができるか見るにはおすすめや。
でも、言葉遊びみたいなテストだけやと、全体的な能力を測るには足りへんと思うわ。評価指標も同じやな。
評価指標を見てみよう。まず、これらは単なるデータポイントで、不完全なデータなんや。数学のGPT-4の能力が83%になったって見て、すごい飛躍やって思う人もおるけど、そうやのうてんで。
これは大規模言語モデルやけど、ストロベリーはそれ以上のもんやから、りんごとオレンジを比べてるようなもんや。これは、わいが1年以上前から社内で言うてきたこと、そして最近このチャンネルで話してきたことと一致してる。LLMをツールとして使うってことや。
これはその方向への一歩に過ぎへんのや。それに、これらの評価指標は基本的にチャットボットの観点からモデルを見てるだけで、それはめっちゃ狭い見方やねん。これは、みんなが見落としてることに直接関係があるんや。評価指標が載ってる記事へのリンクも貼っとくわ。
これが何を意味するんか、はっきりさせたいんや。これは、PhD レベルの物理学者と同じくらい賢いってことやのうて。人間にとって難しいテストに上手く答えられるってことや。基本的には、トレーニングセットから答えを引っ張り出してきてるだけで、より良い論理と推論を訓練されてるってだけやねん。
これはPhDレベルの人に取って代わるもんやのうて。PhDレベルの人と同じくらい賢いってわけでもないんや。テストが知能を決めるわけやのうてんで。これは今の教育業界でよくある問題や。テストのために教えて、事実を暗記するのが知能やと思ってるけど、そうやのうてんで。
理解するのは別もんや。確かに、グレーな部分もあるけどな。物理学のPhDを持ってる人にメールを送って、直接返事をもらうような経験を再現できるかもしれへん。でも、質問と答えのやりとり以上のもんがあるんや。
これらの評価指標は、ほとんど数学や科学、物理学、論理に関連したもんやけど、英語の点数は同じやし、法律もある程度できるみたいや。プロレベルの法律はそこまでやないけど、LSATはできるみたいやな。テストと世界的な事実に関しては、驚くことはないわ。
でも、これを大規模言語モデルの飛躍的な進歩やとは思えへんのや。特定の狭い論理や推論、数学を扱うプロセスやシステムを作ったってことやと思うわ。これは研究やコーディングに特化したもんで、世界の多くのユースケースを解決するもんやのうてんで。
これがゴミで全然役に立たへんって言うてるんやのうて。確かに役立つ部分はあるんや。でも、本当に大きな飛躍なんかってことや。そんな単純やのうてんで。
インターネットでニュアンスを伝えるのは難しいってのはわかってる。みんな白か黒かはっきりさせたがるけど、そんな単純やのうてんで。わいが中間的な立場を取ろうとしてるから、どっちかの側に立てって思われるかもしれへんけど、そういうことやのうてんで。
ここには表面上見えるよりも複雑なもんがあるんや。AGIが何かについても、はっきりした一貫した定義がないんや。AGIに対する幻想や願望もあるしな。
ストロベリーのAGIの定義を見てみよか。これはストロベリー自身が言うてることや。知識を理解し、学び、適用する能力やって。でも、わいは学んでるとは思えへんのや。確かに色んなことに一般化はできてるけど、自律性はないし、意識や自己認識もないし、適応もせえへん。特に自己適応はできへんのや。
だから、これがAGIに近いって言うてる人らには同意できへんのや。AGIの定義は人それぞれやけどな。一般的に知的なデジタルエンティティって定義もあるし、それはある程度当てはまるかもしれへん。
でも、わいにはまだそこまで行ってるようには思えへんのや。AGIには大規模言語モデル以上のもんが必要やと思うわ。実際、オープンAIもその方向に一歩踏み出したんや。だから評価指標がりんごとオレンジを比べてるようなもんになってるんや。
確かに、狭い分野ではかなり大きな進歩やと思うわ。でも、桁違いに良くなったってわけやのうてんで。暗記が多く含まれる狭いテストで75%から98%になったからって、すごいことやとは限らへんのや。
物理学のテストで50%上がったからって、すべてを吹き飛ばすようなもんやのうてんで。特にGPT-3とGPT-4の違いを考えると、そこまで大きな違いやとは思えへんのや。わいの意見では、そこまでの違いはないんや。
それに、これはモデルだけやのうてんで。確かに大きな一歩やと思うけど、新しいもんやのうてんで。実際にAIソリューションを作ってる多くのオタクらが知ってたことやねん。LLMをツールとして使うってことや。単なる入力と出力以上のもんとして使うってことやな。
AGIを作るには、すでにあるシステム1と、今作ろうとしてるシステム2があれば十分やって考えがあるけど、わいはそれは正確やないと思うんや。システムにはもっと多くの部分があると思うわ。でも、これはわいの意見やし、どうなるかは時間が経てばわかるやろ。AGIの定義によっても変わってくるしな。
ストロベリーが失敗やとは全然思てへんで。全体的に見たら、ええ一歩前進やと思うわ。
ほんで、進歩が遅くなってるっていう質問もよう受けるんやけど、そのデータはあるんかって。実はたくさんのデータがあるんや。わいも参考資料を示そうとしたんやけど、ここにオープンAIの論文やブログ記事から直接引用したグラフがあるわ。
これは彼らが得る価値について書いてあるんやけど、指数関数的な投資に対して線形の効果しか得られへんってことやねん。これは対数スケールやから、非線形なんや。トレーニング時間やテスト時間を増やしても、線形の反応しか得られへんのや。
この軸は指数スケールやから、ここの1目盛りが10倍とか100倍の時間や資源を意味するんや。線形の結果を得るために指数関数的なコストがかかるってことやねん。だから進歩が遅くなってるって言うてるんや。
他にもこういうデータがたくさんあって、言語モデルからより高い知能を引き出すには、前の段階の10倍とか100倍のコンピューティングパワーやコスト、時間、エネルギーが必要になるんや。線形の結果を得るために指数関数的なコストがかかるから、大規模言語モデル自体の進歩は遅くなってるんや。
でも、LLMの使い方には大きな可能性があると思うで。この後すぐ話すし、このチャンネルでもよう話してるやろ。
ほんで、材料とレシピを区別することも大事やと思うわ。大規模言語モデルは新しい材料を作れへんけど、既存の材料から新しいレシピは作れるんや。つまり、トレーニングセットにある論理の断片を組み合わせて、新しい答えを出せるってことや。
例えば、ある論理的な問題に答えるのに、トレーニングセットに完全に一致するものはないけど、似たような3つの例があって、そこから3つの部分を取り出して組み合わせて新しいレシピを作れるんや。
でも、4つの材料が必要で、そのうちの1つがトレーニングセットのどこにもない場合は、失敗するか、失敗する可能性が高いんや。新しい材料は作れへんからな。これが、自己複製や自己改善ができへん理由の一つやねん。
大規模言語モデルとうまく連携するコードを、たくさんのコンテキストなしで書いてもらおうとしても、うまくいかへんやろ。
さて、見落とされてることについて話そか。この動画が気に入ったら、いいねボタンを押してな。気に入らへんかったら、どんどん低評価してくれてええで。
業界全体、ほとんど世界中が、この大規模言語モデルをチャットボットとして見てるんや。評価指標を見てもわかるように、入力と出力だけに注目してる。でも、わいらの推論や研究開発、クライアントワーク、基本原則(他の人が第一原理って呼んでるやつ)に基づいて考えると、ちょっと違うんやな。
大規模言語モデルの能力や使用法の1%未満しか、チャットボットとして直接使うことからは得られへんのや。大部分の利益は、ソフトウェア内のツールとして大規模言語モデルを使うことから得られるんや。
これは直感的なもんもあるけど、うちの会社内で何度も検証されてきたことやねん。ほとんどの人が大規模言語モデルで問題を解決しようとする時、LLMを解決策の中心に置こうとするんや。ちょっとしたツールやプロンプトエンジニアリング、RAGなんかを使って、LLMをループさせて問題を解決しようとするんやけど、そうすると多くのユースケースを見逃してしまうんや。
実際にソフトウェアを作って、LLMからできるだけ多くを引き出し、今まで解決できへんかった問題を解決するための重要な場所でLLMを使うべきなんや。
ビジネスでこのアプローチを取ると、LLM中心のアプローチよりもずっと信頼性の高い出力が得られるんや。これがビジネスにとって超重要なんや。だから多くの企業がAIから価値を得るのに苦労してるんや。ほとんどの人がLLM中心のソリューションを考えてるからな。
実際にビジネスでLLMを使って現実世界の問題を解決してる超オタクらと話したけど、わいがこれを言うと、みんな「そのとおりや」って言うんや。実際にはLLMから情報を引き出して、基本的にはソフトウェアを作ってるんやって。
これが、他の誰も話してへんことで、評価指標が示してるほどAIの進歩を表してへん理由なんや。だから物理学のテストで60%から90%になったからって、めちゃくちゃ印象的やとは思えへんのや。確かにええことやけど、世界を変えるようなもんか?AGIに10歩近づいたんか?わいはそうは思えへんのや。
ほんで、ちょっと一歩下がって見てみると、ストロベリーはただのモデルやのうて、オープンAIが公開したAIエンジニアリングへの最初の一歩なんや。これは良いことやと思うし、わいが必要やと言うてきたことやねん。
もっと進んで、ソフトウェアプロセス内のツールとしてLLMを使って、現実世界の問題を解決せなあかんのや。これが良いエージェントを作る方法やねん。業界の有名人が言うてたように、LLMをループさせるだけでは良いエージェントは作れへんのや。そんなんじゃ問題だらけになるで。実際にソフトウェアを作るべきなんや。
ほな、ビジネスのためのカスタムAI実装ロードマップが欲しかったら、下のリンクをクリックするか、電話してな。見てくれてありがとう。ええ一日を。バイバイ。

コメント

タイトルとURLをコピーしました