GPT-o1-120B：OpenAI – これを修正せよ！ | ASIに仕事を奪われたい

OpenAIの新しいオープンソース推論モデル「GPT-o1-120B」について、実際の性能テストを通じてその能力と問題点を検証した動画である。従来の批判を受けてOpenAI公式プレイグラウンドでテストを実施し、推論過程の可視化機能や回答生成の問題点を詳しく分析している。

GPT-oss-120B: OPENAI - FIX THIS!

A detailed test of the new open-weights model by OpenAI, GPT-oss-120B, on the platform provided by OpenAI for this reaso...

GPT-o1-120Bの実地テスト開始
リアルタイム推論過程の観察
回答の不在と問題点の発覚
二度目の挑戦と推論過程
待望の回答と比較検証
検証プロセスと問題の発見
出力問題の再発と最終結果

GPT-o1-120Bの実地テスト開始

こんにちはコミュニティの皆さん、OpenAIからGPT-o1-120Bやで。前回の動画では、みんなCerrusを3,000トークンで使ったことに対して、あんまりええ反応してくれへんかったんや。せやから今回は公式のOpenAIプレイグラウンドでやってみるで。最大推論モードにして、推論過程も表示するで。ここにテストを入れるんや、もっと簡単なテストをな。10ヶ月前に、o1用に開発したやつや。

せやからこれがテストや、今から入れる簡単なテストやな。さあ、性能がどんな風に変わるか見てみよか。ここに公式でGalleria魔法使いがおるな、わしの一番古い購読者や。ここにあったんがわしの別のテストで、これは因果推論タスクやな。ここで思考過程を見てみいや。よし、ここでめっちゃ細分化された同期プロセスがあるで、ちょっとずつライン出してくれてるんや。ええアイデアやな、これ気に入ったで。せや、一つ一つ120Bモデルの思考過程が見れるんや。でもここクリックしたらどうなるんやろ、ちょっと待ってや。

リアルタイム推論過程の観察

よし、今度は時系列順になったで。ナイスやな。スクロールできるから、リアルタイムで見れるんや。これが思考過程やな。これはホンマやで、わしがやったからな。おお、終わったで。これはナイスやったな。1分もかからへんかったで。美しいやん。さあ制約を適用や。全部ここにあるで。よし、終わったな。

でも答えはどこにあるんや？終わったのはええけどな。これが推論過程やったんや、推論を表示しろって言うたからな。これがわしのテストや。美しいやん。わしのテストや。せやから37秒や。120Bモデルにしては本当に素晴らしいで。今は答えを待っとるところや、わしの指示を見てみいや。最終的な答えを明確で整理された形で提示せよってな。

せやから答えはどこにあるんや？おお、思考中やな。ちょっと待ってや。よし、まだ思考してるんや。よし。おお、推論過程の最後にあるんかな。他に何か出てくるんかな？いや、ただ終わったってだけや。OpenAIによる公式な答えを待っとるんやが、この120Bオープンウェイト推論モデルでな。美しいやん。これがGPT-o1-120Bや。まだ同期してるで。

回答の不在と問題点の発覚

今、答えを生成するのに1分くらい同期してるで。そしてここにあるんや。青い矢印や。それだけや。せやから結果はどこにあるんや？出力は？答えは？これはありえへんで。ちょっと待ってや。これがわしの入力や。それからこれがソートプロセスや。せやから答えはどこにあるんや？答えがないねん。これはありえへん。

うーんOpenAI、最終的な答えを明確で整理された形で提示せよって言うたやん。どこにあるんや？頼むで。せやからお前さんは人間のユーザーに結果を提示するのを忘れとるって言うてるんや。わしの指示に従って、同期プロセスの最後に答えを提示してくれや。答えがあったら美しいのになあ。そしたら全部最初からやり直しや。あかん、やめてくれ。わしの天やな、指示に従うのに問題があるんや。

見てみいや、わしの論理テストの分析を全部最初からやり直しとるやん。さあ、全部リスタートや。あかん、わしはただ答えが欲しかっただけやのに。わしの天やな。頼むで。これがGPTのオープンソースモデルや。せやから何やねん？全部もう一回実行する以外に方法がないんか。全部もう一回実行や。皆さん、今度は2回目のランを楽しんでもらおうか。よし、それはいつでもええことや。

二度目の挑戦と推論過程

2回目のランやな。ポジティブでいこうや。夏やし、外は美しいで。せや。わしはここでコンピューターの前に座っとるんや。潜在的な割り当てや。選択肢1、選択肢2、選択肢3。ナイスやん。よし、長くはかからへんやろ。37秒で終わるはずや、もうすぐや。そして公式な答えももらえるかもしれへん。

もしこれが継続的な機能やったら、OpenAIに言いたいで。ユーザーに答えも提供してくれたら美しい新機能になるやろうな。オープンウェイトモデルを買うことでな。よし、まだ考えてるで。よし、パズルの説明や。最終的な答えを提示や。せや、せや、近づいてきたで。今度は他のことも考慮せなあかんな。

複雑性の制約はこれを修正せえへん。おお、まだ最終的な答えに到達してへんな。確信できへん。定義せなあかん。あちゃー、また深く思考過程に入ってしもたな。よし、全ての選択肢を検討してるで。頼むで。これはめっちゃ古いテストやで。OpenAIの最新GPTモデルにとって、オープンウェイトかどうかに関係なく、このテストで問題が起こるはずがないねん。

待望の回答と比較検証

そして今、今答えに近づいてきたで。今すぐにでも答えが出るで、いつでもな。どっちも受け入れられる複雑性ランキングや。せや、複雑性ランキングソート125や。答えが出たで！おお、これは美しいモデルや。答えをくれるねん。これを見てみいや。さあ、これはOpus 4の非同期モデルからの別の動画や。

ここでOpus 4による最終的な答えが見れるで。今比較できるで。ほとんど同じや、2つだけ違うところがあるけど、まあええやろ。解決策に到達したで。出力があるで。これは素晴らしいで。アーティファクトを配置や。本当にナイスや。全てのアーティファクトが配置されたで。残りのフォノモニアや。ナイスやん。本当に興味深い推論過程をくれるで。これ気に入ったわ。

手がかりが今満たされたで。これが元の手がかりや。追加の複雑性情報を挿入や。せや。よし。複雑性の手がかりが挿入されたで。順列が計算されて。そしてテーブルは初期の一貫した完全な解決策を示してへんのか？最終的な答えがここにあって、複雑性ランクは消えたで。よし、追加できるで。

よし、全て満たされたで。よし、解決策があって、これは非同期のOpus 4と同等や。せやから120Bで完全な高推論があったら、非同期のOpus 4とほぼ同等やな。今度はめっちゃ燃える結果や。解決策を検証せなあかん。これは素晴らしいで。せや。比較してみようや。せや。7秒でソートや。

検証プロセスと問題の発見

よし。元の15個の手がかりの検証や。テーブルはどう満たされてるか？いや、テーブルはどうやない。検証プロセスを通るべきや。全ての15個の手がかりが検証されたで。各魔法使いにランクが。以下のテーブルが検証されてることを示してるで。テーブルで検証や。よし。よし。せや、ええよ。オープンソースモデルやからな。せや。よし。

要約、最終的な答えや。満たされたで。せや。自然に適合する。自然に適合するで。頼むで。何が欲しいねん？オープンソースモデルやで。せやから、美しい要約の最終的な答えで複雑性ランク付きや。せや。これやで。美しい。これはええ感じや。正しい答えがここにあるで。美しいやん。せやからこれはうまくいったで。そして今度は聞くで、他に有効な答えは可能なんかな？同期プロセスがあるで。せや。美しい。

見てみようか。よし、考えてるで。考えてるんや。これは素晴らしいで。同期を見てみるべきかもしれへん、そうでないとすぐに退屈になってしまうからな。せや。16秒で見つけようとしてるで。せや。よし。せやから16秒や。そしてこの同期プロセスを見てみようか。かなりたくさんあるで。300％で加速するで。せやから。

読みたかったら読めるで。速すぎることはないけど、そうでなかったらせや、この美しい300％加速で進むだけや。ここで同期プロセスが見れるで。ここで代替解決策を見つけようとしてるんや。せや、代替解決策があるねん。この因果推論テストの解決空間にはかなりの対称性を残してあるからな。せやから美しくこれを通り抜けて、ここで他の解決策を見つけるんや。これは素晴らしいで。このオープンソースモデルの最大推論レベルにおってることを覚えといてや。よし、いこうか。

出力問題の再発と最終結果

全部そして終わったで。せや、達成したで。美しいやん。せやから、出力してくれるか？答えが出されへんかったからな。せや。ユーザーが聞いとるで、何か答えはあるんかって？あかん、またやない。あかん、あかん、また同じことはせんでくれ。あかん、思考プロセスを全部最初からやり直してるやん。よし、500％で加速しよか、退屈になってきたからな。

指示に従うのに本当に問題があるな、わしはただわしに提示されへん答えの出力が欲しいだけやのに。よし。1分後や。直接的な質問への短い答えや。ありがとう。一つの完全な解決策や。全ての手がかりを満たすで。3つの異なる配置があるで。これは正しいで。ええ感じや。

他の論理的可能性は何やねん？せや、これはオーケーや。せや、これはめっちゃナイスやで。よし、最終解決策や。おい、何かおかしいで。これを見てみいや。あかん、複雑性ランクが跳んでしもたで。あかん、ちょっと待ってや。見てみいや、この行列の最初の4行が複雑性ランクやねん。1、4、2、そして7や。素晴らしいやん。そしたらテーブルでジャンプするんや。

これはテーブルの誤った割り当てや。見てみいや、あっちに属してるねん。これは間違ってるで。この出力は間違ってる、ここで行列のセルを混同してしもてるからな。これはあかんで。これは問題やで、テーブルを生成することを信頼できへんかったら、問題があるってことやからな。