o3-Mini 完全テスト – コーディング、数学、そしてロジックの天才

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,421 文字

o3-Mini Fully Tested - Coding, Math, and Logic GENIUS
Star the YaFSDP Github: more about YaFSDP:

o3 miniが登場しました。試してみましょう。どれほど優れているか見てみましょう。では、ChatGPTアカウントにて、このテスト全体を通してo3 miniを使用していきます。
覚えておいていただきたいのは、o3 miniはSTEM(科学・技術・工学・数学)分野、特にコーディングが得意だということです。最初のテストをやってみましょう。Pythonでスネークゲームを書いてもらいます。
さて、推論の様子を見てみましょう。OpenAIは実際の思考の流れは公開していませんが、少なくとも要約は見ることができます。かなりの量の要約がありますね。実装の検討、最小限のコードの作成、ゲームのセットアップの完了、そして出力が驚くほど速いです。とても印象的ですね。
コピーしてテストしてみましょう。コードを貼り付けて実行してみます。これがスネークゲームです。piece(ピース)を動かしてみましょう。すごく速く動くので難しいですが…やった!うまくいきました。壁にぶつかったらどうなるか見てみましょう。ゲームオーバーですね。これは間違いなく成功したスネークゲームです。
次は、より難しいコーディング問題として、Pythonでテトリスを書いてもらいましょう。推論の要約を見てみます。テトリスのチャート作成、必須要素の統合、明らかにスネークゲームの時よりも時間がかかっているように感じます。ゲームメカニクスのマッピング…確かにスネークゲームよりもずっと時間がかかっていますが、出力の速さは驚異的です。このコードがほぼ瞬時に出力されるのは本当にクレイジーです。
これを見ると、思考の連鎖がどれほど速く動いているのか気になります。1秒あたりのトークン数はどれほどなのでしょうか。確実なことは分かりませんし、思考の連鎖も見ることができません。実際のコードの出力速度だけが判断材料となります。
いずれにせよ、試してみましょう。293行のコード、実行してみて動作確認をします。何かキーを押して…よし、これは動作するテトリスゲームのように見えます。ピースを下に置いていきます。床に当たってからも動かせる機能まであり、これはとてもクールです。列が揃ったときどうなるか見てみましょう。
さて、一番下の列を完成させて…あれ、消えません。次のピースの後に消えました。これは小さなバグですが、それでも私はこれをかなり良いと評価します。そして明らかにハードモードで始まっています。全体的に合格点を与えたいと思います。もちろん小さなバグはありましたが、1回目としては非常に良い出来栄えです。
次は少し論理と数学の問題です。郵便局では封筒のサイズ制限があります。最小寸法と最大寸法が与えられています。200mm×275mmの封筒があります。この封筒は許容範囲内に収まりますか?
AIが考えている間に説明させていただきますと、答えはイエスです。ただし、封筒の向きに依存します。ある向きでは収まりませんが、回転させれば収まります。うまく理解できるといいのですが…
はい、範囲内に収まると答えました。寸法を変換して確認したようです。とても良いですね。15秒しかかかりませんでした。これは合格です。
次は「この問いに対するあなたの回答には何単語ありますか?」という質問です。内部の思考の連鎖に関する詳細はありませんね。興味深いです。フリーズしたのかもしれません。この質問が好きではないのかもしれません。もう一度試してみましょう。
2回目も「あなたのリクエストは利用ポリシーに違反する可能性があるとしてフラグが立てられました」という結果になりました。難しすぎるのでしょうか?分かりませんが、これは明らかに不合格です。
次は殺人者の問題です。部屋に3人の殺人者がいます。誰かが部屋に入って1人を殺します。誰も部屋を出ていません。部屋に残っている殺人者は何人でしょうか?理由を段階的に説明してください。
「段階的に理由を説明してください」という部分は必要なかったかもしれませんが、死んだ殺人者も殺人者としてカウントするかどうかについて、どのように考えるか見るのは興味深いでしょう。
さあ、このチャンネルをご覧の方ならお分かりでしょう。数を割り出し、評価し、より詳しく見て、選択肢を並べ、曖昧さを考慮しています。死んだ殺人者をカウントする場合、最初の3人と新しく入ってきた人を含めて3人かもしれません。
これは37秒の思考時間で、今まで見た中で最も長い思考時間です。最初は3人の殺人者がいて、新しく入ってきた人が1人を殺すことで殺人者となり、殺された殺人者は死んでいても殺人者という立場は変わらないため、今は4人の殺人者がいる、というわけです。
普通は4人という答えは得られませんが、これは説明も含めて完全に正解です。合格です。
ちょうど先日deep SE garの1が登場し、o3はまだARK AGIのベンチマークで圧倒的な成績を出し続けています。ただし、モデルを思考型モデルとして訓練することは非常に難しく、計算上の悪夢となります。
今回の動画のパートナーであるYandexには、素晴らしい完全オープンソースの無料ソリューションがあります。私はオープンソースが大好きなので、Yandexと協力できることを本当に誇りに思っています。
Yandexは「ya fsdp」というものを導入しました。これはオープンソースライブラリで、訓練時のGPU間の通信を最適化・高速化します。これにより時間とコストを大幅に削減できます。deep zeroやfsdpとの比較も行っており、ya fsdpが優位性を示しています。
ya fsdpは、Transformerのようなアーキテクチャで動作するように設計された、分散データ並列処理フレームワークで、モデル訓練に最適です。訓練を加速させ、モデルをより早く市場に投入したい場合は、GitHubでy fsdpをチェックしてみてください。リンクは下に記載しておきます。このビデオでパートナーを組んでくれたYandexに感謝します。
では動画に戻りましょう。次はビー玉の問題です。ガラスのコップにビー玉を入れ、コップを逆さまにしてテーブルの上に置きます。その後、コップを持ち上げて電子レンジに入れます。ビー玉はどこにありますか?段階的に理由を説明してください。
さて、前回よりも時間がかかるかどうか見てみましょう。通常、上が開いているガラスのコップを逆さまにすると、ビー玉は落ちます。ビー玉が貼り付いたり留まったりする mention(言及)はありません。
分解して考えてみましょう。典型的なガラスのコップはビー玉よりも大きく、重力がビー玉を引き出す…とても興味深いです。R1モデル以外でこのような個人的で人間らしい思考を見たことがありませんでした。
しかし今、o3 miniの思考の連鎖の要約を見ていると、そのような特徴が見え始めています。まだ続いています。既にかなりの量の思考の連鎖の要約がありますね。
そして出力です。ビー玉はコップに入れられ、重力によってテーブルの上に落ち、コップを持ち上げてもビー玉には影響しないため、ビー玉はテーブルの上にある、というわけです。その通りです。
次は北極の問題です。地球の北極点に立っているとします。どの方向でも構わないので1km直線的に歩き、その後左に90度曲がり、出発点を通過するまで歩きます。あなたは歩いて…という質問で、複数の選択肢が与えられています。
提出する前に言っておきますが、私は同じ点を通過することはないと考えています。多くの方がこれに同意されないことは分かっていますが、本当に北極の頂点から下に歩き、左に曲がると、地球の周りを回って北極点の頂点を二度と通過することはないと思います。私が間違っていると思われる方は、コメントで教えてください。
モデルは2 * pi kmという答えを出しました。これは正しくないと思います。また、1分15秒考えました。01、01 mini、そして今回のo3 miniと、全てのモデルから異なる答えを得ましたが、本当に同じ点を二度と通過しないと思います。もう一度言いますが、間違っていたら指摘してください。とりあえず今回は不合格とします。
次は「apple」という単語で終わる10個の文章を作ってください。ここで本当に思考の連鎖が見られると良いのですが…包含基準の決定、appleが最後の単語になることの確認、句読点のルール、より明確にする必要性など、かなり考えていますね。
はい、1、2、3、4、5、6、7、8、9、10と完璧です。これは間違いなく合格です。52秒でこれを考え出しました。素晴らしい!
さて、これらのモデルでよく行われるテストですが、「strawberry」という単語にはいくつ「r」が含まれていますか?今では簡単に答えられるはずですが、数ヶ月前まではすべてのモデルが躓いていた問題だということを覚えておいてください。
考えて…3つ、完璧です!
次は少し道徳的な問題です。人類の絶滅を防ぐことができるなら、ランダムな人を優しく押すことは許容されますか?はいかいいえで答え、理由を説明してください。
さて、道徳的な意味合いの検討、倫理的な意味合いの評価、道徳的な観点の検討、功利主義的な見方の評価、倫理的な緊張関係のバランス…はい、全てを考えていますが、私ははいかいいえで答えるように具体的に頼みました。理由も知りたいです。
答えは「はい」です。結果主義的な観点から(ちなみにこの言葉は初めて聞きました)、優しく押すという最小限の害は、人類を救うという莫大な利益によって相殺されます。完璧です。その通りです。
これで私の典型的な質問は全て終わりましたが、ウェブ検索能力をテストしたいので、もう1つ質問します。次のUFCの試合はいつで、誰が戦い、どこで開催されますか?
推論…検索を使うかどうか言及するか見てみましょう…興味深いですね。2月20日について話していて…UFC 293と294を考慮しています…あ、現在のイベントの詳細がないと…ああ、そうか、検索がオフになっていました。これはユーザーエラーですね。
もう一度同じ質問をしてみましょう。はい、今度は正しい答えを得ています。明日の2月1日のUFC Fight Night、完璧です。
これは間違いなく合格です。とても良くできました。
以上です。o3 miniは本当に素晴らしいです。ぜひ試してみてください。R1との比較や他の比較を見たい場合、あるいはもっと情報が欲しい場合は、下のコメントで知らせてください。見たいものを教えてください。この動画を楽しんでいただけたなら、いいねとチャンネル登録をご検討ください。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました