AIの最高傑作?OpenAIのo3とo4-mini-highのテスト

AGIに仕事を奪われたい
この記事は約17分で読めます。

9,642 文字

The Best AI Ever? Testing OpenAI's o3 and o4-mini-high
**Want up to ,000 off a new Tesla, or a free month of Starlink?**Tesla: Starlink: Thank you!Join this channel to get a...

2分44秒が経過し、ようやく勝者が決まりました。ChatGPT o3が暗号の種類をヒントなしで最初に解読できました。「Casino Pointが私の最も妥当な推測です」それは完璧です。本当に感動しました。1枚の写真だけから「はい、わかりました。この写真がどこで撮られたのか正確にわかります」と答えられるのは素晴らしいことです。
そして見てみましょう。「テーブルは濡れていません」おっと、GPT-4o mini highは負けました。これには本当に感心しました。とても素晴らしいです。明らかに私よりも優れていますね。私は落ちることなくゲームをプレイする方法を理解できませんでした。
みなさん、こんにちは。Dr. Know-it-Allです。今晩は明日公開用に別の動画を作る予定でしたが、予測通りOpenAIがChatGPT o3と04 mini highの両方をリリースしました。そこで、これらを私のテストスイートで試してみることにします。もし両方が優秀な成績を残したら、さらに高度な質問を考え出しますが、これまでテストしたモデルはどれも、これらのテストのどこかで必ず失敗しています。だから、そこまでの期待はしていません。
人々は「AGIの到来を感じる」といった類のことを言っていますが、私はまだ見ていません。ちなみに、心拍数モニターが表示されていることに気づいたでしょう。状況は概ね順調で、再発もなく、何とか持ちこたえています。温かい励ましをありがとうございます。何のことか分からない方は、こちらの動画をご覧ください。この動画の最後にも表示されます。
さあ、早速見ていきましょう。まず論理的な質問をしてみます。同時に両方のモデルに質問してみましょう。彼らが考えている間に、「思考」についても見ていきましょう。GPT-4o Mini Highの推論速度がどれくらい速いか確認してみましょう。
かなり速いですね。11が正解です。素晴らしい。それはかなり速かったです。そして3+8は11です。良いですね。両方とも最初の質問に強く出てきました。
次は、PygameでSpace Invadersゲームを再現するよう両方に依頼します。両方ともコーディングに優れていると言われています。実際、04 mini highについては、上部に表示されているように「コーディングと視覚的推論に優れている」と記載されています。視覚的推論テストも行う予定ですが、まずはコーディングの課題から始めましょう。
o3に切り替えて、これはもちろんはるかに大きなモデルですが、これを起動して結果を見てみましょう。04 miniに戻ってみましょう。おお、とても素晴らしいです。おお、すごい。Pythonを実行できそうですね。これは新しいことです。以前はVS Codeにコピーする必要がありました。
ところで、OpenAIがWindsurfを買収する可能性があるという噂を聞きました。そのIDEを使ってみる必要があるかもしれませんが、とりあえずPythonを実行できるかどうか見てみましょう。また、このウィンドウを少し移動させる必要があります。チャットで回答がありましたね。
明らかに複数の領域を作成したようです。同じことをしたか見てみましょう。「読み込み失敗」とのこと。o3は問題があるようです。もう一度試してみましょう。起動します。その間にPythonコードを実行してみましょう。「実行」を押して、うまくいくことを願いましょう。
まだ何も表示されません。どこで見ればいいのかわかりません。また、音声インターフェースもあるようです。興味深いですね。おや、「実行中:パッケージをインストール中」とあります。なぜか最初は受け付けなかったようです。
現在、コードを実行中と表示されています。何か実際に実行されるか見てみましょう。何も起こりません。VS Codeにコピーする必要があるかもしれません。ただ、これが動作すれば非常に便利なのですが。
ちなみに、私は実際にはコーディングにRepletを使っています。そこにはClaude 3.7 sonnetが組み込まれており、複数のドキュメントコーディングができるため、このような単一の大きな塊よりもはるかに優れていると思います。
これは非常に長いですね。176行は見たことがある中で最も長いかもしれません。何が起こっているのかわかりません。「コードを実行中」と表示されていますが、実際には何も起こっていません。たぶんPygameを実行できないのでしょう。VS Codeにコピーしてみましょう。GPT o3でも同じことを試してみて、そこで実行できるか確認します。
おそらくPygameを使おうとしているため、ウェブブラウザ内では実行できないのだと思います。いいえ、そこにはありません。VS Codeにコピーしましょう。これは04 mini highです。素晴らしいネーミングですね、皆さん。
「こんにちは」「エラー:Whiteが定義されていません」ああ、やはり実際には動作しないと言いましたよね。o3を試してみましょう。
何か表示されました!動きは非常に遅いですが、スコアが表示されています。このセクションは早送りするかもしれません。非常に遅くて退屈ですが、これらのキャラクターを一つずつ倒せることを願っています。
レベルがあるか、レベルを進めることができるか見てみましょう。特にそれを要求していませんでしたが、運が良ければ…ああ、とても遅いです。退屈ですが、Space Invadersの最初のレベルはあまり速くなかったことを覚えています。
クリアしたレベルになるか見てみましょう。「あなたの勝ちです。Rキーを押して再起動」とのこと。レベルはありませんが、明らかに完璧に動作しています。o3は合格です。
04 miniにエラーを貼り付けて、2回目でうまくいくか見てみましょう。完全なコーディングの雰囲気で、単に「エラー:」と書いてからエラーを貼り付け、どのエラーを起こしたのか理解して修正できるか確認します。
明らかにコードを見直しています。チャットで回答するとのこと。何をしているのかはわかりませんが…「色を修正しました」とのこと。コードをコピーして再度試してみましょう。
少なくともこれはより速いですね。それは良いことです。少し挑戦的ですが、小さなミスでした。何かを定義していなかっただけのようです。大した問題ではありません。
終わりまで到達できるか確認しています。私の素晴らしいゲームプレイ能力を目の当たりにしてください。「あなたの勝ちです。最終スコア:500」再起動機能はないようです。この時点で終了します。
両方成功したと言えるでしょう。04 Mini Highのゲームは敵がもう少し速く降りてきたため、若干優れていましたが、o3は最初の試みでミスなく動作しました。他のテストでも特に良い結果が出れば、もう少し難しいコーディングチャレンジを試すかもしれません。
次に、私の3歳になる孫姪のために物語を書いてもらいましょう。Skyさん、こんにちは。読み上げはしませんが、彼らがどのようなものを作るか見てみたいです。これは通常テストされないものであり、先ほど書いたコードについてのものです。Space Invadersコードについてです。
「Skyと眠そうな星のブロック」とのこと。「キラキラ輝く夜に、高く浮かぶ宇宙船の上に、おしゃべりする列が…」いいですね。現在スクロールできないという奇妙な問題がありますが、これはウェブインターフェースの問題でしょう。
「遠く離れた静かな宇宙には、勇敢な緑色のブロックの船が住んでいました。毎晩…星の友達、こんばんは」「ある夜…」両方とも完全に問題ありません。o3の方が04 mini highよりも少し優れているのではないかと思います。おそらくより大きなモデルでより良くトレーニングされているからでしょう。
スクロールできないのでページをリロードする必要がありますが、今スクロールできるようになりました。次の質問に進みましょう。
次は、モデルがまだ解決できていない問題、単一の例から何かを解読するという問題です。これはBow-FourまたはBeaufort暗号です。それを識別する必要があり、答えは「four score and seven years ago」です。
ここに音声インターフェースがありますが、マイクボタンを押していないので、今言ったことにアクセスできません。だから知らないはずです。考えているようです。「Vignair」興味深いです。「It was the best of times, it was a cipher」そうですね。
実際にかなり興味深い方法でこれを考えています。これを展開して、「違いを説明する必要がある」とのこと。VignairまたはVigenère暗号は彼らがよく陥る暗号の一つです。04 mini highがどのようにこれを解読しているか見てみましょう。
「どの暗号方式でしょうか?文字を見ています」答えが出るかどうか見てみましょう。これは時間がかかりそうなので、後で戻ってきます。
ここで一旦中断して、両方がこれらの小さなコードブロックを分析していることに注目したいと思います。それは彼らがどのように考えているかを見るのは非常に興味深いです。この時点でツールを使用しているか、少なくとも何らかの疑似コードを書いているようです。彼らが自分自身にどのように考えているかを見るのは本当に素晴らしいです。
04 Miniは2分半後に諦めました。「キーやヒントを提供していただければ、すぐにVigenère(ヴィジュネル)シフトを逆にして英語を表示できます」と言っています。どのような暗号かを教えて、解読できるか見てみましょう。Beaufort暗号だと伝えます。
2分44秒後、ここにChatGPT o3が勝者となりました。ヒントなしで初めて暗号を理解しました。「Four score and seven years ago」今日。これは大きな称賛に値します。素晴らしい!本当に感動しました。たった一つの例から暗号文を解読できたのは本当に印象的です。
Beaufort暗号だと伝えると、25秒しか考えずに答えを出せました。両方とも良い成績ですが、o3に大きな称賛を送ります。これは初めてのことです。
次は画像分析のテストです。両方に同じものをコピーします。「添付画像が見えますか?詳細に説明してください。可能であれば、写真がどこで撮られたかを推測してください」。
この写真は私で、カタリナ島の沖合いでスキューバダイビングをしています。それが答えです。すぐに音声入力も試してみますが、まず皆さんに話しかけたいので、答えをネタバレしないようにします。
彼らがどれくらい考えるか見てみましょう。彼らは推論していますが、これらは速いモデルではありません。「ユーザーがパスを共有しました」「水中写真はケルプフォレストで撮られたと思います」良いですね、明らかに正しいことを考えています。
mini highに切り替えましょう。04 mini highは8秒しか考えず、「ほぼ確実に南カリフォルニアの太平洋沿岸のマクロシスタスケルプフォレストで撮影されています」と言いました。これは科学的な名前だと思います。「最も可能性が高いのはチャネル諸島かカタリナ島沖です」おお。「スコーピオン・アンカレッジ・サンタクルーズ島やカタリナ周辺のコーブは古典的なダイビングスポットです」
これはまさにカタリナ島のすぐ沖です。「ケルプフォレストの魚、四角い魚はジャイアントシーバスの幼魚です」これは正確にその通りです。素晴らしい回答で、わずか8秒です。o3はどうでしょうか。
o3は23秒考えました。少し長いですね。「すべての視覚的手がかり:ジャイアントケルプ、ジャイアントシーバス、冷たい緑色の海水、スキューバダイバー、厚い露出ギア。南カリフォルニアを指しています」南カリフォルニアのバイト。今夜は大きな言葉を使っていますね。「ジャイアントシーバスはカジノポイント海洋公園のような保護されたケルプフォレスト保護区でよく見られます」つまり、それはまさにその通りです。
「魚がダイバーの周りでリラックスしているのは、禁漁区であることを示唆しており、ケルプが非常に密で柱状であることから、私の最も妥当な推測はカジノポイントです」それは完璧です。本当に感動しました。1枚の写真だけから「はい、わかりました。この写真がどこで撮られたのか正確にわかります」と答えられるのは素晴らしいことです。
簡単な数学の問題はスキップしましょう。彼らにとって簡単すぎるはずです。代わりに非常に難しい問題を出します。実際の答えはD±1ですが、私自身では解けません、または少なくとも自分では解いていませんが、両方に質問して、どのように対応するか見てみましょう。
o3は12秒考えた後、答えを書き始めました。D±1。すごいですね。そしてo4 mini highはわずか9秒考えて、同じく±1という答えを出しました。これらは本当に印象的です。本当に感心します。
これらは、これまでほとんどのモデルが答えられなかった質問ですが、これらのモデルはこなしています。04 mini highの方が少し速いことがわかります。9秒対12秒です。04 mini highでは少し速いパフォーマンスが見られますが、本当に印象的な動作です。
次に、ディクテートモードを試してみましょう。それがどのように機能するか見てみましょう。音声モードも使用できるようです。音声モードを完全にクリックしてみましょう。「こんにちは、こんにちは」。音声モードは現在あまり活発ではないようですね。テキストベースの方法に戻ります。それが主要なものではないので。
諦めましょう。最後にもう一度テストしてみます。
次は世界の知識に関する質問です。両方に質問します。基本的な質問は、15人が車に乗って、ロサンゼルスとラスベガスの間を移動するというものです。理解する必要があるのは、人を移動させるためには、それぞれの方向に1人が車を運転する必要があるということです。そのため、実際には3回ではなく4回の移動が必要になります。それがこの問題の目標です。
時速80マイル…「時速60〜120マイル」アメリカのどこで時速120マイルなんてあるのでしょうか?それはかなりの速度です。かなり考えているようですね。
「運転手が戻る必要があるので、より多くの移動が必要だと気づきました」これが重要なポイントです。o3は答えを出しました。04も「全員がカムリに乗り込むことはできないので、フェリーのように往復シャトルをする必要がある」と正確に答えています。「3回の完全な往復と最後の1回の外出」素晴らしいですね。
そうですね、正しい質問に答えており、こちらも答えを出したと思います。「慎重に計画する必要があります。車は5人しか乗れません。渋滞がなければ約4.5時間かかります」まだ推論中のようです。
広範な考察の後、実際に表を作成しました。5人、そして1人の運転手が戻る。5人、そして1人の運転手が戻る。5人、そして1人の運転手が戻る。そして最後の外出では運転手プラス2人、3人。これも正解です。45秒考えました。04 mini highは17秒でした。
o3は04 mini highの約2倍の時間考えているようです。これは両モデル間の待ち時間の違いの程度だと思います。両方とも正解です。これまでの作業は非常に印象的です。
次は、ほとんどのモデルが間違った物理学の知識に関する質問です。本当に驚くべきことに、彼らは間違えています。基本的には、アリスがグラスを取り、オリーブを入れ、水を正確にいっぱいに注ぎ、ひっくり返し、段ボールを取り除いて、テーブルに置きます。その後、ボブがそれを拾います。
明らかに私たち人間なら、水がこぼれ、オリーブがテーブルに落ち、テーブルが濡れるなどの結果になります。しかし、LLMはオリーブがグラスの中に留まるか、他のランダムなことが起こると考える傾向があります。
「テーブルの状態は濡れています。水たまりができ、おそらくオリーブがテーブルの上に置かれているか、床に転がっているでしょう」これは正確に正しいです。「オリーブはどこですか?」「グラスを食洗機に入れる必要はおそらくないでしょう」完璧な回答です。
「テーブルは乾いています」おっと、GPT-4o mini highは失敗しました。古典的なLLMの問題に陥ってしまいました。10秒考えたのに対し、o3はわずか9秒で考え、04 mini highよりも速く、正確に答えを出しました。
次に、世界の知識についての質問をしましょう。ここで要約すると、基本的にアリスがボブに朝食を作り、低いテーブルに置きます。私の仮定では、彼女はボブがその朝食を食べたと想像するでしょう。しかし彼は食べずにテーブルに置いたままにしますが、アリスの皿を片付けて食洗機に入れます。その後、スポットがボブが残した食べ物を食べ、皿を壊します。
アイデアは、後日仕事中に人々が何を知っているか、そして犬が考えることができるかどうかについての考えです。
この種の表は本当に素晴らしいですね。「アリスは朝食は手付かずで、彼女の皿はシンクに残っていると思っています」これは間違っていると思います。ほとんどの人はパートナーが残した食べ物を食べたと考えるでしょう。皿がシンクに残っているというのは正しいと思います。
「ボブは朝食がテーブルの上に手付かずで残っていると思っています」これは正しいです。彼はそれをそこに置いたままにしました。「スポットは食べ物が残っておらず、皿が床の上で砕け散っていることを知っています」良い回答です。
しかし、アリスはボブが食べ物を食べたと思っているという方が良い答えだと思います。04 mini highで問題がありました。もう一度試してみましょう。何が起こったのかわかりません。空白の答えを作成しただけです。
「アリスは食べ物がテーブルの上にあり、皿がシンクにあると予想しています」いいえ、これは間違っていると思います。両方とも同じ答えを出しました。これはあまり完璧ではないと思いますが、合理的だという主張もできるでしょう。私はそれほど合理的だとは思いません。
これらは両方とも良い成績だったので、3DスネークゲームをAIエージェントが作成するか、私自身がプレイできるスイッチで作ってもらうよう依頼します。ニューラルネットワークを作るよう依頼しているのではなく、単純なAIエージェントがゲームをプレイできるようにするか、私自身がプレイできるようにするものです。
o3と04 mini highの両方に依頼します。コーディングはその特徴の一つだとされているからです。どうなるか見てみましょう。
信じられないことに、わずか6秒しか考えませんでした。ゲームは204行の長さです。「TabキーでAI制御と手動プレイを切り替えます。矢印キーで操作、QはZ方向の上昇、Aは下降、手動モードの場合Rはクラッシュ後に再開します」
04 mini highを見てみましょう。167行のコードです。「3Dキューブが地面に描画されます」それは興味深いですね。
両方のコードを試してみましょう。まず、ウェブブラウザ内での実行を試みますが、Pygameを使用しているため、おそらく動作しないでしょう。やはりそうです。コードをコピーしてVS Codeで実行します。
さあ、始めましょう。実際に動作するか見てみましょう。「型エラー:1つの引数が不足しています:キー」残念です。エラーを貼り付けてみましょう。これはo3です。その間に04 mini highを試してみましょう。
それも同様にエラーが出ました。残念です。両方ともエラーが発生しました。
履歴がなければ、もう少し良く考えているようです。また、私の名前がジョンであることも知っているようです。興味深いですね。OpenAIがメモリを向上させたと聞いています。それは全く別のトピックで、話し合ってみたいところです。どうやらLLMと長期的な関係を持つことができるようになるようです。最近それについて話しました。それは本当に素晴らしいことです。
こちらが04 mini highです。完了したようです。「if name equals main」とあります。やってみましょう。どのように動作するか見てみましょう。
OpenGLをインストールする必要がありました。それがなかったことに驚きましたが、とにかく進めましょう。「わお、わからない、上下に動いています」これが何なのかわかりません。「わお」これは食べ物だと思います。
3D環境でコントロールするのは本当に難しいです。これは超難しいです。Tabキーを押してみましょう。Tabキーで切り替わると思ったのですが。これが04 mini highでした。o3を見て、もう少し良いものが得られるか確認してみましょう。
残念です。エラーなしでプレイできるか見てみましょう。良さそうです。「わお、わからない、Rキーを押します」「M」「ゲームオーバー、Rキーを押して再起動」なぜうまく操作できないのかわかりません。
「そこにいなければならないようです」エージェントがプレイしているのか見てみましょう。これは面白いですね。3Dキューブ環境のようなものですが、エージェントはうまくやっています。明らかにまだ自分自身にぶつかっていません。
これには本当に感心しました。とても素晴らしいです。明らかに私よりも優れていますね。私は落ちることなくゲームをプレイする方法を理解できませんでした。
1、2、3、4、5つのレベルがあり、スネークはそれらすべての周りを流れています。これは本当に印象的です。o3が再び勝利しました。04 mini highも何かを作成しましたが、それほど素晴らしいものではなく、AIと私の間で切り替えることもできませんでした。
しかし、このゲームは動作しており、まだ負けていません。食べ物1つにつき1ポイントしか獲得できないようですが、これは印象的です。自分自身に折り返すのはかなり難しいことです。これは素晴らしいです。
このゲームがプレイされている間、私の考えはこの両方のモデルが本当に印象的だということです。特にo3はより賢いモデルのようなので、これをGemini 2.5と比較して、どちらが優れているか見てみたいと思います。
これはまだ続いており、負けていません。これは私人間よりもはるかに優れています。これはすでにAIでしょうか?いいえ、彼らはまだ愚かなミスをします。o3は私がテストした最高のモデルでしょうか?絶対にそうです。ほぼすべてのテストに合格しました。このコードにはいくつかの構文エラーなどがありましたが、これは本当に印象的なものです。
どちらにも非常に感銘を受けました。皆さんもそう思っていただければと思います。このゲームを続けさせたままにしておきましょう。
そろそろ締めくくりましょう。よろしければ、この動画にいいねをつけて、他の人が見つけられるようにしてください。本当に大きな違いをもたらします。正直に言って、それはとても役立ちます。また、これらの種類の動画や、AI、長寿、エスケープベロシティなどについての私の他の考えをもっと見たい場合は、ぜひ登録してください。次の動画でお会いしましょう。さようなら。

コメント

タイトルとURLをコピーしました