
3,792 文字

OpenAI O3とO4 Mini Highは、OpenAI GPT5がどのようなものになるかについての貴重な洞察を提供しています。これがまさにO3とO4 Mini、そしてO4 Mini Highが本当に優れている点です。これらのモデルは単なる通常のLLMではなく、ツールにアクセスできる能力を持っています。そして最良の部分は、モデルが自らどのツールをいつ使うべきかを知っているということです。それに加えて、OpenAIは「画像による思考」と呼ばれるものも導入しました。私の意見では、これはGPT5がどこに向かっているのか、あるいは向かう可能性があるのかについての貴重な一瞥です。
まず最初に、オンラインで話題になっている非常にシンプルなデモをお見せしたいと思います。インターネットからの画像である必要はなく、例えばチェスのグランドマスター、ヒカル・ナカムラが2025年4月13日に投稿した「長いジョギングに出かけるには良い日のようです」という写真を見ることができます。これはパリマラソンの写真です。このツイートが訓練データの一部である可能性はありません。だからこそ、私は最近の画像を選ぶためにTwitterに行きました。また、イーロン・マスクがSam AltmanにTwitterのデータを使わせるとは思えません。
そして単純に「この場所を当ててみて」とO4 mini highに尋ねました。これは正直に言って私のお気に入りのモデルです。モデルが44秒間考えたことがわかります。最初に「ユーザーが画像を見せてくれた」と言い、そしてすでにこの特定のテキストを読んでいました。もしあなたがジオゲッサーのファンなら、ジオゲッサープレイヤーがまず最初に行うことの一つは、道路標識を読むことだと知っているでしょう。これはほとんどジオゲッサープレイヤーによって訓練されたようなものです。画像を取り、それを読み始めました。実際に行ったのは、画像をズームインして、テキストを読み、そして最終的にこれがパリであると教えてくれました。
また非常に興味深いのは、さまざまなツールを使うことを決めたということです。ある時点で画像をトリミングし、画像をズームし、さらにウェブ検索を行うことを決めました。
次に私がやりたいのは、インターネットから画像を取り、このスクリーンショットを撮って、それをChatGPTに与えるということです。O4 mini highは4秒考えただけで「ユーザーのヒントは屋外の風景、チェスゲーム、観客の群衆を指しているようです」と言いました。本当に私のところに来て、これはニューヨーク市だと教えてくれました。これ自体、与えた画像だけで街を推測できたというのは本当に興味深い推測です。
今回はニューヨークタイムズの非常に人気のあるゲームからのスクリーンショットです。これは「コネクションズ」と呼ばれるものです。基本的に、これらの単語間のすべての接続を作る必要があります。私は「これを解け」と言いました。それが私が与えた唯一のプロンプトで、それ以上は何も言いませんでした。モデルは1分37秒考え、さまざまな組み合わせを試し、最終的に答えをくれました。
私はすでにこの「talk」「speech」「lecture」「address」をグループ化しました。では次のグループ「hot」「dry」「sandy」「vast」を見てみましょう。モデルは「これはすべて砂漠の特徴を表す形容詞です」と言っています。「hot」「dry」「sandy」それから「vast」があります。提出してみると、正解です。「砂漠を表す形容詞」でした。
三つ目のグループには異なる犬種「lab」「golden」「cho」「bully」があります。提出すると、これが略称で呼ばれる異なる犬種であることを理解しています。
そして最後に「ポップカルチャーの数字」があります。「intro」「class」「James Bond」「cannabis」「devil」と提出すると、これは3桁の数字で表されるものだと言います。これは本当に驚くべきことです。私はこのゲームを何度もプレイしましたが、ほとんど解くことができませんでした。
最後に、私が示したいのは、正直なところ私がこれを行ったとき、本当に驚いたことです。それはChatGPTに数独を解かせることです。難しい問題を選びます。人間の49%だけが解けたと書いてあるので、人間の51%、つまり半分以上の人間が解けなかった問題です。
何のヒントもなく、ChatGPTにこの画像を貼り付け、「これを解け」と言います。画像が貼り付けられ、送信すると、O4 mini highが考え始めるのがわかります。「ユーザーが数独の画像を見せて解くように頼んできた。これは9×9だが、何かに気づいた」と言っています。「最初の3×3ブロックを覆う網掛けがあるようだが、最初のブロックだと認識している」と言っています。
私たちが与えたものを理解しようとし、異なる要素を一つずつ理解しようとしています。現在、画像全体を取り込んでいるのがわかります。すぐにテキストによる思考の連鎖を行い、次に画像を使って思考の連鎖を続け、そして突然Pythonコードに入り、画像サイズを理解し、画像の寸法やピクセルを調べています。グリッドを描こうとしています。
グリッドを描くことに成功したのが見えますが、6行目で間違いを犯しているのがすでにわかります。うまくいかないでしょう。なぜなら6行目で間違いを犯しているからです。ここに最後の数字があります。そこに0があります。つまり間違いを犯しました。実際に正しい答えを出せるかどうか見るのは興味深いでしょう。
これらすべての試みの後、修正したことがわかります。私はChatGPTに「数独をテキストに変換する際に間違いを犯した」と言う必要はありませんでした。異なる反復、異なるツールを通じて、最終的に正しいグリッド設定を得ることができました。
この時点で、グリッド設定が正しいことが確認され、すべての数字を信頼していることがわかります。解決策の部分に移り、Pythonを使用して作成しようとしている解決策を得ました。そして「二つの異なる解決策がある」と考えています。これは少し奇妙です。
それをどう扱うのでしょうか。現在、解決策1と解決策2という二つの解決策があり、これは入力画像を翻訳したときに何らかの間違いを犯した可能性があるため、再度戻って何も見逃していないことを確認し、得られた解決策を検証しています。また、見逃した特定の数字が一つあることも分かりました。
「ブロック4の行4列3(R4C3)に与えられている数字があることがわかりました」と言い、「見逃したかもしれない」と言っています。8分間の思考、8分間の画像変換、8分間のズームとパンとカットの後、最終的に「1つだけ解決策を得ました。数独は2つの解決策を持つことができないので」と言いました。それからPythonを使用して最終的な解決策を作成しました。
現在8分経ちましたが、これが実際に機能するかどうか確認するために解決策の部分を見てみましょう。一緒に解いてみましょう。「4 8 2 7 5 3 1 9 6」と「6 9 3」があります。これで最初のマスを正常に完了しました。「2 1 8 7 4 5」があり、次に「4 9 6 8 3 2」があります。あなたが数独ファンかどうかはわかりませんが、これはすべてをこなした方法が非常に興味深いです。
「9 6 2 3 7 8」「3 6 7 8 5 4 2 9」次に完全な行があります。「8 2」と「9 3 7 4」これはおそらく最も論争の的となる行です。「3 7 5 6 1」そして「2 7 6」と「5 3 1」があります。この時点で、すべてが適切に行われるかどうか少し不安に感じています。「1 3 8 6 4 9」が続き、これまでのところ衝突なく順調に進んでいることがわかります。「2 5 7 9」「4 5 8 2 6 1 3」
私たちはChatGPT04 mini highを使用して数独を正常に解くことができました。これは推論モデルであり、どのような思考プロセスを経たか、行ったさまざまなことが分かります。自分の間違いを特定し、自分の間違いを修正しようとし、異なるズームやパン、空の行や空のマス、3×3グリッドの理解など、すべてを理解しました。Pythonソルバーを使用し、2つの解決策を得ましたが、数独が2つの解決策を持つことはできないと気づき、間違いを犯したに違いないと思い、戻って間違いを修正し、再び解決策を実行し、1つだけの解決策を得て、最終的に私たちに提供しました。
これは正直に言って私にとって驚くべきことであり、これは私が信じるように、ユーザーが望むものへの解決策を提供するために、さまざまな種類のツールがシームレスに連携する完全なシステムです。これは確かにAGIや人々が主張するようなものではありませんが、OpenAIがすべてをシステムのように、ひとつの目標に向かってシームレスにうまく行う方法は、最も魅力的な部分の一つだと思います。
あなたはどう思いますか?また別の動画でお会いしましょう。


コメント