NOVO Horizon Alphaが驚きの性能を発揮、GPT-5かOpenAIのオープンモデルの可能性

GPT-5、5.1、5.2
この記事は約9分で読めます。

この動画は、OpenAIが「Horizon Alpha」という新しいAIモデルをOpenRouterプラットフォームで秘密裏にテストしている状況について詳しく解説している。過去にOpenAIが同様の手法でGPT-4oモデルをテストした実績があることから、このHorizon Alphaが待望のGPT-5なのか、それとも予告されていたオープンソースモデルなのかについて考察を行っている。各種ベンチマークテストの結果やコード生成能力の検証を通じて、このモデルの性能を詳細に分析し、特にゲーム開発における実践的な能力を具体例とともに紹介している。

NOVO Horizon Alpha Surpreende e Pode Ser GPT-5 ou Modelo Aberto da OpenAi | Liberado
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

OpenAIの新モデル「Horizon Alpha」が登場

ほな皆さん、どうやらOpenAIがもう新しい人工知能モデルをテストしとるみたいやで。今気になっとるんは、このモデルが無料で公開される予定のオープンソースモデルなんか、それともGPT-5の試験運用なんかっちゅうことや。せやから何が起こっとるんか、一緒に見ていこうやないか。

いつも通り、いいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しとります。そして、この人工知能チャンネルをスポンサーしてくれとるチャンネルメンバーの皆さんには特別に感謝や。メンバーの皆さんには、WhatsApp連携、PDF読み込み、MCP連携を教える知的エージェントの限定動画や、先行公開動画へのアクセス権があるんやで。

Horizon Alphaモデルの詳細

さて、何が起こったんかっちゅうと、OpenRouterで「Horizon Alpha」っちゅうモデルをテストしとるんや。これは彼らが「ステルスモデル」って呼んどるもんで、誰のもんか隠されとるけど、プラットフォームで無料でテストできるんや。

なんでこのHorizon AlphaがOpenAIと関係あるんかっちゅうと、まずOpenAIは以前もOpenRouterでモデルテストをやっとって、その時は「Optimus Alpha」や「Quasar Alpha」っちゅう名前を使っとったんや。そのローンチ後に、それがコーディング用のGPT-4oモデルやったっちゅうことが確認されたんや。

OpenAIのGPT-4o公式動画を見てみ。研究者が4oとQuasarを混同しとるのが分かるやろ。彼女の訛りで「Quer」って言うとるんや。

つまり、GPT-4oは間違いなくQuasar Alphaやったんや。そして今度はHorizon Alphaをテストしとるっちゅうわけや。

他にも証拠がある。Horizon Alphaモデルに誰が作ったんか聞いたら、一貫してOpenAI、つまりAIシステムを作っとる組織が作ったって答えるんや。OpenRouterで試したら、そう答えてくれるはずや。

モデルの特徴と性能

このモデルの特徴は何かっちゅうと、7月30日にリリースされて、256kのコンテキストを持っとる。テスト期間中は完全に無料や。下の方に書いてあるんは、「プロンプトと結論はモデル作成者によってトレーニングと改善のために記録される。OpenRouter設定のプライバシーでこの主要設定を有効にする必要がある」っちゅうことや。

無料やけど、彼らはログを取って、モデル改善に何らかの形で使うんや。APIでテストしたかったら、APIを通して使えるで。VS CodeにRook Codeを入れてない人は入れて、OpenRouterを有効にして、VS Code内でこのモデルを使うことをお勧めするわ。

ベンチマーク結果

ベンチマークをやっとる人たちが注目し始めとるんは、例えば視覚による物理理解で、Horizon AlphaがGemini 2.0 ProやGPT-4oと並んで45%の精度を出しとることや。上にはGemini O3とO1があるけど、かなり高いスコアを出しとって、この性能からオープンモデルでGPT-5やないかもしれんって言う人もおる。

感情知能のベンチマークでは1570ポイントで1位や。どのモデルに最も似とるかの分類では、O3モデルと並んどる。創造性テストでも1位で、Gemini 2.0やDeepSeek R1より良い結果や。

創作ライティングテストではO3とGemini 2.0の後、3位やった。これは結構興味深い結果や。

SVGテスト:自転車に乗るペリカン

自転車に乗るペリカンのテストっちゅうのは、皆がよくやるSVGテストやけど、その結果を見てみ。このペリカンは細かいところまで描けとる。例えば、翼が少しグレーで、体が白く、自転車がほぼ完全で、道があって、芝生があって、雲があって、空がある。

詳細の量を比較したら、2位は確実にClaude Opus 4で、その後がClaude Sonnet 4や。雲や芝生があるからな。Gemini 2.0 Proも芝生と空があるけど、道を描いたのはこれが初めてで、色の詳細もはっきりしとるから、かなり興味深いことが起こっとるのが分かるわ。

プログラミング能力

OpenRouter内のプログラミングモデルカテゴリーで2位になって、直近期間で2910億パラメータのトークンが生成されたっちゅうのはすごいことや。

テトリスの簡単な解決策から、完全なコードを生成してくれる。タグゴンやヘキサゴンのテストもやっとる人がおって、物理的な動作を評価して全部うまくいっとるか確認するんや。

Space Invadersの生成では、ゼロショットゲーム生成がAIによって簡単になったのが分かる。自転車に乗るペリカンのアニメーション版も非常に良くできとる。道、空、雲、パララックス効果まであって、背景の一部が速く動いて、別の部分がゆっくり動いて、奥行き感を出しとるんや。これはすごいで。

個人的なテスト結果

幾何学パターンや図形の生成、大気や海面レベル、光の量など様々な設定ができる地球の綺麗なシミュレーションもできる。

個人的なテストでは興味深いものがある。例えば、太陽系の生成で、惑星を配置して操作もできるし、速度を上げて惑星を速く回転させることもできる。すごく簡単なプロンプトで、太陽系の生成を頼んで、物理についての詳細を少し加えるだけや。

スケールも調整できて、なかなか興味深い。気に入ったわ。

修正の難しさ

テストしとる間に気づいたんは、AIモデルによっては修正を頼んだ時にすごく的確で、プロンプトエンジニアリングに時間をかけんでも、欲しい修正をすぐにやってくれるもんがあるっちゅうことや。

でも、この場合はそうやなかった。欲しいことを説明するんに苦労したわ。何度説明しても、何かやるって言うて、全く同じバージョン、同じクオリティで戻ってくるんや。これはあんまり良くない点で、ゼロショット生成は良いけど、修正については詳しく説明せんとうまくいかんのや。

カーレースゲームの問題

車のゲームの高度版を作った時、どうしても多くのプロンプトを使っても説明できんかったんは、左右に曲がる時に車が一方向に回転して画面が逆方向に回転せんようにすることやった。

分かるやろ?AIに説明するんは難しい問題なんや。左に行く時、車は右に回転する。右に行く時、車は左に回転する。画像は素晴らしいで。詳細を見てみ、この木、松の木には3つの層がある。電車も回転しとる。

コインを集めるのもあるし、山もある。グラデーションもあって、一つの山が他の山より明るくて、他の山が暗い。スピードメーターも頼んだら、完璧に動く。車を運転するとスピードメーターが完璧や。

でも右に曲がって左に曲がる車を直すんは大変やった。

解決策

2つ目のバージョンを作った。このバージョンでは確実に修正した。道がより安定になった。電車が煙を出しとって、その煙の形も全然違う。雲も曖昧やし、山も同じグラデーションがある。

車が左に回転して画面が右に回転するのを止めるために、こんな段階を踏まんとあかんかった。まず「車の回転を無効にして」。そしたら回転せんようになった。次に「右左に曲がれるようにして、車を回転させんと」。そしたら車が左右に動くけど回転せん版ができた。

その後「車を回転できるようにして」。そしたら画面と一緒に回転するようになった。最後に、左右が逆やったから「左右のキーを入れ替えて」。そしたらうまくいった。

最後に車を90度回転させるように頼んだけど、従わんかった。何もせんかった。説明するんにかなり苦労することが分かっとったから、諦めて、動画にはこれで十分やと思った。

マインクラフト生成

でも気づくことができるんは、対戦相手がポイントを取ってない。コインの数も少ない。他の生成と比べて、やらんかった詳細もあるけど、この生成は素晴らしいと思うし、かなり知的なモデルの特徴があって、良い結果を出してくれる。テスト段階やから、まだ改善するかもしれん。

最後に作った生成で、初めてうまくいったんがマインクラフトや。動画がうまくいくか分からん。メモリもプロセッサもかなり使うけど、間違いなくマインクラフトを作った。このマインクラフトは動く。一つのプロンプトでできた。よく知られたゲームでインターネットに情報がたくさんあるから、ゼロショットで簡単にできるんや。

マインクラフトでやるようにブロックを作ることができる。やったことあるやろ?私はマインクラフトの達人やないけど、基本はできる。例えば、浮いてるブロックで「ハイ」って書くことができる。見えるやろ?高度なマインクラフト技術や。

「ハイ」って書く方法は?ブロックを3つ置いて、5つ目のブロックを積んで、下のブロックを削除するんや。かなり機能的や。このゲームはよくできとる。必要やった修正は、逆になっとったマウスを直すことだけやった。上を見たら下を見て、その逆もそうやった。

他のと同様に少し手間がかかった。これを言うんは、ゲーム生成をたくさんやって、左右逆、上下逆、車が一方向に回転して画面が逆方向に回転する修正をたくさんやったから、これは安全に言えるけど、修正にもう少し手間がかかったけど、修正はできた。

総評

このマインクラフトはすごく気に入った。生成には驚いた。マインクラフト生成がうまくいったんは初めてや。どう思うかコメントしてくれ。OpenRouterに入ってテストするのを忘れんといて。無料やけど、後で有料になるからな。

彼らがはっきり言うとるんは「これは、フィードバックを集めるためにコミュニティに提供された隠されたモデルです。注意:このテスト期間中は使用は無料で、プロンプトと結論はフィードバックとトレーニングのためにモデル作成者によって記録されます」っちゅうことや。

そこで疑問が出てくる。これはGPT-5なんか?それとも人々が使えるように公開されるモデルなんか?これがオープンモデルやったら、素晴らしいモデルで、既に優秀なクオリティを持っとる。

オープンモデルやと信じるんも納得がいく。まず、今週出たニュースで、このモデルはGPT-5より先に出るって約束されとった。それに、月末に出る予定やった。見ての通り、月が終わったばかりや。やから、今日の午後か来週の始めに、もしかしたらリリースされるかもしれん。

今後の展望

滅多にないけど、週末にリリースされることもあるかもしれん。あんまり可能性は高くないけど、分からんやろ?2、3日テストして火曜日にリリースするかもしれん。

皆さんには家でテストしてもろて、印象をコメントで教えてほしい。オープンモデルっぽいか、それともGPT-5レベルのもんっぽいか。

GPT-5は複数のモデルの統合を約束しとるモデルやから、GPT-5である意味がないかもしれん。オープンモデルである方が理にかなっとる。彼らが見せとるんは、私らが感覚を掴んで、彼らがこのモデルがどれだけ良いか、人々がどう使うかを評価するためのテストだけかもしれん。

何を考えとるかコメントしてくれ。こんな動画を見続けるためにチャンネルをサポートしたかったら、メンバーになってくれ。メンバーには知的エージェントの限定動画と先行公開動画へのアクセスがある。そういうことや。いいねを押してくれ。ありがとう。

コメント

タイトルとURLをコピーしました