127秒で見るGemini 3 Pro

Google・DeepMind・Alphabet
この記事は約8分で読めます。

Googleの最新AI推論モデルGemini 3 Proの実力を、独自の複雑な論理テストで検証する動画である。外部ベンチマークやスコアボードには頼らず、多層的な依存関係を持つ難解な論理パズルを用いた実践テストを実施。Gemini 3 Proは127秒間の深い思考プロセスを経て正解に到達し、さらに別解の存在も指摘できる高度な推論能力を示した。思考トレースの詳細な観察を通じて、モデルが制約条件の評価、複雑性の再計算、意味論的整合性の検証など、段階的に問題を解決していく様子が明らかになる。Claude Opus 4との比較でも、Gemini 3 Proの顕著な進歩が確認された。

Gemini 3 PRO in 127 seconds
2nd test on the causal reasoning capabilities of the new GEMINI 3 PRO. A different logic test - with GEMINI 3 PRO on HIG...

Gemini 3 Proの実力を独自テストで検証

こんにちは、コミュニティの皆さん。戻ってきてくださって本当に嬉しいです。新しいGemini 3 Proが登場しましたが、なんと127秒間も思考していたんです。素晴らしいと思われるかもしれませんね。Gemini 3 Proについてもっと知りたいですか?こちらがGoogleの公式ドキュメントです。いいえ、私たちはこれには興味がありません。

それとも、GPT-5.1と比較してどうか、Gemini 2.5 Proよりどれだけ優れているか見てみたいですか?いいえ、外部ベンチマークには興味ありません。

ではGemini 3 Deep Thinkingの極限モデルはどうですか?見てください、この地球上のすべてを上回っています。いいえ、興味ありません。

では独立したベンチマークのAGI 2リーダーボードはどうでしょう?見てください、Gemini 3 ProはGrok、Claude Sonnet、GPT-5、すべてを上回っています。そしてGemini 3 Deep ThinkingはAGI 2で45%にも達しています。

さあ、自分たち自身でテストできるのに、誰がこんなものに興味を持つでしょうか?これを見てください。推測するのが本当に難しい、いくつかの論理的な依存関係がここにあります。これが高度なAIシステムにとって適切だと思われるかもしれません。いいえ、もちろんそうではありません。私には追加の複雑性の手がかりがあります。そしてこれを実行したとき、そうです、Gemini 3 Proは127秒かかりました。見たいですか?ライブ録画です。さあ、始めましょう。

実際のテストセッション開始

こんにちは、コミュニティの皆さん。またGemini 3 Proプレビューを使います。美しいシステム命令ゼロ。APIキーなし、温度は1.1に少し上げました。思考レベルはもちろん高く設定して、シンプルなタスクをここに用意しました。古い推論テストがあって、どのようなパフォーマンスを見せるか興味があります。

さあ、思考しています。思考トレースが見えません。残念です。多分最後に思考トレースが見られるでしょう。展開して見てみましょう。すごい、ありましたよ。点と点を結んでいます。アーティファクトを割り当てています。ブレークスルーを起こしました。

ああ、これは本物の思考トレースではありません。単なる要約です。最終的な割り当てを解決しています。残りの推論に優先順位をつけています。複雑性の制約が今評価されています。そして今、ウィザードの複雑性そのものを計算しています。残りの変数を再評価しています。

一歩一歩進んでいますね。ここで最終評価を確認しています。ランクの整合性を検証しています。属性の整合性を評価しています。最終構造を確認しています。ランク順序を洗練させています。皆さん、50秒経過しました。隠れた制約を評価しています。そうです、やってください。55秒です。

1分間の思考時間を持てるでしょうか?さあ。価値制約を評価しています。再び集中しています。複雑性スケールを洗練させています。あなたが思っていたよりも少し複雑なんですね。66秒です。属性を洗練させています。最終フィールドの割り当て。70秒経過。できるでしょうか?

手がかりを再評価した後、重要なフィールドと親和性の割り当てを再訪しています。最終構造を確認しています。複雑性スケールを検証しています。繰り返しています。繰り返しています。フィールドの関連付け。そうです、フィールドの割り当てを評価しています。皆さん、90秒経過しました。まだ解決策を見つけていません。私が持っている中で最も複雑なトピックの一つです。

100秒でできるでしょうか?信じられない。100秒経過して、まだ思考しています。フレームワークを洗練させています。すべてを再訪しています。すべてをここで洗練させています。再検証しています。最終的な論理を検証しています。最終的な論理レビューに深く入り込んでいます。そうです、やってください。

ここにあります。結果です。フェーズ1、推論、推論、説明、現在のスナップショット。フェーズ2、論理チェック。フェーズ3、これを解決します。フェーズ4、最終的な意味論的推論。解決策のテーブルがあります。すごい。これは正しい解決策のテーブルです。127秒。Gemini 3 ProのCrystal timeがかかりました。

ええ、これは完全に正しいように見えます。今気づきましたが、心の中では1年以内にこれをやったことがあります。ええ、最低、中、高、低。しかし、私たちは満足していません。いいえ、満足していません。おい、と言って、結果を検証してくださいと言っています。もう一つの有効な解決策があるかもしれませんよ?

そして別の解決策があることは正確に分かっています。しかしGemini 3 Proには教えません。見てみましょう。思考しています。みんな思考しています。それはいいですね。

思考トレースの詳細観察

思考トレースを見たいです。これを見たいんです。Galoreの複雑性を最終決定しています。コミュニティフィールドのペアを確立しています。Brindorの役割を評価しています。制約を解決しています。言葉を見落としていますね。ただ繰り返しているだけです。さあ、ダミートレースではなく本物のトレースを見せてください。

ああ、残念です。本物の推論トレースが見えません。これが見たいのに。だからこそ、オープンソースプロジェクトが必要なんです。失敗属性をここで指摘しています。解決策の一意性をここで固めています。なんて美しい言葉のサラダでしょう。

そしてここにあります、50秒経過。ええ、2番目の解決策があります。すごい。変更の要約。両方の解決策が最初に提供され、この代替解決策はプロンプトごとに書かれたすべての制約を完璧に満たしています。

解釈1、ええ、嘘があります。ええ、内部的な自由度があります。EldorとBindoを入れ替えます。ええ、完全に正しいです。信じられない。さあ、すぐに解決しました。

もっともっと重い処理ロジックプロセスに取り組まなければなりません。これはどれくらいかかりましたか?50秒かかりました。少なくとも思考レベルが高く、APIキーなしで50秒でした。より高いクォータとより多くの機能をアンロックするためのAPIキーなし。信じられない、新機能は何でしょう?

でも分かりますか?私は完全に満足しています。つまり、今持っているレベルは完全に印象的です。

Claude Opus 4との比較

ちょっと中断します。ところで、これを数ヶ月前の私の動画と比較したい場合、こちらがClaude Opus 4です。まったく同じ構成を達成したことが分かりますが、複雑性レベルで完全に失敗しました。

ですから、これをGemini 3 Proがここで受け取った解決策1と1行ずつ比較してください。完全に同一であることが分かります。これはClaude Opus 4からの大きな飛躍です。

さて、別の視点や別のアプローチから両方の解決策を評価する代替パスを見つけてくださいと言います。異なる数学的なものを見せてください。どれだけ知的か見せてください。Gemini 3 Proプレビュー、名前に慣れなければなりません。

思考の複雑性、関係の可能性を見たいです。魔法のような複雑性、意味論的ベストフィット分析に飛び込んでいます。退屈ですが、まだ線形モードで10を含めています。重要な決定に焦点を当てています。これを割り当てています。親和性関係に優先順位をつけています。抽象的な概念を結びつけています。

主題的な組み合わせを最終決定しています。35秒経過。異なる視点から評価するよう指示されています。ブール論理を超えて、主題分析と複雑性階層を使用しなければなりません。論理グリッドが曖昧さを残すとき、意図された解決策はしばしばベストフィットによって解決されます。

啓示2。浮動候補。この新しいアプローチを使用します。2つの候補を選びました。これで行きます。これだと仮定しましょう。それが主題的に意味をなすなら。

これはアーティファクトの意味論を優先します。アーティファクトの名前をフィールドとペアにします。線形シーケンス。転覆の手がかり。そうです、そうです。視点は未知。最終結論。最初の解決策は有効です。自動分析は2番目の解決策が意図されたものであることを強く示しています。優れた整合性。

信じられない。Brindor。修正されたベストフィット解決策テーブルは今これです。Dorn、Riff。Galore、Brind。占い、Salvin。ドラゴン、夢のアミュレット。時の結晶。紳士淑女の皆さん。論理。美しい。

まとめ

ところで、本当に重いロジックテストを見たい場合、こちらがほんの2、3時間前に行った動画です。本当にハードワークなものを見たい場合、これがあなたのための動画です。しかし言えることは、これは本当に野獣だということです。

Gemini 3 Proプレビューでの2回目のテストでも、これが本当に強力なモデルであることが示されました。楽しんでいただけたら幸いです。少しでも面白かったことを願っています。私は間違いなく楽しみました。次の動画でお会いできることを願っています。

コメント

タイトルとURLをコピーしました