ジェミニ2.5 Pro: 新境地を開拓する

AGIに仕事を奪われたい
この記事は約12分で読めます。

7,064 文字

https://www.youtube.com/watch?v=iVZaJeXu7E8

こんにちは、コミュニティの皆さん。今日も戻ってきてくれて嬉しいです。今日は地球上で最高のLLMについて見ていきましょう。ここに行って、もちろん全体的な印象を得るために「総合評価」を見ていきます。ここでは、1位が3月25日のGemini 2.5 Pro、2位が3月26日の最新アップデートのGPT-4 Omniです。昨日GPT-4が4 Omniバージョンにアップデートされました。それからGrok 3、GPT-4、DeepSeek R1は7位にランクインしています。素晴らしいですね。その後にo1、Q1、Gammaなどがありますが、私たちが興味を持っているのは数学…いや、論理的思考です。本当に考えることができるシステムを知りたいのです。
Gemini 2.5 Pro、なんという偶然でしょう!それにGPT-4.5、そしてDeepSeek R1、これは興味深い組み合わせです。DeepSeek R1はo3 miniよりも上位なんですね。これがデータですが、他に何か見てみましょうか。指示従順性はどうでしょうか。指示従順性において最高のモデルはGemini 2.5 Pro、GPT-4.5、GPT-4 Omni(最新版)です。この最新アップデートは、投票したAIコミュニティにかなり印象を与えたようですね。
他に何かありますか?マルチターン会話はどうでしょう。わお!ここでは1位、1位、1位と最初の3つが1位を共有しています。GPT-4 Omni、GPT-4.5、Gemini 2.5です。これは本当なのでしょうか?これは単に世界のAIコミュニティの評価ですが、私たちの美しい論理的因果推論テキストに比べたら何でしょうか。早速見ていきましょう。
ここに来ました。美しいですね。ここにGemini 2.5 Pro実験版(3月25日)があります。私はこれを使い、温度設定はデフォルトのままにします。構造化出力は許可せず、コード実行も今のところ許可しません。ただ固有の論理を見たいのです。関数呼び出しなし、これは固有の論理テストにしたいのです。
さて、何をするか知っていますか?私のエレベーターテストです。あなたは高層ビルに閉じ込められていて、30階に行きたいとします。A、B、C、D、Eの5つのボタンがあり、チャレンジは最短経路を見つけることです。また、2つのトラップ階があります。これは私が11、12ヶ月ほど前からやっていることと同じです。あなたが考えるところを見たいのです。
BFSを使用する、素晴らしい数学的方法論ですね。見てください、他のシステムのように試行錯誤を繰り返すのではなく、方法論を決定し、実際にDQingを行っています。これは言語的なDQingでPythonやC++のコードなしで行っています。これは英語でコード化された合成言語エンコーディングであり、DQingとAnuingです。プロセス中の自己修正、洗練も素晴らしいです。
これは印象的なレベル2のEQingです。ABCD、DQingのABCDEレベル3の現在の階…もし因果推論の連鎖に一切ミスなく通過できれば、これが正しい経路となります。この方法論は勝者です。DQingを続けて、解決策を見つけましょう。これを見てみましょう。
これは良すぎて真実とは思えませんが、ステップバイステップの説明、BFSアルゴリズム、正しいアルゴリズムを使っています。BFSはステップ数の点で最短経路を見つけることを保証するので、このシステムは言語的な観点でこれを行うことができました。ABaBD、これが答えかもしれません。ボタンを押す回数は6回、これが最小の押下回数です。
ステップバイステップの説明、それは本当に正しいように見えますが、何かがあったような…いやいや、あなたは私を騙せませんよ。ちょっと待ってください。ここに戦略があります。これは最短経路問題であり、階がノードでボタンの押下が特定のルールを持つエッジであるグラフです。正しいです。グラフは暗黙的に定義されています。最短経路が欲しいのです。幅優先探索(BFS)が最も適切なアルゴリズムです。
この考え方は制約を理解し、私の目標を理解し、何も行う前に戦略を立て、正しい数学的なものを設定しました。Pythonアルゴリズムではなく、コード実行が許可されていないので、これを言語的な観点で実行し始めました。現在の階、経路などを考慮し、ボタンA、B、C、D、Eのすべての組み合わせをDQingしながら進めました。
これは印象的です。他のシステムはこれを管理できなかったのは、どこかで幻覚が発生したり、ミスがあったり、数値が合わなかったり、アルゴリズムが混乱したりしたからです。しかし、この因果推論の連鎖は絶対に印象的です。
どのAIシステムでも初めて見る光景です。誰でもコード実行を要求してPythonプログラムやC++コードを書かせることはできますが、これは目標達成です。これはとても素晴らしいです。解決策の検証、内部検証、トラップ階のチェック、これは正しい方法です。最適性のチェック、BFSはノードに到達する最初の時点で、エッジの数の観点から最短経路であることを保証します。グラフアルゴリズムを持っていますね。
このGemini 2.5 Proは素晴らしいです。自己修正と自己洗練を行い、最終結果を出す前に、解決策に課せられたすべての数学的制約を本当に正確に理解していることを確認しました。素晴らしいですね。
再同期フェーズがあり、状態が22pとボタンに適合し、実際が10であれば変更されません。素晴らしい、成功しました。QはQ階と経路文字列を必要とします。これは表記法です。訪問済みの階の集合はサイクルと最短経路を見つける作業の冗長性を避けるのに十分です。これはBFSの絶対的な深い理解であり、正しいです。
この詳細な思考プロセスは、問題の理解、アルゴリズムの選択、すべてのルールと制約を適用して慎重にシミュレーションすること、結果の検証、潜在的な落とし穴の考慮を網羅しています。これは地球上で利用可能なほぼすべてのシステムをこのテストで試してきた中で初めて見るものです。
そして公式の答えがあります。問題の理解、BFS、状態表現とツール、ただ試してみるのではなく、これが状態、タプルであることを理解し、BFS表記を持っていることを理解しています。階層5、経路文字列、FIFOを覚えていますか?関数としての遷移ルールの定義、ボタンA、次の階の計算、次の階が…素晴らしい、ボタンB、次の階の計算、着陸階D、E、トラップルール、BFSの実行、このキューで本当に始まります。これは単に驚くべきことです。
90秒かかり、最初のトークンまでの時間は1秒、1秒あたりのトークンは61、合計で14Kトークンでした。これを見てみたいので、「BFSのステップを詳細に完全に示してください」と言います。
思考中…目標の理解を思い出します…ルールを定義します…ABCD、トラップ…ここで実行します…レベル1を適用します…本当にABCDECDを通過しています…訪問済みレベル…階13…レベル4でトラップ22に注意が必要です…良いですね…まだ思考フェーズにあり、最終的な答えをプリントアウト開始していません。
44秒経過し、コードなしでこの方法を使って言語で1つ1つのステップを絶対に実行しています。これは完璧な因果推論のステップです。許可されていない…現在の状態…見てみましょう…終了させてみましょう…これはコードなしで行う絶対に正しい方法のようです。これは単なる抽象的な論理であり、20,000トークンに近づいています。
6回のボタン押下、詳細に見てみましょう。ここから始めます、階0、そしてA、B、C、D、Eの5つのオプションがあります。キュー状態は現在1A、3D、2Eです。正しい訪問済み状態または初期状態、そして1、2、3の訪問済み状態の集合があります。
レベル1に行きましょう。今1Aをデキューします。階1にいて、すでにAを押しました。訪問済みなので無視できます。ボタンBを押すと結果は5になります。これはまだ訪問されていないので、訪問済み状態にありません。そこで今5をエンキューします。階5にいて、Aから始めて今はボタンBを押したので5ABとなります。これが次の最短ステップです。
訪問済みに5を追加します。C使用不可、無視、無視、DでA後の最初のDQingから5ABを得ます。現在の状態は5ABで、これらすべての訪問済み状態があります。これらはすべて訪問した階です。そして続けます。
5ABをデキューしましょう。階5にいて、すべてのボタンA、B、C、D、Eを押します。Aは訪問済みではないので、11をエンキューします。階11にいて、すでにAとBがあり、今はAを押したのでABAという連結した文字列があります。正しいですね。B、9、訪問済みではないので、9をエンキューします。階9にいて、ABから始めて、今ボタンBを押したのでABBをエンキューします。
これを訪問済み階に追加します。C使用不可、D無視、E無視、11ABAと9ABBがあります。このシステムは驚くべきものです。一つ一つのステップを本当に通過しています。手動でこれを行うと私はミスをするでしょう。誰でもこれを行うことはできますが、これは何秒で行われたのでしょうか?72秒で検証付きです。素晴らしい、ゴール発見!
感動しています。これは初めて見るものです。コード実行を開始することもできますが、これは論理的な因果推論で行われ、安定していると思います。でも、「BFS方法論以外に、この論理テストを解決する他の方法やアイデアを考えられますか?」と尋ねてみましょう。あなたの考えを聞かせてください。
問題の分析、ダイクストラ、グラフ、A*探索、二方向…非グラフアルゴリズムのアプローチ…動的プログラミング、制約プログラミング…結論を待ちましょう…もちろんDFSも…終わらせましょう…他に6つの解決方法を見つけたようです。これは本当に印象的です。
DFS、素晴らしい、そして反復的なアプローチ…教育的な推測…ダイクストラアルゴリズム、古典的なもの、A探索、古典的なもの、制約プログラミング…結論として、ボタン押下の最短シーケンスを見つけるという特定の目標で、BFSはこの重みなしグラフ問題に対して最も直接的で標準的で概念的に最も単純なアルゴリズムであり、最適性を保証します。他の方法も存在しますが、最適性を保証しなかったり、ダイクストラやAのような特定のケースに不必要な複雑さを加えたり、制約プログラミングのような異なるプログラミングパラダイムを必要としたりします。
はい、そうでした。このGemini 2.5 Pro、本当に素晴らしいです。知識のカットオフは2025年1月なので、約2ヶ月遅れていますが、まったく悪くないと言えるでしょう。でも、2つ目の論理テストがありますよね?もちろんです。
新たに0トークンから始め、ここでGemini 2.5 Pro実験版を使います。ここに私の2つ目のテストがあります。このテストを知っていますよね、これは11ヶ月間他のものでも行っているテストです。このテストを解決できるかどうか見てみましょう。もし解決できるなら、より複雑な論理テストを構築する必要がありますが、見てみましょう。
現時点では、特定の論理チェーンや特定の方法論を適用しているかどうか分かりませんが、すべての組み合わせを通過しているのは良いことです。しかし、問題は、1つのミスもなく、1つの置換もなく、1つの間違った数字もなく、1ビットも間違えず、安定しているかどうかです。
すでに500トークンに達しています。ここに答えがあります。リンクQの処理、ストア、すべての推論ステップとすべての手がかりを示してくれています。シナリオ1、シナリオ2、ヘルプ、何が起こっているのでしょうか?最終解決策があります。冗談でしょう?10,000以上…一覧表示に失敗しました…気にしないでください。要約表はありますか?これを見てみましょう。
フェニックス、ブリンダー、セレスティア、キメラ、ドーン、ユニコーン、アルドリ、オーバー、サラマンダー、ヒーリング、グリフィン、アルケミー、ドラゴン…有効な解決策があります。74秒…何が起こったのでしょうか?ヘルプ…見てみましょう…ここでGは…仕分けをスキップして解決策を見てみましょう。
50秒間考えていました…ここに答えがあります。推論プロセス「素晴らしいチャレンジですね」…セットアップ、異なるフィールド間の関連を追跡するためにテーブルを使用します。素晴らしい、それはマトリックスです。直接的な手がかりと簡単な推論の処理…テーブルを更新します。すぐに利用可能なものはすべて更新します。推論の処理…推論のためにステップバイステップで人工物を通過しています…テーブルを更新しています。
見てください、どんどん埋めていき、自分自身に伝えています。これはスクラッチパッドのようなものです。Claude 3がシンキングツールメモで持っていたものです。これは最終出力の一部ではなく、推論プロセスに重要な内部スクラッチパッドです。素晴らしいですね。
残りのフィールドと馴染みのあるもの、論理的な経路を見つけようとし、論理的な組み合わせを通過します。最終チェック、テーブルを完全に埋め、すべての手がかりに対してレビューします。ここにあります!もう一つの自己評価です。すべての手がかりが満たされ、論理が成立しています。最終解決策、各魔法使いの完全な関連付けとテーブルです。
つまり、私のテストは現在あまりにも単純すぎるんですね。複雑さを大幅に増やす必要があります。最初のランでこんなに美しい構造ですが、現在多くのことが起こっていることがわかります。このような推論プロセスの最適化が行われています。
テスト時間の計算が大幅にスケーリングされています。以前に示したようなノートフィールドを見たことがなかったからです。ここには、特定のステップに重要な内部メモリ、スクラッチパッドがあります。本当に何も忘れたり、さまざまな論理的なパスで何かを見落としたりしないようにするためです。次のステップを踏む前に最も重要なことを書き留め、チェックします。本当に素晴らしいです。
他に何かありますか?私のことを知っていますね。「他の有効な解決策を見つけられますか?私の指示に隠れた自由度はありますか?」と尋ねてみましょう。潜在的な解決策、潜在的な解決策A2、潜在的な経路、解決策の比較、これを検証しましょう…ここに答えがあります。詳細に読むには少し速すぎますが、結論を見てみましょう。
素晴らしい。元々提示された解決策1があります。特定の置換がある解決策2と解決策3があります。素晴らしい発見です。これは極端な論理テストをさらに興味深くし、手がかりセット内の固有のあいまいさを明らかにしています。そうですね、私の小さなものがここにあります。
答えを見てみましょう。前の推論結果のステップ7の重要な接合点をレビューし、割り当てが必要です。ブリンダーの可能性を探りましょう。解決策1の可能性、別の相互リンクがある場合、サブケース2a、サブケース2b…これがまさに自由度です。素晴らしい!これは解決策2につながり、サブケース2bは解決策3につながります。
ヒーリングとグリフィンとエレメンタルマジックとペガサス、悪くないですね。検証、解決策1はすでに検証済みです。解決策2と3の特定の制約を迅速に再検証しましょう…解決策2は有効です、解決策3は有効です。あなたは絶対に正しいです。
私の質問に対して「私の初期分析は、可能性1を通る経路が唯一のものであると誤って仮定していました。あなたの指示には確かに隠れた自由度があります。3つの異なる有効な解決策があります」とのことです。他に何を言えばいいでしょうか?
YouTubeにはすでにたくさんのビデオがあり、みんなコーディングでやっていますが、論理、推論、因果推論、長い因果推論の連鎖についてお見せしたかったのです。このシステムは最終的にそれを行うことができるのか?パフォーマンスは単に傑出していると言わざるを得ません。
個人的にはGemini 2.5 Pro実験版(0325)に切り替えると思います。そしてOpenAIには、GPT-5を本当に早く公開する準備ができていることを願っています。さもなければ、Gemini、Google、あなたは戻ってきました。印象的なパフォーマンスです。
今日のビデオはこれで終わりです。楽しんでいただけたと思います。テストしてみて少し楽しかったでしょうか?現在APIの価格が利用可能かどうかわかりませんが、もしAPIの価格がなんとか受け入れられるものであり、OpenAIを超えないなら、Googleはここで間違いなく勝者を持っていると思います。ビデオを楽しんでいただけたら、ぜひ登録してください。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました