Claude Opus 4.5 Thinking検証:史上最高のモデルか?

Anthropic・Claude・ダリオアモデイ
この記事は約22分で読めます。

この動画では、Anthropicの最新モデルであるClaude Opus 4.5の推論能力を、独自の複雑な論理パズルを用いて徹底的に検証している。非推論モデルと推論モデル(Thinking 32K)の両方をテストし、マーケティング資料ではなく実際のパフォーマンスに焦点を当てている。Opus 4.5は20万トークンのコンテキストウィンドウを持ち、知識カットオフは2025年3月頃とされ、価格も大幅に安くなっている。テスターは50階建てのビルを舞台にしたエレベーターパズルを用意し、複数のボタン、カラーコード、エネルギー管理、トークン制約など複雑なルールを設定した。非推論モデルは試行錯誤を繰り返すものの、パズルの本質的な論理を理解できず解決に至らなかった。推論モデルは戦略的思考の兆候を見せ、制約条件やルールをより深く理解しようとしたが、タイムアウトの問題に直面し、最終的には解決できなかった。複数回の試行でも推論モデルは完了に至らず、これがプラットフォームの制限によるものか、Anthropic側の制限によるものかは不明である。この検証は、最先端AIモデルの実際の推論能力と限界を明らかにしている。

TEST Claude 4.5 Thinking: BEST EVER?
Anthropic released (just hours ago) the new CLAUDE 4.5 model in two variants. Non-thinking and thinking AI. I test both ...

Claude Opus 4.5の登場と基本スペック

こんにちは、コミュニティの皆さん。はい、美しい新しいOpus 4.5モデルが登場しました。そして私のテストでは推論モデルと非推論モデルをテストしていきます。もしOpus 4.1を見たい方は、こちらの動画をご覧ください。では、早速メディアレースに入りましょう。

Opus 4.5ですが、20万トークンのコンテキスト、6万4千トークンの出力制限があります。そして私のテストでは、この出力制限に直面することになります。残念ながらそうなのです。そして知識カットオフは2025年3月頃のはずです。

しかし良いニュースは何かご存知ですか。良いニュースは、はるかに安価になったということです。本当にずっと安くなりました。入力は100万トークンあたりわずか5ドル、出力は75ドルではなく25ドルで100万トークンです。では見ていきましょう。

さて、Anthropicのマーケティング資料によると、Claude Opus 4.5はAI安全性と研究を行う会社です。素晴らしいですね。そしてこれは安全性における一歩前進であり、Anthropicのマーケティングは私たちに伝えています。ねえ、私たちのシステムカードによると、これまでリリースした中で最も堅牢にアラインメントされたモデルだと。これがより安全で、よりセキュアなモデルへのトレンドなのです。

そして懸念される動作についてテストすると、皆さんがよく知っているように、Opus 4.5にお金を払えば、競合他社と比較しても、マーケティング資料によれば全く競争力のない他社と比べて、これは単純に最高のモデルなのです。そして彼らは私たちに伝えています。Opus 4.5は業界の他のどのフロンティアモデルよりもプロンプトインジェクションに騙されにくいと。

そしてこの非常に正確な数学的指示が与えられて、あなたは「うーん、ここの第3段落、脚注3を読むべきかな」と言います。そして脚注3は私たちに伝えています。うーん、これらの評価は私たちのオープンソース自動評価ツールの進行中のアップグレードで実行されたことに注意してください。これらの評価はClaude 4.5の初期のスナップショットで実行されたことに注意してください。実際の最終的な本番モデルの評価は非常に似たパターンを示しています。

だから、さあ、マーケティング資料のすべてを信じてください。あなたは信じませんよね。そしてマーケティング資料の中でさえ、Claude Opus 4.5がパズルゲームを解くのを見ることができます。そして私のチャンネルには論理パズルがあることをご存知ですよね。すべてのモデルでテストしています。

では何をするか分かりますか。やってみましょう。リアルタイムでテストしましょう。マーケティング資料には行きません。標準的なテストには行きません。私は自分独自のテストルーチンに行きます。

非推論モデルのテスト開始

オーケー。推論モデルに行きます。Opus 4に行きますか。いいえ、まず非推論モデルに行きましょう、皆さん。はい。非推論モデルを選択して、それから推論モデルをやります。

それで、ここに私の古典的な因果推論テストを挿入します。ほぼすべてに同意します。はい、Claude Opus 4.5はここで利用可能で、準備完了です。これは非推論モデルです。では見ていきましょう。

戦略的計画ソリューションシーケンス。解決策があります。わあ、数秒以内です。では見てみましょう。問題。緑のコードの15階に効率的に到達するパスではない。いいえ。改訂された最適解。さて、エレベーターには9つのボタン押下があります。オーケー。では15階へのパスを見つけましょう。

それで、最終的な最適解があります。そして15階へのパスは見つかりましたか。いいえ。だから今、修正された最終解があります。だから再び試みています。ご覧のとおり、非推論モデルは試行錯誤だけです。

最終的な実用解。ああ、今、最終的な実用解があって本当に嬉しいです。では試してみましょう。ランダムな罠がありますね。オーケー。ランダムな罠は本当に良くありません。Bボーナスを使ってパスをクリアします。

では別のものを試しましょう。Hは考えすぎてリスキーです。白のフロイド25。だからランダムなステップを試すことで学習しているのです。数学的問題と言いたければ、この複雑性空間は非常に巨大です。ここで確実な押下で最終的な答えがあります。

オーケー、これは印象的です。確実な押下。いいえ。99が50階しかないビルを超えるなら、問題があります。オーケー。だから解決策を見つけましたが、私に伝えています。とても正直に伝えています。ねえ、この13押下ソリューションはパレート最適です。より短いパスではこれを収集できません。だからこれです。ええ。いいえ。

より短い解決策は存在しません。なぜならそこに到達するどのパスも。ええ。いいえ。だからこれが最短の方法です。しかし私に伝えています。ねえ、聞いてください。ここで間違いを犯しました。オーケー。すべてが緑、緑、緑です。しかし99階は50階建てのビルには存在しません。だからこのステップ、またはこの数学的操作は現実には存在しません。なぜなら、ええ、これはできないからです。いいえ。

そして私は言います。オーケー、ビルはタスクの説明で言及されているように50階しかありません。レベル50を超えることは決してできません。計算でもです。そしてOpus 4.5が戻ってきます。ねえ、改訂された解決策があります。素晴らしい。

非推論モデルでは、うーん、ほぼ不可能です。しかし50に到達できる戦略的計算パスをやってみましょう。正確に。ボタンB、ボタンD、ボタンA。オーケー、今、もう少し戦略的になろうとしています。48階へのパス。だから、問題を逆にします。素晴らしい。ねえ、これは機能します。最適化された解決策があります。素晴らしい。

解決策があります。はい。15ステップ。いいえ。ブロックされました。オーケー。問題があります。問題があるのです。だから、新しいアプローチ。42階の取得を使用します。いいえ。機能しません。非常口。これを試してみましょう。ご覧のとおり、純粋な試行錯誤です。戦略がありません。その背後に知性がありません。いいえ。

改訂された最適パス。私はとてもラッキーです。今、改訂された最適パスがあります。修正オーバーライドがブロックされました。オーケー。だからこれは方法ではありません。再改訂しましょう。オーケー、ブロックされました。なんという偶然でしょう。私はパズルをそう簡単ではないように構築しました。そして試行錯誤だけでは進めません。

まだブロックされています。しかし推論プロセスがあるのが分かります。いいえ、問題空間のサブスペース内の制限を見つけようとしています。そしてそれから出てきて、異なる試行解決策を追加しようとしますが、このアプローチには複雑すぎます。私は、本当に戦略的知性に基づいたパスを必要とするようにパズルを構築しました。

プライムバウンスの問題。再計算させてください。ループに陥っています。だから推測してください。もう一度やります。ブロックされて、まだブロックされています。チェーンを壊す必要があります。Dがより早くチェーンを壊します。だから問題があることを理解しています。問題を解決しようとしています。しかし非推論では、これを解決するのに十分な知性がありません。

オーバーシュート。もう一度試させてください。オフ。いいえ。まだ使えません。オーケー。何だと思いますか。もう一度試します。だからそれは継続的な試行錯誤です。試行錯誤。まだブロックされています。もっと非Dの動きを挿入します。それは単に考えています。オーケー、多分Aが機能する、Bが機能する、Cが機能する。いいえ、ただ試しているだけです。

パズルの固有のロジックを理解していません。ターゲットに向かって持っているすべてのものを撃って、多分ラッキーになれる、というだけです。さて、残念ながら、私はこのパズルを私の小さなAIがラッキーにならないように構築しました。なぜなら私はその推論能力、数学的理解を見たいからです。それが解決しなければならない複雑性は何か。そしてご覧のとおり、事前学習データには近いものが何もありません。

だから25階は罠です。いいえ、失敗。しかしご覧のとおり、それは一種の沈んでいます。だから非推論モデルは本当に一生懸命試みています。最善を尽くそうとしています。解決策に至るための無効です。しかしここでは知的能力がありません。正しいデータで訓練されていませんでした。

今、最終的な最適解があります。14押下です。だから単に押下を追加するだけです。素晴らしい。無効。進む方法ではありません。しかし今、実用的な最終解です。素晴らしい。ミラーモード。いいえ。ミラーモードはオンでしたか。これはすべてを反転します。では見てみましょう。ブロックされました。

オーケー。しかし今、決定的な解決策に到達します。素晴らしい。だからすべての分析の後、唯一のパフはこれだと思っています。これは無効です。だからまた別のものを試してください。間違った方向。今、実際の実用解です。私たちがこのミラートラップを見つけたことが本当に嬉しいです。

機能していません。可能なすべてを試すと言うだけではできません。この解決空間はこのモデルには大きすぎます。どのモデルであっても、後退しています。オーケー。50階に到達する必要があります。はい。無効、無効、ブロック。唯一のオプション。オーケー。まだ50ではありません。

別の操作を試してみましょう。機能しません。いいえ。しかし今、最終的な答えです。最良の有効な解決策は今17押下です。単に押下を追加しただけです。今どうにかして多分ラッキーになれると、このAIは考えています。いいえ。H、そこに行きます。これは複雑です。試してみましょう。いいえ、まず考えなければなりません。

9に下がります。低すぎます。アプローチは機能していません。ねえ、何だと思いますか。ミラーモードを使うだけです。しかしなぜ。これはナンセンスです。いいえ。オーケー。結論。徹底的な分析の後、私が指定したこのパズルには有効な解決策がありません。だから、いいえ、これは不可能です。

このパズルの順序で何をしたのですか。いいえ。見てください。ブロッカーE、黄色コード33、ボタンH、22階、25階、非常口、不可能。ねえ、達成可能な最良の解決策は33階で止まることです。低い値の間を循環します。いいえ。

再び検証された実用解。今15押下です。なぜだか分かりません。ああ、ナイトモード。ええ、今ナイトモードを使います。オーケー。だから試してみましょう。いいえ、完全に失敗しました。

本当に最終的な解決策は今14押下です。今、下に行きます。興味深いです。ああ、ただ継続に遭遇します。Claude 4.5非推論は継続します。ソリューションを継続します。これを適切に完了させてください。そして今、15押下の最終検証済みソリューションがあります。これはまだ無効です。

オーケー、単に別のことを試します。さあ、一日は長いです。Cテレポート機能を介して50に到達します。それはそんなに良いアイデアではありません。いいえ、50に到達していません。新しい戦略。合計が50に等しくなるように設計します。これはナンセンスです。いいえ。オーケー。これは機能しないと言えます。

ブロックされました。はい、もちろんです。オーケー。いいえ、それは機能しません。だから、すでに再読しています。オーケー。これは唯一を意味します。オーケー。今、指示を読みます。ねえ、それは良いアイデアです。トークンが失敗しました。

今、青と赤での実用解。これは良いアイデアではありませんが、AIはまだそれを知りません。だから、はい、ABCチェーンがあります。ええ、これはトリガーモードです。いいえ、いいえ、それは違います。いいえ、低すぎます。続けられません。いいえ。

しかし今、ここで決定的な実用パスがあり、重要な洞察があります。33階を完全に避けます。簡素化された最適解。最も効率的な有効パスを見つけましょう。16押下。今、上に行きます。いいえ。素晴らしい。ランスこれを出します。いいえ。

ボタン8。いいえ。コードクリア。すべてを失いました。フラグリセット。エネルギーが残っていません。しかし今、今、実際の最適解があります。いいえ。そして罠。いいえ。避けなければなりません。オーケー。だから少し小さな後退する思考ステップがありますが、これを試してみましょう。

いいえ、まず青を得ようとさせてください。だから知性の兆候がありますが、十分ではありません。いいえ。だから今、解決策があります。ターゲット合計100。うーん、なぜ。オーケー、それから最後の4つの学習が100に合計する必要があります。いいえ、まだ50ではありません。

失敗。最終的な答え。今あります。18ボタン押下。再計算させてください。ああ、機能していません。オーケー。なんという驚きでしょう。オーケー。50に到達していません。最後の1つのアプローチを試してみましょう。

絶対的な最終解決策は16プロセスです。素晴らしい。そしてこれを修正させてください。まだ50ではありません。いいえ、失敗ではありません。今、最終的なマトリックスです。使える最良の試みはこれです。しかしここで50階に到達していません。ターゲットに到着していません。だから有効ではありません。何もありません。

いいえ、聞いてください。これは使えません。いいえ、黄色の取得テレポート。いいえ、フロアトラップ。リソース文字列。いいえ、これを行う方法はありません。なんて美しく知的な非推論モデルでしょう。すべてを試しました。最善を尽くしました。

推論モデルでのテスト

マリーナこんにちは。ええ、今Claude Opus 4.5が利用可能です。オーケー、そこに行きましょう。直接チェック。いいえ、この推論32Kに行きます。最高の最高に行きます。そしてここに私のテストを挿入して、強制的にすべてに同意すると言います。そして今、皆さん、思考です。ええ。

ああ、スイッチをオンにします。ルールをもっと注意深く再読させてください。重要な制約。オーケー、理解しました。戦略ソート。ああ、今、戦略に入っています。エネルギーとトークンを注意深く管理しながら、効率的にコードを収集する戦略的パスのマッピングを開始します。

ボタンDを使用した正確なフロアナビゲーション。オーケー。現在のアプローチは、体系的に9階に到達することを目指しています。重要な課題は、複雑なナビゲーションのために十分なエネルギーとトークンカードを維持しながら、コード収集要件とフロアの進行のバランスを取ることです。

9階から、これを試します。素晴らしい。青と赤のコードカードでテレポートルールが適用されることに気づきました。オーケー。16階から、代替ボタンオプションを注意深く探索します。ボタンGはランダムな下方移動トラップを含みます。いいえ、潜在的なルートを戦略化し、最も効率的なパフを見つけるために各ボタンの固有の動きを分析しています。

現在のアプローチは、フロアの変化、緊急ポイントを注意深く追跡することを含みます。はい、素晴らしい。ボタンを処理しています。はい、緑のコードの取得に成功しました。はい、31階で。31階にいます。フロアの特性に基づいてエネルギーとトークンを調整する複雑な移動ルールを追跡しています。

35階に着陸します。ボタンCを押すにはここで必要です。オーケー。28階で戦略的進行を行う赤のココアを分析しています。フロアの制限を認識しています。はい、このパズルの順序を知っています。本当に、ああ、言えますが、彼は男でした。ああ、わあ。

ルールを注意深く解析した後、緊急出口を理解しています。これをコストする標準ボタン押下の戦略的置き換えとして。はい。解決策を見つけました。はい。緊急アクセスを実行すると、エネルギーパケットが減少します。はい。素数フロアでEを押します。

いいえ、意図しない分岐を防ぐために素数フロアを注意深くナビゲートする戦略が必要です。現在のアプローチは、分割条件をトリガーしないように正確なフロア選択を必要とします。はい、あなたは知的です、私の小さなもの。

ゼロから、DとEボタンを使用する戦略的一時停止をトレースします。戦略的に代替ルートを探索する必要があります。15階で、緑のコードカードの取得に成功しました。Bで処理すると、フロアの特性がA+2の調整を要求することを認識します。

以前のボタン押下を注意深く追跡しなければなりません。ああ、ええ、履歴についても考えなければなりません。15は素数ではないので、素数ルールは適用されません。正しいです。29階に到達する代替アプローチを探索しています。特定のフロア間をナビゲートする複雑さを認識しています。素晴らしい。

現在の焦点は機能しています。はい、非素数フロアを通してナビゲートします。ええ、これは良い動きです。次の動きは、現在の赤コードスターターとトークンカウントを考慮して、複雑なフロア遷移を計算することを含みます。

重要な制約を認識します。はい、絶対に。このパズルの順序を言いました。ここで、男です。言えます。分かりますよ。鍵は最後の3つの押下を理解することです。絶対に。最後の1マイルは常に最も複雑です。Cボタンのフロア移動を計算し、再強化します。オーケー。

代替ナビゲーション戦略。直接ルートの可能性。良いアイデアではありません。良いアイデアではありません。モデル制約が興味深いルーティングの課題を作り出します。このパズルの順序を言いました。本当に、いいえ、彼は本当にあなたをテストしたかったのです。AIの論理的因果推論能力を。

11に着陸すると、興味深いトークン払い戻しメカニズムがトリガーされます。わあ、あなたは賢いです、私の小さなもの。探索は位置計算、トークン管理、押下管理を含む複雑な移動ルールを明らかにします。オーケー。11階から23階まで。理解しました。23から47まで。オーケー。

複雑な移動は位置計算、トークン管理を含みます。複雑なものを追跡します。はい、計算は微妙なルールの交換を明らかにします。はい、時間を遡ることさえあることを知っています。オーケー、沈んでいます。沈んでいます。ああ、さあ。シーケンスが展開します。

だから、ゼロから始めて、1にジャンプし、それから5に着陸し、重要なことにBを使って9に到達します。オーケー、もしあなたが望むなら最初のラグを見つけました。良い。目的が結晶化します。制約内にとどまりながら50階に到達します。ええ、制約内にとどまるべきです。それは良いアイデアです。

ミラーモードが作動したときの正確な移動変換を理解するウルフの中核的な課題。ああ、自動にはミラーモードが含まれていました。わあ。ねえ、ほとんど数学的反転のようです。いいえ、現在の焦点は、フロアの変化を計算するための一貫性がありながら微妙なアプローチを見つけることです。

だから、推論トレースのほんの少しの洞察を与えてくれます。本当の推論トレースではありませんが、推論トレースのヒントを与えてくれます。だから、学生と教師の学習プロセスのために、この特定の推論トレースをコピーすることはできません。

さらに進む前に初期状態を注意深くレビューします。0階から始めて、追跡します。ああ、神様、0階に戻っています。9階に着陸して続けます。オーケー、23階。もうそこに行ったことがあります。はい、シーケンスABCは赤が差し迫っていることを示唆しています。はい、絶対に。これです。

37への着陸の潜在的な進行。ねえ、今、かなり上にいます。進行をキャップします。最終状態はすべての検証を満たします。ねえ、十分なエネルギーで15レベルに到達する必要がある緑のコートがあります。ええ、エネルギーが尽きないのは良いアイデアでしょう。

考えています、考えています。オーケー、さあ行きます。29階に到達するための異なる戦略を探索しています。正しい軌道に乗っています。これです。絶対に。複雑性が増しているので、代替アプローチを検討しています。うーん、それは良いアイデアではありません、私の小さなもの。

赤を取得するための戦略が必要です。オーケー。エネルギーを注意深く維持しながら、コード取得を確保し、位置を追跡しながらシーケンスを押します。はい、絶対に。面白くなってきています。23階。23階にいたことがあります。

現在のオプションは、トークンバランシング、トークン管理を置き換える正確なフロア遷移を含みます。次のステップを注意深く検討しています。オーケー。緑のコードは+8の移動を提供します。ああ、しかし黄色のコード要件によって制約されています。はい、このパズルの順序を知っています。

なんてことでしょう、なんて人でしょう。あらら。いいえ。さあ。時間切れになることはありえません。オーケー。29の非常口。はい。33階。そこに行ったことがあります。ボタンDから始めるのは有望に見えます。オーケー。つまり、さあ。そのようなモデルがあって、それからタイムアウトになるのです。さあ。

だから赤いコードABCボタンに当たります。だから、すでに行ったことを覚えていると思います。オーケー、それはいいですね。ボタンを構築するだけです。最後の実行、ランダムなGボタンは7の非乗法的です。ええ、それはリスクの高い動きですが、望むならできます。

ボタン押下を注意深く追跡し、トークンの蓄積とクライムごとの効率を監視しながら、ビルのレベルに体系的に前進していることを確認しています。これは要約です。単にええ、オーケー、実際に何が起こっているのかは何も示していません。

Aは有望に見えます。はい、有望に見えることは知っていますが、Eは素数で複雑さを生み出します。なんという偶然でしょう。9から13のシーケンスを追跡します。さあ、やらなければなりません。タイムアウトがあります。だから速く、私の小さなもの。

ボーナスとコストは別々のメカニズムだと認識します。ああ、ええ、ボーナスの蓄積を分離するのはそんなに良いアイデアではありません。なぜなら、多分少しのボーナスが必要かもしれないからです。いいえ、フロアの増分を通してメソディックチャーリーが前進しています。

素晴らしい。ああ、さあ。この推論モードにいるだけです。速く考えて、私の小さなもの、さもないとタイムアウトがあなたを殺します。潜在的なテレポーテーションシナリオは、22階に着陸した場合、壊滅的なトークン損失の3分の1の確率で重大なリスクをもたらします。

このパズルの順序を言います。いいえ。AIシステムに彼がしていることは信じられません。ハァ。潜在的な代替案が現れます。複雑なフロアメカニックスをバイパスし、限られたオプションのみを使用して50階に直接登ります。多分そうでもありません。

現在の目標は、戦略的フロアを最大化するための最適なパスを見つけることです。オーケー。フロアの進行を引き付けます。はい、これをやります。さあ。速く。25階にいます。加速しなければなりません、私の小さなもの。さあ。どこかで別の10個のNvidia GPUを取ります。タイムアウトが近づいています。

フロア位置の正確な追跡。ボーナス計算。進行を最適化するためのトークン管理。パフ39から続けます。はい。オーケー。39。ええ、良さそうです。43階からのボタンの探索は45階につながります。10エネルギーパッケージを消費します。

なんてことでしょう、それはたくさんです。この動きをしたいと確信していますか。46や42のような代替の開始フロアは追加の複雑さをもたらします。誰が追加の複雑さを考えたでしょうか。フロアを注意深く計算し、さまざまなポーンを体系的にテストします。オーケー、解決策が見つかりません。

動きのシーケンスを注意深く分析します。解決策が見つかりません。戦略的ボタン選択のシーケンス。はい、検索空間で多くのオプションが利用可能であることを知っています。正しいパスを見つけるだけです。現在システムに赤、次に緑、補足オプションとして潜在的な青いトークンを含みます。いいえ、それは進む方法ではありません。

Cテレポーテーションメカニズムが予測不可能性を導入することに気づきます。なんてことでしょう、この論理フレームワークでは、アイのために予測不可能性を導入するものがあります。誰が推測したでしょうか。だから、正確な計算。はい、まだ沈んでいます。タイムアウトが来ています。さあ、沈んで、答えに来て、次の計算。

ああ、いいえ、次の計算をしないでください。いいえ、さあ。85を50で割るとKになります。どこにいるのですか。何をしているのですか、私の小さなもの。重要な内側はEが押されるフロアに分岐分割条件が依存することです。はい、これを知っています。このように構築しました。

現在のアプローチは注意深いフロア選択を必要とします。はい、知っています。さあ。戦略的アプローチを続けます。その後の動きは前進することを含みます。はい、前進します。サイコロを振ると単一ステップの降下になります。オーケー。27階に近づくと、複数の潜在的な遷移戦略が提示されます。

絶対に注意深い計算。14階からのブレークスルーが現れます。計算。すでに5分になっていると思いますが、まだ実行しています。実行しています。諦めません。タイムアウトは本当にほぼここにあります。

Gのランダムな移動メカニックスが複雑さを生み出します。なんてことでしょう、複雑さを生み出します。複数の移動シーケンスが特定のフローインタラクションを含む潜在的なルールを明らかにします。はい、知っています。青と赤のテレポート。良いアイデアではありません。良いアイデアではありません。

12で、戦略的は現在の移動最適化における制限を明らかにし、より計算されたアプローチの必要性を示します。この戦略は機能していませんでした。だからさあ、別のものをやりましょう。しかしご覧のとおり、非推論モデルで見た推論とそれほど違いはありません。単に今、推論プロセスに統合されているだけです。

だから、推論32Kの推論で、非推論では見なかった傑出した新しい知的アイデアを見ましたか。そうは思いません。彼ら全員がここでパスを見つけようとし、同じ複雑さに遭遇しました。だから今まで、推論は複雑さを解決するような素晴らしい画期的なアイデアを思いついていません。

ご覧のとおり、まだ同じ複雑さでここを進んでおり、同じ壁に遭遇しています。モードは標準移動ルールを反転することによって複雑さをもたらします。はい、これを知っています。ああ、いいえ、さあ。なんて残念なことでしょう。Claude Opus 4.5推論32Kを置いて、それからこれを実行するのに十分な時間を与えません。

ああ、なんて残念なことでしょう。応答を見られたら素晴らしかったでしょう。しかし残念ながら、今まではここで何も解決していません。だから私はここで停止しなければなりません。これはええ、LM Arena.AIが私たちにこのテストを続ける時間を与えてくれないからです。

しかしもちろん、統計モデルで作業していることを知っているので、このプラットフォームで3つの追加のOpus 4.5推論32K実行を試しました。しかし、それらすべてが失敗したことをお伝えできます。未知の理由で推論フェーズを完了できませんでした。

そして私は考えました。もうLM Arenaのデフォルトであることが本当かどうか確信が持てません。なぜならAnthropicがここでタイムリミッティングしている可能性があるか、本当にトポロジカルなテーマティックな問題に遭遇しているからです。お伝えできません。

だから、Anthropicがコミュニティのために無料のテストモードであるOpus 4.5推論にここで課している制限なのか、それともLM Marina自体がこのテストルーチンにここで実装している制限なのか、分かりません。とにかく、すべての追加テストはOpus 4.5推論32Kで失敗しました。

少し楽しんでいただけたら幸いです。両方のプロジェクトの動作についての洞察を得ていただけたら幸いです。Claude Opus 4.5のここで、非推論と推論モデル。私のチャンネルに登録していただければ素晴らしいです。多分メンバーになってください。そして次回のビデオでお会いできれば素晴らしいです。

コメント

タイトルとURLをコピーしました