論理推論テスト

Claude Opus 4.1 Thinking：信じられない結果

この動画は、Claude Opus 4.1の思考型モデル（16K）と非思考型モデルを独自の因果推論テストで比較検証した実験結果を報告している。テキストアリーナで上位に位置する両モデルに対し、エレベーターの階移動問題という複雑な論理パズルを課...

2025.08.21

Anthropic・Claude・ダリオアモデイ

GPT-5：使うべきか？（ライブテスト）

この動画は、リリース直後のGPT-5を用いた因果推論テストの実証実験である。制作者が独自に開発した複雑な論理パズルを使用し、GPT-5の推論能力をGemini 2.5 Pro、Claude Opus 4、o3などの他の最先端AIモデルと比較...

2025.08.08

GPT-5、5.1、5.2