制約充足問題

Anthropic・Claude・ダリオアモデイ

Claude Opus 4.6思考型vs非思考型 リアルタイム比較テスト

AnthropicがリリースしたClaude Opus 4.6について、思考型(Thinking)と非思考型(Non-Thinking)の2つのバージョンを独自の論理推論テストで比較検証した動画である。テスト内容は制約条件付きエレベーター問...
GPT-5

推論テストGPT-5.1:驚きの結果

本動画では、新たにリリースされたGPT-5.1の推論能力を、過去1年間にわたって使用してきた複雑な制約充足問題を用いてテストしている。この問題は、GPT-5やGrok-4、Gemini 2.5 Proといった他のモデルが8~10ステップで解...
Anthropic・Claude・ダリオアモデイ

衝撃のClaude Sonnet 4.5失敗(推論)

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順...