エレベーター問題

衝撃のClaude Sonnet 4.5失敗(推論)

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順...

2025.09.30

Anthropic・Claude・ダリオアモデイ

この動画では、新しいオープンソース推論モデルQwen3 Nextの性能を、複雑な因果推論テストで徹底評価している。80億パラメータのMixture of Expertsアーキテクチャながら、実際に訓練可能なのは30億パラメータのみという効率...

2025.09.16

LLM・言語モデル

この動画は、Claude Opus 4.1の思考型モデル（16K）と非思考型モデルを独自の因果推論テストで比較検証した実験結果を報告している。テキストアリーナで上位に位置する両モデルに対し、エレベーターの階移動問題という複雑な論理パズルを課...

2025.08.21

Anthropic・Claude・ダリオアモデイ

この動画では、AMD MI300Xサーバー上で動作するOpenAIのGPT-120BオープンウェイトモデルのテストがHugging Faceスペースで実施される。投稿者はまず、AMD MI300XとFrameworkの300シリーズの違いを...

2025.08.13

AIハード・GPU・RAM