プログラミングテスト

AI推論・CoT

Qwen 3 Max thinkingはなぜこんなに奇妙なのか?

Qwenが新たにリリースした「Qwen 3 Max thinking」は、推論機能を搭載した最新モデルであるが、テスト結果は極めて混乱を招くものであった。本モデルは9月にリリースされた初期バージョンにおいてGPT-4やGrok 2と同等の性...
AIベンチマーク

GPT-5かClaude 4.1、どっちを使うべき?検証してみよう…

本動画は、OpenAIのGPT-5とAnthropicのClaude 4.1 Opusという最新AIモデルの包括的な性能比較テストである。コーディングタスクとビジネス推論タスクという2つの主要領域で両モデルを評価し、それぞれの得意分野と限界...