AI比較テスト

GPT-5

新型GPT-5.2 Codexは5.1 Maxより優れているのか?両方をテストして分かったこと

OpenAIの最新コーディングモデルであるGPT-5.2 CodexとGPT-5.1 Codex Maxの実践的な比較検証である。VS Code環境で40以上の要件を持つ3D都市ゲームを実装し、両モデルの性能差を詳細に分析している。セマフォ...
Google・DeepMind・Alphabet

Gemini 3.0のステルスリリースが大騒ぎに(完全テスト済み)

GoogleのGemini 3.0 Proが正式発表前にステルスリリースされた可能性が浮上し、SNS上で話題となっている。本動画では、モバイルアプリを通じてアクセスできたと思われるGemini 3.0 Proと、現行のGemini 2.5 ...
Anthropic・Claude・ダリオアモデイ

Claude Sonnet 4.5が凄すぎる – リアルタイムコーディング、UI、ソフトウェア生成!

Anthropicが発表したClaude Sonnet 4.5は、同社が「世界最高のコーディングモデル」と称する最新AIである。本動画では、ブラウザベースのOS生成、3Dレーシングゲームの作成、Pythonベースのファーストパーソンシュータ...
Anthropic・Claude・ダリオアモデイ

衝撃のClaude Sonnet 4.5失敗(推論)

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順...
イーロンマスク・テスラ・xAI

xAI: Grok 4が期待外れ – ライブテスト

この動画は、xAIの新しいAIモデルであるGrok 4を論理推論テストで評価し、Claude Sonnet 4やGPT-4o3、Gemini 2.5 Proなどの他の最先端AIモデルと性能を比較する実証的な検証である。結果として、Grok ...