ベンチマークテスト

Google・DeepMind・Alphabet

新型Gemini 3 FLASH vs GPT-5.2 HIGH – 血みどろの対決

本動画では、Googleの最新モデルGemini 3 FlashとOpenAIのGPT-5.2 Highモデルをリアルタイムで直接比較している。特筆すべきは、Gemini 3 Flashが価格面でGPT-5.2より4倍以上安価でありながら、...
Google・DeepMind・Alphabet

Gemini 3.0 Pro(新チェックポイント):史上最高のモデル!最もパワフルで、最も安価で、最も高速なモデル!

GoogleのGemini 3.0の新しいチェックポイント版が公開前テスト段階にあり、その性能が極めて高いことが明らかになった。現在13のバリアント版が回転しており、特にECPTとK0Tという2つの新しいチェックポイントがABテスト中である...
Google・DeepMind・Alphabet

Gemini 3.0 Pro(早期テスト):史上最高のモデル!最も強力で、最も安価で、最も高速なモデルがついに登場!

Googleの次世代AIモデルGemini 3.0 Proのリーク情報と早期テスト結果を詳細に検証した動画である。2025年10月9日のリリースが予測されるこのモデルは、ARK AGI 2リーダーボードで最高スコアを記録し、あらゆるベンチマ...
Anthropic・Claude・ダリオアモデイ

新型Claude Sonnet 4.5が驚異的な性能を発揮、Sora 2も約束を果たす

AnthropicがリリースしたClaude Sonnet 4.5は、様々なベンチマークで驚異的な性能向上を示しており、特にツール使用のタスクでは71%から98%へと大幅な精度向上を記録している。プログラミング、科学、医療などの専門分野で他...
Anthropic・Claude・ダリオアモデイ

衝撃のClaude Sonnet 4.5失敗(推論)

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順...
AIベンチマーク

1つの勝者:Sonnet 4 ThinkとOpenAIのo3とGemini 2.5 PRO(コード付き)の比較

この動画は最新のAI言語モデル4種類(Mistral Small 3.224B、Claude Sonnet 4、OpenAI o3、Gemini 2.5 Pro)を、エレベーターパズル問題で比較検証した実験である。限られたエネルギーで0階か...