ベンチマークテスト

新型Gemini 3 FLASH vs GPT-5.2 HIGH – 血みどろの対決

本動画では、Googleの最新モデルGemini 3 FlashとOpenAIのGPT-5.2 Highモデルをリアルタイムで直接比較している。特筆すべきは、Gemini 3 Flashが価格面でGPT-5.2より4倍以上安価でありながら、...

2025.12.19

Google・DeepMind・Alphabet

GoogleのGemini 3.0の新しいチェックポイント版が公開前テスト段階にあり、その性能が極めて高いことが明らかになった。現在13のバリアント版が回転しており、特にECPTとK0Tという2つの新しいチェックポイントがABテスト中である...

2025.10.14

Google・DeepMind・Alphabet

Googleの次世代AIモデルGemini 3.0 Proのリーク情報と早期テスト結果を詳細に検証した動画である。2025年10月9日のリリースが予測されるこのモデルは、ARK AGI 2リーダーボードで最高スコアを記録し、あらゆるベンチマ...

2025.10.09

Google・DeepMind・Alphabet

AnthropicがリリースしたClaude Sonnet 4.5は、様々なベンチマークで驚異的な性能向上を示しており、特にツール使用のタスクでは71%から98%へと大幅な精度向上を記録している。プログラミング、科学、医療などの専門分野で他...

2025.10.04

Anthropic・Claude・ダリオアモデイ

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順...

2025.09.30

Anthropic・Claude・ダリオアモデイ

この動画は最新のAI言語モデル4種類（Mistral Small 3.224B、Claude Sonnet 4、OpenAI o3、Gemini 2.5 Pro）を、エレベーターパズル問題で比較検証した実験である。限られたエネルギーで0階か...

2025.07.01

AIベンチマーク