AI性能比較

AIベンチマーク

ChatGPT-5.2対Grok 4.1:たった1文のテストで明らかになった驚愕の性能差

本動画は、最先端AIモデルであるChatGPT-5.2とGrok 4.1の性能を、極めてシンプルな1文作成タスクで比較検証する実験である。テスト内容は「7つの単語からなる文を作成し、各単語の特定位置の文字を順に並べると『physics』とい...
GPT-5、5.1、5.2

OpenAIの新GPT-5.2 Codexがリリース、そしてClaudeが長時間コンテキストの王者に

OpenAIが新たにリリースしたGPT-5.2 Codexは、プログラミングに特化したモデルであり、特にセキュリティ脆弱性の検出において顕著な進化を遂げている。このモデルは88%の確率でセキュリティの欠陥を発見できる能力を持ち、Reactの...
Google・DeepMind・Alphabet

新型Gemini 3 FLASH vs GPT-5.2 HIGH – 血みどろの対決

本動画では、Googleの最新モデルGemini 3 FlashとOpenAIのGPT-5.2 Highモデルをリアルタイムで直接比較している。特筆すべきは、Gemini 3 Flashが価格面でGPT-5.2より4倍以上安価でありながら、...
GPT-5、5.1、5.2

OpenAIの新型GPT-5.2のテスト – Gemini 3に後れを取ったのか?2026年に期待すべきこと

OpenAIが最新モデルGPT-5.2をリリースしたが、期待値の高さとは裏腹に実際の性能評価は賛否両論となっている。スプレッドシート作成やウェブ検索といった実務タスクでは一定の成果を示す一方、スライド生成の品質やコストパフォーマンスの面では...
GPT-5、5.1、5.2

新GPT-5.2:完全なる大惨事

OpenAIの最新モデルGPT-5.2が1年間使用されてきた標準的な因果推論テストに挑戦した結果、驚くべき挫折を見せた。このテストは0階から50階までのエレベータシステムにおける複雑な制約条件下での論理パズルであり、従来の他のAIモデルは解...
GPT-5、5.1、5.2

OpenAIのGPT-5.2とImage-gen-2 ― Googleへの最後の反撃なるか?

2025年末、AI業界ではOpenAIとGoogleの激しい競争が続いている。OpenAIは新たにGPT Image 2とGPT-5.2をリリースし、GoogleのNano Banana ProとGemini 3 Proに対抗する姿勢を見せ...
LLM・言語モデル

新型DeepSeek V3.2思考モデル:Gemini 3 Proに匹敵するのか?

本動画では、DeepSeekが新たにリリースしたDeepSeek V3.2思考モデルの性能を詳細に検証している。2ヶ月前のベータ版から大幅にアップデートされた本モデルは、Gemini 3 ProやGPT-5といった最先端AIとの比較を通じて...
Anthropic・Claude・ダリオアモデイ

Claude Opus 4.5がGemini 3を打ち負かした…どうやって?!

AnthropicがリリースしたClaude Opus 4.5は、数日前に発表されたばかりのGoogleのGemini 3 Proと激しい競争を繰り広げている。コーディング能力を測るSWE検証ベンチマークではOpus 4.5が80.9を記録...
Google・DeepMind・Alphabet

Gemini 3 Pro Logic:驚異的な推論能力

本動画は、Googleの最新AI言語モデルであるGemini 3 Proの論理的推論能力を、複雑なパズル問題を用いて徹底的にテストした検証レポートである。投稿者は階層移動パズルという独自の課題を用いて、Gemini 3 Proが純粋な論理的...
GPT-5、5.1、5.2

推論テストGPT-5.1:驚きの結果

本動画では、新たにリリースされたGPT-5.1の推論能力を、過去1年間にわたって使用してきた複雑な制約充足問題を用いてテストしている。この問題は、GPT-5やGrok-4、Gemini 2.5 Proといった他のモデルが8~10ステップで解...
Google・DeepMind・Alphabet

新情報:LMArenaに秘密モデルが登場!

LMArena上に秘密裏に追加されたと噂される新モデルについての検証動画である。Gemini 3.0 ProまたはGemini 3.0 Flashと推測される「lithium flow」と「Orion Nist」というコードネームのモデルが...
Anthropic・Claude・ダリオアモデイ

新型Claude Sonnet 4.5が驚異的な性能を発揮、Sora 2も約束を果たす

AnthropicがリリースしたClaude Sonnet 4.5は、様々なベンチマークで驚異的な性能向上を示しており、特にツール使用のタスクでは71%から98%へと大幅な精度向上を記録している。プログラミング、科学、医療などの専門分野で他...
Anthropic・Claude・ダリオアモデイ

Claudeが止まらない

AnthropicがClaude Sonnet 4.5をリリースした。このモデルは30時間連続で自律的に動作し、約11,000行のコードを生成してSlackやTeamsのようなチャットアプリを完成させた。SWE-bench Verified...
Anthropic・Claude・ダリオアモデイ

Claude 4.5 Sonnet:世界最高のコーディングモデル!強力かつエージェント型!(完全テスト済み)

Anthropicが新たにリリースしたClaude Sonnet 4.5は、世界最高峰のコーディングモデルとして位置づけられている。本モデルは複雑なエージェント構築において最も強力であり、コンピュータ操作においても最高の性能を発揮する。さら...
GPT-5、5.1、5.2

GPT-5が我々のテストを破綻させた

OpenAIが発表したGPT-5の性能を徹底検証する動画である。プラネット生成、ビジネス推論、迷路解法の3つのテストを実施し、従来のモデルと比較して大幅な性能向上を確認した。特に3Dプラネットの生成では雲の動きや地形の詳細表現で卓越した結果...
AI推論・CoT

GLM 4.5 vs GLM 4.5 AIR: テスト(推論)

この動画は、ZhipuAIが開発したGLM 4.5とその軽量版GLM 4.5 AIRの推論能力を詳細に検証したテストである。同じ論理パズルを両モデルに与えて解答プロセスを比較した結果、興味深い現象が観察された。大型モデルのGLM 4.5は人...
AIベンチマーク

OpenAI o3-Pro、Claude Opus 4、Gemini 2.5 Proの空間推論+微積分テスト

この動画は、OpenAI o3-Pro、Claude Opus 4、Gemini 2.5 Proという最新のAIモデルを用いて、空間推論能力と微積分問題の解決能力を比較検証する実験的な配信である。配信者は迷路パズルと複雑な多次元積分問題を各...
AGI・ASI

OpenAIが再び首位に返り咲き

OpenAIがo3 Proをリリースし、標準のo3モデルの価格を80%削減したことで、AI業界の価格競争が激化している。o3 Proは非常に高性能だが推論時間が長く、従来のチャット用途よりもレポート生成や深い分析に適している。価格変更により...