AI性能テスト

Google・DeepMind・Alphabet

GoogleのGemini 3 Flashが驚きの性能を発揮 – これまでにない高速、低コスト、高知能を実現

Googleが新たにリリースしたGemini 3 Flashは、高速性と低コストを実現しながらGemini 3 Proに匹敵する知能を備えた画期的なモデルである。本動画では、リアルタイムでの複数バージョン生成によるA/Bテスト、ゲームプレイ...
Google・DeepMind・Alphabet

127秒で見るGemini 3 Pro

Googleの最新AI推論モデルGemini 3 Proの実力を、独自の複雑な論理テストで検証する動画である。外部ベンチマークやスコアボードには頼らず、多層的な依存関係を持つ難解な論理パズルを用いた実践テストを実施。Gemini 3 Pro...
GPT-5、5.1、5.2

ChatGPT 5.1の実力テストと2025年最高のAIはどれか

OpenAIが新たにリリースしたChatGPT 5.1の性能を実際にテストし、ゲーム制作、ウェブサイト構築、SVG描画、3D生成など多様なタスクで評価を行った。さらにAIエージェント機能を用いた旅行計画の実験も実施し、航空券やホテル検索にお...
Anthropic・Claude・ダリオアモデイ

「おっと…何かがうまくいきませんでした」(SONNET 4.5 THINK 32K)

本動画では、Anthropic社の最新モデルClaude Sonnet 4.5(32K推論版)の性能検証を行い、驚くべき問題点を明らかにしている。AGI 2リーダーボードでは高スコアを記録しているものの、実際の複雑な論理推論タスクにおいて、...
GPT-5、5.1、5.2

GPT-5 Proは200ドルの価値があるか?実際に検証してみよう

この動画は、OpenAIの最新プレミアムモデルであるGPT-5 Proの性能を月額200ドルの価格に見合うかどうか検証するレビューである。惑星生成、都市シミュレーション、ビジネス分析など複数のタスクで従来モデルと比較し、長い思考時間による高...
AIハード・GPU・RAM

AMD上でのOpenAI GPT-120Bテスト

この動画では、AMD MI300Xサーバー上で動作するOpenAIのGPT-120BオープンウェイトモデルのテストがHugging Faceスペースで実施される。投稿者はまず、AMD MI300XとFrameworkの300シリーズの違いを...
イーロンマスク・テスラ・xAI

Grok 4の論理推論テスト:実際の検証 – パート2

この動画では、xAIの新しいモデルであるGrok 4の論理推論能力を詳細にテストしている。エレベーターのボタン押下回数を最小化する因果推論テストにおいて、Grok 4が最初の19ステップ解答から、数時間の最適化作業を経て最終的に8ステップま...