AI性能評価

AIは96%の仕事で失敗する(最新研究)

本動画は、AIが実際の仕事でどれほど機能するかを検証した最新研究を紹介している。研究では実際のフリーランス案件240件をAIモデルに与え、人間の成果物と比較したところ、最高性能のClaude Opus 4.5でさえ成功率はわずか3.75%、...

2026.02.14

AI活用・導入

GLM-5は信じられない(Opusの20%のコストで?)

中国のZhipu AIが発表したGLM-5は、オープンウェイトモデルとして驚異的な性能を示している。744億パラメータ(40億アクティブ)の大規模モデルでありながら、Claude Opus 4.5やCodex 5.2といった最高峰のクローズ...

2026.02.12

オープンソース・オープンウェイト

GPT-5.3 Codexが圧倒的性能を発揮 OpenAI最強モデルはOpus 4.6に勝てるのか完全検証

OpenAIが静かにリリースしたGPT-5.3 Codexは、同社史上最も優れたエージェンティック・コーディングモデルである。AnthropicのOpus 4.6と同日にリリースされたこのモデルは、従来比25%高速化し、Swaybench ...

2026.02.08

GPT-5、5.1、5.2、5.3

Claude Opus 4.6思考型vs非思考型リアルタイム比較テスト

AnthropicがリリースしたClaude Opus 4.6について、思考型(Thinking)と非思考型(Non-Thinking)の2つのバージョンを独自の論理推論テストで比較検証した動画である。テスト内容は制約条件付きエレベーター問...

2026.02.06

Anthropic・Claude・ダリオアモデイ

このテストはAIをブロックするために作られた — GPT-5がついに突破した

GPT-5がARC AGI 2という最難関ベンチマークで人間レベルに到達した。このベンチマークは抽象推論と流動性知能を測定するもので、人間の平均スコアは約60%であるのに対し、ポエティック社の最新GPT-5バージョンは約75%を達成した。こ...

2026.01.02

GPT-5、5.1、5.2、5.3

DeepSeek 3.2 vs MiniMax M2(一文テスト)

本動画は、シンプルな一文の論理テストを用いて、DeepSeek 3.2、MiniMax M2、GPT-5.2という3つの大規模言語モデルの推論能力を比較検証する実験である。課題は「physics」という単語を、複数の単語から指定された位置の...

2025.12.24

AIベンチマーク

誰もが新しいChatGPTを嫌っている…次はどうなる?

OpenAIがリリースしたGPT-5.2に対して多くのパワーユーザーから批判が噴出している状況を分析した動画である。Googleの Gemini 3への対抗としてリリースされたこのモデルは、ベンチマーク上では優秀な成績を示しているものの、実...

2025.12.20

GPT-5、5.1、5.2、5.3

GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著...

2025.12.15

GPT-5、5.1、5.2、5.3

GPT-5.2が全員を驚愕させた

OpenAIが新たにリリースしたGPT-5.2は、プロフェッショナルな知識労働と長時間稼働するエージェント向けに構築された最先端のフロンティアモデルである。GDP valベンチマークで70.9%を記録し、実際の業界専門家を上回る性能を示して...

2025.12.12

GPT-5、5.1、5.2、5.3

DeepSeekの驚くべき進化 2025年版

本動画は、中国のAIモデルDeepSeekの2025年における驚異的な進化を、具体的なコード生成タスクを通じて検証するものである。8月のバージョン3.1から12月の3.2に至るまで、わずか数ヶ月の間にウェブサイト生成、画像生成、特に3Dゲー...

2025.12.04

LLM・言語モデル

壁は存在しない:Gemini 3があなたの仕事にとって本当に意味するもの

Gemini 3が明確な世界ナンバーワンモデルとして登場し、あらゆるベンチマークで他を圧倒している。数学、科学、視覚的推論、スクリーン認識など幅広い領域で大幅な進歩を見せ、特に視覚理解とマルチモーダル能力において顕著な飛躍を遂げた。これは「...

2025.11.20

Google・DeepMind・Alphabet

Gemini 3が恐ろしいほど優秀になった

Googleが発表したGemini 3は、従来モデルから大幅な性能向上を遂げた次世代大規模言語モデルである。Vending Bench 2やARC AGI 2などの複数のベンチマークにおいて、Claude Sonnet 4.5やGPT-5....

2025.11.19

Google・DeepMind・Alphabet

ディープリサーチエージェント:新たなベンチマーク

本動画は、AI金融分析における「ディープリサーチエージェント」の実世界性能を、合成データではなく実際の上場企業64社のデータを用いて徹底評価した最新研究を紹介している。シンガポール国立大学らによる2025年10月発表の研究では、4言語8市場...

2025.10.23

AIベンチマーク

4分で分かるClaude Sonnet 4.5の全て!

AnthropicがリリースしたClaude Sonnet 4.5は、現時点で世界最高のコーディングモデルとして注目されている。ソフトウェアエンジニアリングの主要ベンチマークであるSweep Bench Verifiedで82%のスコアを記...

2025.09.30

Anthropic・Claude・ダリオアモデイ

衝撃のClaude Sonnet 4.5失敗(推論)

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順...

2025.09.30

Anthropic・Claude・ダリオアモデイ

OpenAI、GPT-5が仕事を自動化できるかテスト – 4つの予想外の発見

OpenAIが実施した最新研究では、現在の言語モデルが人間の仕事をどの程度自動化できるかを検証している。業界専門家が設計したタスクを用いた評価では、Claude Opus 4.1がOpenAIのモデルを上回り、専門家レベルに近づいているとい...

2025.09.27

GPT-5、5.1、5.2、5.3

とんでもない！中国がこのリリースでトップモデルを破壊する！

中国Alibaba Cloudが開発したQwen 3VLは、2350億パラメータを誇る大規模視覚言語モデルであり、オープンソースとして公開された最大級のマルチモーダルAIである。本モデルはGemini 2.5 ProやClaude 4.1 ...

2025.09.24

中国

Qwen3 NEXT A3B：推論とMCPツールの可能性は？

この動画では、新しいオープンソース推論モデルQwen3 Nextの性能を、複雑な因果推論テストで徹底評価している。80億パラメータのMixture of Expertsアーキテクチャながら、実際に訓練可能なのは30億パラメータのみという効率...

2025.09.16

LLM・言語モデル

新しいDeepSeek 3.1が従来バージョンを上回る性能を発揮し、中国がAI競争を継続していることを証明

この動画では、中国のDeepSeekが新たにリリースしたDeepSeek 3.1モデルについて詳細に解説している。DeepSeek 3.1は推論機能と非推論機能を切り替え可能なハイブリッド推論モデルであり、前バージョンと比較してソフトウェア...

2025.08.22

中国

GPT-5 MCP大惨事：50%以下でCURSOR使えへん？

この動画では、Salesforce AIが発表したMCP Universe benchmarkについて詳しく解説されている。モデルコンテクストプロトコル（MCP）を使用したエージェントAIシステムの実際のパフォーマンスを、GPT-5やCla...

2025.08.22

GPT-5、5.1、5.2、5.3

GPT-5：過小評価か過大評価か？（私が見ているものはこれだ）

この動画は、OpenAIの最新モデルGPT-5に対する詳細な分析と評価である。投稿者は初回のライブストリーム配信では期待を下回る印象を受けたものの、実際に使用してみると従来モデルでは解決できない問題を解決できることを発見した。特に注目すべき...

2025.08.19

GPT-5、5.1、5.2、5.3

なぜみんながGPT-5を嫌うのか（そして修正方法）

この動画は、OpenAIが発表したGPT-5に対する激しい批判とその検証を扱った詳細な分析である。発表当初から多くのユーザーが性格の変化、精度の低下、コーディング能力の劣化などを指摘し、「史上最悪のモデル」とまで酷評された。投稿者は実際にG...

2025.08.14

GPT-5、5.1、5.2、5.3

GPT-5：使うべきか？（ライブテスト）

この動画は、リリース直後のGPT-5を用いた因果推論テストの実証実験である。制作者が独自に開発した複雑な論理パズルを使用し、GPT-5の推論能力をGemini 2.5 Pro、Claude Opus 4、o3などの他の最先端AIモデルと比較...

2025.08.08

GPT-5、5.1、5.2、5.3

GPT-5完全テスト済み（狂気レベル）

この動画では、最新のGPT-5を約1週間にわたって徹底的にテストし、その驚異的な性能を様々な角度から検証している。ルービックキューブの3Dシミュレーション、Excel・WordクローンのWebアプリケーション作成、物理シミュレーション、フロ...

2025.08.08

GPT-5、5.1、5.2、5.3

GPT-o1-120B：OpenAI – これを修正せよ！

OpenAIの新しいオープンソース推論モデル「GPT-o1-120B」について、実際の性能テストを通じてその能力と問題点を検証した動画である。従来の批判を受けてOpenAI公式プレイグラウンドでテストを実施し、推論過程の可視化機能や回答生成...

2025.08.07

オープンソース・オープンウェイト

Grok 4は本当に賢い…本当に本当に賢い

この動画は、xAIが新たにリリースしたGrok 4について詳細に解説したものである。Grok 4は現在世界最高レベルの性能を誇るAIモデルとして、様々なベンチマークテストで他の最先端モデルを大幅に上回る結果を示している。特に強化学習と検証可...

2025.07.11

イーロンマスク・テスラ・xAI音声読み上げあり

AI性能評価

AIは96%の仕事で失敗する(最新研究)

GLM-5は信じられない(Opusの20%のコストで?)

GPT-5.3 Codexが圧倒的性能を発揮 OpenAI最強モデルはOpus 4.6に勝てるのか 完全検証

Claude Opus 4.6思考型vs非思考型 リアルタイム比較テスト

このテストはAIをブロックするために作られた — GPT-5がついに突破した

DeepSeek 3.2 vs MiniMax M2(一文テスト)

誰もが新しいChatGPTを嫌っている…次はどうなる?

GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5.2が全員を驚愕させた

DeepSeekの驚くべき進化 2025年版

壁は存在しない:Gemini 3があなたの仕事にとって本当に意味するもの

Gemini 3が恐ろしいほど優秀になった

ディープリサーチエージェント:新たなベンチマーク

4分で分かるClaude Sonnet 4.5の全て!

衝撃のClaude Sonnet 4.5失敗(推論)

OpenAI、GPT-5が仕事を自動化できるかテスト – 4つの予想外の発見

とんでもない！中国がこのリリースでトップモデルを破壊する！

Qwen3 NEXT A3B：推論とMCPツールの可能性は？

新しいDeepSeek 3.1が従来バージョンを上回る性能を発揮し、中国がAI競争を継続していることを証明

GPT-5 MCP大惨事：50%以下でCURSOR使えへん？

GPT-5：過小評価か過大評価か？（私が見ているものはこれだ）

なぜみんながGPT-5を嫌うのか（そして修正方法）

GPT-5：使うべきか？（ライブテスト）

GPT-5完全テスト済み（狂気レベル）

GPT-o1-120B：OpenAI – これを修正せよ！

Grok 4は本当に賢い…本当に本当に賢い

GPT-5.3 Codexが圧倒的性能を発揮 OpenAI最強モデルはOpus 4.6に勝てるのか完全検証

Claude Opus 4.6思考型vs非思考型リアルタイム比較テスト