モデルベンチマーク

GPT-5、5.1、5.2

新GPT-5.2:完全なる大惨事

OpenAIの最新モデルGPT-5.2が1年間使用されてきた標準的な因果推論テストに挑戦した結果、驚くべき挫折を見せた。このテストは0階から50階までのエレベータシステムにおける複雑な制約条件下での論理パズルであり、従来の他のAIモデルは解...
Google・DeepMind・Alphabet

業界がGemini 3に反応する様子

Googleが発表したGemini 3は、独立ベンチマークで初めて首位を獲得し、業界に衝撃を与えた。Artificial Analysisの評価では、Gemini 3はGPT-5.1に対して3ポイントのバッファを持ち、10のベンチマークのう...
GPT-5、5.1、5.2

GPT-5.1は史上最高のコードモデルなのか?

本動画では、OpenAIの最新モデルGPT-5.1の実際の開発現場での使用感について、率直かつ批判的なレビューを展開している。表面的なベンチマーク結果では高評価を得ているGPT-5.1だが、実際のコーディング作業においては期待外れの結果が多...
Google・DeepMind・Alphabet

一体どこにあるんだ、Gemini 3は?

2025年3月にリリースされたGemini 2.5 Pro以降、Meta、Anthropic、OpenAIなど競合各社が次々と新モデルを発表する中、GoogleのGemini 3は依然として姿を現していない。リーク情報や偽スクリーンショット...
AIベンチマーク

LLM評価を簡単に設定する方法(チュートリアル)

この動画は、Amazon Bedrockを使用してLLM(大規模言語モデル)の評価システムを簡単に構築する方法を詳細に解説したチュートリアルである。特にRAG(Retrieval-Augmented Generation)評価に焦点を当て、...