モデルベンチマーク

新GPT-5.2:完全なる大惨事

OpenAIの最新モデルGPT-5.2が1年間使用されてきた標準的な因果推論テストに挑戦した結果、驚くべき挫折を見せた。このテストは0階から50階までのエレベータシステムにおける複雑な制約条件下での論理パズルであり、従来の他のAIモデルは解...

2025.12.12

GPT-5、5.1、5.2

Googleが発表したGemini 3は、独立ベンチマークで初めて首位を獲得し、業界に衝撃を与えた。Artificial Analysisの評価では、Gemini 3はGPT-5.1に対して3ポイントのバッファを持ち、10のベンチマークのう...

2025.11.20

Google・DeepMind・Alphabet

本動画では、OpenAIの最新モデルGPT-5.1の実際の開発現場での使用感について、率直かつ批判的なレビューを展開している。表面的なベンチマーク結果では高評価を得ているGPT-5.1だが、実際のコーディング作業においては期待外れの結果が多...

2025.11.18

GPT-5、5.1、5.2

2025年3月にリリースされたGemini 2.5 Pro以降、Meta、Anthropic、OpenAIなど競合各社が次々と新モデルを発表する中、GoogleのGemini 3は依然として姿を現していない。リーク情報や偽スクリーンショット...

2025.11.10

Google・DeepMind・Alphabet

この動画は、Amazon Bedrockを使用してLLM（大規模言語モデル）の評価システムを簡単に構築する方法を詳細に解説したチュートリアルである。特にRAG（Retrieval-Augmented Generation）評価に焦点を当て、...

2025.06.19

AIベンチマークLLM・言語モデル