SWEBench

GPT-5.2が全員を驚愕させた

OpenAIが新たにリリースしたGPT-5.2は、プロフェッショナルな知識労働と長時間稼働するエージェント向けに構築された最先端のフロンティアモデルである。GDP valベンチマークで70.9%を記録し、実際の業界専門家を上回る性能を示して...

2025.12.12

GPT-5、5.1、5.2

Anthropicが最新のフロンティアモデルClaude Opus 4.5をリリースした。Gemini 3やCodex Maxの発表から1週間も経たないうちの登場である。ベンチマークによれば、Opus 4.5はコーディング、エージェント、コ...

2025.11.25

Anthropic・Claude・ダリオアモデイ

Anthropicが新たにリリースしたClaude Opus 4.5は、コーディングにおいて過去最高の性能を発揮する大規模言語モデルとなった。従来のOpusモデルから価格が3分の1に削減されながら、トークン使用効率が大幅に向上し、SWEBe...

2025.11.25

Anthropic・Claude・ダリオアモデイ

本動画では、OpenAIの最新モデルGPT-5.1の実際の開発現場での使用感について、率直かつ批判的なレビューを展開している。表面的なベンチマーク結果では高評価を得ているGPT-5.1だが、実際のコーディング作業においては期待外れの結果が多...

2025.11.18

GPT-5、5.1、5.2

AnthropicがリリースしたClaude Sonnet 4.5は、単なる性能向上ではなく、コーディング能力における大きな飛躍を遂げたモデルである。最大の特徴は30時間以上にわたって自律的に思考し続ける能力であり、これはエージェント型AI...

2025.10.02

Anthropic・Claude・ダリオアモデイ

この動画では、Abacus AIが開発したDeep Agent Desktopという新しいコーディングエージェントについて解説している。このエージェントは主要ベンチマークでGPT-5 CodexやClaude Codeを上回る性能を記録し、...

2025.09.28

AIエージェント