ARC AGI

GPT-5、5.1、5.2

このテストはAIをブロックするために作られた — GPT-5がついに突破した

GPT-5がARC AGI 2という最難関ベンチマークで人間レベルに到達した。このベンチマークは抽象推論と流動性知能を測定するもので、人間の平均スコアは約60%であるのに対し、ポエティック社の最新GPT-5バージョンは約75%を達成した。こ...
GPT-5、5.1、5.2

GPT-5.2 Codexが凄すぎる件(私のワークフローを公開)

OpenAIのGPT-5.2 Codexを実際に使用した開発者が、その圧倒的な性能と具体的な活用方法を解説する動画である。ARC AGI 2ベンチマークで人間のベースラインを15%上回るという驚異的な結果を示したGPT-5.2は、LLMが苦...
AIベンチマーク

AIは実際どれほど知的なのか?

ARCプライズ財団のプレジデントであるグレッグ・カムラッドが、AI知能測定の新たなアプローチについて語る。フランソワ・シャレが2019年に提唱した「知能とは新しいことを効率的に学習する能力である」という定義に基づき、ARC AGIベンチマー...
GPT-5、5.1、5.2

GPT-5.2をテストしてみたが、その性能は狂気じみている…

OpenAIが突如リリースしたGPT-5.2は、GPT-5本体よりも重要な意味を持つ画期的なアップデートである。GoogleのGemini 3リリースを受けて始動した「コードレッド」イニシアチブの成果として、GPT-5.2はGemini 3...
GPT-5、5.1、5.2

OpenAI が GPT-5.2 をリリース…すごい

OpenAI が GPT-5.2 をリリースし、前バージョンの 5.1 から大幅な性能向上を実現した。SweetBench Pro や ARC AGI 2 など複数のベンチマークで最先端のスコアを記録し、特に ARC AGI 2 では 17...
GPT-5、5.1、5.2

GPT-5.2が全員を驚愕させた

OpenAIが新たにリリースしたGPT-5.2は、プロフェッショナルな知識労働と長時間稼働するエージェント向けに構築された最先端のフロンティアモデルである。GDP valベンチマークで70.9%を記録し、実際の業界専門家を上回る性能を示して...
GPT-5、5.1、5.2

GPT-5.2は史上最高のモデルである

OpenAIが新たにリリースしたGPT-5.2は、コード生成やARC AGIベンチマークにおいて驚異的な性能を示す一方で、3次元空間理解などの特定領域では前世代モデルから大幅に後退している。Matt Schumerをはじめとする早期アクセス...
GPT-5、5.1、5.2

OpenAIがプロフェッショナル用途向けの最強AIモデルGPT-5.2を発表

OpenAIが発表したGPT-5.2は、プロフェッショナル業務における日常的な作業に特化した最強のAIモデルである。前バージョンのGPT-5.1から劇的な性能向上を遂げ、ソフトウェアエンジニアリング、科学的質問への回答、数学問題などあらゆる...
Anthropic・Claude・ダリオアモデイ

Claude Opus 4.5が人間の領域に踏み込んだ瞬間

AnthropicがリリースしたClaude Opus 4.5は、自律型コーディングで80.9%という驚異的なスコアを記録し、エージェントAIの世界的リーダーとしての地位を確立した。Gemini 3 Proのリリースからわずか2日後という驚...
Anthropic・Claude・ダリオアモデイ

Claude Opus 4.5がGemini 3を打ち負かした…どうやって?!

AnthropicがリリースしたClaude Opus 4.5は、数日前に発表されたばかりのGoogleのGemini 3 Proと激しい競争を繰り広げている。コーディング能力を測るSWE検証ベンチマークではOpus 4.5が80.9を記録...
Anthropic・Claude・ダリオアモデイ

Anthropicが勝利した。これが私の新しいお気に入りモデルです(ごめんねGemini…)

Anthropicが新たにリリースしたClaude Opus 4.5は、コーディングにおいて過去最高の性能を発揮する大規模言語モデルとなった。従来のOpusモデルから価格が3分の1に削減されながら、トークン使用効率が大幅に向上し、SWEBe...
Google・DeepMind・Alphabet

GoogleがGemini 3で世界最高峰のAIを開発

Googleが新たに発表したGemini 3は、マルチモーダル理解において世界最高峰の性能を誇り、特にエージェント型タスクとバイブコーディングにおいて他のフロンティアモデルを圧倒している。Gemini 3 Proは主要なベンチマークで最先端...
LLM・言語モデル

この小型モデルは異常だ…(700万パラメータ)

わずか700万パラメータという超小型のAIモデルが、Gemini 2.5 ProやDeepSeek R1などの最先端大規模モデルを最難関の推論ベンチマークで上回るという驚異的な成果を達成した。Samsungの研究者が提案したTRM(Tiny...
ロボット

AI現況報告2025:GPT-5は03に勝てず、家庭用ロボットの到来と偽のVeo 3.1の噂

2025年のAI業界における最新動向を包括的に解説する動画である。Figure Roboticsの第3世代ヒューマノイドロボットFigure03の発表、GPT-5 ProとGrok 4のArc AGIベンチマークにおける性能比較、Anthr...
AIベンチマーク

ブラジル人がAI世界ランキングトップ10入り!Kaggleで快挙 | Qwen 3がARC AGIで躍進

ブラジル人のエンジニアがKaggleのAI競技で50,000ドルを獲得した事例を通じて、小規模でオープンなAIモデルが大手モデルと競合できるレベルに到達していることを解説した動画である。Qwen 3のような無料モデルがARC AGIベンチマ...