ARC AGI

史上最強のAIモデルがリーク…Claude Mythosとは何か

AnthropicのClaude Mythosと呼ばれる新型AIモデルのリーク情報が流出し、AI業界全体が大きな動きを見せている。リークされた文書によると、Claude MythosはOpusモデルを大きく上回る性能を持ち、特にサイバーセキ...

2026.03.29

Anthropic・Claude・ダリオアモデイ

ARC AGI 3がついに登場、それがAGIにとって意味するもの

本動画は、AIの汎化能力を測定するベンチマーク「ARC AGI」の最新版である「ARC AGI 3」について解説したものである。人間にとって容易だがAIには困難なこのテストのこれまでのバージョンを振り返りつつ、新たに導入されたインタラクティ...

2026.03.28

AIベンチマーク

GoogleのAGI計画がより明確に(デミス・ハサビスが解説)

Googleの共同創業者でありDeepMindのCEOであるデミス・ハサビスが、AGIの真の定義と測定方法について新たな見解を示した。彼は1911年までの知識でAIを訓練し、1915年にアインシュタインが発見した一般相対性理論を導き出せるか...

2026.03.02

AGI・ASI

GoogleがGemini 3.1をリリース…（これはすごい）

GoogleがGemini 3.1 Proを正式リリースした。SVG生成能力の大幅な向上が目を引き、ARC-AGI 2では77.1%というスコアでGemini 3 Proの2倍以上を記録し、他モデルを圧倒している。Humanity's La...

2026.02.21

Google・DeepMind・Alphabet

OpenAIがGPT HEALTHを発表、人々は騒然としている

OpenAIが医療記録とウェルネスアプリを統合できるChatGPT Healthをリリースし、世界で週に2億3000万人が健康相談に利用する巨大市場に本格参入した。同時に実際のオフィス業務データで訓練された業務自動化システムの開発も進行中で...

2026.01.13

OpenAI・サムアルトマン

このテストはAIをブロックするために作られた — GPT-5がついに突破した

GPT-5がARC AGI 2という最難関ベンチマークで人間レベルに到達した。このベンチマークは抽象推論と流動性知能を測定するもので、人間の平均スコアは約60%であるのに対し、ポエティック社の最新GPT-5バージョンは約75%を達成した。こ...

2026.01.02

GPT-5

GPT-5.2 Codexが凄すぎる件(私のワークフローを公開)

OpenAIのGPT-5.2 Codexを実際に使用した開発者が、その圧倒的な性能と具体的な活用方法を解説する動画である。ARC AGI 2ベンチマークで人間のベースラインを15%上回るという驚異的な結果を示したGPT-5.2は、LLMが苦...

2025.12.30

GPT-5

AIは実際どれほど知的なのか?

ARCプライズ財団のプレジデントであるグレッグ・カムラッドが、AI知能測定の新たなアプローチについて語る。フランソワ・シャレが2019年に提唱した「知能とは新しいことを効率的に学習する能力である」という定義に基づき、ARC AGIベンチマー...

2025.12.18

AIベンチマーク

GPT-5.2をテストしてみたが、その性能は狂気じみている…

OpenAIが突如リリースしたGPT-5.2は、GPT-5本体よりも重要な意味を持つ画期的なアップデートである。GoogleのGemini 3リリースを受けて始動した「コードレッド」イニシアチブの成果として、GPT-5.2はGemini 3...

2025.12.13

GPT-5

OpenAI が GPT-5.2 をリリース…すごい

OpenAI が GPT-5.2 をリリースし、前バージョンの 5.1 から大幅な性能向上を実現した。SweetBench Pro や ARC AGI 2 など複数のベンチマークで最先端のスコアを記録し、特に ARC AGI 2 では 17...

2025.12.12

GPT-5

GPT-5.2が全員を驚愕させた

OpenAIが新たにリリースしたGPT-5.2は、プロフェッショナルな知識労働と長時間稼働するエージェント向けに構築された最先端のフロンティアモデルである。GDP valベンチマークで70.9%を記録し、実際の業界専門家を上回る性能を示して...

2025.12.12

GPT-5

GPT-5.2は史上最高のモデルである

OpenAIが新たにリリースしたGPT-5.2は、コード生成やARC AGIベンチマークにおいて驚異的な性能を示す一方で、3次元空間理解などの特定領域では前世代モデルから大幅に後退している。Matt Schumerをはじめとする早期アクセス...

2025.12.12

GPT-5

OpenAIがプロフェッショナル用途向けの最強AIモデルGPT-5.2を発表

OpenAIが発表したGPT-5.2は、プロフェッショナル業務における日常的な作業に特化した最強のAIモデルである。前バージョンのGPT-5.1から劇的な性能向上を遂げ、ソフトウェアエンジニアリング、科学的質問への回答、数学問題などあらゆる...

2025.12.12

GPT-5

Claude Opus 4.5が人間の領域に踏み込んだ瞬間

AnthropicがリリースしたClaude Opus 4.5は、自律型コーディングで80.9%という驚異的なスコアを記録し、エージェントAIの世界的リーダーとしての地位を確立した。Gemini 3 Proのリリースからわずか2日後という驚...

2025.11.27

Anthropic・Claude・ダリオアモデイ

Claude Opus 4.5がGemini 3を打ち負かした…どうやって?!

AnthropicがリリースしたClaude Opus 4.5は、数日前に発表されたばかりのGoogleのGemini 3 Proと激しい競争を繰り広げている。コーディング能力を測るSWE検証ベンチマークではOpus 4.5が80.9を記録...

2025.11.25

Anthropic・Claude・ダリオアモデイ

Anthropicが勝利した。これが私の新しいお気に入りモデルです(ごめんねGemini…)

Anthropicが新たにリリースしたClaude Opus 4.5は、コーディングにおいて過去最高の性能を発揮する大規模言語モデルとなった。従来のOpusモデルから価格が3分の1に削減されながら、トークン使用効率が大幅に向上し、SWEBe...

2025.11.25

Anthropic・Claude・ダリオアモデイ

GoogleがGemini 3で世界最高峰のAIを開発

Googleが新たに発表したGemini 3は、マルチモーダル理解において世界最高峰の性能を誇り、特にエージェント型タスクとバイブコーディングにおいて他のフロンティアモデルを圧倒している。Gemini 3 Proは主要なベンチマークで最先端...

2025.11.19

Google・DeepMind・Alphabet

この小型モデルは異常だ…(700万パラメータ)

わずか700万パラメータという超小型のAIモデルが、Gemini 2.5 ProやDeepSeek R1などの最先端大規模モデルを最難関の推論ベンチマークで上回るという驚異的な成果を達成した。Samsungの研究者が提案したTRM(Tiny...

2025.10.11

LLM・言語モデル

AI現況報告2025:GPT-5は03に勝てず、家庭用ロボットの到来と偽のVeo 3.1の噂

2025年のAI業界における最新動向を包括的に解説する動画である。Figure Roboticsの第3世代ヒューマノイドロボットFigure03の発表、GPT-5 ProとGrok 4のArc AGIベンチマークにおける性能比較、Anthr...

2025.10.10

ロボット

ブラジル人がAI世界ランキングトップ10入り！Kaggleで快挙 | Qwen 3がARC AGIで躍進

ブラジル人のエンジニアがKaggleのAI競技で50,000ドルを獲得した事例を通じて、小規模でオープンなAIモデルが大手モデルと競合できるレベルに到達していることを解説した動画である。Qwen 3のような無料モデルがARC AGIベンチマ...

2025.07.25

AIベンチマーク