ベンチマーク

GPT-5

OpenAIのGPT-5.4は最強だがその座を守れるか

OpenAIが新たな最先端モデルGPT-5.4をリリースし、コンピュータ使用能力において平均的な人間を上回る性能を達成した。一方、AnthropicのCEOダリオ・アモデイは、自律兵器使用と国民監視という2つのレッドラインを守るため国防総省...
GPT-5

GPT-5.4は本当に、本当に優秀だ

GPT-5.4は、OpenAIが投入した最新の思考型モデルであり、コーディング、推論、エージェント型ワークフローにおいて従来モデルを大きく上回る性能を発揮する。従来のCodexシリーズは終焉を迎え、5.4では推論トークン効率が劇的に改善され...
GPT-5

GPT-5.4 壁は見えない

OpenAIがGPT-5.4をリリースし、人間の専門家を上回る性能を示し始めている。特筆すべきは、モデルに初めてネイティブなコンピュータ使用機能が組み込まれた点である。GPDP-valベンチマークでは82%の勝率またはタイ率を記録し、純粋な...
GPT-5

GPT-5.4が登場——そしてあなたのコンピュータを制御できる!

OpenAIが新たにリリースしたGPT-5.4は、ネイティブなコンピュータ制御機能を搭載した初のOpenAIモデルである。100万トークンのコンテキストウィンドウを持ち、OS Worldベンチマークで人間のパフォーマンスを上回る75%を記録...
AGI・ASI

GoogleのAGI計画がより明確に(デミス・ハサビスが解説)

Googleの共同創業者でありDeepMindのCEOであるデミス・ハサビスが、AGIの真の定義と測定方法について新たな見解を示した。彼は1911年までの知識でAIを訓練し、1915年にアインシュタインが発見した一般相対性理論を導き出せるか...
Google・DeepMind・Alphabet

Gemini 3.1 Pro:誰も予想しなかったモデル

GoogleがGemini 3 Proの大型アップグレードとなるGemini 3.1 Proをリリースした。ベンチマークでは推論・エージェント型コーディングにおいて他社モデルを上回る結果を示しており、コストパフォーマンスの高さも特筆される。...
Anthropic・Claude・ダリオアモデイ

AnthropicがSonnet 4.6をリリースしました…

本動画は、Anthropic社が新たに発表したAIモデル「Claude Sonnet 4.6」の機能と各種ベンチマーク結果について詳しく解説するものである。前モデルのSonnet 4.5からコーディング能力やツール使用、エージェント機能が大...
Anthropic・Claude・ダリオアモデイ

Claude 4.6 Sonnet登場 ― コーディングにおいて驚異的な性能を誇る新モデル

Anthropic社から新たに発表された「Claude 4.6 Sonnet」についての解説である。本モデルは、上位モデルであるClaude 4.6 Opusに匹敵する性能を持ちながら、Sonnetクラスのコストパフォーマンスを実現している...
Anthropic・Claude・ダリオアモデイ

Claude Sonnet 4.6:史上最高のAIコーディングモデルが登場!100万コンテキスト、低価格、その他驚きの機能を徹底検証

本動画は、Anthropic社から突如発表された最新AIモデル「Claude Sonnet 4.6」の画期的な能力について、詳細な検証と実機デモを交えて解説したものである。これまでのモデルを遥かに凌駕するコーディング能力、100万トークンの...
Google・DeepMind・Alphabet

誰も語らない100倍のAIブレークスルー

Googleが発表したGemini Deep Thinkの最新版は、単なるベンチマークスコアの向上以上の意味を持つ。本リリースには3つの異なる要素が含まれている。消費者向けのDeep Think Version 2、研究エージェントElit...
Google・DeepMind・Alphabet

Gemini 3 Deep Thinkが凄すぎる!史上最高のAIモデル(実機テスト)

GoogleがGemini 3.1 Proの代わりに発表したGemini 3 Deep Thinkは、同社史上最も高度な推論特化型モデルである。科学、数学、研究、エンジニアリング、複雑なコーディングにおいて多段階の思考連鎖推論に最適化されて...
Anthropic・Claude・ダリオアモデイ

Opus 4.6が示した狂気じみた能力

Claude Opus 4.6が示した驚異的なテキスト解析能力を起点に、現代のAI評価における根本的な問題点を指摘する考察である。AIモデルは人間のようなバランスの取れた能力分布ではなく、特定領域に極端に特化した「スパイキー」な能力分布を持...
AI競争

最高のAIモデル兼ライバルである2つのモデルが同時にリリースされた

OpenAIとAnthropicが26分の時差で発表した最新の大規模言語モデル、GPT-5.3とClaude Opus 4.6の詳細な比較分析である。両モデルは知識労働やコーディングにおいて高い性能を示すが、Opus 4.6は過度に積極的な...
Anthropic・Claude・ダリオアモデイ

Claude Opus 4.6を8分で解説

AnthropicがClaude Opus 4.6をリリースした。このモデルの最大の特徴は100万トークンのコンテキストウィンドウを持つ初のOpusモデルであること、エージェントチームによる複数エージェントの協調作業が可能なこと、そして長文...
ソフトウェア開発・プログラミング

AIに最適なプログラミング言語とは

Tencentが開発したAutocodebenchというベンチマークを用いて、各種プログラミング言語がAIモデルにとってどれほど扱いやすいかを検証した結果、意外な言語が上位にランクインした。一般的な予想ではRustやTypeScriptが優...
GPT-5

GPT 5.3 Garlicの全貌:AI未来に関する既知の情報 – リーク、噂、そして機能

OpenAIの次期モデルGPT 5.3、コードネーム「Garlic」とされるこのモデルについて、公式発表は一切ないものの、業界関係者からの一貫したリーク情報が相次いでいる。2026年第1四半期のリリースが予想され、40万トークンという大幅に...
RAG

RAGの崩壊 知識の衝突がある状況下での推論

RAGシステムや文脈内学習を通じて最新情報を提供しても、大規模言語モデルは必ずしもその新しい知識を多段階の推論チェーンに統合できないことが明らかになった。スイス連邦工科大学ローザンヌ校とストーニーブルック大学の最新研究は、LLMが新しい外部...
Anthropic・Claude・ダリオアモデイ

Anthropicのベンチマークがすべてを変える—ほとんどの人が見逃す理由

本動画では、AI研究評価機関METRが発表した最新ベンチマーク結果を通じて、AIエージェントが超指数関数的な成長曲線を描いていることを解説する。Claude Opus 4.5は約5時間の人間相当の作業を50%の成功率で実行できるようになり、...
AGI・ASI

この新しいベンチマークは次元が違うほど狂っている

Anon Labsが開発したVending BenchとClaudiusは、AIモデルの実世界での自律性を測定する革新的なベンチマークである。仮想環境でのシミュレーションから始まり、AnthropicやXAIのオフィスに実際の自動販売機を設...
AGI・ASI

AGIへの次なるステップ

本動画では、AIのスケーリング則が限界を迎えているという主張と、実際のAI能力が加速度的に向上しているという事実の間にある矛盾を解き明かしている。従来の「スケールがすべて」というパラダイムから、テスト時計算、アーキテクチャ革新、エージェント...
AIニュース

2025年のAIの奇妙さが2026年について教えてくれること

2025年のAI業界は、推論モデルの台頭、Gemini 3の圧倒的なベンチマーク性能、そして生成可能な仮想世界の登場によって特徴づけられた。一方でAIスロップの氾濫や信頼性の問題も顕在化し、人々のAIに対する評価は依然として複雑なものとなっ...
AGI・ASI

私たちは何をスケーリングしているのか?

本動画は、短期的なAGI到来を予測する立場と、検証可能な報酬による強化学習のスケーリングに楽観的な立場との間の矛盾を指摘する内容である。人間のような学習者に近づいているのであれば、検証可能な結果に基づく訓練というアプローチは無意味になるはず...
GPT-5

誰もが新しいChatGPTを嫌っている…次はどうなる?

OpenAIがリリースしたGPT-5.2に対して多くのパワーユーザーから批判が噴出している状況を分析した動画である。Googleの Gemini 3への対抗としてリリースされたこのモデルは、ベンチマーク上では優秀な成績を示しているものの、実...
GPT-5

OpenAI が GPT-5.2 をリリース…すごい

OpenAI が GPT-5.2 をリリースし、前バージョンの 5.1 から大幅な性能向上を実現した。SweetBench Pro や ARC AGI 2 など複数のベンチマークで最先端のスコアを記録し、特に ARC AGI 2 では 17...
GPT-5

OpenAIの新型GPT-5.2がリリースされGemini 3超えを約束 – 今度こそ実現するのか?

OpenAIが新たにGPT-5.2をリリースし、Gemini 3との熾烈なAI競争が新たな局面を迎えている。GPT-5.2はArcade AIベンチマークで52%を記録し、Gemini 3 Pro Refineの54%に迫る性能を示しつつ、...
GPT-5

速報:GPT 5.2がSOTAを奪還!

OpenAIが最新の大規模言語モデルGPT 5.2をリリースし、業界トップの座を奪還した。このモデルはプログラミングとエージェント型タスクに最適化されており、AME 2025ベンチマークで外部ツールなしに100%の正答率を達成するなど、驚異...
AIニュース

政府がAIのためのManhattan Projectを開始…それは始まった

米国政府が「Genesis Mission」と呼ばれる国家レベルのAI開発プロジェクトを発表した。これはManhattan Projectに匹敵する緊急性と野心を持つとされ、連邦政府の科学データセットを活用した統合AIプラットフォームの構築...
GPT-5

Gemini、もう負けた???(GPT-5.1-Proがヤバすぎる)

OpenAIが新たに発表したGPT-5.1 ProとGPT-5.1 Codex Maxは、従来のモデルを凌駕する推論能力を示している。特にGPT-5.1 Proは30分以上の長時間思考が可能で、従来のLLMでは解決不可能だったDefconの...
Google・DeepMind・Alphabet

Gemini 3登場:11の詳細

GoogleがリリースしたGemini 3 Proは、AI競争における新たな章の幕開けを告げるものである。20以上のベンチマークで記録的なパフォーマンスを達成し、GPT-5.1やClaude 4.5 Sonnetといった競合を大きく引き離し...
Google・DeepMind・Alphabet

Gemini 3.0が全てのAIモデルを破壊した…これは異常だ

GoogleがリリースしたGemini 3.0は、ChatGPTやClaudeを大きく上回る性能を持つ革新的なAIモデルである。本動画では、単一のプロンプトで完全なウェブアプリケーションを生成できるワンショット機能、全てのベンチマークで首位...
Google・DeepMind・Alphabet

GoogleのGemini 3 Proが世界最高のAIとして圧倒的な性能で登場、ChatGPTに別れを告げる時が来た

Googleが発表したGemini 3 Proは、現時点で世界最高性能のAIモデルとして圧倒的な実力を示している。マルチモーダル理解、コーディング能力、エージェント機能のすべてにおいて他社モデルを大きく引き離し、特に高難度知能テストARC-...
AIベンチマーク

「知能をどう測定するか?」6名の研究者による討論

本ディスカッションは、知能の定義と測定方法をめぐって6名の研究者が白熱した議論を展開したものである。幼児発達研究者のローラは、現在のAIが深く「反発達的」であり、子どもが示す遊びや思考の豊かさを捉えきれていないと指摘する。一方、ARC-AG...
AIベンチマーク

世界をモデル化し、自己をモデル化する言語モデルの構築 | ARC Prize @ MIT

本講演では、MITの准教授であるJacob Andreasが、現代の大規模言語モデルが抱える根本的な課題について論じている。彼は、単なる予測精度の最適化を超えて、モデルが世界を一貫して理解し、自己の知識状態を正確に把握する能力の重要性を強調...
AIベンチマーク

Francois Chollet + Mike Knoop | ARC Prize @ MIT

本動画は、ARC Prizeの創設者であるFrancois CholletとMike Knoopが、MITで開催されたファイアサイドチャットの模様を収録したものである。彼らはARC Prize V3の発表に際し、このベンチマークが目指すもの...
AIベンチマーク

AIが政治と欺瞞を学ぶとき、何が起こるのか?

本動画は、Goodstar LabsのCEO兼共同創業者であるアレックス・ダフィーが、AIとゲームの交差点における革新的な取り組みについて語るものである。彼は、外交ゲームなどを通じてLLMの能力を評価し、各モデルの性格や戦略の違いを明らかに...
AIエージェント

7Bエージェントが200B LLMを上回る:スタンフォードのAgentFlow

本動画は、スタンフォード大学が開発した革新的なマルチエージェントシステム「AgentFlow」について解説するものである。AgentFlowは、複雑な問題を4つの連続したステップに分解し、各ステップに専門エージェントを配置する訓練可能なツー...
Anthropic・Claude・ダリオアモデイ

Claude Sonnet 4.5(詳細解説):世界最高のAIコーダー?!知っておくべき全てのこと!

Anthropicが発表したClaude Sonnet 4.5は、現時点で最高のコーディングモデルと位置づけられる最新のフロンティアモデルである。従来のSonnet 4と同価格を維持しながら、コンピュータ使用機能の向上、長時間の多段階推論、...
中国

とんでもない!中国がこのリリースでトップモデルを破壊する!

中国Alibaba Cloudが開発したQwen 3VLは、2350億パラメータを誇る大規模視覚言語モデルであり、オープンソースとして公開された最大級のマルチモーダルAIである。本モデルはGemini 2.5 ProやClaude 4.1 ...
LLM・言語モデル

LMMは視覚的に推論するのか、それとも文章的に推論するのか?

この研究は、大規模マルチモーダルモデル(LMM)が物理法則をどのように理解し推論するかを検証したものである。特に自動運転車のような実世界のシナリオにおいて、AIが未知の物体に遭遇した際の物理推論能力を評価している。ミシガン州立大学の研究者ら...
AIに仕事を奪われたい

GPT-5 Codexがヤバすぎる…

OpenAIが新たにリリースしたGPT-5 Codexは、従来のCodexをGPT-5でパワーアップさせたエージェント型コーディングツールである。最大の特徴は7時間もの長時間にわたって自律的に動作し、複雑なタスクを完遂できる点にある。SWE...