推論モデル

Google・DeepMind・Alphabet

Gemini 3 Deep Thinkが凄すぎる!史上最高のAIモデル(実機テスト)

GoogleがGemini 3.1 Proの代わりに発表したGemini 3 Deep Thinkは、同社史上最も高度な推論特化型モデルである。科学、数学、研究、エンジニアリング、複雑なコーディングにおいて多段階の思考連鎖推論に最適化されて...
GPT-5、5.1、5.2、5.3

GPT-5.3 Codex Sparkが登場 驚異的な高速性能を実現

OpenAIが専用ハードウェアで動作する初のモデルGPT-5.3 Codex Sparkをリリースした。Cerebrasとの提携により毎秒1,000トークンという驚異的な速度を実現し、リアルタイムコーディングに特化している。同日にはGoog...
AGI・ASI

2025年、AGIタイムラインに一体何が起きたのか?

2024年末から2025年初頭にかけて、OpenAIの推論モデルo1とo3の登場により、AGI実現への期待が一気に高まった。しかし2025年後半には、推論能力の汎用化の限界、推論時間スケーリングのコスト制約、強化学習の効率問題などが明らかに...
Google・DeepMind・Alphabet

Googleの警告 文脈内学習の表現は不活性である

Google DeepMindの最新研究が、大規模言語モデルにおける文脈内学習(ICL)の根本的な問題を明らかにした。モデルは完璧な幾何学的表現を内部に構築できるものの、その表現を実際のタスク解決に活用することができないという「不活性な表現...
レックス・フリードマン、LexFridman

2026年のAIの現状:LLM、コーディング、スケーリング法則、中国、エージェント、GPU、AGI

本エピソードは、2026年初頭におけるAI技術の最新状況について、機械学習研究者のセバスチャン・ラシュカとネイサン・ランバートが詳細に語る議論である。DeepSeekの登場がもたらした衝撃から始まり、米国と中国のAI企業間の競争、オープンウ...
AIエージェント

オープンソースAIエージェントが強力すぎる件:孔子AIエージェント

MetaとハーバードによるConfucius Code Agentの登場は、AIエージェントにおいてモデルそのものよりもスキャフォールディング設計が重要であることを実証した。一方、アブダビのTIIが発表したFalcon H1R7Bは、わずか...
AI研究

このAIブレイクスルーはDeepSeekを復活させられるか?

DeepSeekが新たに発表した論文「MHC(多様体制約付きハイパーコネクション)」は、AIモデルのスケーリングにおける根本的な不安定性の問題を解決する画期的な手法である。従来のハイパーコネクションは、レイヤー間の情報混合を豊かにすることで...
AI研究

プリンストン大学発:自己修正AIデルタトランスフォーマーの新アーキテクチャ

プリンストン大学とUCLAが発表した2つの革新的な論文が、現在のAI推論モデルが抱える根本的な欠陥を明らかにした。従来、AI推論における「aha moment(ひらめきの瞬間)」は知性の証とされてきたが、実際にはモデルの内部不安定性を示すシ...
AIコーディング・Vibe-Coding

2025年:私がコードを書くのをやめた年

2025年はAI支援コーディングが劇的に進化した年である。推論モデルの登場、エージェントの実用化、Claude CodeやCodexといったCLIツールの台頭により、開発者のコーディング方法は根本的に変化した。モデルは半年ごとに2倍の長さの...
AIニュース

2025年のAIの奇妙さが2026年について教えてくれること

2025年のAI業界は、推論モデルの台頭、Gemini 3の圧倒的なベンチマーク性能、そして生成可能な仮想世界の登場によって特徴づけられた。一方でAIスロップの氾濫や信頼性の問題も顕在化し、人々のAIに対する評価は依然として複雑なものとなっ...
中国

中国の勝利:2025年版AI業界レポート

2025年のAI業界は激動の年となった。OpenRouterが公開した大規模なデータ分析レポートは、100兆トークンを超える実際のLLM推論データに基づき、AIモデルの利用実態を明らかにしている。最も注目すべき発見は、オープンウェイトモデル...
Google・DeepMind・Alphabet

Gemini Flash 3が新たなお気に入りモデルになった理由(本当に)

Google の Gemini Flash 3 が、空間認識能力において前例のない飛躍を遂げ、価格対性能比で他を圧倒する存在となった。Gemini 3 Pro への懐疑的な評価とは対照的に、Flash 3 は従来の Flash 2.5 の速...
Google・DeepMind・Alphabet

Gemini 3 Flash ― 予想外のアップグレード

Google DeepMindが発表したGemini 3 Flashは、Flashモデルのコストとレイテンシでプロレベルの性能を実現した画期的なアップデートである。従来、Flashモデルは低レイテンシ・高スループット・低コストを特徴としなが...
AIベンチマーク

AIは実際どれほど知的なのか?

ARCプライズ財団のプレジデントであるグレッグ・カムラッドが、AI知能測定の新たなアプローチについて語る。フランソワ・シャレが2019年に提唱した「知能とは新しいことを効率的に学習する能力である」という定義に基づき、ARC AGIベンチマー...
GPT-5、5.1、5.2、5.3

GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著...
AI活用・導入

AIはすでに企業機能全体を代替し始めている

伝説的投資家ガビン・ベイカーが、AI労働市場の破壊的変革について詳細に解説する。現在、大手テクノロジー企業ではカスタマーサポートの50%以上がすでにAIによって処理されており、これは4000億ドル規模の産業である。AIは検証可能なタスク、つ...
半導体産業

GPU、TPU、そしてAIの経済学を解説 | ギャビン・ベイカー インタビュー

本動画は、著名なテクノロジー投資家ギャビン・ベイカー氏との対話を通じて、AI業界の最新動向と投資機会を包括的に解説するものである。NvidiaとGoogleのTPU競争、Blackwellチップの遅延とその影響、データセンターにおける電力と...
GPT-5、5.1、5.2、5.3

GPT-5.2は史上最高のモデルである

OpenAIが新たにリリースしたGPT-5.2は、コード生成やARC AGIベンチマークにおいて驚異的な性能を示す一方で、3次元空間理解などの特定領域では前世代モデルから大幅に後退している。Matt Schumerをはじめとする早期アクセス...
GPT-5、5.1、5.2、5.3

GPT-5.2がGemini 3を破壊

OpenAIが突如発表したGPT-5.2は、数週間前にGemini 3で業界トップに立ったGoogleに対する直接的な回答である。このリリースは単なる技術的進歩ではなく、激化するAI開発競争における戦略的な対抗措置を示している。ベンチマーク...
GPT-5、5.1、5.2、5.3

速報:GPT 5.2がSOTAを奪還!

OpenAIが最新の大規模言語モデルGPT 5.2をリリースし、業界トップの座を奪還した。このモデルはプログラミングとエージェント型タスクに最適化されており、AME 2025ベンチマークで外部ツールなしに100%の正答率を達成するなど、驚異...
AIの歴史

3年間のAIの歩みを32分で振り返る(チャットボットからエージェントへ)

本動画は、2022年11月のChatGPTリリースから2025年末までのAI進化の歴史を包括的に解説するものである。初期のチャットボットから始まり、マルチモーダルモデルの登場、推論モデルの革新、そして現在のAIエージェントの時代まで、技術的...
OpenAI・サムアルトマン

OpenAIのコードレッドを解説

OpenAIが社内で最高レベルの緊急態勢である「コードレッド」を宣言した背景と、その意味について詳しく解説する動画である。かつてAI業界の明確なリーダーだったOpenAIが、GoogleのGemini 3やAnthropicのClaude ...
LLM・言語モデル

Mistral 3の新モデル4つがリリース!

Mistral AIが5ヶ月ぶりに大規模なモデルリリースを発表した。今回のMistral 3シリーズには、675Bパラメータを持つフラッグシップモデル「Mistral Large 3」と、3B、8B、14Bの3つの小規模な密モデル「Mini...
GPT-5、5.1、5.2、5.3

GPT-5.1におけるモデルの振る舞いの形成 — OpenAIポッドキャスト第11回

本動画では、OpenAIの研究リーダーであるChristina KimとプロダクトマネージャーのLentia Ramenが、GPT-5.1の開発における重要な進化について語っている。今回のリリースで初めて、ChatGPTの全モデルが推論モデ...
LLM・言語モデル

DeepSeek V3.2:金メダル、エージェント、そしてGPT-5の30分の1の価格

DeepSeekが再びAI業界に衝撃を与えた。同社が発表したDeepSeek V3.2とV3.2 Specialは、GPT-5レベルの性能を持ちながら完全にオープンソース化された革命的なモデルである。特筆すべきは、国際数学オリンピアードや中...
Anthropic・Claude・ダリオアモデイ

Claude Opus 4.5 Thinking検証:史上最高のモデルか?

この動画では、Anthropicの最新モデルであるClaude Opus 4.5の推論能力を、独自の複雑な論理パズルを用いて徹底的に検証している。非推論モデルと推論モデル(Thinking 32K)の両方をテストし、マーケティング資料ではな...
NVIDIA・ジェンスンフアン

NVIDIA:新しいエラスティックAIモデル(5080以上対応)

NVIDIAが発表したNeatron Elasticは、1回の学習で複数サイズのAIモデルを同時生成する革新的なエラスティックAIアーキテクチャである。12億、9億、6億パラメータの推論モデルを単一の学習実行から抽出可能にし、ユーザーのGP...
AI競争

Gemini 3とChatGPT 5.1の真の違い─コンテキスト対タスク

本動画は、ChatGPT 5.1とGemini 3という2つの最新大規模言語モデルの本質的な違いを、プロンプティング手法の観点から詳細に解説したものである。多くの人々がモデル自体の性能について語る一方で、モデルに与える「入力の混乱度」につい...
GPT-5、5.1、5.2、5.3

Gemini、もう負けた???(GPT-5.1-Proがヤバすぎる)

OpenAIが新たに発表したGPT-5.1 ProとGPT-5.1 Codex Maxは、従来のモデルを凌駕する推論能力を示している。特にGPT-5.1 Proは30分以上の長時間思考が可能で、従来のLLMでは解決不可能だったDefconの...
Google・DeepMind・Alphabet

127秒で見るGemini 3 Pro

Googleの最新AI推論モデルGemini 3 Proの実力を、独自の複雑な論理テストで検証する動画である。外部ベンチマークやスコアボードには頼らず、多層的な依存関係を持つ難解な論理パズルを用いた実践テストを実施。Gemini 3 Pro...
GPT-5、5.1、5.2、5.3

ChatGPT 5.1は初の真のAIワーカー:何が変わったのか

ChatGPT 5.1は2024年11月12日にリリースされ、ChatGPT 5以来最大のアップデートとなった。多くの人々が感情表現や温かみといった表面的な特徴に注目しているが、本質的な変化は、これまでのOpenAIモデルの中で最もエージェ...
GPT-5、5.1、5.2、5.3

GPT-5.1は一般ユーザー向けに作られた

本動画は、OpenAIが新たにリリースしたGPT-5.1について、開発者視点から詳細な分析を行ったものである。GPT-5.1は従来モデルと比較して、より会話的で温かみのあるトーンを持ち、カスタマイズ機能が大幅に強化された。特筆すべきは、メン...
GPT-5、5.1、5.2、5.3

速報:OpenAI GPT-5.1を4分で解説!

OpenAIが新たにリリースしたGPT-5.1は、GPT-4oの不在を埋めるための控えめなアップデートである。このモデルはGPT-5.1 instantとGPT-5.1 thinkingの2つのバリエーションで提供され、従来のモデルよりも感...
LLM・言語モデル

KIMI K2がAI業界を揺るがした…その「秘密」とは

中国発のオープンソース思考モデルKIMI K2が、人類最後の試験で最高得点を記録し、Claude 4.5 SonnetやGPT-5を上回る性能を示した。訓練コストはわずか460万ドルと、米国の巨大研究所が費やす額の一部に過ぎない。この背景に...
Microsoft・Azure・ビルゲイツ

MicrosoftがKOSMOSを発表:人間レベルの80%のパフォーマンスを持つAI

Microsoftが開発した自律型AI科学者Cosmosは、12時間連続で1,500本以上の論文を読み、40,000行のPythonコードを書き、実際の科学的発見を成し遂げる。同時にMicrosoftは人類に奉仕する「ヒューマニスト超知能」...
AGI・ASI

アムジャド・マサド&アダム・ディアンジェロ:AGIまでどれくらい近づいているのか?

本動画は、QuoraのCEOアダム・ディアンジェロとRepletのCEOアムジャド・マサドが、現在のLLMの進化と限界、AGIへの道筋について議論したものである。アダムは、推論モデルやコード生成能力の急速な進歩を指摘し、今後5年以内に多くの...
LLM・言語モデル

新登場 Kimi K2 Thinking – 最高のオープンモデルか?

中国のMoonshot AIが開発したKimi K2 Thinkingモデルは、オープンソースの推論モデルとして、OpenAI、Anthropic、Googleといったプロプライエタリモデルに匹敵、あるいはそれを凌駕する性能を示している。1...
LLM・言語モデル

中国発の新たな1兆パラメータ推論AI – Kimi K2 Thinking

中国発のKimi K2 Thinkingは、米国のトップクラスモデルに挑戦する新たな推論モデルである。最大の特徴は200から300の連続したツール呼び出しが可能な点で、これはエージェントシステムの基盤となる機能だ。1兆パラメータを持ちながら...
AIエージェント

Cohere CEOが語る生成AIの次なる波

本動画は、カナダ発のAIモデル開発企業Cohereのアイダン・ゴメスCEOが、生成AIの次なる波について語ったインタビューである。Cohereは技術主権を重視し、オンプレミスやエアギャップ環境での展開を可能にすることで、顧客に完全なコントロ...
Anthropic・Claude・ダリオアモデイ

Anthropicがこれまで作った最高のモデル

Anthropicが新たに発表したClaude Haiku 4.5は、同社が1年半ぶりにリリースした安価な小型モデルである。従来のバージョンを飛び越えて登場したこのモデルは、5ヶ月前に最先端だったClaude Sonnet 4と同等のコーデ...