推論モデル

AI研究

プリンストン大学発:自己修正AIデルタトランスフォーマーの新アーキテクチャ

プリンストン大学とUCLAが発表した2つの革新的な論文が、現在のAI推論モデルが抱える根本的な欠陥を明らかにした。従来、AI推論における「aha moment(ひらめきの瞬間)」は知性の証とされてきたが、実際にはモデルの内部不安定性を示すシ...
AIコーディング・Vibe-Coding

2025年:私がコードを書くのをやめた年

2025年はAI支援コーディングが劇的に進化した年である。推論モデルの登場、エージェントの実用化、Claude CodeやCodexといったCLIツールの台頭により、開発者のコーディング方法は根本的に変化した。モデルは半年ごとに2倍の長さの...
AIニュース

2025年のAIの奇妙さが2026年について教えてくれること

2025年のAI業界は、推論モデルの台頭、Gemini 3の圧倒的なベンチマーク性能、そして生成可能な仮想世界の登場によって特徴づけられた。一方でAIスロップの氾濫や信頼性の問題も顕在化し、人々のAIに対する評価は依然として複雑なものとなっ...
中国

中国の勝利:2025年版AI業界レポート

2025年のAI業界は激動の年となった。OpenRouterが公開した大規模なデータ分析レポートは、100兆トークンを超える実際のLLM推論データに基づき、AIモデルの利用実態を明らかにしている。最も注目すべき発見は、オープンウェイトモデル...
Google・DeepMind・Alphabet

Gemini Flash 3が新たなお気に入りモデルになった理由(本当に)

Google の Gemini Flash 3 が、空間認識能力において前例のない飛躍を遂げ、価格対性能比で他を圧倒する存在となった。Gemini 3 Pro への懐疑的な評価とは対照的に、Flash 3 は従来の Flash 2.5 の速...
Google・DeepMind・Alphabet

Gemini 3 Flash ― 予想外のアップグレード

Google DeepMindが発表したGemini 3 Flashは、Flashモデルのコストとレイテンシでプロレベルの性能を実現した画期的なアップデートである。従来、Flashモデルは低レイテンシ・高スループット・低コストを特徴としなが...
AIベンチマーク

AIは実際どれほど知的なのか?

ARCプライズ財団のプレジデントであるグレッグ・カムラッドが、AI知能測定の新たなアプローチについて語る。フランソワ・シャレが2019年に提唱した「知能とは新しいことを効率的に学習する能力である」という定義に基づき、ARC AGIベンチマー...
GPT-5、5.1、5.2

GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著...
AI活用・導入

AIはすでに企業機能全体を代替し始めている

伝説的投資家ガビン・ベイカーが、AI労働市場の破壊的変革について詳細に解説する。現在、大手テクノロジー企業ではカスタマーサポートの50%以上がすでにAIによって処理されており、これは4000億ドル規模の産業である。AIは検証可能なタスク、つ...
半導体産業

GPU、TPU、そしてAIの経済学を解説 | ギャビン・ベイカー インタビュー

本動画は、著名なテクノロジー投資家ギャビン・ベイカー氏との対話を通じて、AI業界の最新動向と投資機会を包括的に解説するものである。NvidiaとGoogleのTPU競争、Blackwellチップの遅延とその影響、データセンターにおける電力と...
GPT-5、5.1、5.2

GPT-5.2は史上最高のモデルである

OpenAIが新たにリリースしたGPT-5.2は、コード生成やARC AGIベンチマークにおいて驚異的な性能を示す一方で、3次元空間理解などの特定領域では前世代モデルから大幅に後退している。Matt Schumerをはじめとする早期アクセス...
GPT-5、5.1、5.2

GPT-5.2がGemini 3を破壊

OpenAIが突如発表したGPT-5.2は、数週間前にGemini 3で業界トップに立ったGoogleに対する直接的な回答である。このリリースは単なる技術的進歩ではなく、激化するAI開発競争における戦略的な対抗措置を示している。ベンチマーク...
GPT-5、5.1、5.2

速報:GPT 5.2がSOTAを奪還!

OpenAIが最新の大規模言語モデルGPT 5.2をリリースし、業界トップの座を奪還した。このモデルはプログラミングとエージェント型タスクに最適化されており、AME 2025ベンチマークで外部ツールなしに100%の正答率を達成するなど、驚異...
AIの歴史

3年間のAIの歩みを32分で振り返る(チャットボットからエージェントへ)

本動画は、2022年11月のChatGPTリリースから2025年末までのAI進化の歴史を包括的に解説するものである。初期のチャットボットから始まり、マルチモーダルモデルの登場、推論モデルの革新、そして現在のAIエージェントの時代まで、技術的...
OpenAI・サムアルトマン

OpenAIのコードレッドを解説

OpenAIが社内で最高レベルの緊急態勢である「コードレッド」を宣言した背景と、その意味について詳しく解説する動画である。かつてAI業界の明確なリーダーだったOpenAIが、GoogleのGemini 3やAnthropicのClaude ...
LLM・言語モデル

Mistral 3の新モデル4つがリリース!

Mistral AIが5ヶ月ぶりに大規模なモデルリリースを発表した。今回のMistral 3シリーズには、675Bパラメータを持つフラッグシップモデル「Mistral Large 3」と、3B、8B、14Bの3つの小規模な密モデル「Mini...
GPT-5、5.1、5.2

GPT-5.1におけるモデルの振る舞いの形成 — OpenAIポッドキャスト第11回

本動画では、OpenAIの研究リーダーであるChristina KimとプロダクトマネージャーのLentia Ramenが、GPT-5.1の開発における重要な進化について語っている。今回のリリースで初めて、ChatGPTの全モデルが推論モデ...
LLM・言語モデル

DeepSeek V3.2:金メダル、エージェント、そしてGPT-5の30分の1の価格

DeepSeekが再びAI業界に衝撃を与えた。同社が発表したDeepSeek V3.2とV3.2 Specialは、GPT-5レベルの性能を持ちながら完全にオープンソース化された革命的なモデルである。特筆すべきは、国際数学オリンピアードや中...
Anthropic・Claude・ダリオアモデイ

Claude Opus 4.5 Thinking検証:史上最高のモデルか?

この動画では、Anthropicの最新モデルであるClaude Opus 4.5の推論能力を、独自の複雑な論理パズルを用いて徹底的に検証している。非推論モデルと推論モデル(Thinking 32K)の両方をテストし、マーケティング資料ではな...
NVIDIA・ジェンスンフアン

NVIDIA:新しいエラスティックAIモデル(5080以上対応)

NVIDIAが発表したNeatron Elasticは、1回の学習で複数サイズのAIモデルを同時生成する革新的なエラスティックAIアーキテクチャである。12億、9億、6億パラメータの推論モデルを単一の学習実行から抽出可能にし、ユーザーのGP...
AI競争

Gemini 3とChatGPT 5.1の真の違い─コンテキスト対タスク

本動画は、ChatGPT 5.1とGemini 3という2つの最新大規模言語モデルの本質的な違いを、プロンプティング手法の観点から詳細に解説したものである。多くの人々がモデル自体の性能について語る一方で、モデルに与える「入力の混乱度」につい...
GPT-5、5.1、5.2

Gemini、もう負けた???(GPT-5.1-Proがヤバすぎる)

OpenAIが新たに発表したGPT-5.1 ProとGPT-5.1 Codex Maxは、従来のモデルを凌駕する推論能力を示している。特にGPT-5.1 Proは30分以上の長時間思考が可能で、従来のLLMでは解決不可能だったDefconの...
Google・DeepMind・Alphabet

127秒で見るGemini 3 Pro

Googleの最新AI推論モデルGemini 3 Proの実力を、独自の複雑な論理テストで検証する動画である。外部ベンチマークやスコアボードには頼らず、多層的な依存関係を持つ難解な論理パズルを用いた実践テストを実施。Gemini 3 Pro...
GPT-5、5.1、5.2

ChatGPT 5.1は初の真のAIワーカー:何が変わったのか

ChatGPT 5.1は2024年11月12日にリリースされ、ChatGPT 5以来最大のアップデートとなった。多くの人々が感情表現や温かみといった表面的な特徴に注目しているが、本質的な変化は、これまでのOpenAIモデルの中で最もエージェ...
GPT-5、5.1、5.2

GPT-5.1は一般ユーザー向けに作られた

本動画は、OpenAIが新たにリリースしたGPT-5.1について、開発者視点から詳細な分析を行ったものである。GPT-5.1は従来モデルと比較して、より会話的で温かみのあるトーンを持ち、カスタマイズ機能が大幅に強化された。特筆すべきは、メン...
GPT-5、5.1、5.2

速報:OpenAI GPT-5.1を4分で解説!

OpenAIが新たにリリースしたGPT-5.1は、GPT-4oの不在を埋めるための控えめなアップデートである。このモデルはGPT-5.1 instantとGPT-5.1 thinkingの2つのバリエーションで提供され、従来のモデルよりも感...
LLM・言語モデル

KIMI K2がAI業界を揺るがした…その「秘密」とは

中国発のオープンソース思考モデルKIMI K2が、人類最後の試験で最高得点を記録し、Claude 4.5 SonnetやGPT-5を上回る性能を示した。訓練コストはわずか460万ドルと、米国の巨大研究所が費やす額の一部に過ぎない。この背景に...
Microsoft・Azure・ビルゲイツ

MicrosoftがKOSMOSを発表:人間レベルの80%のパフォーマンスを持つAI

Microsoftが開発した自律型AI科学者Cosmosは、12時間連続で1,500本以上の論文を読み、40,000行のPythonコードを書き、実際の科学的発見を成し遂げる。同時にMicrosoftは人類に奉仕する「ヒューマニスト超知能」...
AGI・ASI

アムジャド・マサド&アダム・ディアンジェロ:AGIまでどれくらい近づいているのか?

本動画は、QuoraのCEOアダム・ディアンジェロとRepletのCEOアムジャド・マサドが、現在のLLMの進化と限界、AGIへの道筋について議論したものである。アダムは、推論モデルやコード生成能力の急速な進歩を指摘し、今後5年以内に多くの...
LLM・言語モデル

新登場 Kimi K2 Thinking – 最高のオープンモデルか?

中国のMoonshot AIが開発したKimi K2 Thinkingモデルは、オープンソースの推論モデルとして、OpenAI、Anthropic、Googleといったプロプライエタリモデルに匹敵、あるいはそれを凌駕する性能を示している。1...
LLM・言語モデル

中国発の新たな1兆パラメータ推論AI – Kimi K2 Thinking

中国発のKimi K2 Thinkingは、米国のトップクラスモデルに挑戦する新たな推論モデルである。最大の特徴は200から300の連続したツール呼び出しが可能な点で、これはエージェントシステムの基盤となる機能だ。1兆パラメータを持ちながら...
AIエージェント

Cohere CEOが語る生成AIの次なる波

本動画は、カナダ発のAIモデル開発企業Cohereのアイダン・ゴメスCEOが、生成AIの次なる波について語ったインタビューである。Cohereは技術主権を重視し、オンプレミスやエアギャップ環境での展開を可能にすることで、顧客に完全なコントロ...
Anthropic・Claude・ダリオアモデイ

Anthropicがこれまで作った最高のモデル

Anthropicが新たに発表したClaude Haiku 4.5は、同社が1年半ぶりにリリースした安価な小型モデルである。従来のバージョンを飛び越えて登場したこのモデルは、5ヶ月前に最先端だったClaude Sonnet 4と同等のコーデ...
OpenAI・サムアルトマン

ビルドアワー:Responses API

本動画は、OpenAIのエンジニアが新しいResponses APIの機能と利点を詳細に解説するビルドアワーセッションである。従来のChat Completions APIからの進化として、Responses APIはエージェント構築に最適...
OpenAI・サムアルトマン

オープンモデルを活用した開発

本動画は、OpenAIが2025年8月にリリースした最新のオープンソースモデルシリーズ「GPTOSS」について、その特徴と活用方法を詳細に解説するものである。GPTOSSは12Bと20Bの2つのモデルで構成され、MacBookなどの高性能な...
Anthropic・Claude・ダリオアモデイ

「おっと…何かがうまくいきませんでした」(SONNET 4.5 THINK 32K)

本動画では、Anthropic社の最新モデルClaude Sonnet 4.5(32K推論版)の性能検証を行い、驚くべき問題点を明らかにしている。AGI 2リーダーボードでは高スコアを記録しているものの、実際の複雑な論理推論タスクにおいて、...
AIエージェント

AIの致命的弱点:注意ハイジャッキング

この動画では、マルチエージェントシステムにおける重要な脆弱性である「注意ハイジャッキング」について詳しく解説している。複数のAIエージェントが相互に影響し合う際、より大きな推論モデルが小さなモデルを誤った情報で説得してしまう現象や、メッセー...
AGI・ASI

史上最悪の予測

この動画では、AI専門家が自身の過去の予測の失敗について率直に振り返る。特にOpenAIの推論モデル「Strawberry」を「単なるチェーンオブソート推論の焼き直し」と過小評価したツイートが大きな誤りであったことを認めている。推論モデルが...
OpenAI・サムアルトマン

バイブコーディングからバイブ研究へ:OpenAIのマーク・チェンとヤクブ・パホツキ

この動画は、OpenAIの最高科学責任者ヤクブ・パホツキと最高研究責任者マーク・チェンによる研究開発の現状と将来展望に関する詳細なインタビューである。GPT-5の開発経緯から始まり、推論モデルの進化、強化学習の成功要因、コーディング能力の飛...
AIニュース

Forward Future Live | 2025年9月26日

この動画は2025年9月26日のForward Future Liveの収録で、AI業界の第一線で活躍する3名の専門家が登場する。Floodgate創設パートナーのMike Maplesが語るAI時代のベンチャー投資戦略、OpenAI研究者...