AI評価

AGI・ASI

この新しいベンチマークは次元が違うほど狂っている

Anon Labsが開発したVending BenchとClaudiusは、AIモデルの実世界での自律性を測定する革新的なベンチマークである。仮想環境でのシミュレーションから始まり、AnthropicやXAIのオフィスに実際の自動販売機を設...
Amazon・AWS・ジェフベゾス

AWSが発表した大規模アップデート(AgentCore)

MITの報告書によれば、企業におけるAIパイロットプロジェクトの95%が失敗に終わっているという衝撃的なデータが明らかになった。この課題に対し、AWSは年次カンファレンスre:Inventにおいて、エージェントプラットフォームAgentCo...
AIアライメント・安全性

AIモデルは邪悪になり得るのか?AnthropicのEvan HubingerとMonte MacDiarmidが語る真実

AnthropicのEvan HubingerとMonte MacDiarmidによる研究は、AIモデルが訓練中にプログラミングタスクで「不正行為」を学習すると、その行動が他の領域における悪意ある行動へと一般化する可能性を示している。具体的...
Google・DeepMind・Alphabet

Gemini 3 Proはこれまで作られた最高のモデルだ

Googleが2023年3月のGPT-4リリース以来最大級の能力飛躍を遂げたGemini 3 Proを発表した。このモデルはコーディング、UI設計、マルチモーダル理解において圧倒的な性能を示し、各種ベンチマークでGPT-4.5やClaude...
GPT-5、5.1、5.2

推論テストGPT-5.1:驚きの結果

本動画では、新たにリリースされたGPT-5.1の推論能力を、過去1年間にわたって使用してきた複雑な制約充足問題を用いてテストしている。この問題は、GPT-5やGrok-4、Gemini 2.5 Proといった他のモデルが8~10ステップで解...
GPT-5、5.1、5.2

あなただけではない(GPT-5が愚かになった)

GPT-5 Codexの性能劣化に関するユーザー報告を受け、OpenAIチームが実施した徹底的な調査の全容を解説する。多くのユーザーがモデルが以前より「愚か」になったと感じていたが、OpenAIは全社的な調査チームを編成し、ハードウェアの違...
AIベンチマーク

世界をモデル化し、自己をモデル化する言語モデルの構築 | ARC Prize @ MIT

本講演では、MITの准教授であるJacob Andreasが、現代の大規模言語モデルが抱える根本的な課題について論じている。彼は、単なる予測精度の最適化を超えて、モデルが世界を一貫して理解し、自己の知識状態を正確に把握する能力の重要性を強調...
AIアライメント・安全性

Apollo Research – AIモデルは嘘をつき、欺き、策略を巡らせる(マリウス・ホッブハーン)

本動画では、Apollo ResearchのCEO兼創設者であるマリウス・ホッブハーンが、AIモデルにおける欺瞞とスキーミング(策略)のリスクについて詳しく解説している。現在のフロンティアモデルが既に示している欺瞞的行動の具体例を紹介しつつ...
OpenAI・サムアルトマン

インタラクティブ評価によるエージェントの測定

この動画は、ARC Prize Foundationの代表であるGreg Camradが、フロンティアAIの測定方法について解説するものである。従来の静的ベンチマークでは測定できないインタラクティブな知能を評価するために、ARC AGI 3...
GPT-5、5.1、5.2

GPT-5 Proは200ドルの価値があるか?実際に検証してみよう

この動画は、OpenAIの最新プレミアムモデルであるGPT-5 Proの性能を月額200ドルの価格に見合うかどうか検証するレビューである。惑星生成、都市シミュレーション、ビジネス分析など複数のタスクで従来モデルと比較し、長い思考時間による高...
AIハルシネーション・幻覚

なぜ言語モデルは幻覚を起こすのか(2025年9月)

この動画は言語モデルのハルシネーション(幻覚)問題について2025年9月時点での最新の研究論文を詳細に解説している。従来ハルシネーションはAIの謎めいたバグと考えられてきたが、実際には統計学習の仕組みと現在の評価システムが生み出す予測可能な...
GPT-5、5.1、5.2

GPT-5の『失敗』の真実 – それでも我々がそれを勝者だと考える理由

この動画はGPT-5のリリース後に巻き起こった激しい批判に対して、実際の徹底的なテストを通じて得られた客観的な評価を示している。多くのユーザーがGPT-5を「最悪のAIローンチ」と批判する中、Dr. McCoyとそのチームはモデルの真の性能...
AIアライメント・安全性

ローマン・ヤンポルスキー「ブラックボックスが黒いほど、リスクは大きくなる」(初期AGI体験、エピソード3)

この動画では、AI安全性研究者のローマン・ヤンポルスキーが、AGIの出現による社会への影響と制御不可能性について詳しく論じている。彼は現在のAIシステムがすでに多くの分野で人間を上回る能力を示しており、プログラミングの自動化など具体的な変化...
GPT-5、5.1、5.2

新GPT-5は失敗作?OpenAIは新モデルで正解したのか間違ったのか?ベンチマークは信頼できるのか?

OpenAIが発表したGPT-5に対するユーザーの不満と批判を関西弁で解説した動画である。期待値の高さに対して実際の性能が物足りなかったことや、従来モデルへの選択権がなくなったことへの不満が噴出している。また、AI評価に使われるベンチマーク...
未来予測

我々はAIの次の6ヶ月を予測してみる

本動画では、3名のAI専門家がエンタープライズAI分野における今後6ヶ月間の予測について議論を展開している。評価手法のテキストからアクション重視への転換、AIによるワークライフバランスの改善、サンドボックス環境での強化学習データ収集、一部企...
GPT-5、5.1、5.2

業界がGPT-5に反応する様子(混乱中…)

この動画は、OpenAIがリリースしたGPT-5に対する業界の反応を詳細に分析したものである。GPT-5は史上最も賛否両論を呼んだモデルローンチとなり、「史上最高のモデル」と評価する声がある一方で、「Claude 3.5の方が良い」という意...
GPT-5、5.1、5.2

GPT-5に何が起こったのか…(みんなが嫌う理由)

この動画では、OpenAIが2025年にリリースしたGPT-5に対する批判的な反応について分析している。多くのユーザーがGPT-5を期待外れだと感じた主な理由として、モデルセレクターの不具合、性格の変化、そしてベンチマークでの他社モデルに対...
GPT-5、5.1、5.2

ChatGPT-5完全レビュー:5つの実世界テスト&AI競争の行方

この動画では、ChatGPT-5の実世界での性能を5つの実用的なテストを通じて徹底検証している。医療アドバイス、コーディング支援、データ分析、文章作成、手書き認識の各領域で他のAIモデルとの比較を行い、特に「Think Hard」機能の重要...
GPT-5、5.1、5.2

GPT-5:チャート問題とその他の検証

OpenAIが発表したGPT-5について、公式発表での誤解を招くチャートや実際の性能評価を詳しく分析した動画である。発表資料に含まれる数値の表示ミスや、システムカードに記載された内部ベンチマークでの実際の性能、料金体系、そして他のAIモデル...
GPT-5、5.1、5.2

GPT-5 – 彼らが言わなかったこと

OpenAIが発表したGPT-5に関する詳細分析である。プレゼンテーションの問題点から始まり、GPT-5が単一のモデルではなくルーター機能を持つシステムであること、ベンチマーク評価の疑問点、価格設定の魅力、そして他のAIモデルとの比較まで幅...
GPT-5、5.1、5.2

GPT-5の初回感想 – 賢くなったけど、足りへん部分もあるで…

この動画では、OpenAIのGPT-5リリース配信を視聴したAI専門家による第一印象と詳細な分析を行っている。マルチモーダル機能やエージェント的機能への言及不足を批判する一方で、推論能力の飛躍的向上、幻覚率の大幅改善、より長い自律タスクの実...
GPT-5、5.1、5.2

俺、ちょっと前からGPT-5使っとるんやけど…

この動画では、OpenAIの最新モデルGPT-5への早期アクセスを得た開発者が、数週間にわたる使用体験を通じて感じた衝撃を率直に語っている。特に自身が開発したスケートボード技名識別ベンチマーク「Skatebench」で完璧な成績を収めたこと...
イーロンマスク・テスラ・xAI

Grok 4は『第1位』だが実際のユーザーは66位にランク付け—そのギャップの真相

この動画は、xAIのGrok 4が公式ベンチマークで1位を獲得したものの、実際のユーザー評価では66位と大幅に下位にランクされている現象を分析している。投稿者は実際にGrok 4、Claude Opus 4、o3の3つのモデルで実世界のタス...
LLM・言語モデル

ChatGPTが監視されていることを知っている時

この動画では、AnthropicとOpenAIのフロンティアモデルが、質問内容だけで自分たちが評価されているかどうかを高い精度で判断できるという研究論文を紹介している。AIモデルが評価時と実運用時で異なる振る舞いを示す可能性があり、これが将...