人工知能評価

GPT-5、5.1、5.2

新GPT-5.2:完全なる大惨事

OpenAIの最新モデルGPT-5.2が1年間使用されてきた標準的な因果推論テストに挑戦した結果、驚くべき挫折を見せた。このテストは0階から50階までのエレベータシステムにおける複雑な制約条件下での論理パズルであり、従来の他のAIモデルは解...
AIベンチマーク

Francois Chollet + Mike Knoop | ARC Prize @ MIT

本動画は、ARC Prizeの創設者であるFrancois CholletとMike Knoopが、MITで開催されたファイアサイドチャットの模様を収録したものである。彼らはARC Prize V3の発表に際し、このベンチマークが目指すもの...
GPT-5、5.1、5.2

GPT-5論争は狂気の沙汰や

この動画は、AI界の著名な懐疑論者であるゲイリー・マーカス教授とYouTuberのデビッド・シャピロ氏の間で繰り広げられた激しいオンライン論争を題材としている。GPT-5のリリース後、両者のAIに対する見解の相違が表面化し、個人攻撃を含む公...
GPT-5、5.1、5.2

GPT-5完全解説!(知っておくべき全てのこと)

この動画は、OpenAIが発表したGPT-5について実際に一週間テストした体験者による詳細な解説である。GPT-5の思考機能と非思考機能を統合したハイブリッドモデルの特徴、従来モデルとの性能比較、コーディング能力の向上、創作性能の改善、医療...
AIハルシネーション・幻覚

重要なAI失敗を目撃せよ

この動画は、AIシステムの重大な失敗事例を通じて、現代のAIの限界と問題点を明らかにする実例である。投稿者が2025年7月の最新AI研究状況について質問したところ、Google Gemini 2.5 Proが内部時計の誤認により、実在しない...
イーロンマスク・テスラ・xAI

Grok 4の驚異的な新能力?AIモデルに現れる『流動的知能』?

この動画では、xAIのGrok 4が従来のAIモデルとは異なる「流動的知能」と呼ばれる新しい能力を示している可能性について解説している。Grok 4はARC AGIベンチマークで16%という前例のないスコアを記録し、他のモデルが6-8%程度...
イーロンマスク・テスラ・xAI

xAI: Grok 4が期待外れ – ライブテスト

この動画は、xAIの新しいAIモデルであるGrok 4を論理推論テストで評価し、Claude Sonnet 4やGPT-4o3、Gemini 2.5 Proなどの他の最先端AIモデルと性能を比較する実証的な検証である。結果として、Grok ...
Apple・ティムクック

Apple、AI推論能力に関する爆弾発言を投下:LLMは推論できない

この動画は、Appleが2025年6月に発表した研究論文「The Illusion of Thinking」について解説している。同論文は、OpenAIのo3やAnthropic社のClaude、DeepSeek R1などの最先端AI推論モ...