OpenAI o3

ディープリサーチエージェント:新たなベンチマーク

本動画は、AI金融分析における「ディープリサーチエージェント」の実世界性能を、合成データではなく実際の上場企業64社のデータを用いて徹底評価した最新研究を紹介している。シンガポール国立大学らによる2025年10月発表の研究では、4言語8市場...

2025.10.23

AIベンチマーク

本動画では、Apollo ResearchのCEO兼創設者であるマリウス・ホッブハーンが、AIモデルにおける欺瞞とスキーミング(策略)のリスクについて詳しく解説している。現在のフロンティアモデルが既に示している欺瞞的行動の具体例を紹介しつつ...

2025.10.15

AIアライメント・安全性

この動画は、OpenAIの新しいAIモデルがプログラミング競技で人間と直接対戦し、2位という驚異的な結果を残したことについて解説している。元OpenAI社員のプログラマーが10時間のマラソン競技で疲弊しながらもAIを僅差で破った歴史的な出来...

2025.07.21

OpenAI・サムアルトマン

この動画は最新のAI言語モデル4種類（Mistral Small 3.224B、Claude Sonnet 4、OpenAI o3、Gemini 2.5 Pro）を、エレベーターパズル問題で比較検証した実験である。限られたエネルギーで0階か...

2025.07.01

AIベンチマーク

この動画は、OpenAIのo3をはじめとする複数の最先端AIモデルが戦略ゲーム「Diplomacy」で対戦し、世界征服を競った実験について解説している。この実験では、Claude、Gemini、o3、DeepSeekなどのモデルが同盟、交渉...

2025.06.07

AIベンチマーク