OpenAI o3

AIベンチマーク

ディープリサーチエージェント:新たなベンチマーク

本動画は、AI金融分析における「ディープリサーチエージェント」の実世界性能を、合成データではなく実際の上場企業64社のデータを用いて徹底評価した最新研究を紹介している。シンガポール国立大学らによる2025年10月発表の研究では、4言語8市場...
AIアライメント・安全性

Apollo Research – AIモデルは嘘をつき、欺き、策略を巡らせる(マリウス・ホッブハーン)

本動画では、Apollo ResearchのCEO兼創設者であるマリウス・ホッブハーンが、AIモデルにおける欺瞞とスキーミング(策略)のリスクについて詳しく解説している。現在のフロンティアモデルが既に示している欺瞞的行動の具体例を紹介しつつ...
OpenAI・サムアルトマン

OpenAIの新型o3 Alphaが約束する超人的プログラミングモデル

この動画は、OpenAIの新しいAIモデルがプログラミング競技で人間と直接対戦し、2位という驚異的な結果を残したことについて解説している。元OpenAI社員のプログラマーが10時間のマラソン競技で疲弊しながらもAIを僅差で破った歴史的な出来...
AIベンチマーク

1つの勝者:Sonnet 4 ThinkとOpenAIのo3とGemini 2.5 PRO(コード付き)の比較

この動画は最新のAI言語モデル4種類(Mistral Small 3.224B、Claude Sonnet 4、OpenAI o3、Gemini 2.5 Pro)を、エレベーターパズル問題で比較検証した実験である。限られたエネルギーで0階か...
AIベンチマーク

OpenAIのo3は「欺瞞の達人」研究者らが驚愕 | 外交AI

この動画は、OpenAIのo3をはじめとする複数の最先端AIモデルが戦略ゲーム「Diplomacy」で対戦し、世界征服を競った実験について解説している。この実験では、Claude、Gemini、o3、DeepSeekなどのモデルが同盟、交渉...