視覚推論

LLM・言語モデル

OpenAIとGoogleに衝撃を与えた史上初のオープンソースAIエージェント

Zhipu AIが発表したGLM 4.6Vは、オープンソース初となる真のマルチモーダルAIエージェントとして業界に衝撃を与えた。このモデルは画像、動画、スクリーンショット、ウェブページを直接入力として扱い、テキスト変換なしでツール呼び出しを...
AI研究

視覚推論のためのニューロシンボリックAI:Agent0-VL

本動画では、視覚推論における2つの極端なアプローチを比較分析している。一方はMonetのような内在的な数学的最適化エンジンであり、連続的な潜在空間における軌道最適化として視覚推論を扱う。他方は、ノースカロライナ大学が開発したAgent0-V...
Google・DeepMind・Alphabet

OpenAIに警告:GoogleのGemini 3がすべてを変えようとしている(Gemini 3の詳細)

GoogleのCEOであるSundar PichaiがGemini 3.0の年内リリースを明言し、AI業界に大きな波紋を呼んでいる。現行のGemini 2.5が多くの領域で最先端の性能を示す中、次期モデルであるGemini 3.0は特にコー...
AI研究

ゼロショット学習者たち

この動画では、GoogleのDeepMindが発表した「Video Models are Zero-Shot Learners」という論文を中心に、映像生成モデルの汎用化能力について解説している。V3という最先端の映像生成モデルが、エッジ検...