視覚推論 | ASIに仕事を奪われたい

OpenAIとGoogleに衝撃を与えた史上初のオープンソースAIエージェント

Zhipu AIが発表したGLM 4.6Vは、オープンソース初となる真のマルチモーダルAIエージェントとして業界に衝撃を与えた。このモデルは画像、動画、スクリーンショット、ウェブページを直接入力として扱い、テキスト変換なしでツール呼び出しを...

2025.12.10

LLM・言語モデル

本動画では、視覚推論における2つの極端なアプローチを比較分析している。一方はMonetのような内在的な数学的最適化エンジンであり、連続的な潜在空間における軌道最適化として視覚推論を扱う。他方は、ノースカロライナ大学が開発したAgent0-V...

2025.12.01

AI研究

GoogleのCEOであるSundar PichaiがGemini 3.0の年内リリースを明言し、AI業界に大きな波紋を呼んでいる。現行のGemini 2.5が多くの領域で最先端の性能を示す中、次期モデルであるGemini 3.0は特にコー...

2025.10.21

Google・DeepMind・Alphabet

この動画では、GoogleのDeepMindが発表した「Video Models are Zero-Shot Learners」という論文を中心に、映像生成モデルの汎用化能力について解説している。V3という最先端の映像生成モデルが、エッジ検...

2025.09.27

AI研究