ビジョン言語モデル

AI研究

Metaのヤン・ルカンが「LLMは終わった」と宣言:すべてを変える「推論」AIの登場

MetaのAI研究所FAIRを率いるヤン・ルカンが、大規模言語モデル(LLM)のスケールアップだけでは人間レベルのAIに到達できないと断言した。彼のチームが開発したVLJPAは、従来の単語ごとの生成方式とは一線を画す革新的なモデルである。J...
ロボット

あらゆるタスクに対応する汎用ロボットの訓練:Physical IntelligenceのKarol HausmanとTobi Springenberg

Physical Intelligenceは、あらゆるロボットがあらゆるタスクを実行できる汎用ロボット基盤モデルの構築を目指すスタートアップである。本インタビューでは、創業者のKarol HausmanとTobi Springenbergが...
NVIDIA・ジェンスンフアン

NVIDIA最新論文「MASTERS」蒸留手法:ローカル環境で動く3億パラメータのビジョンAI

NVIDIAが2025年12月30日に発表した最新の研究論文「MASTERS」は、72億パラメータのビジョン言語モデルを2~3億パラメータの小型モデルに効率的に蒸留する革新的な手法である。従来の蒸留手法では教師モデルの複雑な表現を小型の生徒...
LLM・言語モデル

OpenAIとGoogleに衝撃を与えた史上初のオープンソースAIエージェント

Zhipu AIが発表したGLM 4.6Vは、オープンソース初となる真のマルチモーダルAIエージェントとして業界に衝撃を与えた。このモデルは画像、動画、スクリーンショット、ウェブページを直接入力として扱い、テキスト変換なしでツール呼び出しを...
Apple・ティムクック

Appleの最新オープンソースAI「Fast Vision」の高速性能

この動画はAppleが新たにリリースしたオープンソースのビジョン言語モデル「Fast VLM」について解説している。このモデルは従来のLLaVA-1.5と同等の性能を持ちながら、初回トークン生成時間において85倍高速化を実現している。特筆す...