画像認識

AI画像

あらゆる画像から3Dモデルを作成(無料&オープンソース)

MetaがリリースしたオープンソースAIモデル「SAM 3D」を紹介する動画である。このツールは2D画像から任意のオブジェクトを抽出し、3Dモデルに変換することができる。完全無料かつオープンウェイトで提供されており、3Dプリント、ゲーム開発...
Google・DeepMind・Alphabet

Gemini 3 Flash – 日々の業務を支える強化されたワークホース

Gemini 3 Flashは、Googleが新たにリリースした日常業務向けの強力なワークホースモデルである。前世代の2.5 Flashを大幅に上回る性能を持ち、多くのタスクにおいて2.5 Proと同等、場合によってはそれ以上の能力を発揮す...
AI研究

AI視覚推論が解決された:MONET(ピクセル空間不要)

本動画は、AI分野における画期的な研究論文「MONET」を解説するものである。MONETは、従来の視覚言語モデルとは根本的に異なるアプローチを採用し、テキスト空間に変換することなく、純粋に視覚的な潜在空間内で推論を行う新しいAIシステムであ...
AI画像

新しいDeepSeekが驚くべきことをやってのけた…

DeepSeekが新たに発表したDeepSeek OCRは、画像認識技術に革新的なアプローチをもたらした。従来の画像認識技術とは異なり、このモデルはテキストを画像として表現することで、10倍のテキスト圧縮を実現しながら97%の精度を維持する...
中国

Qwen 3 Omni — すべてをこなすオープンソースAIモデル

この動画では、Alibabaが開発したQwen 3 Omniという最新のマルチモーダルオープンソースAIモデルについて詳細に解説している。このモデルは動画、画像、テキスト、音声を同時に処理でき、テキストと音声のストリーミング応答を生成可能で...
Apple・ティムクック

Appleの最新オープンソースAI「Fast Vision」の高速性能

この動画はAppleが新たにリリースしたオープンソースのビジョン言語モデル「Fast VLM」について解説している。このモデルは従来のLLaVA-1.5と同等の性能を持ちながら、初回トークン生成時間において85倍高速化を実現している。特筆す...
Google・DeepMind・Alphabet

Nano Bananaは狂気的なAI画像エディタ…

この動画は、GoogleのNano Bananaという革新的なAI画像編集・生成モデルについて詳しく解説している。既存の画像に対する編集能力が従来のモデルを大幅に上回り、物体の追加、人物の合成、写真の修復・カラー化、3Dメッシュ生成など多様...