画像認識技術

AIエージェント

Google Gemini Agentic Visionチュートリアル – Google Gemini Agentic Visionの使い方

GoogleがリリースしたGemini 3 Agentic Visionは、AI視覚モデルの新たなフロンティアを切り開く革新的な技術である。従来のAIが苦手としていた複雑な画像解析を、エージェント機能とコード実行により高精度で実現し、画像内...
Google・DeepMind・Alphabet

8分で理解するGeminiのエージェント的ビジョン

Googleが発表した「エージェント的ビジョン」は、Gemini 2.0 Flashに搭載された革新的な機能である。従来の画像認識タスクをエージェント的なタスクへと変換し、画像のズーム、パン、回転、変形といった操作をPythonコードで実行...
AI入門

コンピュータビジョン入門:CNNによる画像認識の仕組み

本動画はコンピュータビジョンの基礎を解説する講義である。人間の視覚システムと脳の情報処理メカニズムから着想を得たCNNの仕組みを、1950~60年代の猫を用いた実験から現代の画像認識技術まで体系的に説明している。画像がピクセル値の集合として...
AGI・ASI

フェイフェイ・リー博士:AIのゴッドマザーが語る人類と人工知能の未来

スタンフォード大学教授でAI界の「ゴッドマザー」と称されるフェイフェイ・リー博士が、AIの現状と未来、そして人間中心のAI開発の重要性について語る。コンピュータビジョンの先駆者である彼女は、機械学習の基礎からGPT-4oなどの大規模言語モデ...