マルチモーダルAI

Google・DeepMind・Alphabet

Gemini 3.0とVeo 3.1:Googleの次世代AIツールがついに登場!

本動画は、GoogleがリリースしたGemini 3.0とVeo 3.1という次世代AIツールの実力を徹底検証したものである。多くのユーザーがChatGPTに依存する中、Googleは単なる追随者ではなく、実際のワークフローに対応できる強力...
AI画像

Lovart AI: このデザインツールがPhotoshopをMicrosoft Paintのように感じさせた

Lovart AIは、従来のデザインワークフローを根本から変革する世界初のデザインエージェントである。Photoshop、Canva、MidJourney、Runway、Blenderといった複数のツールと有料サブスクリプションを必要として...
AI活用・導入

AIによって成された新発見トップ15【パート2】

本動画は、2024年から2025年にかけてAIがもたらした15の画期的な発見と技術革新を紹介するシリーズの第2弾である。AlphaFold 3による分子間相互作用の予測から、人間の脳の詳細なマッピング、自律型AIエージェントの実用化、非侵襲...
AI画像

Google DeepMind開発者が語る:Nano Bananaの誕生秘話

Google DeepMindの開発者たちが、Nano Bananaと呼ばれる画像生成・編集モデルの誕生秘話と技術的な背景について語る。このモデルは、Gemini 2.5 Flashの一部として開発され、従来のImagineモデルシリーズの...
AIコーディング・Vibe-Coding

Googleが投下したバイブコーディングAI、その強力さ

GoogleがAI Studioで発表したVibe Codingは、プロンプト入力だけでアプリケーションを即座に生成する革新的な開発手法である。動画生成ツール、画像編集機能、Google検索連携ライティングツールなどが単一のプロンプトで構築...
OpenAI・サムアルトマン

OpenAI Codexで美しいフロントエンドを構築する

この動画は、OpenAIの開発ツールCodexが持つマルチモーダル機能、特にビジュアル理解と自己チェック能力を活用したフロントエンド開発の実例を紹介している。研究チームのChanningとRomanが、旅行アプリのUIを改善する過程をデモン...
WWW、Webブラウザ

ChatGPT Atlas、OpenAIの新しいウェブブラウザ

OpenAIが新たにリリースしたウェブブラウザ「ChatGPT Atlas」について、その実用性と将来性を議論する回である。Atlasはブラウザ内でChatGPTを直接利用でき、エージェント機能も搭載しているが、果たして既存ブラウザからの乗...
Google・DeepMind・Alphabet

Google、自己改善型AI動画生成エージェントVISTAを発表:VEO 3を上回る性能を実証

Googleが発表したVistaは、自己改善型のAI動画生成エージェントである。このシステムは再学習や微調整を行わず、自らプロンプトを書き換え、失敗から学習し、結果が驚くほど良くなるまで改善を続ける。実際にGoogleの最上位動画モデルであ...
Google・DeepMind・Alphabet

OpenAIに警告:GoogleのGemini 3がすべてを変えようとしている(Gemini 3の詳細)

GoogleのCEOであるSundar PichaiがGemini 3.0の年内リリースを明言し、AI業界に大きな波紋を呼んでいる。現行のGemini 2.5が多くの領域で最先端の性能を示す中、次期モデルであるGemini 3.0は特にコー...
Google・DeepMind・Alphabet

タイトル GoogleのGemini 3.0がリーク:ChatGPTの終焉か?

Googleの内部文書とされる画像が流出し、Gemini 3.0の2025年10月22日リリースの可能性が浮上した。真偽は不明ながら、実在のコード参照やGemini 2.5 Proの既存展開を考慮すると、大規模アップデートの準備が進んでいる...
AGI・ASI

AIは減速しているのか?ネイサン・ラベンツが語る『我々は間違った質問をしている』

本動画では、Cognitive Revolutionのホストであるネイサン・ラベンツが、AIの進化が減速しているという論調に対して詳細な反論を展開している。カル・ニューポートらが提起した「GPT-5はGPT-4からそれほど進化していない」と...
AIニュース

Google Gemini 3がインターネットに衝撃:完全に驚愕

2025年10月現在、AI業界では激しい競争が展開されている。Googleは密かにGemini 3のテストを進めており、早期テスターによればコーディングタスクやSVG生成でClaude 4.5 Sonnetを上回る性能を示している。一方、オ...
AI研究

見る前に見ることを学ぶAI(LLMからVLMへ)

本動画では、Metaの超知能チームによる最新研究「見る前に見ることを学ぶ」論文を解説している。この研究は、言語モデルから視覚言語モデルへの変換において、テキストベースの推論データが視覚理解に極めて重要な役割を果たすことを明らかにした。具体的...
AI入門

ハイブリッドアーキテクチャ入門:技術的深掘り #1

本動画は、ハイブリッドアーキテクチャの入門として、機械学習における複数のアーキテクチャブロックの統合について包括的に解説している。空間表現ブロック、時系列ブロック、強化学習ブロック、シンボリックAI、物理情報機械学習といった5つの主要なブロ...
中国

とんでもない!中国がこのリリースでトップモデルを破壊する!

中国Alibaba Cloudが開発したQwen 3VLは、2350億パラメータを誇る大規模視覚言語モデルであり、オープンソースとして公開された最大級のマルチモーダルAIである。本モデルはGemini 2.5 ProやClaude 4.1 ...
中国

Qwen 3 Omni — すべてをこなすオープンソースAIモデル

この動画では、Alibabaが開発したQwen 3 Omniという最新のマルチモーダルオープンソースAIモデルについて詳細に解説している。このモデルは動画、画像、テキスト、音声を同時に処理でき、テキストと音声のストリーミング応答を生成可能で...
AI活用・導入

物質的豊かさ:Radical AIの閉ループ実験室が科学的発見を自動化する

Radical AIは、最先端のAIモデルとほぼ完全に自律した実験室を統合したシステムである「材料フライホイール」を構築している企業である。このシステムは新材料の発見と製造を劇的に加速することを目指している。従来の材料科学では新材料の開発に...
GPT-5、5.1、5.2

GPT-5の日をお祝いする皆様へ – 私が期待することについて

この動画は、OpenAIのGPT-5リリースを前にAI専門家が行った予測解説である。発表者は推論能力、マルチモーダル機能、エージェント機能という3つの柱が収束する傾向を分析し、GPT-5がこれらすべてを統合した「エージェントファースト」なモ...
世界モデル・マルチモーダル

VLM RL(視覚言語モデル強化学習)

この動画は、視覚言語モデル(VLM)における強化学習の最新動向を解説したライブストリーム配信である。特にGLM 4.1V ThinkingとNvidiaの長編動画推論に関する2つの研究論文を詳細に分析し、DeepSeekのGRPO(Grou...
AIニュース

中国発の新オープンソースAIが業界に衝撃を与える – わずか7Bパラメータで巨人たちを打ち負かす

中国のXiaomiが開発した7Bパラメータの視覚言語モデル「Mimo VL7B」が、従来の常識を覆す性能を見せている。このモデルは、通常30~70Bパラメータが必要とされる高性能マルチモーダルタスクを、わずか7Bパラメータで実現している。4...