マルチモーダル

GPT 5.4はOpus 4.6キラーとなるか

OpenAIが新たにリリースしたGPT 5.4は、100万トークンのコンテキストウィンドウを持ち、コンピュータ使用やビジョンタスクにおいて業界最高水準のベンチマークを記録したモデルである。特筆すべきは、思考プロセスを途中で中断して新しい方向...

2026.03.06

GPT-5

Gemini 3.1 Pro：誰も予想しなかったモデル

GoogleがGemini 3 Proの大型アップグレードとなるGemini 3.1 Proをリリースした。ベンチマークでは推論・エージェント型コーディングにおいて他社モデルを上回る結果を示しており、コストパフォーマンスの高さも特筆される。...

2026.02.20

Google・DeepMind・Alphabet

ビルドアワー:Responses API

本動画は、OpenAIのエンジニアが新しいResponses APIの機能と利点を詳細に解説するビルドアワーセッションである。従来のChat Completions APIからの進化として、Responses APIはエージェント構築に最適...

2025.10.15

OpenAI・サムアルトマン

GPT-6：Sam Altmanがリリース時期と機能についてヒントを明かす

この動画は、OpenAIの次世代AI「GPT-6」について、Sam Altmanの発言や内部リークに基づいて詳細に解説したものである。GPT-6は単なるモデルのアップグレードではなく、ユーザーを深く理解し、個人に最適化されたAIコンパニオン...

2025.09.28

GPT-6

視覚と言語空間のためのAIコネクタ

この動画では、現在の視覚言語モデルにおける重要な問題である情報損失について詳しく解説している。特に視覚エンコーダと言語モデルを接続するコネクタモジュールに焦点を当て、異なる次元のベクトル空間間でのマッピング処理によって生じる構造的歪みと細か...

2025.09.24

AI研究

LMMは視覚的に推論するのか、それとも文章的に推論するのか？

この研究は、大規模マルチモーダルモデル（LMM）が物理法則をどのように理解し推論するかを検証したものである。特に自動運転車のような実世界のシナリオにおいて、AIが未知の物体に遭遇した際の物理推論能力を評価している。ミシガン州立大学の研究者ら...

2025.09.23

LLM・言語モデル

Manis AI：Manisが教えるAIエージェントの未来

この動画では、2025年3月にローンチしたManis AIについて、初期の信頼性問題から現在の安定化まで、AIエージェント分野における位置づけと将来性を解説している。エージェント評価のMACEフレームワーク（モダリティ、自律性、複雑性、実行...

2025.09.03

AIエージェント

イーロン・マスクがGrok 5発言で皆を驚かせる！

イーロン・マスクがGrok 5について驚くべき発言を行い、AGI実現の可能性について言及している動画である。Grok 4が既にGPT-4oを上回る性能を示している中、Grok 5では視覚機能の大幅改善、新しい物理学の発見、企業ツールとの統合...

2025.08.31

イーロンマスク・テスラ・xAI

GPT-5の内側：能力、リスク、そして現実世界への影響 – AIショーポール・ローツァー&マイク・カプート

この動画では、OpenAIが新たにリリースしたGPT-5について詳細な分析と評価を行っている。GPT-5は同社初の統合システムとして、高速なチャット応答と必要に応じた深い推論能力を組み合わせた革新的なモデルである。しかし、実際の評価では期待...

2025.08.13

GPT-5

リリースノート：Geminiのマルチモーダル機能

この動画は、GoogleのGeminiにおけるマルチモーダル機能について詳しく解説したものである。Geminiのマルチモーダル・ビジョン製品リードであるAni Baddepudiが、テキスト、画像、動画、音声を統合的に理解する単一モデルとし...

2025.07.03

Google・DeepMind・Alphabet

RAGに必要な唯一の埋め込みモデル

本動画では、テキストと画像の両方に対応し、29の異なる言語をサポートする革新的な埋め込みモデル「JA embedding V4」について解説している。このモデルは従来の単一ベクトル表現と多ベクトル表現の両方に対応し、LoRAアダプターを活用...