音声合成

AI音声

2026年、CPU環境で最速のText-to-Speech登場(ボイスクローニング対応)

QTAIが開発したPocket TTSは、わずか1億パラメータの超軽量Text-to-Speechモデルでありながら、GPUを必要とせず一般的なCPUでリアルタイム音声合成が可能という画期的な特徴を持つ。Kokoroなどの既存モデルと比較し...
Google・DeepMind・Alphabet

新しいGeminiテキスト読み上げ

GoogleのGemini 2.5に搭載されたテキスト読み上げ(TTS)機能は、大規模言語モデル上に構築された音声生成システムである。従来の専用音声モデルに匹敵する品質を持ちながら、自然言語で音声効果を記述するだけで複雑な表現が可能となる。...
AIコーディング・Vibe-Coding

GoogleがバイブコーディングにAll-In、AI Studioの完全リニューアル

Googleが開発者向けプラットフォームAI Studioを全面刷新し、バイブコーディングに完全対応した新機能を実装した。Geminiモデルを活用したアプリケーション開発に特化した環境として、画像生成モデルNano Bananaの統合、音声...
スタートアップ・VC

ElevenLabs CEO:なぜ音声が次世代のAIインターフェースなのか

この動画は、ElevenLabsの共同創業者兼CEOであるマディが、音声AI技術の開発と事業展開について語ったインタビューである。ポーランドでの吹き替え体験から着想を得て創業した同社は、感情やイントネーションを理解する高品質な音声合成技術を...
AGI・ASI

OpenAIが2028年AGI計画を発表、しかしまずはSora 2がペット動画に対応?!

OpenAIが2028年までに完全自律型AI研究者の実現を目指すという野心的な計画を発表する一方で、Sora 2の新機能「キャラクターカメオ」によって動画生成の新たな可能性が開かれた。1Xのヒューマノイドロボット「Neo」が2万ドルで予約開...
ブレインコンピューターインターフェース

脳と機械を結びつけたとき、何が起こるのか?w/ セルゲイ・スタビスキー | デビッド・イーグルマンのインナー・コスモス

本動画では、脳コンピュータインターフェース(BCI)の最前線について、神経科学者デビッド・イーグルマンがUCデイビスのセルゲイ・スタビスキーにインタビューする形で解説している。BCIとは、脳の電気信号を直接読み取り、それをコンピュータカーソ...
AI終末論・破滅論

スティーブン・ホーキング:「AIは人類の終焉を意味する可能性がある」

この動画は、スティーブン・ホーキング博士が新しいコミュニケーションシステムについて語るインタビューである。博士は、Intelが開発した予測テキスト機能を持つ新しいプログラムについて説明し、旧システムとの違いや自身のトレードマークとなった音声...
OpenAI・サムアルトマン

OpenAIの新型Sora 2が登場 – 遂にGoogle Veo 3に対抗できる真の競合が現れた

OpenAIが遂にSora 2を公開し、Google Veo 3に対抗する本格的な動画生成AIツールとして登場した。音声や音楽を含む動画生成に加え、アバター作成機能であるCameoや既存動画のリミックス機能を搭載している。現時点ではiOSア...
中国

Qwen 3 Omni — すべてをこなすオープンソースAIモデル

この動画では、Alibabaが開発したQwen 3 Omniという最新のマルチモーダルオープンソースAIモデルについて詳細に解説している。このモデルは動画、画像、テキスト、音声を同時に処理でき、テキストと音声のストリーミング応答を生成可能で...
Microsoft・Azure・ビルゲイツ

高感情表現・超長時間対応 – 画期的テキスト音声変換技術登場!

Microsoftが新たにリリースしたVibe Voiceは、従来のTTSモデルを大幅に上回る革新的な音声合成システムである。最大90分という長時間の音声生成が可能で、4つの異なる話者を同時に扱うことができる。英語と中国語の多言語対応に加え...
AI音楽

「白昼強盗」:人工知能があなたの仕事を奪うのか?|60ミニッツ オーストラリア

この番組は、人工知能が音楽業界やクリエイティブ産業に与える深刻な影響を検証したドキュメンタリーである。オーストラリアの著名歌手ティナ・アリーナや作家デヴィッド・バルダッチらが、AIによる無断での作品複製や音声クローンについて告発し、「史上最...
OpenAI・サムアルトマン

4分でわかるGPTリアルタイム!新OpenAI音声エージェントAPI

OpenAIが新たにリリースしたGPTリアルタイムAPIの大幅アップデートに関する解説動画である。新モデルGPTリアルタイムは音声特化型で、プロダクション対応の高性能を誇る。MCP(Model Context Protocol)サーバーへの...
OpenAI・サムアルトマン

ライブ配信:OpenAI開発者ストリーム

このライブ配信では、OpenAIが新たに発表したGPT Realtimeという高品質な音声AIモデルとリアルタイムAPIの一般提供開始について詳しく解説している。従来の音声認識・テキスト変換・音声合成の三段階プロセスとは異なり、GPT Re...
OpenAI・サムアルトマン

APIにおけるgpt-realtimeの紹介

OpenAIが新たに発表したGPT realtimeと改良されたリアルタイムAPIについての発表会である。このモデルは従来の音声認識→テキスト処理→音声合成という段階的処理とは異なり、音声を直接理解し生成するスピーチ・トゥ・スピーチモデルと...
AIニュース

AI最新情報:Chrome版Claude、Nano Banana、Metaの人材流出問題、AppleのGemini利用、その他盛りだくさん!

この動画は最新のAI業界のニュースとトレンドを包括的に解説したものである。AnthropicのClaude for Chrome拡張機能の発表から、GoogleのGemini 2.5 Flash Imageの優れた性能、MetaのAI部門で...
AI音声

これは超高速で無料のTTS!⚡️ Kyutai TTSの実行方法⚡️

フランスのKyutai社がリリースした超低遅延ストリーミングテキスト音声合成モデルについて解説する動画である。約20億パラメータのモデルで、220ミリ秒という超低遅延を実現し、商用利用可能なCC BY 4.0ライセンスで提供されている。Go...