ローカル実行

AI音声

2026年、CPU環境で最速のText-to-Speech登場(ボイスクローニング対応)

QTAIが開発したPocket TTSは、わずか1億パラメータの超軽量Text-to-Speechモデルでありながら、GPUを必要とせず一般的なCPUでリアルタイム音声合成が可能という画期的な特徴を持つ。Kokoroなどの既存モデルと比較し...
Google・DeepMind・Alphabet

Google Antigravity – GoogleはCursorを殺したのか?

GoogleがリリースしたAntigravityは、コーディングエージェント時代におけるソフトウェア開発の在り方を再定義しようとする革新的なエージェント型コーディングシステムである。これまでのCLIベースやクラウド実行型のコーディングツール...
Google・DeepMind・Alphabet

Googleの新しいオフラインAIが記録を更新中

Googleが発表したEmbedding Gemmaは、わずか3億800万パラメータという小型サイズながら、従来の2倍のサイズのモデルに匹敵する性能を実現するAIモデルである。完全オフラインでスマートフォンやノートパソコンなどの一般的なデバ...
Apple・ティムクック

Appleの最新オープンソースAI「Fast Vision」の高速性能

この動画はAppleが新たにリリースしたオープンソースのビジョン言語モデル「Fast VLM」について解説している。このモデルは従来のLLaVA-1.5と同等の性能を持ちながら、初回トークン生成時間において85倍高速化を実現している。特筆す...
Microsoft・Azure・ビルゲイツ

NotebookLMやけどオープンソース!Microsoftからの画期的なテキスト音声合成技術

MicrosoftからリリされたVibeVoiceという15億パラメータのオープンソースTTS(テキスト音声合成)モデルについて解説している。このモデルはNotebookLMのようなポッドキャスト形式の音声を生成でき、複数話者による表現豊か...
Google・DeepMind・Alphabet

Gemma 3 270M – Googleの新しい超小型LLMを7分で解説!

Googleが新たにリリースしたGemma 3 270Mは、わずか2億7000万パラメータの超小型LLMである。このモデルはスマートフォンやラズベリーパイなどのエッジデバイスでローカル実行が可能で、Pixel 9 Proでは25回の会話でバ...