多言語対応

Google・DeepMind・Alphabet

新しいGeminiテキスト読み上げ

GoogleのGemini 2.5に搭載されたテキスト読み上げ(TTS)機能は、大規模言語モデル上に構築された音声生成システムである。従来の専用音声モデルに匹敵する品質を持ちながら、自然言語で音声効果を記述するだけで複雑な表現が可能となる。...
AI画像

GoogleのNano Banana Proがすべてを変えた(そして今すぐ試せる)

2025年11月20日、GoogleがGemini 3 Proをベースに開発したNano Banana Proをリリースし、AI画像生成技術に革命をもたらした。このモデルは単なるアップデートではなく、画像生成、編集、AI推論を統合した完全な...
AI活用・導入

AIはあなたより良いスライドを作れるのか?

この動画では、ChatGPTやClaude Opusといった汎用AIツールと比較して、プレゼンテーション作成に特化したGammaというAIツールの優位性を紹介している。Gammaは一貫した書式設定と美しいデザインを保持しながらスライドを生成...
中国

とんでもない!中国がこのリリースでトップモデルを破壊する!

中国Alibaba Cloudが開発したQwen 3VLは、2350億パラメータを誇る大規模視覚言語モデルであり、オープンソースとして公開された最大級のマルチモーダルAIである。本モデルはGemini 2.5 ProやClaude 4.1 ...
中国

Qwen 3 Omni — すべてをこなすオープンソースAIモデル

この動画では、Alibabaが開発したQwen 3 Omniという最新のマルチモーダルオープンソースAIモデルについて詳細に解説している。このモデルは動画、画像、テキスト、音声を同時に処理でき、テキストと音声のストリーミング応答を生成可能で...
Google・DeepMind・Alphabet

Googleの新しいオフラインAIが記録を更新中

Googleが発表したEmbedding Gemmaは、わずか3億800万パラメータという小型サイズながら、従来の2倍のサイズのモデルに匹敵する性能を実現するAIモデルである。完全オフラインでスマートフォンやノートパソコンなどの一般的なデバ...
Google・DeepMind・Alphabet

Embedding Gemma:オンデバイスRAGを簡単に実現

Googleが新たにリリースしたEmbedding Gemmaは、オンデバイスでの検索拡張生成(RAG)を大幅に簡易化する軽量埋め込みモデルである。Gemma 3をベースとした3億パラメータのこのモデルは、わずか200メガバイトのVRAMで...
Microsoft・Azure・ビルゲイツ

高感情表現・超長時間対応 – 画期的テキスト音声変換技術登場!

Microsoftが新たにリリースしたVibe Voiceは、従来のTTSモデルを大幅に上回る革新的な音声合成システムである。最大90分という長時間の音声生成が可能で、4つの異なる話者を同時に扱うことができる。英語と中国語の多言語対応に加え...
OpenAI・サムアルトマン

4分でわかるGPTリアルタイム!新OpenAI音声エージェントAPI

OpenAIが新たにリリースしたGPTリアルタイムAPIの大幅アップデートに関する解説動画である。新モデルGPTリアルタイムは音声特化型で、プロダクション対応の高性能を誇る。MCP(Model Context Protocol)サーバーへの...
OpenAI・サムアルトマン

ライブ配信:OpenAI開発者ストリーム

このライブ配信では、OpenAIが新たに発表したGPT Realtimeという高品質な音声AIモデルとリアルタイムAPIの一般提供開始について詳しく解説している。従来の音声認識・テキスト変換・音声合成の三段階プロセスとは異なり、GPT Re...
OpenAI・サムアルトマン

APIにおけるgpt-realtimeの紹介

OpenAIが新たに発表したGPT realtimeと改良されたリアルタイムAPIについての発表会である。このモデルは従来の音声認識→テキスト処理→音声合成という段階的処理とは異なり、音声を直接理解し生成するスピーチ・トゥ・スピーチモデルと...
GPT-5、5.1、5.2、5.3

GPT-5、倫理、そして世界の力の変化

この動画では、OpenAIの最新モデルGPT-5の詳細な分析と評価を行っている。発表されたデモの内容から実際の性能まで、技術的な進歩と課題を関西弁で解説。さらに、中国のAI技術の台頭、教育システムへの影響、ロボット技術の進展など、AI業界全...
RAG

RAGに必要な唯一の埋め込みモデル

本動画では、テキストと画像の両方に対応し、29の異なる言語をサポートする革新的な埋め込みモデル「JA embedding V4」について解説している。このモデルは従来の単一ベクトル表現と多ベクトル表現の両方に対応し、LoRAアダプターを活用...