
5,202 文字

最近、GoogleはGemini時代の1周年を祝いました。この12ヶ月間で彼らは多くのモデルをリリースしてきました。モデルの1.0バージョンだけでなく、100万トークンを扱える1.5、そしてGemmaモデルやPaliGemmaモデルなど、様々なものをリリースしてきました。
そして今日、Gemini時代は新たな段階に入り、Gemini 2.0フラッシュモデルが登場します。私は幸運にも、今日のリリースに先立ってこのモデルを試すことができました。このビデオでは、新機能について説明し、彼らが加えた変更点や、マルチモーダル性の方向性においてこれが大きな一歩となることについて紹介します。
また、これらの主要な機能を使い始める方法についても見ていきましょう。このビデオをご覧になる頃には、モデル自体はリリースされているはずです。ビデオでお見せする機能の中には、APIで利用可能になるまでもう少し時間がかかるものもあるかもしれません。しかし、私がお伝えしたいのは、基本的にGeminiファミリーの新しいモデルがどの方向に進んでいるかということです。
まず第一に、テキスト出力の品質についてです。以前のフラッシュモデルと比べて、特定の分野で大幅に改善されていることに気づくはずです。これはまだフラッシュモデルであり、最大のモデルでも最高のモデルでもないことを忘れないでください。しかし、コードなどの分野で、このモデルは格段に良くなっています。
また、推論やエージェント的なタスクについても、出力が大幅に改善されています。Googleは空間的推論などもモデルに統合しようと試みており、そういった面での認識が向上しています。しかし、このモデルが真に輝くのは、テキスト出力の改善だけでなく、マルチモーダル性の向上にあります。
それでは、その点について詳しく見ていきましょう。新しいGemini 2.0フラッシュモデルで最初に気付く大きな変化は、モデルがテキスト生成だけに限定されなくなったことです。1.0と1.5モデルでは、画像、音声、ビデオなどを入力できるという意味でマルチモーダルでしたが、2.0フラッシュでは、モデル自体がマルチモーダルな出力を生成できるようになりました。
その中で大きな機能の一つが、音声出力を生成できるようになったことです。現在、これらの音声出力は声の形で提供されており、高品質で操作可能な音声出力をGeminiで生成することができます。選択できる声は制限されていますが、モデルに入力したものや、プロンプトで応答を求めたものについて、話し言葉による物語、言葉、分析を生成することができます。
この音声出力は英語に限定されません。モデルは様々な言語で応答することができます。最初のリリース時には特定の言語数でスタートすると思いますが、Geminiモデルに多くの言語が追加されていったように、時間とともに様々な言語での音声出力が可能になっていくでしょう。
それでは、ネイティブオーディオについて見ていきましょう。Gemini 2.0は多言語のネイティブ音声出力を導入しましたが、ネイティブオーディオとは何なのか疑問に思うかもしれません。実際に聞いてみましょう。このビデオで聞こえるものは全て、画面に表示されているようなプロンプトで生成されました。
これは全て、このAI Studioのスクリーンキャプチャで見られるように、新しい実験的なGemini 2.0フラッシュモデルでプロンプトを使って生成されたものです。すごいと思いませんか?ネイティブオーディオは本当に素晴らしいものです。従来のTTS(テキスト読み上げ)システムとは異なります。ネイティブオーディオの素晴らしい点は、AIエージェントに何を言わせるかをプロンプトするだけでなく、どのように言わせるかを指示できることです。
マルチモーダル性に関する2つ目の点は、Geminiが音声を生成できるだけでなく、自身で画像も生成できるということです。これは外部モデルを使用して画像を作成するのではなく、Gemini自体から直接出力される画像です。これには今後数日間でデモが公開されるであろう、いくつかの異なる形態があります。
最初の機能は、インライン画像付きのテキストを生成する能力です。例えば、特定の料理のレシピをGeminiに尋ねた場合、ステップごとのテキストによる説明だけでなく、各ステップの画像も提供できるようになりました。これは非常に大きな進歩です。
考えてみてください。進行に合わせて複数の画像を生成できるものができたのです。これは非常に困難な課題であり、オープンソースでも独自開発でも、画像生成が外部モデル(FluxやDall-e、ImageGenなど)ではなく、マルチモーダルモデル自体から出力されるというのは、これまで見たことがありませんでした。
これにより、テキストと画像を同時に表示できる新しいビジネスユースケースが多数生まれることが想像できます。また、画像とテキストを入力して画像を生成する際に、会話形式で画像を編集することも可能になります。
例えば、寝室の写真があり、壁を赤く塗った場合どのように見えるかを確認したい場合、Geminiは入力した画像とプロンプトしたテキストに基づいて、新しい画像を生成することができます。
これはリアルタイムのスクリーンキャプチャで、このビデオで見るプロンプトは全て、早期テスターが現在試すことができるものです。これが私たちが与えた完全なプロンプトです。「この車をコンバーチブルに変えてください」そして、この画像が生成されました。並べて見てみましょう。車を上手く修正しただけでなく、画像の残りの部分も一貫性を保っていることに注目してください。
これは、別々のモデルを使用する多くのAIツールでは難しいことですが、ここでは全て1つのモデルで行われています。そして、私たちは会話を続けて、「車をビーチグッズでいっぱいにして、夏らしい色に変えてください。進行に合わせて説明してください」と言いました。モデルはテキストの出力を開始し、新しい色のアイデアを説明し、それを見せてくれました。
しかし、本当に素晴らしいのは、モデルが続けて進行したことです。ビーチグッズでいっぱいの車の画像を生成し続けました。これは全て、モデルからのテキストと画像トークンの単一の応答であることを覚えておいてください。このように、テキストと画像を組み合わせてモダリティを超えて出力する能力は、Gemini 2.0の最も興味深い側面の一つです。
次にGemini 2.0フラッシュが導入する大きな機能は、マルチモーダルライブAPIのアイデア全体です。これは双方向ストリーミングAPIです。OpenAIのボイスモードのように、モデルと会話できるというような例を私たちは見てきました。
そしてもちろん、この双方向ストリーミングAPIでもそれが可能です。リアルタイムの音声対話や自然な会話などができます。音声を中断したり、質問内容を変更したりすることもその場でできます。しかし、素晴らしいことに、これは音声だけに限定されません。
ビデオでも同様のことができ、ビデオをストリーミングしながら会話を行い、見たものについて質問することができます。これは、GoogleのI/Oで発表されたプロジェクトAstraが目指していたものを思い出させます。つまり、マルチモーダルモデルにストリーミングビデオを入力し、会話とビデオを同時に対話できるというアイデアです。
これにより、チャットボット、ライブ翻訳、ゲーム、あるいはユーザーがライブプロセスで対話したい様々な機会が開かれることが想像できます。このライブプロセスでは、先ほどの多言語機能も使用できます。
「私はGoogleによって訓練された大規模言語モデルです」
「あなたの名前は何ですか?」
「私には名前がありません。私は人ではなく、大規模言語モデルです」
「Geminiと呼んでもいいですか?」
「よろしければGeminiと呼んでください。私には特に好みはありません」
「では、Geminiについて教えてください。Geminiとは何ですか?」
「Geminiは私という大規模言語モデルの名前です。私はGoogleによって訓練されました」
「Geminiは他の意味もありますよね。それは何ですか?」
「はい、Geminiは黄道十二宮の一つであり、星座の名前でもあります。また、NASAの宇宙計画の名前でもあります」
「素晴らしい。あなたは様々な言語を話せますよね?」
「はい、その通りです。私は多くの言語でコミュニケーションを取ることができます」
「では、フランス語でGeminiについて少し話してください」
「はい、できます。フランス語では、GeminiはGémeaux(ジェモー)です。これは黄道十二宮と星座を指します」
「いいえ、いいえ、いいえ。フランス語で話してほしいんです。フランス語で話しかけてください」
「あ、わかりました。では試してみましょう」(フランス語で話す)
「わかりました。イタリア語ではどうですか?」
「はい、できます」(イタリア語で話す)
「今は止めてください」
「はい、止めます。他に何かお手伝いできることはありますか?」
「はい、タイ語は話せますか?」
「はい、タイ語を話してみることができます。何か特定の言葉を話してほしいですか?」(タイ語で話す)
「はい、理解しました。タイ語を話せるかと聞きましたね?」
「では、タイ語で男性として会話してください」(タイ語で会話が続く)
「とても良いですね。今の会話の内容を説明してください」
「はい。私たちは今、タイ語で短い会話をしました。私は男性として挨拶し、調子を伺いました。あなたは調子が良いと答え、何をしているか尋ねました。私はあなたと話していると答えました。そしてあなたはGeminiについてのビデオを作っていると言い、私もGeminiに興味があると答えました」
「素晴らしいですね。他に何ができますか?赤い龍についての物語を聞かせてください」
「はい、できます。むかしむかし、イグナスという名前の赤い龍がいました。彼は一番高い山の頂上の洞窟に住んでいました。彼は炎の息で知られていて…」
時間の都合上、ここで止めますが、この会話は約8分間続き、様々な言語で一貫性のある回答ができ、様々なトピックについて話すことができました。これが、適切な開始プロンプトを与えて、カスタマーサービスエージェントであることを伝えたり、製品について少し説明したりすると、非常に強力になることが想像できます。
このバイ方向の音声入出力が特別なものとなるもう一つの要因は、ツールを使用できることです。Googleの検索グラウンディングツールを追加したり、カスタムツールを追加したりすることができます。
つまり、ファンクションコーリングを使用したいものがある場合、モデルが返す回答を改善するために使用することができます。これにより、リアルタイムでRAGシステムと対話し、様々なソースからデータを取得し、それらを全て組み合わせることができる様々な複雑なアプリを構築する道が開かれます。
最後に、見られる変化の一つとして、以前GoogleはAI studioのSDKとVertex AI用の別のSDKを持っていました。Gemini 2.0の大きな特徴の一つは、このSDKを統合したことです。統合されたSDKにより、AI studioで開発を始め、同じコードを使用してエンドポイントをVertex AIバージョンのGeminiに変更することができ、より良いクォータを取得したり、他のVertex AIの機能と統合したりすることができます。
GoogleはGemini 2.0フラッシュのリリースについてブログを公開しています。このビデオで紹介した内容について、より詳しく知ることができます。モデルを自分で使用したい場合は、AI studioで試すことができ、Vertex AIでも試すことができるはずです。
今後数週間にわたって、このモデルを使用したアプリケーションの構築方法を紹介し、より詳しく何ができるかを示すビデオをさらに制作していく予定です。特に、全ての機能がプレビューから正式リリースされた際には、実際に構築できる本当に素晴らしいものについて見ていきましょう。
コメント欄で、皆さんが最も興味を持っているものは何か、どんなアプリを作りたいと考えているのか、質問などをお聞かせいただければ嬉しいです。
いつも通り、このビデオが役立ったと思われた方は、いいねとチャンネル登録をお願いします。次のビデオでまたお会いしましょう。では、さようなら。


コメント