アマゾンの新AIモデル『NOVA』が業界全体に衝撃を与える!

AIに仕事を奪われたい
この記事は約7分で読めます。

3,599 文字

Amazon New AI Models 'NOVA' Stun The Entire Industry!
Introducing Amazon Nova, our new generation of foundation modelsPrepare for AGI with me - 🐤 Follow Me on Twitter ht...

アマゾンのNovaの発表と立ち上げについてお話しさせていただきます。これは最先端の知能を提供し、業界をリードする価格性能比を実現する、私たちの新しい最先端基盤モデルです。ご覧の通り、アマゾンが最先端モデルを発表したところです。他の企業もこの分野に参入してくるのを見るのは非常に興味深いですね。
このインテリジェンスモデルには4つのバリエーションがあります。まず1つ目は「マイクロ」で、テキストインプットからテキストアウトプットを行うテキストオンモデルです。非常に高速で費用対効果が高く、社内の開発者たちも単純なタスクに重宝しています。
そして3つのマルチモーダルモデルがあります。マルチモーダルモデルではテキスト、画像、動画を入力し、テキストを出力できます。サイズと知能の順に、マイクロ、ライト、プロの各モデルが本日から一般提供を開始します。プレミアモデルは第1四半期に提供予定です。
いくつかのベンチマークをご紹介します。可能な限り外部で公開されているベンチマークを使用し、利用できない場合は自社で実施しました。手法はウェブサイトで公開していますので、再現してみていただけます。
マイクロモデルについて見ると、非常に競争力のあるモデルとなっています。この分野の主要モデルであるLlamaやGoogleのGeminiと比較すると、生の数字では全ての項目でLlamaを上回り、13項目中12項目でGeminiを上回っています。
ライトモデルも同様に非常に競争力があります。Nova LightをOpenAIのGPT-4と比較すると、19のベンチマーク中17で同等以上、Geminiとは21項目中17で同等以上、Claude 3.5とは12項目中10で同等以上の性能を示しています。Claudeはまだ画像や動画に対応していないため、すべての次元でベンチマークを取ることはできませんでした。
プロモデルも同様で、GPT-4と比較すると20項目中17で同等以上、Geminiとは21項目中16で同等以上の性能です。このクラスで最高のモデルはSonnet V2 3.5ですが、私たちのプロモデルもその約半数で同等以上の性能を示し、他の項目でも非常に競争力があります。コストと遅延特性も気に入っていただけるはずです。
最大のマルチモーダルモデルとなるプレミアモデルは第1四半期に提供予定です。これら4つの非常に魅力的なインテリジェンスモデルには、他にも気に入っていただける特徴があります。
まず、非常に費用対効果が高く、Bedrock内の他の主要モデルと比べて約75%低コストです。また、レイテンシーの面で最速のモデルとなっています。昨夜Peterが話していたレイテンシー最適化推論SKUでもNovaモデルを利用できるようになります。
これらのモデルはBedrockに統合されているだけでなく、モデルプロバイダーが使用できるBedrockのすべての機能と深く統合されています。このチームが時間をかけて実装したからこそ可能になりました。つまり、生成AIアプリケーションの多くの開発者が望むように、ラベル付きの例を使用してファインチューニングを行い、アプリケーションのパフォーマンスを向上させることができます。
また、Novaモデルはマトリックスが説明した蒸留機能とも統合されており、より大きなモデルの知能を、より費用対効果が高く遅延の少ない小さなモデルに注入することができます。Bedrockのナレッジベースとも深く統合されているため、RAGを使用して独自のデータに基づいて回答を得ることができます。
さらに、これらのモデルは独自のシステムやAPIと連携するように最適化されているため、複数の調整された自動ステップやエージェント的な振る舞いをより簡単に実現できます。非常に魅力的なモデルだと思いますので、実際に試して使用するのが楽しみです。
お客様は生成AIについて、テキスト出力以外にもより多くのことを実現したいと考えています。画像や動画に関する多くのニーズがあり、広告やマーケティング、トレーニング資料などの簡単な例があります。この課題に取り組んできましたが、費用がかかり、選択肢が少なく、自分で実現するのは簡単ではありません。
そこで、さらに2つのモデルを発表できることを嬉しく思います。1つ目は最先端の画像生成モデルである「Amazon Nova Canvas」です。Canvasでは自然言語のテキストを入力して美しいスタジオ品質の画像を生成できます。自然言語やテキスト入力で画像を編集でき、カラースキームやレイアウトのコントロールが可能です。
トレーサビリティのためのウォーターマークや、有害なコンテンツの生成を制限するコンテンツモデレーションなど、AIの責任ある使用のための多くのコントロールが組み込まれています。これもベンチマークを行い、この分野で一般的にリーダーと考えられているDALL-E 3とStable Diffusion 3.5と比較しました。
最も重要な画質と指示への追従という2つの変数でベンチマークを行ったところ、Canvasは両方の次元で両者を上回る性能を示しました。人による評価でも同様の結果が得られました。これは魅力的なモデルです。
また、動画の生成も容易にしたいと考え、最先端の動画生成モデルである「Amazon Nova Real」の発表を嬉しく思います。Realでもスタジオ品質の本当に素晴らしい動画を作成できます。カメラの完全なコントロール、モーションコントロール、パンニング、360度回転やズームが可能です。
また、ウォーターマークやコンテンツモデレーションなど、安全なAIのための制御機能も組み込まれています。まずは6秒の動画から始めますが、これは多くのマーケティングや広告に適しており、今後数ヶ月で2分までの動画に対応する予定です。
これもベンチマークを行いましたが、APIを持つ動画生成サービスは少なく、自動化されたベンチマークを持つものはありません。そこで、この分野のリーダーの1つであるRunwayと人による評価でベンチマークを行ったところ、Realは他と比べて非常に好ましい結果を示しました。
以上が6つの新しい最先端モデルですが、Novaの次の展開についてもお話ししましょう。まず、チームは来年にかけてこれらのモデルの第2世代に取り組む予定です。また、いくつかの予告もさせていただきます。
第1四半期には音声から音声へのモデルを提供する予定で、音声を入力して非常に流暢で高速な音声出力を得ることができます。また、年半ばには「エニー・トゥ・エニー」モデルを提供する予定です。これは真のマルチモーダル対応で、テキスト、音声、画像、動画を入力し、テキスト、音声、画像、動画を出力できます。これが最先端モデルの構築と利用の未来であり、皆様に提供できることを楽しみにしています。
AWSのモデル戦略をどう考えるべきか、と思われるかもしれません。多くのモデルプロバイダーと深いパートナーシップを持ち、独自のモデルもあります。私たちの考え方は、常に選択肢を提供してきたのと同じです。つまり、どこよりも幅広く優れた機能を提供することです。
これは選択肢を意味します。実際、皆様は異なる理由で異なる時に異なるモデルを使用することになります。これは現実の世界と同じで、人間もすべての分野の専門知識を1人に求めるわけではなく、異なる分野に優れた異なる人々がいます。
時にはコーディング、数学、RAGとの統合、エージェント的なニーズ、低レイテンシー、コストを最適化する必要があり、多くの場合はこれらの組み合わせを求めます。AWSでは、常にそうしてきたように、これらの最高の組み合わせを提供します。今日、私たちはいくつかの非常に興味深いモデルを追加しました。
素晴らしいことに、これらのモデルはすべてBedrockで利用可能で、お好みの組み合わせで使用でき、実験して時間とともに変更することもできます。今後も、この選択肢と選択の自由を提供し続けます。
ここで明らかに見られるように、アマゾンは独自の最先端モデルを導入し、非常に優れたパフォーマンスを示しています。Artificial Analysis Quality Indexのグラフを見ると、実際にかなりの性能を発揮していることがわかります。多くの人々が使用するモデルとして、AIエコシステムにしっかりと位置づけられています。
もちろん、主にアマゾンAWSの顧客が使用することになるでしょうが、それでも、主要なAI企業と同等の最先端モデルを企業が突然発表できることは驚きです。アマゾンがAIエコシステムをさらに発展させる中で、今後どのような展開を見せるのか興味深いところです。

コメント

タイトルとURLをコピーしました