
8,136 文字

この1、2週間でたくさんのAIに関する発表があり、見逃してしまったかもしれません。より良いAIコンテンツを見たい方は購読をお願いします。眠れる巨人が目覚めました。アマゾンが大きく動き出し、場合によってはOpenAIやその他の最先端モデルと競合する一連のAIモデルを立ち上げています。また、アマゾンの創業者であるジェフ・ベゾス自身が、現在もアマゾンで日々働いているという事実に驚かれるかもしれません。しかし彼が今取り組んでいることはただ一つ、それはAIです。
このビデオでは、彼のAIに関する仕事について語った最近のインタビューを見ていきましょう。また、彼らが発表した大きなニュースと、リリースするモデルの詳細についても、実際の基調講演を通じて見ていきます。Novaはアマゾンのモデルであり、真剣な競争相手となっているようです。ジェフ・ベゾスがアマゾンでのAIにおける自身の役割について説明します。
あなたはアマゾンでAIに関して何をしているのですか?
ええ、AIですね。いくつかありますが、小規模なもので、95%がAIです。
社内で文字通り1000のアプリケーションに取り組んでいるからです。現代のAIは水平的な実現層であることを覚えておく必要があります。それはあらゆるものを改善するために使用でき、すべてのものに組み込まれることになります。これは最も電気に似ています。
何年も前にルクセンブルクのビール醸造所に行きました。実はこの旅がAWSを設立する小さなきっかけの一つになったのですが、その醸造所は300年の歴史がありました。ちなみに、世界で最も古い企業の多くはビール醸造所なんです。なぜかはわかりませんが。彼らは自分たちの歴史を非常に誇りにしていて、博物館を持っていました。その博物館には100年前の発電機がありました。ビール醸造の効率を電気で向上させたかった時、送電網がなかったので、自前の発電所を建設しなければならなかったからです。
当時はみんなそうでした。ホテルが電気を必要とする場合、独自の発電機を持っていました。これを見て、今日のコンピューティングと同じだと思いました。誰もが自前のデータセンターを持っていて、それは続かないだろう、意味がない、グリッドからコンピューティングを購入することになる、それがAWSです。私たちはアマゾン内部で自分たちのために行っていて、APIが作られました。それ自体とても興味深い話なのですが。
電気やコンピューティング、そして今では人工知能のような水平的な層は、あらゆる場所に広がっていきます。AIによって改善されないアプリケーションは一つもないことを保証します。
アマゾンはこの分野でどの位置にいると思いますか?大規模言語モデルについて話してきましたが。AWSには大きな機会がありますが、言語モデルの部分では独自のものを持っていないのでしょうか?
アンドリュー、あなたは忙しすぎて昨日の発表を見逃したようですね。昨日、NovaについてTVで話しました。
それは大規模言語モデルで、私たちの独自のものです。
そのモデルは他のモデルと競争力があると思いますか?
絶対に競争力があります。ベンチマークで非常に優れた結果を出していて、世界クラスの基盤モデル、フロンティアモデルです。そして価格性能比が非常に優れています。
これらのモデル自体がコモディティ化すると思いますか?
完全にコモディティ化するとは思いませんが、モデルはある程度専門化すると思います。いくつかは低レイテンシーで、APIの呼び出しが得意なものもあるでしょう。様々な種類が出てくると思います。友人に相談する時と同じように、すべてのことを同じ人に相談するわけではありません。
ただし、まったく同じというわけではありません。私たちが作り出しているこの種の知能は少し異質で、ある面で人間の知能とはかなり異なります。これらのトランスフォーマー、大規模生成AIは…一つのアプリケーションでも、用途に応じて複数のAIモデルを呼び出す可能性が高いと思います。
パラメータ数が少ないため低コストのものもあれば、時には本当に大きなモデル、大規模なモデルを呼び出す必要もあるでしょう。大規模モデルは主に…わかりませんが、おそらく主にですが、確実に教師モデルとしてよく使用されるでしょう。
昨日Novaで発表したように、モデルには4つのクラスがあります。巨大なフロンティアモデルがありますが、そのモデルは…より低コストで、レイテンシーが低く、異なるレベルの知能を提供できる小規模モデルにまで及びます。
これは本当に…この全体が魅力的です。ちなみに、この種の知能がどれほど異質であるかを考えるのもとても興味深いです。これらのモデルは、より学際的であるという点で、すでにある面で人間より賢いのです。人間が…医師であっても専門化する必要があるように、専門家になるのは非常に困難です。
それは興奮させますか、それとも怖がらせますか?
興奮します。怖くはありません。ただ…人間であることの意味について、これがすべて実現した時に何を意味するのかについて話し合うことはあります。
人間であることの意味について様々な人と会話を交わしました。人々は「AIが私たちより賢く、様々な面で私たちより優れているなら、それは人生の意味を奪うことにならないか」というような質問をします。
私は自分をとても優れた作家だと思っていますが、私よりもずっと優れた作家を知っています。実際、正直に言えば、私が世界一の何かを持っているとは思いません。数学が私より優れている人を知っていますし、ダンスが私より上手な人がいるのは確実です。
文字通り、一つ一つ見ていっても、必ず私より優れている人を見つけることができます。しかしそれは意味を奪うものではありません。もし世界一であることだけに意味があるのなら、私たちのほとんどは人生に意味を見出せないことになります。意味はそれほど多くないでしょう。
実際の意味は人間関係から生まれてきます。人を高めることから…その高めることは非常にローカルなものかもしれません。兄弟姉妹を高め、子供たちを高め、友人やコミュニティの人々を高めることから意味を見出すことができます。
アマゾンのNovaモデル、Nova Pro、Nova Lightは、他のモデルと並んでこのようにランク付けされています。artificial analysisによると、これはMLU、GPQ、Diamond、Human Evalなど、AIモデルの様々な信頼できる大規模ベンチマークを組み合わせた品質指標です。
見てわかるように、Nova ProはClaude 3.5 SonnetやGemini 1.5 Proと同等のレベルにあり、これら2つに次ぐ3番目です。Nova LightはGemini 1.5 FlashやLlama 3.1(70億パラメータモデル)と競合し、Nova MicroはClaude 3.5 Haicuと同等です。スタート時から非常に強い結果を示しています。
これは、これら3つのモデルに加えて、アマゾンが立ち上げる他のいくつかの驚くべきAIモデルを発表した基調講演です。
これらは、アマゾン内部で構築中または構築済みの約1000の生成AIアプリケーションのほんの一部です。私たちは明らかに多くの教訓を得てきました。そのいくつかを共有したいと思います。今は3つだけお話しします。
まず第一に、生成AIアプリケーションの規模が大きくなるにつれて、計算コストが本当に重要になります。第二に、本当に優れた生成AIアプリケーションを構築するのは実際にかなり難しいことです。優れたモデルが必要ですが、モデルだけではありません。モデルに加えて、適切なガードレール、適切なメッセージの流暢さ、適切なUI、適切なレイテンシーが必要です。そうでないと遅延の大きい体験になってしまいます。そして適切なコスト構造も必要です。
第三に、アマゾン内部での構築において、使用されているモデルの多様性に驚かされました。ビルダーたちに自由な選択を与えたところ、ほとんどの人がAnthropicのClaモデルを使用すると思っていました。なぜなら、この1年ほど世界で最も性能の良いモデルだったからです。しかし、彼らはLlamaモデルも使用し、Mrawモデルも使用し、私たちの独自のモデルも使用し、自分たちで作ったモデルも使用しています。
これは私たちを驚かせましたが、ある意味では驚くことではありません。なぜなら、私たちは同じ教訓を何度も何度も学んでいるからです。それは、世界を支配する単一のツールは決して存在しないということです。
これは、私たちが独自のフロンティアモデルの開発を続けている理由の一つです。これらのフロンティアモデルは過去4〜5ヶ月で大きな進歩を遂げました。私たちがそこから価値を見出しているなら、おそらくあなたたちも価値を見出せるだろうと考えました。
Amazon Novaの立ち上げを発表できることを嬉しく思います。これは、フロンティア級の知能と業界をリードする価格性能比を提供する、私たちの新しい最先端の基盤モデルです。
この知能モデルのセットには4つの種類があります。最初はマイクロで、テキストのみのモデルです。つまり、テキストを入力してテキストを出力します。非常に高速で費用対効果が高く、内部のビルダーたちは単純なタスクに大変重宝しています。
次に、マルチモーダルモデルが3つあります。マルチモーダルモデルでは、テキスト、画像、動画を入力し、テキストを出力できます。それぞれがサイズと知能の順に並んでいます。マイクロ、ライト、プロのモデルは今日から一般提供開始です。プレミアモデルは第1四半期に提供予定です。
さらに2つのモデルを発表できることを嬉しく思います。まず一つ目は、Amazon Nova Canvasです。これは私たちの最先端の画像生成モデルです。Canvasでは、自然言語テキストを入力して画像を取得できます。美しい画像、スタジオ品質の画像が生成されます。自然言語やテキスト入力で画像を編集でき、カラースキームやレイアウトのコントロールが可能です。トレーサビリティのためのウォーターマーキングや、有害なコンテンツの生成を制限するコンテンツモデレーションなど、AI責任ある使用のための多くの組み込みコントロールを備えています。
そしてもちろん、動画の生成も簡単にできるようにしたいと考えています。Amazon Nova Realの立ち上げを発表できることを嬉しく思います。これは私たちの最先端の動画生成モデルです。Realでもスタジオ品質の動画、本当に素晴らしい動画を作成できます。カメラの完全なコントロール、モーションコントロール、パンニング、360度回転とズームが可能です。ウォーターマーキングやコンテンツモデレーションを含む、安全なAIのための組み込みAIコントロールも備えています。
マーケティングや広告に適した6秒の動画生成機能でスタートし、数ヶ月以内に2分の動画まで対応する予定です。
また、少しだけ先行して紹介したいものがあります。第1四半期には、音声から音声へのモデルを提供する予定です。これにより、音声を入力して非常に流暢で高速な音声を出力できます。そして年半ばには、Any to Anyモデルを提供する予定です。これは真のマルチモーダルからマルチモーダルへのモデルで、テキスト、音声、画像、動画を入力し、テキスト、音声、画像、動画を出力できます。これは、フロンティアモデルが今後どのように構築され消費されていくかの未来であり、皆様にお届けできることを楽しみにしています。
アマゾン全体でAIについてどのように考えているのかを少しお話ししたいと思います。過去25年間、会社全体で広くAIを使用してきましたが、AIを含む技術に対する私たちの考え方は、それがクールだと思うから使用するのではなく、顧客の問題を解決しようとしているから使用するということです。
そのため、AIについて話す時は、通常、世界最高のチェスプレイヤーを打ち負かしたことを発表するというよりも、小売事業でより良い推奨やパーソナライズされた推奨を提供したり、商品をより早くお届けできるよう、フルフィルメントセンターのピッカーに最適な経路を提供したり、数年以内に1時間未満で商品をお届けできるようにプライムドローンに搭載したり、アマゾンGoストアのジャストウォークアウト技術や、Alexaを動かしたり、25以上のAWS AIサービスを提供して、そのサービス上で素晴らしいアプリケーションを構築できるようにすることに関してです。
カスタマーサービスを例に取ると、私たちには数億人の顧客がいる小売事業があり、時々カスタマーサービスに連絡する必要があります。大多数の顧客は、自分で素早く解決できるセルフサービスを好みます。何年も前にチャットボットを構築しましたが、もちろん機械学習を使用していましたが、静的な決定木があり、回答を得るまでに多くの言葉を入力する必要がありました。
数年前、これを生成AIを使用して再構築しました。これにより、顧客にとってずっと使いやすくなりました。例えば、数日前に商品を注文したとします。新しいチャットボットでは、あなたが誰で、数日前に何を注文し、どこに住んでいるかを知っています。そして、数日後に連絡してきた場合、返品について問い合わせている可能性があると予測できます。
そのことを伝え始めると、すぐに最寄りのホールフーズなどの実店舗で返品できることを伝えることができます。また、このモデルは、あなたがイライラしていて、人間のスタッフに接続する必要があるかもしれないことも予測できるほど賢いのです。
または、セラーについて考えてみましょう。世界中で約200万のセラーが私たちの小売店で販売しており、現在では販売ユニットの60%以上を占めています。彼らが商品をウェブサイトに掲載する方法は、非常に長いフォームに記入する必要がありました。そこで、生成AIを使用して新しいツールを構築しました。これにより、セラーは数語を入力するか、写真を撮るか、URLを指定するだけで、ツールが多くの属性を入力してくれます。セラーにとってずっと簡単になりました。
在庫管理を見てみましょう。私たちの小売事業で解決しなければならない問題の規模を考えてみてください。1000以上の異なる建物、またはノードと呼んでいるものがあり、私たちが行うすべては、輸送時間を節約するために、つまり商品をより早くお届けし、より低コストで行うために、商品を最終顧客の近くのフルフィルメントセンターや建物に適切に配置することに最適化されています。
これらの問題を解決し、予測を行うためにトランスフォーマーモデルを使用しており、すでに長期需要予測トランスフォーマーモデルは、その精度を10%向上させました。また、地域予測の精度も20%以上向上しています。
またはロボティクスについて考えてみましょう。様々なフルフィルメントセンターに75万台以上のロボットが配置されており、それらにはあらゆる種類のAIが搭載されています。Sparrowを例に挙げましょう。これは仕分けを行うロボットアームです。Sparrowは、あるビンから商品を取り出し、別のビンにまとめています。
Sparrowの生成AIは、最初のビンに何があるか、どの商品を取り上げるべきか、どの商品がどれなのかを見分け、そのサイズや材質、材質の柔軟性に応じてどのように把持するか、受け取るビンのどこに置けるかを知る必要があります。
数ヶ月前にルイジアナ州シュリーブポートのフルフィルメントセンターで立ち上げた、これらの全く新しいロボティクス発明を約5つ組み合わせたものがあり、すでに25%速い処理時間を実現しており、これらのロボティクスにおけるAIの発明により、休暇シーズン中のサービスコストが25%低下すると考えています。
しかし、生成AIで発明し、生み出すことができる全く新しいショッピング体験も見られています。いくつか例を挙げましょう。まずエージェントから始めて、Rufusというショッピングエージェントからスタートしましょう。
商品を買おうとしていて、何が欲しいかわからず、決めようとしている時、もちろんアマゾンでできます。多くの方がそうしてくださっていて、ありがとうございます。しかし、何が欲しいかわからない時に、実店舗に行って販売員に相談し、考えていることを伝えて、絞り込みの質問をしてもらい、検討すべき商品を数点指摘してもらう、そういった良さがあります。
そしてそれらの商品を見て、すべてのデータが目の前にない時に、販売員に「これについてはどうですか?あれについてはどうですか?」と質問すると、すぐに答えてくれます。離れて行かなければ…そして欲しいものを素早く決定することができます。
Rufusでは、任意の商品詳細ページに行き、その詳細ページにある膨大な情報を見る代わりに、どんな質問もでき、Rufusが素早く答えてくれます。Rufusは商品やカテゴリー間で比較を行い、推奨もしてくれます。
またはAlexaという別のエージェントでは、現在、複数の基盤モデルでAlexaの頭脳を再構築しているところです。これは、Alexaがあなたの質問により良く答えられるようになるだけでなく、今日の生成AIアプリケーションではほとんど行われていない、あなたのニーズを理解し、予測し、実際にあなたのために行動を起こすことができるようになります。これは今後数ヶ月のうちに見られるようになるでしょう。
エージェントに加えて、生成AIで構築できる新機能が多数あり、それらは非常に異なる顧客体験につながっています。いくつか例を挙げましょう。
友人の家でプランターを見かけて気に入り、それがどこのものか知りたいと思った時(私にはよくあることです)、友人に尋ねてもその友人が知らない場合、Amazon Lensを使用できます。その商品の写真を撮ると、Amazon Lensはコンピュータビジョンと、その下にあるマルチモーダルモデルを使用して検索クエリを実行し、アマゾンの正しい検索結果に直接導いてくれ、簡単に購入できます。
またはサイズ選びについて。私たちが持つ多くのブランド間のサイズ関係をすべて取り込んだ大規模言語モデルを構築し、どれが似ているのか、どれがより大きめや小さめに作られているのかを比較し、顧客が以前に購入したものを見て、新しいブランドで本当に注文すべきサイズを適切に推奨できるようにしました。
プライムビデオで行っていることを見てみると、NFLと深いパートナーシップを結んでおり、年月をかけてNextGen Statsと呼ばれるものを一緒に構築してきました。毎シーズン5億のデータポイントを収集し、その上にAIモデルを構築しています。
構築した機能のいくつかを見ることができます。ディフェンシブアラートと呼ばれるものを構築し、どのディフェンス選手がクォーターバックにブリッツをかけるかもしれないことを示し、周りに丸を付け、視聴体験を変えています。また、異なるフォーメーションやセットを見て、ディフェンスの弱点がどこにあるかを検出でき、ディフェンシブバルネラビリティという機能があり、オフェンスがどこを攻めるべきかをビューアーにハイライトすることができます。これらはファンの体験を変えています。
今日はここまでです。必ず購読してください。たくさんのニュースが予定されており、また、GoogleとOpenAIが猛烈なスピードでリリースしている新製品の分析もあります。今月の残りは非常に凄まじいものになりそうです。必ず購読して、いいねを押してください。次回お会いしましょう。


コメント