モンスタープロンプト、OpenAIのビジネス戦略、ナノバナナとUSオープンの実験

AIニュース
この記事は約29分で読めます。

KPMGの100ページプロンプトからOpenAIのインフラ事業参入示唆、GoogleのNano Bananaの画像生成技術の革新性まで、AI業界の最新動向を専門家パネルが分析する回である。特に長大プロンプトの必要性、計算インフラの世代交代による中古GPU市場の可能性、そして画像生成技術の飛躍的進歩について詳しく議論している。

Monster prompt, OpenAI’s business play, nano-banana and US Open experimentations
Subscribe for AI updates → you trust a 100-page prompt to do your taxes? In episode 70 of Mixture of Experts, host Tim H...

AI業界の最新トレンドを分析

これはもう絶対におもちゃやないで。今まで見てきた中で、これが一番ええ画像生成モデルや。ベンチマークを見ても、ワシはあんまりベンチマーク信用してへんけど、それでも他のモデルより200ポイントも上やねん。

そんなこんなで、今日のMixture of Expertsの始まりや。司会はティム・ファンやで。毎週MOEは、技術の最前線で活躍してる人らを集めて、人工知能のめちゃくちゃ速いペースで進む世界について議論・討論・分析してもらってる番組や。今日はベテランの素晴らしいメンバーと、初参加の方も来てくれてる。

IBMフェローでマスターインベンターのアーロン・ボットマンや。アーロン、また来てくれてありがとうな。それからクリス・ヘイ、distinguished engineerでMOEの長年の常連や。そして初参加のローレン・マクヒュー、AIオープンイノベーションのプログラムディレクターや。ローレン、番組に来てくれてありがとう。

今日はもりだくさんの内容やで。OpenAIがインフラ販売をほのめかしてる話、ナノバナナ、USオープンの話もする。KPMGから出てきた100ページプロンプトの話まで取り上げるで。でもまず最初は、いつものようにイライからの新コーナーや。じゃあイライ、お願いします。

KPMGの100ページプロンプトが話題に

みなさん、こんにちは。IBMのテックニュースライターのイリ・マクコネンです。今週の忙しい中で見逃したかもしれないAIニュースをお届けします。

まず最初に、時価総額で世界一の企業であるNvidiaが、前年同期比56%という驚異的な売上増を発表しました。これは主にデータセンター事業によるものです。チップメーカーにとっては良いニュースのように思えますが、実際には市場の反応は微妙でした。収益がアナリストの予想に届かなかったからです。

次に、人工知能分野で最大のライバル同士であるOpenAIとAnthropicが、実はモデルのセキュリティ問題を理解するために手を組んでいます。最近、お互いのモデルを評価し合って、ハルシネーションやその他の問題をより良く理解しようとしています。基本的には、自分たちのテストで見逃したものを相手に見つけてもらおうという狙いです。

一方、希望的なAIのカテゴリーでは、多くの911センターが人手不足で、AIに助けを求めています。最初は問題に思えるかもしれませんが、実際にはこれらのAIエージェントは駐車違反や騒音苦情など、緊急性のない問題を処理して、人間のスタッフが本当の緊急事態に対応できるようにしています。

最後に、IBMとNASAが科学者たちに大きな嵐の前により多くの準備時間を与える手助けをしています。最近、太陽活動を予測できるSuriaという新しいオープンソース基盤モデルをリリースしました。

普段MOEでは、AI技術で起こってる最大の話題を取り上げています。フロンティアモデル企業から出てくる大型モデルのリリースや、人々がローンチする最大の機能や製品についてね。でも今日は実は、ちょっと面白い小さな話から始めたいんです。

KPMGという世界的な会計事務所についての記事があって、多くの企業や法人が今やってるように、彼らも独自のAIエージェントを立ち上げたんです。それをTaxbotと呼んでます。Taxbotがやろうとしてることは、KPMG のような大企業の税務アドバイス専門知識を全部集めて、基本的に書類を通して、顧客向けに25ページくらいのアドバイス意見書を生成することです。これは通常彼らが提供するもののファーストドラフトみたいなものです。

ここで本当に面白かったのが、彼らがかなり批判を受けた、批判というのが正しい言葉かわからんけど、オンラインで大きな注目を集めたのは、Taxbotを動かすために、100ページのプロンプトを使ってることを明かしたからです。プロンプティングが数文から成る世界から来た人間としては、これは本当に驚くべきことです。

アーロン、まずあなたから聞きたいんですが、これまで書いた最長のプロンプトは何ページくらいでしたか?100ページプロンプト、小説の長さ、中編小説の長さのプロンプトが出てくるのは驚きですか?

アーロン:まず言わなあかんのは、昔、年がバレるかもしれんけど、クリフノートっていう黄色い本を使ってたんや。バーンズ・アンド・ノーブルで買ったり、Amazonで買ったりして、本のクリフノートを手に入れられたんや。でももうそんなもん要らんようになったよな。こういう長いプロンプトを使って要約できるからな。

私が書いた最長のプロンプトは、半分書いたっていうか、マニュアルをコピペしただけやけど、多分40ページくらいやったと思う。それをモデルに入力したら、要約されたキーポイントが出てきた。めちゃくちゃ効果的で、どう働くかが本当に面白かった。驚いたわ。

ティム:面白いポイントやね。ローレン、これについて飛び込んでもらいたいんやけど、1年半前、2年前、AI時間でいうたらかなり昔の話やけど、「プロンプトエンジニアリングは死ぬ」っていう話がめちゃくちゃ目立ってたん覚えてる?長期的には、プロンプトエンジニアリングは本当に必要なくなって、コンピュータに何をしたいか言うだけでやってくれるようになるって話や。

でもこの話は、ほぼ逆の方向を指してるよな。エージェントの動作を本当に良くするためには、大量の仕様が必要になって、ある意味でプロンプトエンジニアリングがこれらのものを動作させる大きな部分になってる。これが正しい考え方?結局プロンプトエンジニアリングは死んでなかったってこと?

プロンプトエンジニアリングの複雑性

ローレン:プロンプトがどれくらい複雑になるかを理解する良い方法は、基本的にエージェントであるオープンソースプロジェクトのいくつかを見ることです。GPT researcher、meta GPTなど。これらのプロンプトがどれだけ長くて複雑かを見ることができます。そしてそれは、エージェントをより良く動作させるアイデアに対するコミュニティ全体の貢献の成果です。

私は、製品が動作するのに100ページのユーザーマニュアルが必要なら、良くて設計が悪い、悪くて壊れてると思います。この場合、製品はモデルで、ユーザーマニュアルはプロンプトです。だから実際にできることの一つは、ファインチューニングです。

ファインチューニングは復活してると思います。特にGemma 3.2 70 millionのようなモデルでは、実際のアーキテクチャがチューニングされるように作られています。埋め込みに割り当てられるパラメータと、処理を行うトランスフォーマーブロックに割り当てられるパラメータの比率が調整されています。

一部は、アーロンの最初の例に戻るんやけど、プロンプティングって実際何なんやろう?プロンプティングは時々、モデルへの入力を意味することもあって、その場合、要約してもらうために全体のマニュアルを入力するのは驚きではないかもしれません。

税務分野でこれらのプロンプトが超長くなる必要がある理由があるのか気になってます。エージェントが長いプロンプトを必要とする何かがあるのか、それともこれは単に彼らがTaxbotを設計した方法の奇妙な産物なのか?

基本的に私の主な質問は、その100ページのうち、KPMGだけが知ってる新しいユースケースのために書き直す必要があるページは何ページかということです。そしてそれが、これがエージェントでどんなエージェントでもやる必要があることなのか、それとも真にカスタムソリューションでスケールするのがずっと困難なものなのかの核心になります。

ティム:本当に面白いダイナミクスですね。クリス、あなたを話に入れたいと思います。ローレンが言ってることは、ある意味で、本当に長いプロンプトを持つのは、モデルが知らない知識すべてを補うためだということのようです。

だから、クリス、一つの見方は、これらのモデルがより専門的な分野に展開されるにつれて、本当に長いプロンプトが出現するのは珍しくないということです。実際、一般的なモデルが持たないかもしれない分野知識がすべてあるからです。

ベースモデルがそれをする必要がないほど十分スマートになるという元々のアイデアもあったけど、これが良い例なら、私たちはその方向に向かってないかもしれません。

クリス:驚かないですね。100ページっていうても、99ページが「ハルシネーションしたらあかん。ハルシネーションしたらあかん」を繰り返してるんやなかったら、実際は「シャイニング」みたいに同じ文章を何度も何度も繰り返してるだけかもしれんけど。

でもローレンの指摘通り、モデルが最初から知識を持ってなくて、専門分野がたくさんあるなら、コンテキストに入れなあかんねん。私は反対やない。みんな、しばらく前から検索拡張生成を使ってるからな。

どっちにしろ、コンテキストに入れるんやから。ある意味で言うたら、必要なもの全部をコンテキストウィンドウに収められるから、モデルにより良いチャンスを与えられるってことや。正直言うて、RAGで正しいチャンクが戻ってくることを期待してサイコロを振るより、コンテキストウィンドウに入れる方がいいかもしれん。

でも、知識の欠如を補ったり、特定のパターンをやってほしい場合はある。25ページの文書を生成する必要があって、その文書が特定の方法で見える必要がある場合、アーロンの前の指摘のように、仕様を構築してるんや。モデルは心読めるもんやない。あなたが望む方法で作らなあかん。

良いプロンプトには例があるやろ。これがセクション1、これがセクション2。これをしてほしい。これについて話さんといて。ファインチューニングは本当に難しい。だから、コンテキストに詰め込めるなら、それでええねん。

私が多分言いたいのは、これは、彼らがエージェントという言葉を使ってることに疑問を感じるということです。単なるプロンプトやと思う。でも、本当に本当にエージェント的やったら、エージェントが何度もループを回れると思う。そうすれば100ページのプロンプトは必要ないやろう。

エージェントが必要な要素を取りに行って、それらを構造的にまとめる方法を持てるはずや。現実には結局100ページくらいになるかもしれんけど、コンテキストウィンドウに詰め込むんやなくて、エージェントが検索に行って、すべてをまとめるんや。だから、この場合のエージェントという言葉に疑問を感じる。

リアルタイムデータと専門知識の活用

アーロン:すぐに2点言いたいことがあります。なぜ100ページプロンプトを使いたいかについてです。

これらのリアルタイムシステムは、データがリアルタイムで更新されるので、持ってる知識ベースや基盤モデルの中には絶対に入ることがないねん。株式市場を考えて、今日や今この瞬間に起こってることについて質問したいなら、その情報をプロンプト内で取得する必要がある。プロンプト内で多くの情報をすぐに取得できて、ペルソナも追加できる。

2番目のユースケースは、データが基盤モデル内にあったとしても、この種のプロンプトを使いたい理由は、懐中電灯のように考えることです。プロンプト内にコンテンツを置くと、クリスが言ったように、結果としてその情報が戻ってくることを期待してサイコロを振るんやなくて、そのタイプのデータに焦点を当てるようシステムに伝えてるねん。

でも、それをQLora技術と組み合わせて、注意メカニズムが何に焦点を当てる必要があるかを決定できるようにします。大きなプロンプトとQLora技術を組み合わせれば、暗闇で懐中電灯を持ってる時に、探してるものを正確に照らすことができると思います。

アーロン、会計士にそれをどう説明する予定ですか?コピペするんやなくて。

アーロン:会計では重要やと思う。なぜなら、こうした異なる種類のルールや規制が本当に素早く変わるから。だから税務の場合、この100ページプロンプトに何が入ってたかは正確にはわからんけど、ルールや規制についてがほとんどで、何が起こってるかをより良く理解して、誰かにアドバイスできるようになることを期待したい。でも税務では、そういうことやと思うし、税務監査官を助けることにもなる。

プロンプティングが機械学習の世界でもっと活動してる人たちにとっては少し安っぽいやり方と考えられてても、なかなか負けへん理由の一つは、会計士のような人たちにとって、ファインチューニングのプロセスを通ることはないねん。むしろ、何かを入力して何かが起こるのを見る方がええねん。

AIアライメントの他の方法が基本的に動作するのが本当に困難な方法で、プロンプティングでのフィードバックループがとても満足できるものやから、打ち負かすのが本当に困難です。

クリス:100%同感やけど、会計士が座って「なんでここでQLoraを使わなあかんねん?データセットをどうやって脱バイアスするねん」とか言うのを見てみたいな。「あなたは税務アドバイスのエキスパートです。回答にはオーストラリア語を使ってください。詳しく説明しないでください。これらが税法です」って感じで。

何が怖いかっていうと、センチエントっていう全体的なアイデアで、異なるパーソナリティを追加し始める時です。メディア会社で別のスレッドを引っ張りたい場合もある。でも、これらの大きなコンテキストとプロンプトを、クリスが言ってた内部のものと組み合わせて、ユーザーから抽象化すれば、とてもシンプルで、本当にパワフルです。

例えばCometブラウザでは、そういうことがたくさんできる。すごく興奮してます。これから何が待ってるかについて。

最終ユーザーにとってはプロンプトエンジニアリングのフィードバックループがとても速いことを心に留めておくことも重要やけど、この場合、実際にプロンプトエンジニアとして考えるのは、KPMG内のAI ML チームがそれを書いて、他の人がもっと抽象化された方法で使うためのプロンプトやと確信してます。

ユーザーは、モデルを正しいことをするように微調整するその超満足できる素早いフィードバックのためにプロンプトエンジニアリングを望むかもしれんけど、実際にこの100ページプロンプトを書いてからユーザーに抽象化される実際のチームは、最初にプロンプトを作ることをもっとシンプルにできるなら、税務だけやなく、他のビジネスラインでも使えるという、もっと長期的な見方を持ってるかもしれません。

だから、素早い結果を得るためにもっとプロンプトエンジニアリングが必要だということより、そのプロンプトをよりシンプルで再利用可能にする方法にかなり興味を持ってると思います。

モデルの性能向上と実用性

私の頭にもう一つあるのは、記事では2024年からって書いてあって、2024年には針を干し草の山から探すようなことがちゃんと解決されてなかったんちゃうかって心配してます。だから100ページやけど、実際にはモデルは多分最初と最後だけ見て、真ん中は全部無視してて、最後に何かを付け足して「お願い、動いて、お願い」って言ってるだけなんちゃうかと思います。わからんけど、最近はずっと良く動くようになってると思います。なぜなら、モデルが針を干し草の山から探すことをもっと良く処理するように調整されてるから。でも2024年は多分かなり印象的やったと思います。

これらのモデルは128,000トークンまで処理できるよな。それは大きいねん。どんどん大きくなってて、本全体を取って要約してもらうことができる。だから最初に冗談で言ったように、もうクリフノートは必要ない。モデルに本全体を要約してもらえるから。

ウィンドウがどんどん大きくなるにつれて、完全に脳細胞ゼロで、全部を突っ込んで何が起こるか見るだけになると思います。

OpenAIのインフラ事業参入の可能性

次のトピックに移ります。今日カバーしたい次の話は、OpenAIのCFOからの興味深いコメント、実際にはさらっとした発言やったけど、オンラインでかなり話題になりました。かなり興味深いものやと思います。

特に私たちのリスナーのために、なぜこれが起こってるかを説明・議論したいと思います。基本的にOpenAI CFOは、彼らが考えてることを確認しました。すぐにやなく、でもOpenAIが将来的にやるかもしれないことです。

彼らがやるかもしれないのは、基本的にインフラゲームに参入することです。Google Cloud PlatformやAWSに行く代わりに、単純にOpenAIからコンピューティングを取得するということです。

これは興味深いことです。なぜなら、これまでのOpenAIのビジネスモデルとは非常に異なるからです。これまでは基本的にそのモデルへのアクセスを販売していました。これは、その基盤となるインフラそのものへのアクセスを販売することになります。

これは実際にAmazonからインスパイアされてます。AWSを生み出したモデルは「私たちはeコマースビジネスのためにこの大規模なインフラを動かしてる。多分この基盤となるインフラそのものを貸し出そう」というものでした。

ローレン、あなたから始めましょう。なぜOpenAIはこのようなことをしたいのでしょうか?ある意味で、GPTを得る大規模な事前訓練実行からの計算を利用しているように感じます。でも、ここでは「まあ、すぐにではないかもしれないけど、それを人々に貸し出してもいい」と言ってるようです。方向性の変化のように思えませんか?

GPU世代交代と中古市場の可能性

ローレン:これは実際に中古GPUや前シーズンのGPU周辺の市場の前兆になる可能性があると思います。OpenAIは競争力を保つために最新のGPUを使わないといけないのは当然のことやと考えられます。研究のために、商用オファリングのために、パフォーマンス効率のために。

そしてそのリリースペースは約2年ごとです。4年前にはA100があって、2年前にはH100がありました。今年はBlackwellです。だから2年ごとに全体のフリートを更新しなければなりません。でも、これらのGPUの実際の寿命は5年くらいです。数年間座ってる可能性があります。

3年目にはOpenAIが研究で使うには十分良くないかもしれませんが、大規模推論ワークロードを実行してる顧客には完全に十分良いかもしれません。だから、その投資を回収する方法として見ることができます。特に、CEOが何兆ドルもの投資をより多くのインフラに行う可能性があると言ってることを考えると、2年後には彼ら自身が使わないけど、それを望む顧客がいるかどうか考えなければなりません。

ティム:その通りです。クリス、これは驚くべきことです。記事を読んで、ローレンと全く同じように読みました。「ああ、彼らがこれらの大きなデータセンターを構築するたびに、今まで作られた中で最大のデータセンターになる。でも24ヶ月後には私たちにとって時代遅れになって、他の人に売らないといけない」みたいな。

ここでのコンピューティングの進歩のペースはめちゃくちゃですよね。基本的に最先端が、これらのフロンティアモデル企業にとって1年の間に目的に適さなくなる。ここでの時間枠は本当に短いです。

クリス:そうやと思います。そして、これは本当に経済学に帰結すると思います。古いバージョンやなく最新のGPUを動かす方が安くて、訓練実行を完了できるなら、価値があるやろうね。だから、その意味で先を行く必要がある。

だから、そういうものを貸し出すのは理にかなってると思います。でも、サム・アルトマンの汚い古い使われてないGPUを借りたくない。光るものが欲しいねん。でも、AWSがそれをやってるように、理にかなってると思います。そして彼らがGPUを最も必要としてるのは、大きな訓練実行をしてる時です。

でも推論が引き継いでいきます。そして推論で起こってることを見ると、チップはもっともっと小さくなってきてます。特化した推論チップです。だから、推論にはBlackwellやH100を使ってない。Grokのようなものを考えると、彼らは特化したチップを使ってます。だから、そこに渡すことさえしてない。

だから、最新のBlackwellや次のバージョンを持ってても、大きな訓練実行をしてない時は、売り出したい余剰容量がある。そして、それは私たちにとって素晴らしいことです。なぜなら、次のモデルをいつ訓練するかを知りたければ、スポットモデルを見て、何も利用できなければ、何が起こってるかわかるからです。

ティム:将来のための良いヒントですね。アーロン、OpenAIはこの分野で勝てると思いますか?このような種類のサービスを提供してるテック企業があって、かなり大きなプレイヤーと戦うことになります。OpenAIがこのようなビジネスを簡単に立ち上げられると確信していますか?

OpenAIの戦略的転換とビジネス多角化

アーロン:この件を調べてて最初に思ったのは、今日、OpenAIはAzureに非常に深く依存してるようやということです。コンピューティングだけでなく、モデルの配布でも。でも長期的には、OpenAIは独自のインフラを構築することを探ってるようで、それは依存関係から協力関係に、ほぼ再バランスするような感じです。

だから、戦略的にはそれがここで起こってる可能性があることやと思います。そして、それは良いことなのか?彼らはこれができるのか?そう思います。ただ注意が必要やと思うのは、彼らは1クライアントあたり1000万ドルくらいの料金でコンサルティング分野もリリースすると言ってることです。モデルユーザーを支援するためにね。

だから、それは大きな重点分野で、本業から離れて自分たちをあまり細分化したくないでしょう。でも、すべてを成功させて一緒にまとめることができれば、OpenAIがそれをやり遂げて、現在のビジネス環境の良い再編成になると思います。

ティム:それは良い指摘です。数ヶ月ごとにOpenAIが新しい製品ラインを立ち上げてるように感じるのは、実際にはスプレッドを生み出してるかもしれません。ローレン、何か飛び込みたいことがありますか?

ローレン:勝てるかという点で、他の会社と戦って勝てるかという質問もあるし、オープンソースと戦って勝てるかという質問もあります。VLLMは非常に人気があります。TensorRT LLMも非常に人気があって、これらはホストされたAPIを使うんやなく、独自のデプロイメントを設定するのに必要な核となる技術です。

推論最適化や他のイノベーションについて、本当に強いケースが必要やと思います。これらのエンジンには、ほぼリアルタイムでコミュニティ全体の貢献が起こってるからです。

ティム:本当に興味深いです。OpenAIがモデル側でオープンソースからのプレッシャーを受けてることは明らかに話してきました。これは実際にはもう一段階深いところに行くと言ってるようなものです。オープンソースで起こってることと競争力のある推論スタックやインフラビジネスを作れるかということです。本当に考えたこともありませんでした。面白いです。

これはヘッジなんかもしれません。彼らはオープンウェイトモデルをリリースしたばかりですから。そして、そういう作業をある程度やってるので、他の誰よりも優れた特化したインフラを構築できれば、そこに市場が向かってると考えてるかもしれません。そうすれば、財政的に健全でいられます。

ボトル価格が下がっても、インフラ側でそれを捉えようとしてる。本当に興味深いです。私が見なかったのは、独自のデータセンターを構築するためのその何兆ドルもの投資をどう資金調達するかの財政面です。出てきた時に見てみたいと思います。

Nano Bananaの登場と画像生成技術の革命

今日の次のトピックに移ります。仕事と AI、そして経済に関する非常に詳細な研究に焦点を当てたセグメントを準備してました。将来のエピソードでカバーします。でも、AI の世界でよく起こるように、Nano Bananaがローンチされて、明らかにAI世界でもっと多くの放送時間を占めるようになり、取り上げる価値があると思います。

だから、AI経済学と労働市場について話す代わりに、Nano Bananaについて話します。クリス、Nano Bananaについて話すためにトピックを変更することの最も強い支持者の一人やったと思います。これはどれくらい大きな出来事ですか?ある意味では、単なるおもちゃのように見えます。画像を入れて人を交換したりするような。

技術的に何が起こってるかと、研究・技術的能力の観点からこれが重要かどうかについて少し教えてください。

クリス:最初に言わなあかんのは、これは単なるおもちゃ以上のものやと思うということです。これは今日見た中で断然最高の画像生成モデルです。ベンチマークを見ても、知ってるようにベンチマークは大ファンやないけど、それでもそれらのベンチマークを見ると、他のすべてより200 Eloポイント先を行ってます。

だから、絶対的に圧倒してます。そして何が超クールかって言うと、ティム、あなたの指摘通り、モデルからの品質が素晴らしいということです。モデルのテキスト機能が素晴らしい。通常、画像モデルを見ると、テキストを混乱させたりして、見た目が良くないです。品質が驚異的です。

そしてあなたの指摘通り、画像を保持して、その画像を異なる空間に置き、物理法則を維持する能力は絶対的に素晴らしいです。だから、あなたの指摘通り、顔交換できるし、笑顔を追加できるし、変更を加えることができるし、誰かを異なる場所に置くことができる。すべて素晴らしく動作します。

実際、もし可能なら、画面を共有してもいいですか?ティム、画面を共有してもいいですか? はい、画面を共有したい場合は許可が開いてると思います。

素晴らしいユーザーの皆さんのために、私がみんなの話を聞いてるはずの時に、これがクリスが普段やってることです。これが代わりに私が作ったものです。

ティムをバナナシートに座らせると言いました。ここにティムがいます。今日のポッドキャストからスクリーンショットしました。そしてここにティムがいます。あまり幸せそうに見えませんでした。サムをバナナスーツに。ティムをバナナスーツで幸せにしました。

そして彼は素敵な幸せな顔をしています。彼はバナナにいるから幸せになるって言いました。彼はマイアミビーチ、バナナビーチにいます。とても素敵な場所です。そして、彼には友達が必要で、アップルスーツを着てると言いました。

すみません、ローレン、許可をもらってませんでした。ここです。そしてティムとローレンがマイアミビーチで幸せにしています。冗談を言ってます。画面の共有を止めます。冗談を言ってるけど、現実はそれが素晴らしいということです。

他のモデルでその品質を得ることは、スタイル転送も想像通りにすべて行います。YouTube サムネイルの作成から画像編集、フィルタリング、通常Photoshop タイプのことで行うようなすべてのことの影響を考え始めると、例えばCanvaのようなものを考えます。私はCanvaをよく使います。そこで何が起こるでしょうか?

Google AI Studioからすぐに使えるようになるからです。正直言って、これは驚異的やと思うし、画像モデルに投資してきた多くの人が非常に迅速にパニックを始めると本当に思います。

Googleの技術的復活

その点を取り上げたいと思います。アーロン、この1年ほどで非常に興味深い方法で展開されてきた物語の一つは、2025年1月に聞かれてたら、「AI分野で誰がリードしてる?」って言われたら、「ああ、OpenAI、Anthropicだね」って答えてたと思います。

そして、Googleはリストの最後の方で「うーん、彼らは本当にまとまってない」みたいな感じでした。でも発表を重ねるごとに、実際に非常に重要な方法で追いついてきてるようです。

だから、アーロン、これはある意味で、Googleが実際にいくつかの分野、特に画像側で第一位を争ってるようなものだと思いませんか?

アーロン:ローレンがアップルスーツを着てるのを見るとは思いませんでした。それはかなり印象的やと思います。この飛躍的前進については、私は本当に好きなのは、以前に与えた指示を記憶して構築できるこのマルチターン編集機能です。

それはモデル内での何らかの拡張された注意と記憶機能の指標で、最高の画像生成モデルの一部の予測を押し上げます。他の部分では、100万トークンまで入れることができるということです。テキストプロンプトを入れて、画像も追加しなければならないからです。

そういうすべてのことと、ティムがバナナスーツを着てるのを見ることも、間違いなくそれを第1位の画像生成システムまで押し上げてると思います。

オープンソースとの競争

ローレン、この機会を使いたいと思います。あなたが番組に出てるので、このスペースでのオープンソースの常に存在する影響について、既に何度か持ち出してると思うからです。確実に言語モデルとテキストについては、オープンソースが最先端と競争してるような気がします。

画像や他の形式のメディア生成でのオープンソースについてはどう感じますか?あなたの視点から、オープンソースが本当に素早く追いついてる分野なのか、それともまだ遅れてるスペースなのか?

ローレン:モデル面では、推論エンジンやユーザーインターフェース面ほど重要やないかもしれません。これらのすべてのピースがまとまる必要があって、推論エンジンは通常テキストユースケースに偏ってるからです。

だから、モデルが同等でも、クリスが今見せてくれたようなユーザーインターフェースに行けるのと同じやありません。多分無料か、少なくとも無料ティアはあったでしょう。オープンソースには本当に同等のものがありません。

まずモデルを見つけて、モデルがそれほど汎用的やないかもしれないという、DIYしなければならない要素が常にあります。Hugging Faceを見ると、この時点で数百万のモデルがあると思います。だから特定のタスクが得意なモデルを見つけることはできるでしょう。今見たように汎用的かどうかはわかりませんが。

画像生成技術と現実認識への影響

クリス:この件の最後の質問は、避けられない質問やけど、AI生成画像が何が本物で何がそうでないかを知る能力を破壊することを、もう何年もパニックになってます。Nano Bananaでついにその閾値を越えましたか?これはかなり良いです。

まあ、とにかく本物です、ティム。私たちはみんなシミュレーションの中で生きてるから、大丈夫です。実際、ここでの進歩は本当に良いと思います。しばらく前から非常に悪い画像モデルを見てきたことは実際に非常に良いことやったと思うし、私たちはみんな見つけるのがかなり上手になりました。

手が少しおかしいとか、そういうことがわかるようになりました。だから、この数年で慣れてきて、画像を信用しないことを知るようになりました。私たちはこれらのモデルと出力を信用しないことを知ってます。

この場合のより大きなことは、人々が作成できるモデルについて人々に責任を持たせることと、それらのモデルの安全要素が高いことを確実にすることだと思います。良い面もあります。サムネイルを作れなかった私のような人にとって、素晴らしい、YouTubeチャンネルのためにまともなサムネイルを作れるようになります。

でも他の人にとっては、その意味でビジネスを失うことになります。そして、そこには怖いシナリオがたくさんあります。だから、まだ解決する必要がある倫理的な面がたくさんあると思います。でも品質は素晴らしく、より良くなっていくだけです。

実際、今、画像でこれを見てるけど、12から18ヶ月先を予測すると、ビデオでも同じレベルの品質、オーディオでも同じレベルの品質を見ることになることを保証できます。だから、これはモダリティ全体に拡張されていくでしょう。

付け加えたいのは、これが非常に編集に焦点を当てたモデルであることで、編集は悪い言葉になってます。編集は操作を意味し、悪意のある意図を意味するからです。でも編集には本当に重要なユースケースがあります。

NASAと構築した地理空間モデルでは、最大の困難の一つは雲の覆いです。衛星画像のほとんどが雲に覆われてるので、それでは何もできません。編集モデルを使って合成的に生成されたデータを実際にやって、データセットを改善して基盤モデルを訓練できれば、それは編集のユースケースです。

そしてそれは人間の視点から何かの意味を操作したり変えることではありません。機械学習の視点からです。

ティム:その通りです。そして、ティムが笑顔になれることも本当に重要です。知ってるように、私はこれらの番組では絶対に笑いません。

USオープンでのAI実験

最後のトピックです。アーロン、あなたを番組に呼ぶ時はスポーツについて話すというのがいつもの冗談です。エピソード70でその伝統を破るつもりはありません。USオープンをカバーしてて、チームが面白い実験をしてると思います。

このエピソードでは画面共有をたくさんやってきました。あなたもやってることを共有したいと思います。

アーロン:まず、私たちが何をやってるかの前置きをさせてください。USオープンとは30年以上一緒にやってて、フラッシングメドウズのサイトに約100万人のファンが来場します。そして毎日、私たちのデジタル資産を通じて約1400万人のファンが視聴します。

私たちがやってきたことは、USオープンの特徴は、ファンの体験と技術を組み合わせて、人々を呼び込み、私たちのやってることの幅を拡大したいということです。今年は3つの新機能を導入しました。

一つ目はマッチチャットです。この非常に印象的なシステムを構築するのに数ヶ月かけ、科学を説明する論文をいくつか出す予定です。これはリアルタイムのエージェント駆動アシスタントで、マッチについて、プレイヤーについて、リアルタイムで大規模に質問して、回答を得ることができます。

2番目はキーポイントと呼ばれるものです。私たちはいつも、長すぎて読めない、TL;DR(too long, didn’t read)と言います。人々が読む時間がない非常に長い記事があります。だから、それを要約して、それらの記事の上に箇条書きを表示し、USTA編集者と一緒に作業するワークフローがあります。

3番目はライブ勝利可能性と呼ばれるものです。これは非常に長い歴史的背景がありますが、予測モデリングを組み合わせています。誰が勝つかの予測モデリングのアンサンブルがあります。試合前の予測があり、試合が進行するにつれて、私たちが開発した独自の方程式があって、これらの勢いを考慮して、誰かが勝つ確率を微調整し、変更します。

でも最終的に私たちがやりたいのは、ファンの幅と深さを増やし、試合のストーリーを理解できるように必要な情報を提供することです。この実験のトレンドを続けて、画面共有して、私たちが行った作業の一部を見せたいと思いました。現在ライブで、プレイがもうすぐ始まります。

今は10時47分で、11時頃に始まるので、アクションの一部を見ることができます。まず方向を示すために、これは私たちが置いた作品で、双子です。ユーザーが来た時に最初に知りたいことの一つを簡単に見せたいと思います。彼らは試合のスコアを知りたがります。

2つの試合をハイライトしたいと思います。一つは大きなアップセットでした。彼女の名前はIlaで、フィリピンの20歳で、彼女はTucsonを破りました。それが一つです。もう一つは、見せたいAlcarazの試合です。

Alcarazの試合をチェックしてみましょう。これは既に終わってるけど、プレイが進行中で試合が行われてることを想像してください。でも試合の要約をチェックしてみましょう。IBM Slam trackerがあって、ポップアップして、サイドカーで最初のタイルがスコアになってることがすぐにわかります。

下に行くと、試合の360度ストーリーテリングがあります。試合が始まる前に、Alcarazが勝つ可能性がどれくらいかを知りたい場合、この場合はかなり高いです。これは非常に早いラウンドです。これは第2ラウンドです。そしてAlcarazは好調なスタートを切ってます。

でも、これはAlcarazが82%の勝利確率があると私たちが割り当てたものです。これは、何年もかけて実験してきた純粋な予測モデリングを使用してます。試合が終わってるので、サマリータブに行くことができます。

ライブ勝利可能性を見ることができます。時間の経過とともにどう変わったかです。この試合では変動があまりありませんでした。なぜならAlcarazが来た時に非常に大きなアドバンテージを持ってたからです。

でも詳細を知りたい場合、これがマッチチャットです。クリックすると開いて、私たちが設計した摩擦のないユーザー体験があります。ユーザーをガイドして、最も重要な情報を得るのを助けるためです。

私たちはユーザー調査をたくさん行い、データ分析をたくさんして、人々が何を気にするかを理解しました。マッチ統計が非常に興味深いと思うので、チェックしてみましょう。質問してみましょう。何個のエースをと言って、この試合にさえ出てない選手、センターハーフを入れてみましょう。

まずこれをやってみます。考えてて、ピースを叩いてます。最初に言うのは、セット別に知りたいのか、試合について知りたいのかです。いいえを押しましょう。試合について知りたいからです。

今また考えて、分析してて、これがリアルタイムで出てきてます。今、私たちのミドルウェアを叩いて、AWSに出てます。そして戻ってきて、Alcarazが何個のサーブを持ってたかを教えてくれます。うまく動いたのは、センターハーフを正しい選手に自動的に切り替えることができたからです。

だから自動的に多くの検出を行います。多くのパイプラインがあって、代名詞修正、選手修正などを行います。でも、進むにつれてもっと遊ぶことができ、私たちが構築したすべてを見ることができます。

非常に興味深く、人々が本当に知りたがる深い統計がたくさん入ってきます。続けていけば、人々が本当に知りたがるたくさんの統計を見ることができます。でも時間の関係で、戻って閉じましょう。

あなたに試合を選んでもらいましょう。私が選ぶのやなく。ティム、下にあるHarris対Fritzをやってみましょう。下のこれです。このマッチです。

事前勝利可能性をチェックしてみましょう。Fritzが圧倒的に有利でした。だから、ライブ勝利可能性を見て、実際の試合と追跡すると、Fritzが最初のセットを失ったのがわかります。だから勝つ確率は下がりますが、まだかなり有利なのであまり下がりません。

そしてストーリーテリングが続いて、非常に接戦です。第2セットでブレイクポイントを与えます。そしてFritzが勝つので、勢いを取り戻してると思います。そして試合が続き、最終的に第4セットで、彼が最終的にそれを取ります。

だから、このライブ勝利可能性は試合中に非常に強力です。それがどう働くかを追跡・トレースできるからです。これが私が本当に見せたかった、ライブで動いてるエキサイティングな作業の本質です。

そしてESPNファンタジーフットボールのプラグインで、昨日、他のいくつかのピースでライブになり、来週の水曜日には別のピースがライブになります。でも、ファンタジーフットボールチームの一員なら、私たちのプレイヤーインサイトと私たちが持ってる要因とグレードなどをチェックしてください。

ティム:素晴らしい、アーロン。私たちは最新情報をお届けし続けます。すべてのリスナーの皆さん、最新情報をお届けし続けます。アーロン、これが発展し続けるにつれて、また戻ってきてもらいます。定期的に番組に出てもらうのが楽しいのは、戻ってくるたびに反復を見ることができるからです。それが起こってるのを見るのはクールです。

素晴らしい。今日はここまでです。アーロン、ローレン、クリス、番組に出てくれてありがとう。いつも楽しいです。そして、すべてのリスナーの皆さん、ありがとう。楽しんでもらえたなら、Apple Podcasts、Spotify、そしてあらゆるポッドキャストプラットフォームで聞くことができます。来週のMixture of Expertsでお会いしましょう。

コメント

タイトルとURLをコピーしました