本エピソードでは、AI業界における最新の競争動向と透明性の問題を掘り下げる。OpenAIがGeminiの成功に対抗してGPT-5.2を急ぎリリースするという「コードレッド」状況が議論の中心となり、かつて業界をリードしていたOpenAIが現在Googleに追いつく立場にあるという皮肉な状況が浮き彫りになる。Stanford大学の最新透明性指数レポートでは、AI業界全体で透明性が低下している中、IBMのGraniteモデルが95点という最高スコアを獲得したことが報告される。また、Amazon Web ServicesがNovaモデルの新世代を発表し、企業向けAI市場での存在感を強めている。パネリストたちは、頻繁なモデルリリースが実際に消費者や企業にとって意味のある価値を提供しているのか、ベンチマーク競争が正しい指標なのか、そして透明性が市場で本当に評価されているのかという根本的な疑問を投げかける。

OpenAIの逆転劇とモデル競争の現状
今回のMixture of Expertsへようこそ。司会のTim Hwangです。毎週、MoEはテクノロジー分野で最も聡明な専門家たちを集め、人工知能における重要な話題を厳選してお届けしています。
本日のパネリストは3名の素晴らしい方々です。Mihai Criveti氏はエージェントAIの Distinguished Engineer、Kate Soule氏はGraniteのテクニカルプロダクトマネジメントディレクター、そしてAmbhi Ganesan氏はAI&アナリティクスのパートナーです。皆さん、ようこそ。
年末を華々しく締めくくる内容が盛りだくさんです。今日はGPT-5.2の噂、Stanfordの新しい透明性レポート、そしてAmazonの最新世代Novaモデルについてお話しします。まずはAiliからニュースをお届けします。
皆さんこんにちは。IBM ThinkのテクノロジーニュースライターのAili McConnonです。今週見逃したかもしれないAI関連のニュースをいくつかご紹介します。
Jeff BezosとElon Muskの両氏が宇宙にデータセンターを開発する競争を繰り広げています。IBMはエージェント利用の拡大を支援するため、データストリーミングプラットフォームのConfluentを110億ドルで買収しました。OpenAIは、モデルが内容を捏造したりショートカットを取ったりした際に自白するようトレーニングを開始しました。
ホーホーホー、新しいSantaエージェントがリリースされ、ユーザーはテキスト、電話、ビデオチャットでサンタとやり取りして、クリスマスに欲しいものを伝えたり、自分がいい子リストと悪い子リストのどちらに載っているか確認できるようになりました。詳しくは、番組ノートにリンクされているThinkニュースレターを購読してください。
それでは専門家たちがChatGPT-5.2についてどう考えているか見ていきましょう。
これは非常に興味深い話です。噂が飛び交っていますが、皆さんがこれを聞く頃には実際にこのモデルがリリースされているかもしれません。OpenAIはGPT-5.2モデルをリリースするためにコードレッドを発令したとされています。主にGoogleの新しいGeminiモデルと競争するためです。以前のエピソードでお話ししたように、Geminiは実に素晴らしいモデルです。
Ambhiさん、まずあなたから伺いましょう。これはある意味で非常に興味深い逆転現象ですね。もし2025年1月にこの話をしていたら、OpenAIが全員を圧倒していて、最先端のモデルを持っていて、他の誰も追いついていないという状況だったでしょう。
でも今は奇妙なことに、年初にはGoogleが最も遅れていると言われていたのに、今やOpenAIに反応を余儀なくさせる立場になっています。これは単なる噂話なのでしょうか。読み過ぎているのでしょうか。それともOpenAIがこの競争で遅れを取っているという本当のシグナルなのでしょうか。
そうですね。見てください、いくらでも推測できますよ。歴史は常に、このような浮き沈みのジェットコースターがあることを示していますよね。このサーガ全体を映画にしたら、プロットのひねりや展開が満載で、あなたがデニスを演じることになるでしょう。誰がサムを演じるか分かりますよね。
だから誰の予想も当たりますよ。もちろん噂は膨らんでいます。私が読んだ最新情報では、5.2はすでにCursorに搭載されているとのことです。近日中にリリースされる兆候があります。
5.2だけではありません。ChestnutとHazelnutも一緒に来ます。これらはいくつかの画像生成モデルのコードネームで、Nano Banana Proと競争するためのものです。ええ、もちろんです。
現時点では誰のゲームでもあると思います。いくらでも推測できますが、結局のところ、ここでの勝者は消費者ですよね。競争は大歓迎です。モデル開発者間の良い競争は大歓迎です。
つまり、基本的にこの茶番劇を楽しんでいるということですね。ええ、その通りです。
Kateさん、これについてあなたの反応をお聞きしたいのですが。年末を迎えて、私は疲れているんです。毎週新しいモデルが出て、このモデルとあのモデルの違いは何なのかという感じです。でも、モデルのリリースってもう重要なんでしょうか。気にするべきなんでしょうか。それともゲームは今や別のところにあるのでしょうか。
実は、消費者が最終的に勝つというあなたの発言に完全には同意できないんです。私たちは本当に消費者が実際に恩恵を受けている競争の中にいるのでしょうか。5.2で生産性や日常生活に大きな向上があるでしょうか。私はそうは思いません。
そして、それに伴う潜在的なコストを考えると尚更です。もちろん、見てみないと分かりませんが。モデルリリースに関しては、確かに全体的にやや疲労感が出てきていると思います。
OpenAIはGeminiの成功から注目を奪い返そうとするでしょう。より広い投資家や追求している他のすべてのことに対して面目を保つために、それをする必要があります。でも最終的に、5.2がリリースされた翌日に消費者が今日よりもずっと良くなるとは思いません。
Kateの言っていることは分かりますよ。でも私の見方はこうです。最終的に、進歩は続いていくんです。続いていきますよね。消費者が勝つと言う意味は、その進歩を続けさせるということです。物事が停滞してほしくないですよね。それが唯一の方法です。
だから競争を流し続ける。健全な競争を流し続ける。そうすれば境界を押し広げ続けることができます。最終的に、それらのモデルの消費者として、劇的な変化はないかもしれませんが、すべての勝利が重要なんです。だから境界を押し続け、押し続ける。それが分野の進歩の仕方です。最終的に、健全な競争は素晴らしいことです。それは必要なんです。
モデルリリースの意義と実用性
この話から抜け出したいですか。まだリリースされていないモデルについて何か意見はありますか。これが年間で全てを圧倒するモデルになると思いますか。
私がこのモデルに興奮している度合いは、最新のWindowsやMac OSのホットフィックスに対してと同じくらいです。最近冗談で言ったんですが、Zoomの新バージョンが出たんですよ。新しいZoomバージョンに誰が興奮しますか。
私の考えはこうです。これらのモデルの多くは、パフォーマンス、スピード、コスト、特殊なユースケース、使用法に関する問題を解決しようとするマイナーアップデートになるでしょう。例えば、CursorやCodex、あるいはClaude Codeに相当するようなIDEでの使用などです。
特定のベンチマークや特定の状況に最適化しようとするでしょう。でもこれらのアップデートが必ずしも革命的だとは思いません。運が良ければ、OpenAIを次の2日間、2時間、2分間、2ヶ月間、これらの特定のベンチマークでGeminiより少し先に置くだけです。
世界を変えるものになるでしょうか。おそらくそうではありません。良いことです。メンテナンスです。これらの特殊なユースケースのいくつかには役立ちますが、革命的だとは思いません。そうでなければGPT-6と呼んでいたでしょう。0.2ではなくね。
ええ、そうですね。それが非常に興味深い皮肉の一つだと思います。2025年末に私たちが置かれている状況は、ベンチマークの世界に何か腐ったものがあるということに皆が同意しているような感じです。実際に私たちがこれらのツールを使いたい目的に対して、本当に多くの牽引力を提供してくれないんです。
しかし明らかに、それらは多くの大企業の活動を動機づけています。OpenAIはこれらすべてのベンチマークでナンバーワンになりたがっていて、Geminiが出てきて「私たちはこれらすべてのベンチマークで素晴らしい」と言う時に長期間遅れを取りたくないんです。
でも私たちはほとんど同じものに最適化しているようで、AmbiさんとKateさんがちょうどしていた議論のようになってしまう感じがします。つまり、全員が絶えずフロンティアを押し進めることから恩恵を受けるという下流効果があるかもしれません。
もう一つは、業界は正しいことに焦点を当てているのかということでもあります。Kateさん、うなずいていますが、その考えに反応したいですか。
本当に興味深いのは、1、2週間前にStanfordのHazy Labがワット当たりのインテリジェンスを見るレポートを発表したことです。基本的に、コンピュートに電力を供給する電力のワット当たりでどれだけのパフォーマンスを駆動できるかということです。
彼らが見つけたのは、最新のGPTモデルのような大きなホストモデルでの採用と市場シェアが多いということですが、実際にこれらのワークロードの一部をローカルに移動させた場合に達成できることを見ると、はるかに低いエネルギー消費、はるかに低いコストで同じ量のパフォーマンスを得られるということです。
つまり、ここには破壊の大きな機会があると彼らは主張しています。モデルプロバイダーは正しい指標に焦点を当てていないかもしれません。私はそれに同意する傾向があります。現在、私たちは多くの投資資金を追いかけ、派手なベンチマークを優先しています。
でも将来の開発の多くは、コスト当たりのパフォーマンスによってより動機づけられるでしょう。そして、それは今日リリースされているこれらのモデルリリースの会話にはあまり見られません。
次のトピックに移る前に、一つの角度を持ち込みたいのですが、あなたは多くの顧客や企業と仕事をしていますよね。これらすべては、明らかにこれらの企業が最終的には企業の資金を競っているという背景の上にあります。
正直に分からないので興味があるのですが、5.2のような新しいモデルが出た時、顧客は「おい、これはすべてのベンチマークで起動している。スタック全体を新しいモデルに移行しなければ」となるのでしょうか。
これらの種類の競争、たとえ非常に段階的であっても、誰が何を採用するかを選択することにどのような影響があるのでしょうか。このような立ち上げによって市場は影響を受けるのでしょうか。
二つのレンズから見ることができます。企業はすぐに最新モデルに即座に切り替えることはありません。安定した主力を選び、その上にアプリケーションを構築し、ある程度の安定性が必要です。
本番環境に投入してから価値の実現を始めるんです。即座にモデルを変え続けるのは非常に厄介で問題があります。だからすぐには起こりません。
でも起こるのでしょうか。もちろん起こります。なぜなら、6ヶ月や1年の期間で追跡しているとします。時間の経過とともに、これらの進歩が起こるペースで、モデルのパフォーマンスに根本的なステップ関数的変化があります。
多くの新しい機能が蓄積されていて、それはつまり、アプリケーションのメンテナンスの観点から、ある時間枠でステップ関数的変化があったと言えるロードマップが欲しいということです。そして最新モデルに切り替えるということです。
だからモデルの変更は起こりますし、実際に起こっていますが、すべてのリリースごとに起こるわけではありません。
次のことを言いたいと思います。モデルをすぐに切り替えられるなら、企業の成熟度が非常に低く、独立開発者や小規模なショップですぐにモデルを切り替えられるか、または成熟度が非常に高く、すべての評価が完全に自動化されていてボタンを押すだけでモデルを切り替えられる状態です。
すべての評価が完了し、新しいモデルでリクエストをテストでき、そして「ああ、これは私のユースケースで17.3%良いパフォーマンスを出している。コスト効率が良い。可観測性プラットフォームのダッシュボードにデータが見える。一晩で切り替える」となります。
中間にいると厳しいです。まあ、見てみないと分かりませんね。5.2の発表については、実際に立ち上がったら来週話すことになるかもしれませんし、これらの予測がどうなるか見てみましょう。
でもこれは本当に興味深い議論だと思います。Ambhiさん、これは非常に役立つと思います。競争を見ているだけでなく、顧客や彼らがこれらのことにどう反応するかを見ることの背景でもあるんです。
すみません、OpenAIが去年のようなクリスマスの12日間をまたやってくれることを期待しているだけです。去年のあれ、好きでしたか。あれは去年の良い仕掛けでしたね。5.2、5.3、5.4。毎日1つのモデルリリース。
ええ、まさに。5.12まで行って、それから転がす。まさに。毎日プロンプトを少し調整して5.0プロジェクトと呼ぶだけです。まさに。
Stanford透明性指数とGraniteの成果
次のトピックに移ります。以前この報告書について話しましたが、Stanfordの多くの研究者が透明性指数の最新版を発表しました。
去年の議論に馴染みがない方のために説明すると、彼らは利用可能な多くのモデルを取り上げて、基本的に透明性の観点からこれらのモデルがどれだけうまくやっているかをランク付けして評価しようとしています。
どのような種類の文書を提供しているか。どのようなデータ開示をしているか。私は常にこれは非常に興味深いプロジェクトだと思ってきました。なぜなら、透明性と言うとき、それはオープンソースのようなものだからです。私たちがそれで何を意味するのか。
これらは、透明性と言うときに何を意味するのかについて、より詳細に理解しようとする試みだと思います。Kateさん、番組に来ていただいて良かったです。Graniteがこの透明性レポートの一部だったと理解しています。皆さんがどのようにアプローチし、どうなったかについて少しお話しいただけますか。
これは、あなたが言及したように、Stanfordが毎年行っているレポートです。私たちは過去に参加したことがあり、これは本当にモデル開発を3つのコンポーネントに分解しようとしています。
下流、上流、モデルトレーニング自体、そしてモデルの下流です。彼らがすることは、IBMのようなモデル開発者にアンケートを送り、クローズドモデル開発者とオープンモデル開発者の両方を含めて、Graniteモデルをトレーニングする私たちに参加して情報を共有するよう招待します。
データキュレーションのようなモデル開発の上流にあるすべてのこと、モデルでトレーニングするためのデータを生成するためにどのモデルを使っているか、実際のトレーニングプロセスまでの下流について。トレーニングコードをリリースしていますか。異なるリポジトリをリリースしていますか。モデルのアーキテクチャの詳細をリリースしていますか。
そしてモデル使用の下流について。安全性に関するベンチマークをリリースしていますか。パフォーマンスのギャップに関する詳細をリリースしていますか。モデルを攻撃するために成功裏に使用されたプロンプトをリリースしていますか。そのようなことです。
彼らが行い発見したことは、長年にわたって透明性が実際に大幅に減少しているということです。2024年と先週出たばかりの2025年のこのレポートを見ると、ほとんどのラボがモデル開発のこれらの異なる側面について共有する詳細の度合いを「透明」である度合いを減らしています。
IBMは非常に異なるアプローチを取っていて、本当に誇りに思っています。透明性と信頼に焦点を当て、可能な限りオープンであることに本当に焦点を当てています。
これは、モデルをトレーニングし開発する方法に関する戦略とポリシーをまとめる際の厳格さを物語っていると思います。それは今年受けたISO 42001認証にも反映されています。
私たちが取り組んでいること、どのように構築しているか、オープンソースエコシステムにどのように貢献しているかについて非常にオープンであることができます。Graniteが100点満点中95点というトップスコアを獲得したことを本当に誇りに思っています。
他のラボが時間とともに透明性を下げている中で、IBMは実際に透明性を倍増させ、モデル開発における透明性の度合いを高めていることを示しました。
ええ、それは100の異なる基準、基本的に。はい、その通りです。異なる指標、異なる質問です。私たちは回答して詳細を提供していますか。
これは実際に安全性ベンチマークの結果を見ているのではありません。安全性ベンチマークにどれだけ透明であるかを見ているんです。ベンチマークを共有していますか。このタイプのデータを共有していますか。本当にクールなアプローチです。
もう少し話していただきたいことの一つは、特に100のこれらの指標にわたって、ほとんど選択しなければならないですよね。年ごとにすべてを前進させることはチームには無理かもしれません。あるいはそれがチームの考え方かもしれません。
チームが「よし、これが本当に優先するものだ」と言った透明性の特定の側面があるかどうかに興味があります。
過去1年半を見ると、2024年から2025年までどこにいたかを見ると、トレーニングと開発プロセスの自動化と標準化に多くの作業を行ったので、透明性を持ち共有することがはるかに簡単になる自動記録があります。
これらのモデルに入る非常に細かい詳細が非常に多くあります。データセットがいつ取得されたか、どのライセンスで取得されたか、どのソースから取得されたか、そのレビュープロセスは何だったかというすべてです。
私たちは実際にすべてのデータキュレーションとトレーニングのアーキテクチャに多額の投資をしたので、モデルの非常に効率的な系統を持つことができます。それにより、透明性を持ちオープンであり、その情報を手元に持つことが本当に簡単になります。
それはまた、自分自身の規制遵守要件にも役立ちます。明らかにクラス最高であり、規制が進化するにつれて変化する規制に対応できることを望んでいます。それにより、今年の透明性指数に関してはるかにオープンになることが可能になりました。
もしあなたを参加させられるなら。Kateさんがすでに指摘していると思いますが、興味深いトレンドの一つですよね。明らかにGraniteはこれに倍増しましたが、一般的なトレンドは私たちが見ている透明性の低下です。
これは実際に市場が何を奨励するかについて少し前に話していたことに戻ります。透明性指数の読み方は、人々がインデックスを見て「より透明なモデルが欲しい。見つけ方はこうだ」と言えるという夢のようなものです。
そして市場はより透明な人々に報いるでしょう。でも何よりも、実際には透明性の後退があったように感じます。それは市場が透明性をそれほど重視していないことを意味すると思いますか。
それは彼らがサービスを提供するビジネスのタイプによると思います。レポートで気づいたのは、例えばB2B企業はB2Cよりも透明である傾向があるということです。
なぜなら、一般消費者は1000億、2000億、5000億パラメータのモデルを実行しているかどうか、どれだけのGPUを使用しているか、モデルで水や他のメトリクスのCO2排出量がどれだけ使用されているかを気にしないかもしれないからです。
彼らはモデル自体を実行するコストを必ずしも気にしません。エンドユーザーへのコストを気にします。一方、B2B企業は、これらのモデルを他の企業が消費できるようにする場合、自分のインフラストラクチャで実行している可能性があるので、気にする必要があります。
気づいた2番目の興味深いトレンドは、あなたが指摘したように、昨年回答した企業の74%から今年はわずか30%の回答になったことです。
モデル、興味深いことに、見てください、xAIのモデルやAnthropicのモデル、OpenAIのモデルを見ても、何十億パラメータあるのかさえ分かりません。そして気にしないかもしれません。
一つの視点から見ると、この種の情報は彼らに不利に使われる可能性があります。このモデルがどれだけのCO2や排出を生成しているか、どれだけ非効率かを見てください。それは彼らのビジネスが長期的にどれだけ実行可能かを計算するために使用できます。
例えば、彼らは実際に多くのエンドユーザーに補助金を出しているのでしょうか。だから、この情報の多くは、B2B企業でより透明になる可能性が高いと思います。
AWSのNovaモデルやIBMのGraniteモデル、Nvidiaなどは時間とともにより透明になる可能性が高いです。一方、消費者市場に焦点を当てたモデルは、必ずしもこれらの詳細を公開する必要はなく、おそらくもう公開しないでしょう。
消費者側では、世界のApple化のようなものになりそうな感じがします。つまり、20年前に遡ると、オープンなコンピューティングプラットフォームがあって、Appleがあって、それはオープンとクローズドの戦いでした。
そして時間とともに、実際には消費者にとって、一般的な好みは、かなりクローズドなシステムにもっとお金を払うことを喜んでいるような感じになりました。それはかなり不透明です。
コンピュータを修理するためには店に行ってgeniusを見つけなければなりません。それが消費者の世界の現状のようなものです。そして企業では、もちろんオープンソースには長く堅牢な遺産があり、巨大なビジネスです。
AI アプリケーションの世界でも同じようなことが起こっていると思いますか。つまり、消費者の観点からは透明性がそれほど重要ではないことが判明し、それがAnthropicやOpenAIのような企業に、このインデックスに参加し、このインデックスで良いスコアを取ろうとすることを強制している、強制は少し強いですが、奨励しているということです。
部分的にはそうですね。私はいつも、最終的には私たちは皆企業に座っているが、消費者でもあると言っています。最終的には私たちは皆、同時にその2つの帽子をかぶっています。
つまり、消費者の帽子と企業の帽子の間ですぐに切り替わるわけではありません。だから、企業に座っているときでも消費者のレンズで考え、その逆もあると思います。
だから、私たちの考え方のいくつかは互いの領域に滲み出ていると思います。私が気づいたのはこうです。市場全体が、多分間違った質問をしているような気がします。
だから、はい、IPの優先順位があります。それが、ベンチマークでほとんどのラボを見ると、メトリクスの下降トレンドがあり、上流コンポーネントで大きな打撃があった理由です。
でも必ずしも、ラボがそれを行うための報酬があるかどうかの報酬があるとは思いません。正しい命題は、市場が正しい質問をしているかどうかだと感じます。
つまり、例を挙げましょう。今週初め、クライアントと一緒にいて、彼らはDeepSeekについて話していて、「オープンソースモデルを使用すべきかどうか見たい。DeepSeekについてどう思いますか、使用すべきですか」と尋ねていました。これは企業の設定内でした。
私たちは以前のエピソードのいくつかでこれについて話しました。DeepSeekがしたことは、オープンソースのマインドシェアを開いたことです。だから誰もがオープンソースモデル、オープンウェイトモデルについて考え始め、それについて話し始めました。
でも透明性とオープンソースやオープンウェイトの混同があると思います。それは必ずしも真実ではありません。だから、ほとんどの消費者とほとんどの企業が本質的に求めているのは透明なモデルだと思いますが、彼らはそれを表現し、「オープンソースとオープンウェイトモデルを手に入れられますか」と尋ねています。
それらは必ずしも同じではありません。だから、市場が求めていない、彼らがそれを支持しているという議論には完全には賛同しません。
はい、もちろん、ラボの観点からIPを最適化するつもりだという固有の緊張があり、市場は「透明性が必要だ」と言っています。でも、その透明性の需要は確実にあると言えます。ただ、彼らが間違った質問をしているので、シグナルが適切にこれらのレポートに表れていないだけです。
あなたが持ち出した並行について興味深いことを言いますが、Timさん、Appleと比較すると、Appleは同時に、設定可能性とハードウェアへのユーザーの可視性の多くを奪いましたが、デバイスに関してはプライバシーで最高の評判の一つを持っています。
データと情報の責任ある使用に関して。ふさわしいかどうかは別として、彼らはそこで強い評判を築いており、消費者に報われていると思います。モデル開発ではまだそれが見られません。
でもそれはますます優先事項になると思います。透明性はそれを示す一つの方法です。唯一の方法ではありません。Anthropicは透明性ではあまり良いスコアを取りませんでしたが、ISO 42001認証を持っています。
そして倫理的AIの原則でも非常によく知られていると思います。だから透明性は、おそらく単独の駆動市場要因ではないかもしれませんが、将来重要な市場要因になるであろう、より広い社会的倫理的質問のいくつかに対処するための一つのツールに過ぎないと思います。
それに付け加えると、私は同意しますし、それがトレンドになると思います。ソーシャルメディアを並行として振り返ってみてください。ソーシャルメディアの初期、Myspaceで始まったとき、プライバシーはおそらく皆の考えの中心ではなかったでしょう。
クールなものとネットワーク能力についてでした。だから機能が最前線にありました。でもこれらの機能が成熟して飽和したとき、プライバシーが前面に出てきました。
Cambridge Analyticaなどの悪ふざけ、議会の公聴会が出てくるのがありました。だからその重要な転換が起こるのが見え始めました。同じようなことが起こると感じます。
新しい技術では、機能が前面に出ます。そしてそれらが主流になると、これらのプライバシーの懸念と透明性の側面が本当にすぐに前面に出てくるのが見え始めるでしょう。
Kateさん、このセクションを締めくくるために、すでに100点満点中95点を取っています。来年はどこに行きますか。残りの5点に取り組みますか。ある意味でベンチマークの透明性をすでに飽和させているのでしょうか。
透明性について考える新しい方法は常にあると思います。少なくともGraniteの場合、モデルはオープンソースでリリースされるウェイトの袋のようなものから、一緒に構築されたモデルとソフトウェアのより多くのシステムを持つことに移行しています。
だからそれは透明性の新しい側面を導入するでしょう。ウェイト自体とウェイトがどのように作成されたかだけでなく、特にシステムとデプロイメントを実行しているソフトウェアの周りのデプロイメントを見ることで透明性を持つことです。
詳細はパフォーマンスに大きな影響を与える可能性があります。透明性指数がこれらの側面を包含するように進化するのを見たいと思います。それは確実にIBMが考えていることです。
私たちが取り組んでいるプロジェクトの一つは、標準化されたAI部品表をどのように作成し、モデルと一緒にリリースできるより標準的な成果物にするかを考えることです。
だからあまり多くを話したくありませんが、2026年にIBMからそれに関する何らかの作業が出てくることを期待してください。標準化をもっと見ることになると思います。これらのモデルのデプロイメントをもっと見ることになります。だからまだやるべきことがたくさんあります。
まだではありません。確実に。ええ、インフラストラクチャに関してももっと透明性が欲しいですね。彼らがモデルの前に置くAPIです。絶対に。システムプロンプトでさえかなり見えません。
OpenAIモデルとエンドユーザーアプリケーションとしてのChatGPTを比較している場合、そこで他に多くのことが起こっていて、それは不明です。
Amazon AWS Novaモデルとエンタープライズ戦略
最後のトピックに移ります。大きなAmazon AWS re:Inventカンファレンスがつい先週ありました。そこから出てきた本当に興味深い発表がいくつかあり、以前のエピソードでカバーする機会がありませんでした。
実は、エピソードを始めたときに、すべての新しいモデルリリースに飽きたと言っていたのに、Amazonの新しいモデルのリリースで終わることになるので、私は偽善者だと思います。
もちろん、カンファレンスから出てきた大きなニュースは、AmazonがNovaフロンティアモデルの最新世代を発表したことです。AmazonはMoEの議論で常に本当に興味深かったと思います。彼らは常に背景でうごめいている感じだったからです。
彼らは巨大なインフラストラクチャを持っています。すべてのeコマース関連で素晴らしいデータを持っています。だからいつかAI空間とモデル空間で本当に大きなスイングをし始めるのは非常に自然に思えます。
Ambhiさん、質問は、これが大きなスイングなのかということです。Novaは本当に彼らが「私たちは今ゲームに参加している」と宣伝しているように感じます。彼らはゲームに参加していますか。
まあ、Novaには去年もいくつかのリリースがありました。だからNovaは完全に新しいわけではありません。だからまず第一に。技術的には、彼らは「私たちは去年すでにゲームにいた」と言っています。私たちはここにいました。
それらのいくつかの進歩は通常通りだと思います。彼らは音声から音声へのモデルをリリースしていて、他の人もリリースしています。だからそれらのいくつかは通常通りだと思います。
いくつかの新しい進歩が出てきました。Nova Forgeです。彼らは、独自のモデルを構築するための複数の異なるメカニズムを民主化すると宣伝しています。
だからファインチューニングメカニズムだけでなく、彼らがどのようにこれを行うかは正確にはまだ不明確ですが、ほとんど「チェックポイントを提供するので、あなたのデータと混ぜて、ゼロから独自のカスタム事前学習モデルを構築してください」という感じです。
そして私たちはそれを民主化します。企業はただ行ってそれを行うことができます。完全な研究ラボを持つ必要はありません。だからそれらのいくつかは本当にエキサイティングです。
繰り返しますが、企業のレンズをかけると、素晴らしい。でも、これらの機能のいくつがどれだけの企業ユースケースに使用されるでしょうか。
主流のユースケースの大きなセットは、適切な統合で箱から出たモデルで主に駆動できます。それから駆動するために、ユースケースの大部分にはカスタムファインチューニングモデルやカスタム事前学習モデルさえ必要ないかもしれません。
素晴らしい機能です。エンジニアリング側での素晴らしい推進です。だからエンジニアとして見ると素晴らしいです。でも企業価値とそれがどのように収まるかを考えようともしています。
Nova Actというもう一つがあります。これはOpenAIのブラウザ使用やGeminiのブラウザ使用の企業版です。それができるようにすることです。
彼らが話す差別化は、「今、私たちは企業の画面でそれを訓練しました。だからInstacartでの買い物ではなく、CRM画面で訓練しています。そして私たちはそれらの種類の企業画面を扱うのにはるかに適していると思います」というものです。
まだ初期段階です。その部分は実際にエキサイティングだと思います。なぜなら、正直に言いましょう、常にデータとAPIの問題があるでしょうし、企業で最もクリーンで衛生的なデータ要素を持っているかという問題が常にあるからです。
だから、すぐにデータにアクセスできない場合、ブラウザのユースケース、ブラウザのアプリケーションと機能は非常に有望だと見ていて、考えています。人間の行動を模倣するだけです。
だから有望な機能です。でも明らかに、それがどのように機能するかのセキュリティに関する多くの未解決の質問があります。良い。有望。まだ見られていません。
私はほとんどの企業ユースケースでモデルのトレーニングやファインチューニングのファンではありません。主に、企業と話すときはいつでも、彼らはデータがあると仮定したがるからです。
第二に、GPUがあると仮定します。第三に、データが進化または変更されるたびに継続的にファインチューニングまたはモデルをトレーニングするために必要な投資があると仮定します。
現実は、大規模言語モデル自体は膨大な大多数の企業ユースケースには不十分だということです。なぜか。彼らは去年のデータで訓練されていて、公開データで訓練されています。だからそのデータを企業データと混ぜたいのです。
でもRAG、GraphRAGまたはエージェントRAGのような技術、さらにツール使用を見てきました。だからMCPサーバーを使用したり、あらゆる種類の技術を活用したりすることで、高価なチューニング、トレーニング、ファインチューニングの必要なしに、リアルタイムデータとリアルタイム情報への十分に良いアクセスを提供します。
提案は、モデルをトレーニングしファインチューニングすることを本当に情熱にする何百人ものデータサイエンティストを雇用している非常に非常に少数の企業向けだと思います。たとえ他の誰かのインフラストラクチャでそれを行っていても、ゼロから始めずにチェックポイントから始めているとしても。
モデルを適切に特定のドメインにトレーニングまたはファインチューニングするのにかかる努力を過小評価すべきではありません。そして必要とされる膨大な量のデータや、必要とされるデータの品質を過小評価すべきではありません。
だからほとんどの人はエージェントに固執すべきだと言います。だからAmazonがすべてのワンストップショップを提供していることが好きです。偏見やそういうものではありません。でも見てください、彼らには他の選択肢があります。彼らにはAgentCoreがあります。エージェントがあります。これが気に入らない?あれがあります。
だから、本当に必要で何をしているか分かっていない限り、モデルをファインチューニングまたはトレーニングしないでください。結果として得られるモデルがフロンティアモデルとツール使用を上回ることは非常にありそうにありません。
そして上回ったとしても、今度はデータの更新率が何であれ、毎週、毎月、またはそれを行う必要があります。それでも、そのスペースにいる場合や、そのサービスが必要な1%の企業にいる場合はエキサイティングです。
それに必要なGPUを買うことができず、そのサービスを実行する必要がある場合、素晴らしいです。これは実際に楽しいです。なぜなら、以前話していたことから物語を反転させているような気がするからです。
以前は、消費者は複雑さを望まない、透明性を望まないと言っていました。でも企業は複雑さと透明性を望んでいます。そしてAmbhiさんは戻ってきて、実際にほとんどの企業にとって、彼らもそれを望んでいないと基本的に言っています。
Kateさん、これについて何か意見はありますか。言われたことすべてに同意します。追加する唯一の他のコメントは、Nova Forgeでの強化学習のサービスとしてのチューニングのサービスとしての新しいタイプの機能に関して、研究とアカデミアコミュニティに本当に興味深いものがあるかもしれないと思います。
彼らが初期のチェックポイントを提供しているのは本当にクールだと思いました。Nova Liteモデルの部分的に訓練されたバージョンで、さらにカスタマイズできます。
だからその一つの利点は、直接的な企業価値については懐疑的ですが、SFTまたはRLを使用して専門化されたモデルを取得するのは人々が予想するよりもはるかに難しいと思います。
これらのコンポーネントをより多く提供することで、初期のチェックポイントにアクセスできないために妨げられているアカデミア、研究コミュニティからのより多くの関与を可能にする可能性があると思います。
サービスの一部さえあります。継続トレーニングのためにあなた自身のデータをトレーニングデータと混ぜることができます。だからそれらはすべて本当に興味深いもので、うまくいけば、分野が恩恵を受け、これまで傍観に置かれて完全に参加できなかった新しいユーザーグループと関わることができるいくつかのイノベーションを刺激できます。
確かに番組では十分に話していない構成員ですが、もっと話すべきです。Mihaiさん、このエピソードの最後の言葉をあなたに差し上げるかもしれません。少し未来を覗いてみましょう。
AmazonがNovaモデルをリリースする際に発表した楽しい小ネタの一つは、彼らのフロンティアエージェントが数時間または数日間連続して動作できると主張して遊んでいることです。
これは非常に興味をそそると思います。その主張がどれだけ信頼できると思うかに関係なく、「オーケー、コンピュータ、何か手伝って欲しい」と言って、3週間後に戻ってきて「これが私がしたことです」という世界に向かっていると思います。
私たちはその世界に向かっていますか。確かに、技術はその3週間で何かをすることができるでしょうが、最終的にこれらのエージェントを十分に整合させてそこに到達できるように感じているかどうかが気になります。
私のエージェントは数週間動作できますが、最後にそのお金から良い結果が得られているわけではありません。だから好きなだけ何年も動かすことができます。それは問題ではありません。実際にタイムアウトがあって調整できます。ずっと動かし続けて最終的な答えを返さないこともできます。どれだけのトークンを消費してほしいか教えてください。
だから見てください、改善していると思うのはツール使用です。私たちが見ているのは、呼び出すことができるツールの数、並行して呼び出すことができるツールの数の点でツール使用の改善です。
呼び出すことができる連続したツールの数とMapReduceのような技術、またはベクトル検索や検索、またはツール検索を行って正しいツールを呼び出すことができることで、これらの種類の継続的なユースケースが可能になります。
文字通りドキュメントを構築している、PowerPointドキュメントを例に取りましょう。視覚化するのがさらに簡単だからです。スライド1、スライド2、スライド3、スライド4を構築しています。それぞれが独立したツール呼び出しになることができます。
コンテキストを適切に管理していれば、ずっと続けることができます。だから今日継続的に動作するエージェントを妨げているものを考えると、そのコンテキストを適切に管理することがどれだけ難しいかということです。
ツールオーケストレーションのためのLLMの限られたコンテキストで作業しています。すべてが実行内のコンテキストに収まる必要があり、それからコンテキストを管理するための技術を使用する必要があります。どのように圧縮するか。
Claude CodeやCodexを使用すると、ある時点でそれを圧縮し始めるのが見えます。文字通り、その状態から続けるのに十分良い状態にコンテキストにあるものを要約しています。
だからこれらの技術がすべて一緒に来ていて、ますます長く動作するエージェントが見られています。Microsoftには研究者がいます。ChatGPTとGeminiにはディープリサーチ機能があります。Amazonにも同様の技術があります。私たちにも同様の技術があります。そして私たち自身のディープリサーチャーを構築しました。
最終的に、これは私たちがますます見ることになると思います。なぜなら、企業のユースケースでAIから良い結果を得たい場合、すべてのデータに触れてほしいからです。
それは何百、潜在的に何千ものツール呼び出しを意味します。RAGだけでは十分ではありません。RAGでは、検索しているものから10段落程度を選択し、それをモデルに与えて最善を期待しています。
私がやりたいことは、すべてのデータを与え、これとこれとこれとこれを要約し続けることです。高価です。でも複雑な成果物をまとめている場合、RFI応答ドキュメントやRFP応答ドキュメントのような、このトピックについて300ページの本を書いてくださいのような場合、その深さが必要です。
だから、企業空間内のすべてのエージェントが、10分、1時間、おそらく一晩動作できるエージェントでこの種のディープリサーチャー機能を採用する自然な進化が見られます。非常に複雑な応答を持って戻ってくるために。
Timさん、Mihaiさんが言ったことに微妙さを加えたいと思います。Mihaiさんは絶対に正しいです。これをすべて文脈化する必要があります。でもそれは分野が見ている進歩を割り引くことではありません。
2つの次元でこれを見る必要があります。エージェントやモデルやシステムがかかっている時間の量だけではありません。それだけの時間動いているとき、達成しているタスクの結果がどれだけ信頼性があるか、または正確かということでもあります。
その曲線は確実に右に移動しています。だから数年前、高精度は数秒のオーダーだったと言っていたでしょう。それから数分になりました。そして今、私たちは確実に数時間の領域にいます。
だから曲線は確実に移動しています。でも、どれだけ長く動いているかだけでなく、どれだけ長く動いていて、高精度で信頼性を持ってそれを行っているかを認識することが重要です。
そしてループでは、これにも役立ちました。だからエージェントが自己評価でき、中間チェックポイントで再試行し、異なる方向を取ることができれば、より長い実行サイクルにわたってそれらを改善するのに役立ちます。
ええ、その通りだと思います。その一部はこれらのようなトレードオフになるでしょう。でもフロンティアは継続的に増加していくと思います。
でも注意すべきことは、特にこれがエージェントについて行われる主張の新しいフロンティアになると思います。数週間、2週間動かすことができます。だから今の質問は、どのように測定するか、どのように定量化するかです。だから見るのは非常に興味深いでしょう。
それでは今日の時間です。Kate、Ambhi、Mihai、いつものように参加してくれてありがとう、そしてハッピーホリデー。
そしてすべてのリスナーの皆さんにも感謝します。気に入っていただけたなら、Apple Podcasts、Spotify、そしてあらゆるポッドキャストプラットフォームで聴くことができます。来週のMixture of Expertsでお会いしましょう。


コメント