エイダン・ゴメス:表面化するスケーリングの限界、実用的なAIのユースケースと、トランスフォーマーの先へ

AGIに仕事を奪われたい
この記事は約31分で読めます。

18,414 文字

Aidan Gomez: Scaling Limits Emerging, AI Use-cases with PMF & Life After Transformers
Aidan joined this week’s Unsupervised Learning for a wide-ranging conversation on model architectures, enterprise adopti...

私はジェイコブ・エフロンです。今日のUnsupervised Learningでは、エイダンと様々なトピックについて話し合いました。彼が最高のアプリケーション企業はまた独自のモデルも構築するだろうと考えている理由について議論しました。また、モデルを向上させるために今後重要となるデータラベリングのタイプについても話し合いました。そして、エイダンがなぜトランスフォーマーがAIの最終的なアーキテクチャではないことを願っているかについても触れました。
本題に入る前に一つお願いがあります。もしSpotifyでこの番組を聴いているなら、評価を残すことを検討してください。評価はポッドキャストの人気を高め、それによって最高のゲストを招くことができます。
それでは、エイダンをご紹介します。
エイダン、ポッドキャストに来てくれてありがとう。本当に感謝します。
喜んで来ましたよ。招待してくれてありがとう。
素晴らしい。始められる場所はたくさんありますが、今日みんなが考えている最も興味深いテーマの一つは、企業のAI導入と利用の未来についてだと思います。これはあなたが多くの時間を費やして考えていることだと思います。
今日のGenAIのエンタープライズ導入では、異なるモデルがあるように感じます。純粋なコンサルティングのようなもの、つまり大きなアクセンチャーチームが入ってきて何かを構築する、というものもあります。あるいはパランティアのようなもので、前線に配備されたエンジニアリングや構築されている製品があるもの。そして単に完成品を売り、「はい、これで使ってください」というものもあります。
急速に進化する分野ですが、5年後、10年後、どのモデルが勝者になると思いますか?長期的にGenAIで企業と協力する人々にとって、どのようなものになると思いますか?
長期的には、中間のようなものが勝利すると思います。これは新しい技術で、とても複雑なものです。企業がこの技術を採用するのがもっと簡単だったらいいのにと思います。しかし、時には支援が必要です。
ある程度のサポートが必要になるでしょう。これを経済やさまざまな企業に統合し、彼らが目指すかもしれない様々なアプリケーションを対象とするためには。
また、AIは独特で、これらのエージェントは人間がアクセスできるものと同じものにアクセスできて初めて自動化を効果的に進めることができます。それは多くのアクセスが必要だということです。メールやチャット、通話、CRM、ERP、HRソフトウェアなどを見ることができる必要があります。とても多くのコンテキストが必要です。
これにより、いくつかの異なる問題が発生します。まず、プライバシーです。そのレベルのアクセスを必要とするソフトウェアはほとんどありません。そのため、プライバシーは他のタイプの企業ソフトウェアよりもAIやエージェントにおいて大きな問題です。これは我々が特に優れていることだと思います。
二つ目の点は、各企業は人間のために異なるソフトウェアのタペストリーやモザイクを使用しているということです。企業のセットアップに標準はなく、どのようなスタックで運用されているかも様々です。それぞれが異なり、それぞれにある程度のカスタムセットアップが必要で、そのすべてのコンテキストをまとめてモデルに統合する必要があります。我々が多くの時間を費やしているのは、新しいエージェントプラットフォームであるNorthをより簡単にカスタマイズし、各企業が持つかもしれないそのタペストリーと統合できるようにすることです。
今日では、カスタム統合を構築し、誰が何にアクセスできるかなどのルールを設定する必要があります。明らかにVPC展開もあります。将来的には、この複雑さを軽減するAIエージェントがあり、「統合したいツールを入力してください」というようなことができるのでしょうか?それとも、それは少しファンタジーでしょうか?
私はそれが非常に役立つと思います。セットアップが完全にセルフサービスで、エージェントが必要なことを実行できるようになれば。おそらく中間地点があるでしょう。
完全に「人間は関与せず、コピーをインストールして何をしたいか伝えるだけで自身でインストールする」という極端なものではないでしょう。人間が関与する部分と自動化できる部分の中間地点があるでしょう。
給与データなどへのアクセスミスのリスクは十分に高いため、おそらくかなりのガードレールが必要でしょう。
そうですね。顧客データや患者データなど、ミスを犯すことはできません。
Coherで多くの異なる企業と仕事をするあなたの立場は興味深いと思います。シリコンバレーでの議論は、実験予算なのか実予算なのかという点です。あなたは今日実際に機能しているものについての素晴らしいレンズを持っています。今日のGenAIのエンタープライズユースケースで、製品市場フィットがあると感じるものをどのように分類しますか?
分類するのは本当に難しいです。例えば医療のような垂直アプリケーションがあります。医師のメモ作成やフォーム記入をより簡単にしたいと考えています。パッシブリスニングマイクを使用して医師と患者の対話を聞き、事前に入力を行うことで、医師が時間の半分をタイピングに費やさないようにします。これは非常に垂直特化型ですが、私たちが見ているのはより一般的なカテゴリーです。
カスタマーサポートは技術が準備ができており、ニーズが非常に大きい分野です。これは通信、医療、金融サービスなど様々な業界で急速に進んでいます。誰もがこの能力を必要としており、技術もそこにあります。
もう一つのカテゴリーは「研究」と言えるかもしれません。人間が1ヶ月かかるような調査を1〜2時間で行えるエージェントで人間を増強することです。この種の能力に対する需要が多く見られます。
例えば、銀行でウェルスマネージャーが20〜50人のクライアントのプールを管理しているとします。そのクライアントがウェルスマネージャーに電話して「将来起こるかもしれない地政学的イベントに対してヘッジしたい」と言います。そのウェルスマネージャーは調査を行い、「実際にどうやってそれをヘッジするか?」という戦略を考える必要があります。特に現在のような状況では、数日後には起こるかもしれないので、時間的にも非常に重要です。
確かに、今は非常に関連性が高いですね。
我々がその過程を劇的に効果的にできれば、これらのモデルは人間よりも何百万倍も多く読むことができ、すべてのソースドキュメントへの引用付きで非常に堅牢な調査結果を提供できます。そうすれば人間はそれを監査できます。ナレッジワークの効率を10倍に向上させることができると思います。
人々が多く議論する質問の一つは、現在のモデルの能力を探求し始めたばかりだということです。「Q4」は数年前からありますが、推論モデルは昨秋からです。モデルの能力を今日凍結しても、まだ解き放たれるのを待っている価値が1兆ドルあると感じますか?それとも、本当にビジョンを実現するために、このモデル改善の曲線を続ける必要があると感じますか?
推論は非常に明白です。非推論モデルに満足するのは狂気の沙汰です。入力空間は何ですか?それは言語です。「1+1はいくつですか」というチャットボットから「フェルマーの最終定理を証明せよ」まで、すべてです。入力空間はすべてであり、モデルがこれら2つの質問に答えるのに同じ量の時間を費やすことを期待すべきではありません。
推論が技術に、問題の複雑さに応じて異なる量のエネルギーを費やす能力を解き放つというのは、非常に明白で直感的です。この能力を技術に組み込む必要があることは明らかです。
確かに他にも欠けているものがあります。例えば、モデルの現状では、私たちはそれらをトレーニングするのに多くのお金を費やします。1億ドルをかけてモデルを構築し、最終的なチェックポイント、最終的な重みを得て、それを世界に配布します。それらは凍結され、誰もが同じバージョンのモデルと話しています。数ヶ月前のチャットを覚えていません。
経験から学ぶという概念がありません。これは人間が持つ明確な能力です。我々は新しいことに無知なところから始め、4〜5年の練習で専門家になることができます。これらのモデルも、世界での経験から学び、交流する人間からのフィードバックから学ぶ同じ能力を持つべきです。
インテリジェンスの明らかな特性で、技術に欠けているものがあり、それが必要になるでしょう。しかし、今起きている変化があります。「スケールはすべて必要」という仮説が崩れています。資本とコンピュートの収穫逓減に深く入っています。次のステップアップを解き放つためには、より賢く創造的になる必要があります。
それは革新者としての私たちにとって良いプレッシャーだと思います。古い戦略は退屈で愚かでした。新しい時代に期待しています。
それはすべて計算にお金をより多く投じるだけの、ある種の理解されたゲームでした。テスト時の計算をどのように機能させるかを考え出すことではなく。明らかに、他の人々が取り組んでいるアルゴリズムのブレークスルーなど、研究側にとって今は刺激的な時期のようですね。
間違いなく、間違いなく。
あなたが言及したことですが、人々が尋ねるもう一つの質問は、「すべてを支配する一つのモデル」への道を歩んでいるのか、あるいは銀行や医療機関などの異なるユースケースに特化したモデルの世界に向かっているのかということです。ファインチューニングについてだけでなく、これらの異なるドメイン向けに異なる事前トレーニングされたモデルを持つことは意味があるでしょうか?また、それがどのように発展すると思いますか?
以前はもっと特化したモデルが必要だと思っていました。これらのモデルは一種の自己開発エキスパートを持つことができます。これらはモデル内のサブネットワークのようなものです。それによって圧力はいくらか軽減されました。
カスタムモデルはまだ重要です。特定のビジネスや特定のドメインに関する基本的なコンテキストがWebから構築されたモデルには欠けています。Webには人類、歴史、文化、科学に関する多くの情報が含まれていますが、Web上にないものもあり、これらのモデルはそれらに精通する必要があります。
カスタムモデルが意味を持つのはそのギャップを埋めるところです。Web上には製造データやカスタマートランザクション、詳細な個人健康記録などが多くありません。Coherがやっているのは、このデータを持つ組織と提携して、彼らだけがアクセスできるカスタムモデルを作成し、それらのドメインでの作業に非常に優れたものにすることです。
しかし、一般的なモデルは驚異的であり、合成データはかなりギャップを埋めることができます。組織内で数十または数百のモデルが動作することはないでしょう。数個あるかもしれませんが、各チームが独自のファインチューンされたモデルを持つとは思いません。
基本的に、モデルが露出していないような異なるタイプのデータに焦点を当てる場合、一部のファインチューニングや基本的な事前トレーニングを行うかもしれませんが、そうでなければ組織全体にわたって持つことは意味がありません。
データ側に言及しましたが、最初の波では大量のRHFデータがありました。今は明らかに専門家データラベラーに移行し、より多くの推論タスクをエンコードしています。合成データも明らかに大きな役割を果たしています。データラベリングはモデルプロバイダーを構築している人々にとってまだどのような役割を果たしているのでしょうか?合成データの世界でも関連性がありますか?それとも評価でしょうか?
人間は依然としてゴールドスタンダードですね。人々のためにモデルを構築している場合、彼らはおそらくその有用性を評価するのに最適な立場にあります。評価では人間をループから外すことはできません。少なくともまだです。
ループから人間を排除する方法は、現在のモデルよりも優れた専門家がそれを観察することですが、それはあなたがその専門家を最初に構築できることを前提としています。評価内では人間への厳しい依存性があると思います。
データ生成側では、コストが高すぎます。確かに人間のデータはまだ必要ですが、10万人の医師を見つけてモデルに医学を教えさせるのは実現可能な戦略ではありません。会話やチャットのような一般的なことをモデルに教えるには、10万人の平均的な人々を見つけるのは実現可能な戦略でした。
だから、より創造的になる必要がありました。しかし、モデルにチャットや他のことを教えると、特定のドメイン、例えば医学に適用できる合成データ生成における自由度が解放されました。人間のデータのプールを小さくすることができます。おそらく100人の医師から教えを得て、モデルにいくつかのレッスンを提供します。そして、その信頼できる良質なデータのプールを使用して、1000倍の合成的な類似データを生成します。
あなたが言うように、コードや数学のような検証可能なドメインでは、結果をチェックしてそれを使って合成データをフィルタリングし、ゴミを取り除いて金を見つけることができるので、はるかに簡単です。他のドメインではより複雑になりますが、まだ実行可能です。
この段階では、Coherが新しいモデルのために生成しているデータの大部分は合成的なものです。
非常に興味深いです。あなたが言及したように、現在のフィールドでの大きな質問の一つは、テスト時の計算がどれだけ進むか、そしてどの空間で機能するか、機能しないかということです。それを今日どのように概念化していますか?テスト時の計算や推論について、今日うまく機能しているものと、近い将来のフロンティアについてどう考えていますか?
Coherは数学オリンピアドを解くことにはあまり関心がありません。企業がそのような数学オリンピアドで良い結果を出すモデルを求めて来ているわけではありません。
私たちが求められているのは、このソフトウェアを使用したバックオフィス内のプロセスの自動化や、Webで調査を行い、それからこれを行うなど、ビジネス内に存在する問題を解決するための推論をモデルに教えることです。私たちにとっては、ビジネス内の人間が現在使用しているツールを使って問題を解決するための推論をこれらのモデルに教えることが重要です。
それは私たちが気にしていることであり、改善の面で完全なステップチェンジとなっています。推論前には、モデルが十分に正確に達成できないタスクがありました。不可能でした。モデルは問題を解決できませんでした。ほぼ常に失敗します。推論があれば、ほとんど失敗することはありません。そのものに投げかけるほぼすべてのことに対して、実際にそれを達成する方法を見つけるでしょう。
推論が振り返りと最初の試みが失敗した理由を理解し、それを使って同じ結果への別の代替パスを見つける能力を解き放つことは、本当のブレークスルーとなりました。
これらの推論モデルを最初に試していたときに、不可能なタスクの一つでそれを見たとき、あなたにとって何かクレイジーな瞬間がありましたか?
機能しないものが機能し始めるのです。複雑なタスクもです。「どうやってそこを見るのを知ったのか?」という多くの喜ばしい瞬間があります。「ああ、明らかな場所で見るのに失敗したからだ」と気づきます。そして推論の痕跡を読むと、「なるほど、実際にかなり賢いんだ」と思います。
推論の痕跡は本当に驚くべきものです。これらのモデルが有機的に問題を解決し、物事を考え抜いていくのは美しいことです。彼らは自分自身の小さな発見をして、「ああ、ここをチェックすべきだった。おそらくこれが起こったからこっちにはなかったんだ」などと思考するのです。それを見るのは非常にやりがいがあります。
企業と話すとき、今日の生態系におけるCoherの位置づけをどのように説明していますか?非常に大きなラボやAnthropicがあり、多くのオープンソースモデルプロバイダーがあり、それらと協力している人々もいます。また、これらの企業がさまざまなユースケースを構築するのを支援しているようですが、アプリケーション層にどこまで進みたいですか?サポート製品などは持ちたいと思いますか?
Northでアプリケーション層に進出し、それは完全にモデルを販売していたときに顧客が同じものを何度も構築しているのを見たことによって動機づけられました。モデルを提示し、UIを作成し、さまざまなツールやデータソースと統合し、プライバシーやACL継承などをうまく行うアプリケーションを構築するのに1年ほどかかっていました。
そして通常、それは企業内のAIチームによって構築されていました。彼らはプロダクトチームではないので、実際にはそれほど良いユーザーエクスペリエンスではありません。会社内の人々はそれを使用したくないのです。
そこで私たちは、企業向けにその問題全体を解決することを考えました。人々が使用したいと思う、真にコンシューマーグレードの製品体験を作りますが、企業が必要とするすべての機能も備えています。完全にカスタマイズする能力です。UIをカスタマイズしたり、好きなようにリブランドしたりできます。データ接続やモデルが引き出せるソースやツールをカスタマイズできます。
もしあなたがLLamaのファインチューンなどをあなたのデータでトレーニングしたなら、Llamaをそこに接続し、このアプリケーションを通じて公開することもできます。それは本当に企業の製品ロードマップを12〜18ヶ月前進させ、すぐにこの技術を従業員の手に配布できるようにします。
Coherには、一つのエコシステムにロックインされていないことなど、非常に優れた戦略的特性があります。一つのハイパースケーラーのエコシステム内にはありません。どこにでも展開できます。また、商業的でない形で重みをリリースしていますので、VPCへの展開も問題ありません。あなたが重みにアクセスできることを心配していません。それは全く問題ありません。だから私たちは間違いなく企業にとって最高のパートナーだと思います。
Coherの興味深いことの一つは、モデル開発側と最先端の優れた研究チームを持ち、さらにモデルの上に構築するアプリケーションも持っていることです。「最高のモデルを取り、サポートアプリケーションを構築する」と言う人もいます。モデル側では何もせず、オープンソースモデルに軽いファインチューニングをするだけです。モデルとアプリケーションの両方を構築することの利点を、モデルの上にだけアプリケーションを構築する人々と比べてどのように説明しますか?
私たちは顧客が必要とする体験を提供するためにより多くのレバーを持っていると思います。垂直統合されているからこそ、Command(私たちの生成モデル)の次のバージョンは、Northで顧客が必要とするユースケースに最適化されるでしょう。最新バージョンはすでにそのように最適化されています。ERPの使い方を知っています。CRMの構築方法を知っています。
技術、モデル、そして実際の顧客ニーズの間の統合は、製品品質にとって重要だと思います。それは多くの既存のアプリケーションが、私の意見では、ユーザーに提供している製品の約束を満たしていない理由の一部です。彼らはその技術の消費者であり、Llamaの重みなどを取得できますが、顧客のニーズに合わせてその技術を変えることはできません。それが製品品質に対する根本的な障壁となります。
ベンチャー界でよく議論される質問の一つは、これらのAIアプリケーションを構築するための適切なチームとどれくらいのAI専門知識が必要かということです。基本的にこれらのモデルをファインチューニングする方法を知っているスマートなスタンフォード卒業生から、あなたのようなトランスフォーマー論文の共著者まで、スペクトラムがあると想像できます。
これらのアプリケーションを構築するための適切なチームについて考えるとき、このモデルに関する深いレベルの知識が必要だと思いますか?それともどう考えていますか?
最高の製品を構築している人々を見ると、彼らはその知識を持っています。言語モデルの構築方法についての深い親しみがあります。彼らが自分でモデルをトレーニングしていなくても、それを近似し、モデル層でできるだけ大きな影響を与える方法を見つけようとしています。
それは、これらのモデル上に構築する企業が成功するための重要な要素だと思います。私たちはパートナーのためにその役割を果たそうとしています。Oracle社のFusionアプリケーションスイート内のAI機能や、他の多くの大企業SaaS企業の機能を提供しています。私たちができることは、そのレベルで介入できるため、彼らが必要とするものは何でも実現し、彼らのために機能させます。
次にどのようなユースケースがあると思いますか?今日機能しているものについて言及しましたが、今後12ヶ月間で、現在のモデル能力セットと進む軌道を考えると、製品市場フィットについて同じ質問をしたとき、何が答えになると思いますか?
深い研究スタイルのユースケースでは、技術は準備ができており、市場は驚いています。それは超現実的で、モデルが多額のコストがかかる人が1ヶ月半かかるようなレポートを30分や1時間で戻してくるのです。
これは完全に本番稼働の準備ができていると思います。これは地球上のすべての企業に統合されるでしょう。私たちはこれを強く推進しています。
それを超えて、将来を見据えると、実際にはより平凡なバックオフィスの作業が稼働し始めると思います。この技術を自動化することが企業にとって容易になればなるほど、その自動化を行うためのインフラストラクチャがNorthのように整備されるほど良いでしょう。
つまり、必要かもしれないすべての異なるツールやコンテキストにアクセスできるシステム、そしてそれらの自動化を構築するためのユーザーエクスペリエンス、モデルに「私のためにこのタスクを達成して」と依頼するシステムです。そのインフラストラクチャが企業に設置され接続されるにつれて、バックオフィスのタスクの多くが開始される、または解放され始めると思います。
これは財務、法務の仕事です。確かに営業も非常に熟しています。
セールスの人が顧客との会議に行く前に何をするかを考えると、それは調査です。その会社は何か、彼らの戦略的な要請は何か、私が販売したい取り組みを主導している人は誰か、などを調査します。また、会社内部でも調査を行います。彼らとの以前の会話は何だったのか、それはどうだったのか、問題点は何だったのか。そして、あなたは会おうとしている人についてのインテリジェンスブリーフィングが必要です。彼らが気にしていることすべて、彼らがCoherまたはあなたの会社について聞いたことすべてなど。それはあなたの仕事の効果を劇的に高めます。
だから、セールスも次の大きなものになると思います。明らかにサポートやセールスなど、それぞれに特化した多くの企業があります。Sierra(サポート)やClay(セールス)などが例です。企業は一つのベンダーがすべてを支援してくれることを望む一方で、もしチームが一日中これらの問題領域の一つだけを考えているなら、より良いワークフローを構築するかもしれません。企業として最高のソリューションを財務、セールス、サポートごとに選ぶのか、それともすべての分野で一般的に良い知識を持つ一箇所に行くべきだと思いますか?
最初は分散し、その後統合すると思います。最初は連合し、すべての異なるチームが独自の小さなアプリケーションを購入し、そして彼らは気づくでしょう。セールスの人々はCRMの中だけに存在するわけではないので、そのエージェントを会社内の他のすべての情報と統合する必要があります。財務チームも同じで、ERPの中だけに存在するわけではありません。
そうすると、これらすべての異なるアプリに対してあらゆるデータソース接続の信じられないほどのメンテナンス負担が発生します。そのため、統合に向けて強い推進力が生まれるでしょう。私は一つのプラットフォームですべてに接続し、すべての異なる自動化目標を達成できるようにしたいと思います。長期的なゲームはそのようなプラットフォームを構築することであり、それが私たちがNorthで行っていることです。
理にかなっています。明らかに、これらすべてのものは、研究側または企業インサイト側で、最終的に答えたい質問に実際に答えるために互いに通信する必要があります。
Coherの旅を振り返って、本当に物事を変えた重要な決断点で、おそらく51対49の決断だったものは何が際立っていますか?
非常に多くの重大な戦略的決断がありました。例えば、トロントで始めるというのもその一つです。それは本当に配当を支払いました。しかし、それは当然のことではありませんでした。初期には本当にそれが正しいアイデアかどうかわかりませんでした。
それがなぜ良いかについていくつかの議論がありました。ジェフ・ヒントンがトロントにいる、カナダのAIエコシステムはイリヤなど多くの人材を輩出している、などです。そこで始めたことで、世界で最高の人材へのアクセスが得られ、カナダのAIコミュニティ、カナダの技術コミュニティのお気に入りになりました。
この点についてもう少し聞かせてください。明らかにあなた方はカナダのグローバルエコシステムから多くのサポートを受けており、政府も明らかにあなた方が構築しているものにとても興奮しているようです。多くの国が独自の基盤モデル企業を持ちたいと考えているように感じます。国家政治や優先事項と基盤モデルの交差点について、各国が自国の企業を持ちたいと考えるため、数十の企業が生まれるのでしょうか?
おそらく数社になるでしょう。「購入するか構築するか」または「パートナーになるか構築するか」という質問は熱く議論されています。
Coherは非常に国際的です。私の母はイギリス人、父はスペイン人で、両方の国とカナダでパスポートを持っています。リーダーシップチームも世界中から来ています。私たちはこれらの国々がテクノロジーを採用し、彼らのために機能することを確実にするパートナーになろうとしています。
富士通のような日本の企業とのパートナーシップでは、私たちは日本語に深く投資しており、これからもずっとそうするでしょう。私たちは日本に深くコミットし、私たちの技術が英語と同じくらい日本語でも機能することを確実にしています。最近、韓国のLGとのパートナーシップを発表し、韓国語についても同じことをしています。
特に、多数が英語のネイティブスピーカーではない場所や、その管轄区域で扱うデータが英語ではない場所では、すべての人が自分たちの経済がこの技術を採用できるようにサポートすることに確かに賛成しています。
オープンソース側でのCohereiやYAプロジェクトの多くの取り組みは、機械学習プロジェクトとしては最大のデータ収集努力でした。何千人もの100以上の異なる言語のネイティブスピーカーがデータを提供し、私たちはそれをオープンソース化しました。それによって、Coherenceのモデルだけでなく、他のすべての言語モデルもそれらの言語で改善されます。
この技術は、それが彼らの言語を話さず、彼らの文化を理解しない場合、世界人口の大部分にとって有用ではなく、多くの人々が見逃してしまうという信念を持っています。そのため、私たちは非常に多くの投資をしてきましたし、これからも続けていきます。
非常に強力ですね。あなたが言及していましたが、最先端のAGIラボは5年後に何社くらいあると思いますか?そして何が一つを他より優れたものにするのでしょうか?
私たちはみな異なることを始めています。戦略の多様化や多様性が出現しています。OpenAIは現在明らかに消費者フロントを押し進めています。Geminiがそのクラウンをめざしていることも知っています。Metaも同じことを計画しています。Anthropicはコードに非常に優れており、それが彼らが最も優れていることです。私たちは企業やビジネスのバックオフィスアプリケーションに焦点を当てています。誰もが自分のレーンやニッチを見つけています。
基盤モデル企業の間では、おそらく数社になるでしょう。そしてそれが多くをカバーするでしょう。そして基盤モデルの新世代が登場するでしょう。生物学、化学、材料科学などの基盤モデルが登場するでしょう。
私はKAの諮問委員会に所属しています。これはフレッド・ハッチなど多くの大きなアメリカのがん研究・治療センターとのがんデータおよびコンピューティング共有アライアンスです。これはWeb上にはないデータです。
「GPTのような瞬間があったらどうなるか?」「そのデータや、がん治療のためのモダリティに大規模な資本が流入したらどうなるか?」「それについてどのように確信を持つのか?」「もしがんを解決できるかもしれない、100億から200億ドルの資本をこれに投入する必要があるなら、どのようにリスクを軽減するのか?」といった質問があります。
そのようなアイデアが既に出現しているのが見えます。LLMや一般的な画像、ビデオ、音声、言語モデルが出現するにつれて、タンパク質配列モデリング、材料科学など、同様のグローバルな取り組みを必要とする他の非常に異なるドメインがあり、同じような信じられないほどの進歩をもたらす可能性があります。
確かに、そこでの大きな課題は、最終的にはデータ生成が必要になるかもしれないということです。インターネット上には子どものトークンはありません。がんデータの多くの問題は、特に構造化されていないか、リンクされていないか、結果に結びついていないということですが、多くのバイオ基盤モデル企業は、より多くのデータを生成するためにラボを立ち上げます。ロボティクス側でも同様の問題があるように感じます。
おそらくそれが最初の投資領域である必要があるでしょう。また、すぐに評価の恩恵も得られません。時にはそれが本当に機能したかどうかを把握するのに5年、10年かかることもあります。しかし、本当に興味深い問題のセットであり、最高で最も賢い人々がそれに取り組んでいることを願っています。
そうですね、私もそう願っています。これらの分野には多くのデータが存在しています。トークンの不足があるとは思いません。ただ、それが分断され、互いに共有や会話を拒否する何百もの異なる場所に閉じ込められているだけです。データは十分な量で絶対に存在しています。
興味深いですね。データ生成の問題というよりは、人間の問題ですね。
その通りです。
あなたは一部の新しい基盤モデルの取り組みについてどう思いますか?SSIやThinking Machinesなど、しばらくの間、新しいLMプロバイダーは終わりかと思われましたが、昨年にはいくつか登場しました。より多くのそのような企業が出てくると思いますか?何か反応はありますか?
多くの新しい企業が出てきて、新しいアプローチを試み、世界のために価値あるものを構築する試みをすることを願っています。それは素晴らしいことだと思います。
技術的な面では、次に来るアーキテクチャについて、より良いアーキテクチャがあるかどうかについて多くの議論があります。トランスフォーマー論文の共著者として、あなたは良い見解を持っていそうですね。
公に言ったことがありますが、「なぜまだトランスフォーマーが使われているのか?何が起きているのか?」と思っている最初の人間かもしれません。私はそれを待っていました。ニューヨークオフィスでは会議室を「SSM」と名付けました。「これだ、トランスフォーマーは終わりだ、SSMに行こう」と思ったからです。しかし、SSMの良い部分を借用してトランスフォーマーに組み込むことができ、SSMに切り替える必要性がなくなりました。
今、離散拡散モデルが登場していて、それらは素晴らしいUXです。通常の拡散のように、ノイズの壁、ノイズのあるトークンと文章の壁から始まり、そこから応答が出現します。それはクールですが、それが実際にトランスフォーマーより優れた言語モデルなのかどうかはわかりません。なぜそうなるのか理由が見当たりません。難しいですね。
今後5~10年の間に新しいアーキテクチャが主流になる可能性はどれくらいだと思いますか?
ああ、そうなってほしいです!2018年、トランスフォーマー論文が公開されてから1年後に、7年後もまだトランスフォーマーを使っている可能性を聞かれたら、ほぼゼロと答えたでしょう。なので、推定はしませんが、このものの寿命は本当に私を驚かせました。
あなたは長い間、最先端のAI研究を行ってきました。この1年で考えを変えたことは何かありますか?
おそらくスケーリング仮説でしょうか。過去数年間、私はそれにかなり忠実でした。忠実である正当な理由がありました。
頭の中では常に「本当に必要なすべての能力がスケーリングから生まれるのだろうか?それはありそうにない」と思っていました。しかし、証拠が次々と現れました。「少し大きくしたら、今度は数学ができるようになった」など。なので「そうか、これなんだ」と思いました。しかし今、スケーリングは我々をそこに連れて行ってくれないということが痛いほど明らかになっています。
一部の人々は、すべての能力はテスト時のコンピュートのスケーリングから生まれると言うでしょう。それは単に別のスケーリングベクトルだと。あなたはそれに同意しますか?それとも将来的にはアルゴリズムのブレークスルーが必要だと思いますか?
そうなるとスケーリングの定義をかなり曖昧にしていますね。現在のスケーリングの多くは実際にはデータであり、データの多様性を得ること、モデルに特定のドメインで問題を解決する方法のデモンストレーションを見つけることです。
以前のスケーリング法則のように「2倍大きなコンピュータを構築して同じことを実行し、損失が下がる」というほど単純なものではないかもしれません。
ハードウェア面では何か変わることがありますか?事前トレーニング時代から、より多くのテスト時コンピュートや他のアプローチの時代に移行する中で、将来のハードウェアニーズをどう考えていますか?
テスト時コンピュートにもまだ膨大な計算が必要です。推論を何であれ3~10倍ほど高価にします。トレーニングにもまだ膨大な計算が必要です。しかし、計算はフロップあたりより安く、より豊富になると思います。
トレーニング計算のためのオプションは現在複数あり、以前はそうではありませんでした。これは世界と業界にとって非常にポジティブなことです。複数のタイプのチップを接続して、モデル構築のための非常に効果的なスーパーコンピュータを得ることができます。スタックの計算層でのすべてのトレンドは、多くの計算を消費する私たちにとって非常に良いものです。
最新の最先端モデルが登場したとき、あなたにとって意味のある将来のモデルのマイルストーンは何ですか?あなたが試すものはありますか?クロードのポケモンプレイは面白い評価でしたが、あなたの企業が特に気にするものではないかもしれません。新しいモデルが登場するたびに、意味のある能力のブレークスルーだと思うものはありますか?
自分のモデル、Commandについては、最初にするのは単に日常業務の一部として使用してみることです。自分がしなければならないことを自動化しようとします。
最近自動化したことは何ですか?
会議の準備を多くモデルを使って行います。基本的に、内部のNorthのような深い調査をしますが、それはWebだけでなく、すべてに接続されています。あらゆる通話の文字起こし、私が言ったすべてのこと、DMでのすべての会話など、あらゆる場所で行ったすべてを見ることができます。私の人生のできるだけ多くを見せるようにしています。そして非常に説得力のある回答を提供することができます。
CEOとしての私の一日の大部分はそのようなものです。顧客、投資家、人材と会っており、それらの会議の準備をする必要があります。そこで私はモデルを使います。他のモデルではそれはできません。
通常、新しいサードパーティのモデルを試す時には、なぞなぞや推論モデルなどを試します。
なぞなぞを持っていますか?
持っています。マトリックスを作成して、すべての情報に基づいて誰が何であるかを把握する必要があるものです。誰がどのボックスをチェックするかなどで、単語のスペルに関するものです。単語を文字に分解する能力は、モデルが苦手とするイチゴの問題に似ています。
それから数学の問題も。数学の問題を解けるかどうかです。しかし、モデルがそれらすべてを解決できるようになると、それは変わります。もはや数学のものは使わなくなりました。解決するので面白くありません。尋ねるものが何もありません。
ほとんどはモデルを壊そうとすることです。このモデルのアプリケーションの境界を見つけようとしています。
話題を変えますが、あなたは元のトランスフォーマー論文のメンバーでしたね。人々はこれらのことを可能にする文化について多くの記事を書いています。Coherの研究チームを構築する文化について多く考えていると思います。あなたが参加してきた最も成功したAI研究グループから学んだことや、Google Brainでの経験から得た教訓は何ですか?
Google Brainの素晴らしいところは、本当に賢い人々が最高の仕事をするための場所だったことです。基本的に完全な研究の自由があり、やりたいことは何でもできました。膨大な計算能力、その計算を使用するための多くのソフトウェアインフラストラクチャ、そして一緒に仕事をする素晴らしい人々がいました。そのセットアップがいくつかの興味深いことにつながったと思います。
しかし、それは素晴らしい製品を提供するセットアップではありません。Coherにとってはニーズが異なります。非常に的を絞った焦点があります。達成すべきことがあり、目標があります。これは自動化を推進し、この技術がすべての異なるソフトウェアを使用するのに優れたものにすることです。問題設定はかなり焦点が絞られています。好きなことに取り組むことはできません。そのための時間はありません。
そのため、投資する場所についてはより焦点を絞り、的を絞る必要があります。しかし、保持しているものは、素晴らしい人々、膨大な計算能力、そしてGoogleで感じたのと同じ世界を変える野心です。また、温かい文化も大切にしています。異なるラボでは物事が変わったかもしれませんが、私がいた時は、深く温かく意味のある歓迎の場所であり、何かについて気にかけていました。それは私たちがかなりよく保存していると思うものです。
素晴らしいですね。モデルの継続的な改善の影響で、社会として現在見落としていると思われることはありますか?
経験から学ぶこと。モデルがユーザーとの対話から学ぶことができるようになれば、構築の観点からその能力は非常に多くのことを解放します。現在、それができないモデルでは、フィードバックを与えても新しいチャットを始めるとそのフィードバックはすべて忘れられます。それは時間の無駄です。もし何かができなければ、単に私はイライラして窓を閉じ、自分でやります。
しかし、もしモデルがインターンのようなもので、初めての作業で少し間違えるかもしれないが、私が教え、導き、フィードバックを与え、そして「見てみろ、できたじゃないか」と言えて、二度とそのミスをしないとしたらどうでしょう。
それはどのように実現されるのでしょうか?誰もが自分専用のモデルを持つのですか?それともコンテキストウィンドウに入れるのか、RAGなどを通じてデータベースに入れるのか、どのように実現されるのでしょうか?
まだ存在していないので、人々はすべての上記のことを実験していると思います。おそらく最後に言ったもののようなもので、データベースに入れて検索できるようにし、モデルが生成するときには常に以前のインタラクションの履歴のコンテキストが利用可能なものです。
それがどのようなことを可能にするか考えてみてください。私はこのモデルとの対話にもっと投資するようになります。なぜなら、それは私から学び、私とともに成長し、私を知り始め、私の好みを知り、私が必要とすることをどのように行うかを知るようになります。私がこれを教えることに多くの時間を費やしたからこそ、私の小さなインターンから「私2.0」に変わるのです。
そのシステムとのつながりに非常に期待しています。現在は、毎回新しいインターンの集団が初週に来たようなものです。1週間それをやっても、また誰か別の初週になるような感じです。
ある種のグラウンドホッグデイのような状態ですね。あなたのモデルや一般的なAI研究の過程で、おそらくAIの進歩が以前に予想していたよりも早く起こると考えるようになったと思います。それはあなたの生活の送り方や未来についての考え方を変えましたか?
全く変わっていません。全く変わっていません。とても興奮しています。
父はがんの生存者です。彼がもっと長く生きて、治療が劇的に良くなることを本当に願っています。コストを下げることができ、供給が世界で増加することを願っています。私たちは供給に制約があると思います。需要に制約があるのではなく、だからこそ大量の失業などは起こらないと思います。本当にそうは思いません。
人々を必要な場所に移動させ、再訓練できる限り、人類には無限の需要があります。だから私たちは完全に供給側に制約されています。この技術は人々を追い出すのではなく、彼らを強化し、より多くのことを行い、世界が望み必要としているものをより多く提供できるようにします。
だから私は未来に本当に期待していますが、ユートピアだとは思いません。より良い世界だと思いますが、ユートピアではありません。すべての資産を清算して永久に休暇に行くべきだというようなものではありません。単によりよい世界になるでしょう。
人々が話す短期および長期的なAIリスクについて、どの程度心配していますか?
心配しています。特に国家レベルでの悪意ある行為者がどのような能力にアクセスできるようになるかを心配しています。自由民主主義がそれを最初に手に入れ、優位性を確立することを確実にしたいと思います。
特定の仕事が影響を受ける場合、人々を新しいキャリアに移行させるためのインフラが整っているかどうかを心配しています。彼らを移動させ、再訓練し、より充実した仕事に就けるようにする能力があることを確実にしたいと思います。
しかし、「ターミネーターがボックスから抜け出してすべての核兵器を手に入れる」などの存在リスクや、「人々をネファリアスに操作して望むことをさせる」ということは恐れていません。この技術について心配すべきことはたくさんあり、終末論的なシナリオは今、公衆や政策立案者が焦点を当てるべき場所ではないと本当に思います。近い将来と中期的に正しく行う必要があることは十分すぎるほどあります。
非常に興味深い会話でした。まだ多くのスレッドを人々は引き出したいと思うでしょう。最後に、人々があなたやCoherでの興味深い仕事についてもっと知るための場所はどこですか?リスナーに残したいことはありますか?
私自身はそれほど面白くはありません。Coherが面白いものです。cohhere.comに行くか、Twitterで私をフォローすれば、AIに関するすべての最新情報が手に入ります。
素晴らしい。ありがとう、ジェイコブ。
みなさん、ジェイコブです。最後にもう一つだけ。この会話を楽しんでいただけたなら、ぜひ番組に5つ星の評価を残すことを検討してください。そうすることでポッドキャストがより多くのリスナーに届き、最高のゲストを招くことができます。
これはRedpoint VenturesによるAIポッドキャスト「Unsupervised Learning」のエピソードでした。AIにおける最も鋭い頭脳に、今日何が現実で、将来何が現実になるのか、そしてそれがビジネスと世界にとって何を意味するのかを探っています。急速に変化するAIのペースの中で、最も重要なブレークスルーを解明し、現実の明確な絵を理解するのを手助けすることを目指しています。
ご視聴ありがとうございました。次回のエピソードでお会いしましょう。

コメント

タイトルとURLをコピーしました