AI研究の最前線では、メモリ管理、世界モデル構築、推論の効率化という三つの重要課題が浮上している。CoherのチーフAIオフィサーであるJoelle Pineauは、現在のAIモデルが持つ能力と実際の活用との間に大きなギャップが存在すると指摘する。特にエンタープライズ領域では、プライバシーとセキュリティを重視したAIソリューションの需要が高まっており、単一の超知能エージェントよりも、特定タスクに特化した複数のエージェントが協調する未来が現実的である。技術の進化は続いているが、組織への実装や人材育成、そしてAI主権の確立といった課題が次なるフロンティアとなっている。

AIの研究最前線を探る
今日のAI研究の最先端はどこへ向かっているのでしょうか。そして、いくつかの企業はすでにそれをどのように実践に移しているのでしょうか。CoherのチーフAIオフィサーであるJoelle Pineauと、この話題について掘り下げていきます。
Big Technology Podcastへようこそ。このショーは、テック業界やその先にある話題について、冷静で繊細な会話を交わす場です。今日は、AI研究の現状、最先端がどこへ向かっているのか、現在の方法論に限界があるのかどうか、そしていくつかの企業がすでにこの技術を実践的な方法でどのように活用しているのかを深く見ていきます。
完璧なゲストをお迎えしています。Joelle Pineauさんです。彼女はCoherのチーフAIサイエンティストです。Joelle、ショーへようこそ。
ありがとうございます。お招きいただき嬉しいです。
Joelleのことを知らない方のために説明すると、彼女は長年この分野に携わってきた研究者です。私たちが初めて会ったのは、実はChatGPTがリリースされてから約1ヶ月後のことでした。当時、誰もがAIに意識があるのかどうかを議論していました。あなたはその時、MetaのファンダメンタルAI研究部門の責任者でした。またMcGill大学の教授でもあり、現在はCoherのチーフAIオフィサーを務めています。
Coherについては、創業者のAidan Gomezが以前このショーに出演しています。彼は2019年に同社を設立しました。また、基本的に生成AIの時代を切り開いた「Attention is All You Need」という論文の著者の一人でもあります。Coherは現在6、7年の歴史を持ち、子どもたちのために説明すると、16億ドルを調達し、企業価値は70億ドルで、エンタープライズ向けにAIを販売しています。これで舞台設定は完了です。
その通りです。
AI研究の方向性と課題
それでは、AI研究について少し話しましょう。AI研究が壁にぶつかるのではないかという議論がたくさんあります。強化学習を大規模言語モデルの上に重ねる、推論を通じて処理を行う、モデルに異なるツールの使い方を教えるといった新しい方法論について、多くの意見が飛び交っています。どこに焦点を当てるべきかについて、非常に多様な見解があるわけです。
あなたの意見では、AI研究の最先端とは何で、それはどこへ向かっていくと思いますか?
研究が壁にぶつかることについては、私は全く心配していません。今すぐに取り組むべき問題が山ほどあるからです。これを二つの興味深い角度から分けて考えたいと思います。一つは、今解決すべき正しい問題は何か、現在の世代のモデルができないことは何か、ということです。そしてもう一つは、どのようにそれに取り組むかという問題です。つまり、これらの問題を解決する手がかりを与えてくれる仮説は何か、ということです。
解決すべき問題という観点では、メモリについてどうするかが重要だと思います。機械は膨大な量の情報を記憶する能力を持っています。ただそこに蓄積しているだけです。難しいのは、予測を行ったり、情報を生成したり、推論したりするときに、どの情報をいつ引き出すべきかを知ることです。
これまでに見たすべての情報の中から、より選択的に情報を扱う能力を持つことが非常に重要です。すでにトランスフォーマーはその重要な要素でした。「Attention is All You Need」という論文がありましたが、実はそれだけでは十分ではないことがわかってきました。もう少し必要なのです。異なる時間スケールや異なる粒度で情報について推論する能力が必要です。ですから、この分野には確実に取り組むべき仕事があります。これは、アーキテクチャの選択、学習メカニズムの選択、データセットの種類、検討すべきユースケースの種類といった「どのように」に関わる話です。
もう一つの大きな研究テーマは、世界モデルの構築です。世界モデルについてはよく耳にしますが、これは本質的に、すべての情報を取り込んで行動の効果を予測する能力のことです。因果関係について話すとき、行動が世界をどのように変えるのか、これが世界モデルができるべきことです。
世界モデルは、エージェントを構築したいときに絶対に不可欠です。なぜなら、これらのエージェントは世界を変える行動を取るからです。その効果を予測できる必要があります。ロボットを構築する場合、物理的な世界モデルについて話しますが、ウェブ上に展開されるエージェントについては、デジタル世界モデルを構築する必要があります。そうすることで、これらのエージェントが金融上の決定を下したり、あなたに代わってコミュニケーションを取ったり、会議を組織したりするときに、自分たちの行動の結果を予測できるようになります。これは大きなテーマであり、これらの世界モデルを構築する方法については、さまざまな仮説があります。
そして、私が強調したい三つ目のテーマ、他にも多くありますが、上位三つを選ぶとすれば、どのように効率的に推論を組み込むかということです。現在、推論手法の多くは、前方探索手法と適切な報酬関数の学習に基づいており、まだかなり徹底的なものです。
しかし、推論や行動選択、異なる粒度レベルでの計画を可能にする、トランスフォーマーのような瞬間がまだ来ていないと思います。それを実現するにはまだ遠い道のりがあります。そして、それを組み込む方法はさまざまあります。LLMを審判として使うようなもの、つまりAIシステムが他のAIシステムにフィードバックを与えることでトレーニングを行うというようなことは、まだ非常に初期段階です。
メモリと継続学習の関係
なるほど。あなたが今言ったことの多くを掘り下げていきたいと思います。まず最初から始めましょう。メモリから始めます。メモリと継続学習は同じコインの裏表なのでしょうか?つまり、モデルがウェブを検索してセッション内で何かを見つけることができるが、そのセッションを閉じるとすぐに忘れてしまうという考え方があります。
私がそこに行く理由は、この両方を解決する方法として提案されているのが、コンテキストウィンドウを大規模にして、それをナビゲートする方法を効率化するというものだからです。その仮説についてどう思いますか?
その二つの概念は関連していますが、全く同じではありません。メモリは、解決しようとしているタスクのコンテキストで、どの情報を引き出すかをどう扱うかということです。継続学習は、コンテキストが変化し続けることを前提としています。したがって、学習したことも変化し続けます。非定常性という概念が継続学習の鍵となります。
正直に言うと、私は継続学習という概念に少し困難を感じています。なぜなら、コミュニティがこの問題をどう明確に表現するかについて、誰もが同意できる形で確立できていないと感じるからです。継続学習に取り組む人は皆、それぞれ異なる味付けをしています。これは、少なくとも私の目には、私はこの分野であまり多くの仕事をしてきたわけではありませんが、進歩しているかどうかを判断するのが少し難しくなっています。
メモリについては、もう少し標準化されています。緊張関係は効率性と関連性の問題です。それを測定する方法は少し標準化されており、すべてを記憶しているだけではいけません。タスクをどう明確に表現するかについては、少し標準化されています。
なるほど、それでは両方に触れて、それからリストを続けていきましょう。継続学習については、私はそこから遠く離れているので、あまり苦労していないのかもしれません。これが何かについて、私の原始人的な考えをお話しします。あなたがそれを少し分解するのを手伝ってください。
問題が明確に表現されているのは、モデルがこれらすべてを経験しても変化しないということです。GPTモデルが週に8億人、もしかしたらこれが公開される頃にはもっと多くの人と会話しているとしたら、それらの会話を内面化して学んでいけたらどれほど強力か、実は少し怖いかもしれませんが、考えてみてください。
あなたの言う通り、壁には達していないと思いますが、問題は、これらの機械をより賢くし続けるのに十分なデータがあるのかということです。そして、これらの会話を通じて、成長と学習を続ける能力が開かれます。しかし、人々と交わすこれらすべての会話にもかかわらず、モデルは静的なままです。それが問題ではないでしょうか?
誤解しないでください。これらのモデルが進化し続ける必要があることに対処すべきだと、私は絶対に信じています。それについては疑いの余地がありません。ただ、私が言いたいのは、今、継続学習に取り組んでいる研究コミュニティの進歩が、必ずしもモデルのスケーリングに関する取り組みとつながっていないということです。
リリースされているモデルは進化し続けています。今日の生成モデル、ChatGPTであれ、Geminiであれ、Coherチームが構築しているCommandモデルであれ、これらのモデルは改善し続けています。ただ、必ずしもオンラインで改善させるのではなく、特定の特性を持つモデルのリリースとして、決まった時期に出荷しています。
それを行う利点は、率直に言って、モデルを公開する前に本当にテストできることです。パフォーマンスの面でも、安全性の面でも、その能力を試すことができます。モデルを勝手に走らせ続けるのは少し躊躇します。なぜなら、学習は非常に速く進み、完全に合理的に見えるモードから非常に素早く抜け出すことができるからです。これは過去に何度か見てきたことです。
そうですね、私たちは同じ事例について考えているかもしれません。MicrosoftがTayというボットを持っていたときのことです。実は私、物語をお話しします。私はBuzzfeedにいたとき、Tayについての最初のニュース、Microsoftがこの素晴らしいボットを持っていることを報じました。人々と話をして、それについての最初の記事を書き、自分のTwitterプロフィールにピン留めしました。西海岸で寝て、朝起きたら、「あなたが書いた楽しいティーンチャットボットが、実はナチスのイデオロギーを支持しているようです。そのツイートのピンを外した方がいいかもしれません」というメッセージがたくさん来ていました。それは学習を続けていたからです。
つまり、継続学習は、ファインチューニングのようなもので行われなければならないかもしれません。その行動を確実にしたい、予防的なファインチューニングかもしれません。
継続的なテストを達成するまで、継続学習をリリースしないようにしましょう。
それは非常に合理的な計画のように聞こえます。
メモリの技術的課題
さて、メモリについてです。何がそれをそんなに難しくしているのでしょうか?一つの話をします。私の金曜日の共同司会者であるRanjan Royと私は、二人ともGoogleのGmailでGeminiに入り、「妻と最初に送ったメールを見つけてくれますか」と尋ねました。
できませんでした。
それは単に、そこにメールがたくさんあって、実際にAIを適用して、どのような会話が行われたかを把握しようとすることが難しいからでしょうか?それともGoogleの製品の問題なのでしょうか?メモリはなぜそんなに難しく、研究コミュニティはこれにどう取り組むつもりなのでしょうか?
あなたの説明だけから診断するのは少し難しいですね。まるで、電話で患者の症状の説明を聞いている外科医のようです。
あなたの症状について帽子に尋ねましたか?
ですから、あなたのケースについて正確な診断をするつもりはありません。しかし、それでも、それを理解するのはそれほど難しくないと思います。つまり、ボットがどの情報から引き出しているのかを知る必要があります。可視性とプライバシーの観点からです。その質問に答えるために必要なすべての情報へのアクセスを与えましたか?
それが最初の問題です。実際、Coherで構築しているものに話を戻すと、オンサイトでの多くの展開を行っています。時には、適切な情報へのアクセスを有効にしていなかっただけの問題です。ですから、適切な情報へのアクセスがあるかどうかを確認する必要があります。
常にすべての情報へのアクセスをボットに与えたくない理由はさまざまあります。それが一つの実際的な考慮事項です。もう一つは、適切な情報を取得することです。クエリは情報がエンコードされた方法と一致しましたか?これらのほとんどでは、情報を生のまま残したくないかもしれません。非常に高価になります。あなたは一人ですが、これらの企業が運営している規模では、圧縮する必要があり、私たちはそれを埋め込みと呼んでいます。
つまり、この表現の埋め込みを作成します。そして、情報を適切に埋め込んでいなかったかもしれません。そして、その情報を取得することです。10,000個の異なるアイテムを取得したかもしれませんが、これをトップ近くにランク付けしなかったため、正しい応答を生成しませんでした。しかし、それを知っている可能性があります。ただトップに表示されなかっただけです。
難しくしているいくつかの異なる理由があります。一つは、情報へのアクセスであり、その情報をエンコードするときです。そして、適切な瞬間に情報を取得することです。
しかし、これがうまく機能すると、かなり魔法のようです。実はClaudeを使っていて、Claudeのメモリ機能が本当に改善されていることに気づきました。私はインタビューのトランスクリプトをアップロードして、さまざまな指標で評価を得るのが好きです。ボットに決めてもらいます。
ボットが与える評価に同意しますか?
間違いなく。
なるほど。
通常は、まあ、あなたはそれをよくトレーニングしました。
そうしました。いくつかは良く、いくつかは悪いです。実際、Geminiにいくつかの評価をさせたところ、すべてのカテゴリーで5点満点中5点で、私は「それは間違っている」と思いました。そして、ChatGPTとClaudeに行ったら、実際にはるかに合理的でした。
しかし、Claudeが今週それを尋ねたとき、興味深いことの一つは、私が行った他のインタビューと比較し始めたことです。
なるほど。
そして、「実際にこの点ではより良いポイントに達しました。これがその理由です。この点は私の意見では共鳴しませんでした。視聴者のサンプルでベンチマークを取りましたか?」と言いました。
それが次のステップで、おそらく、ポッドキャストの分析からデータを取り出してこれらのボットに入れると、相互参照できるようになるでしょう。つまり、うまく機能すると魔法のようです。あなたがこれをAI研究が本当に集中する必要がある分野の一つとして特定し、これが最先端であることを認識しました。
これはどれくらい良くなる可能性があり、どう思いますか?本当の進歩の瞬間にあると思いますか、それとも私が話したことをClaudeができるようにするのは、ある種のパーティートリックなのでしょうか?
特に評価についての質問、情報を分析してフィードバックを抽出するという点については、特にメモリを呼び戻すことができるという事実についてです。
いえ、これについては良い進歩を遂げています。コンテキストの長さを延ばすことが最も簡単な方法ですが、これについてはかなりの進歩が見られます。
推論と階層的計画
推論について話しましょう。あなたは推論を最先端の瞬間として言及しました。問題は効率性です。それが本当の問題なのでしょうか?つまり、推論とは、モデルが基本的にステップバイステップで進むことです。答えようとし、答えをチェックし、別の答えを試し、最終的に「これがおそらく彼らが望んでいるものだ」と決定し、それを出力します。
そうです。
つまり、大体そのように起こります。本当の課題は、時間的な粒度の異なるレベルで計画できることだと思います。行動を実行する方法という観点から、例えば、旅行を計画しているとします。旅行に履いていく靴について考えることから始めるわけではありませんよね?大まかに何の季節か、世界のどの地域を訪れたいかを考えることから始めます。トップレベルから始めて、それから一段階下げます。
大まかな時期と場所を特定したら、時期と場所、そしておそらく活動や誰と行きたいかについて、より正確にしましょう。そして、さらに一段階下げます。そこで予約を始めます。しかし、時々、予約で障害に遭遇し、希望するフライトやホテルが取れないことがあります。すると、一段階戻って、「日付を変えるべきか?場所を変えるべきか?誰と行くかを変えるべきか?子どもたちを連れて行かなければ、もっと選択肢が増える」と考えます。つまり、解像度のレベルで戻ることができます。
これが推論モデルができない部分です。彼らは一つの粒度レベルで非常にうまく機能します。ロボットを持っていて、手のための動作、体の動作など、すべての動作を与えると、その粒度レベルでモーターを制御するための計画を立てることができます。
しかし、異なる行動の解像度レベル間を行き来することは、本当に難しいです。技術用語では、これを階層的計画と呼んでいます。その分解を行い、行き来する際に情報を関連性のあるものに保つことは、本当に難しいです。
それは単に大規模言語モデルの限界なのでしょうか?なぜなら、LLMがそもそもこれをできるという事実、つまり、それは次を予測することから始まったからです、単語レベルで。
単語レベルから、より高いレベルが得られます。それは本当に印象的です。おそらく多くの人を驚かせた部分だと思います。2023年頃に、トークンを生成するにつれて、大きなアイデアやより大きな計画を生成できるようになるとは期待していませんでした。
それでも、それができるのは非常に驚くべきことです。だからこそ、物事を進める方法についてさまざまな意見が出てくるのです。「すでに印象的だから、その方向で押し進めればこれを解除できる」と考える人もいれば、それを達成できることにはるかに懐疑的な人もいます。
もう少し説明してください。つまり、タイピングしているとき、Andrej Karpathyは基本的にトランスフォーマーはコンピューターであり、新しいトークンを生成するたびに、計算の一部を経ているということを説明しました。つまり、タイプすればするほど、使用するコンピューターは大きくなります。
そうです。つまり、より多くの情報が入り、表現が大きくなります。
なるほど。では、これが起こるにつれて、コンピューターは効果的にすでに先を考えているということですか?一つ例を挙げます。Claudeは、ちょうどAnthropicの研究に話を戻すと、彼らはClaudeに詩を書くように頼むこの素晴らしい研究を発表しました。
そうです。
そして、最初の行を書いているとき、すでにモデル内で、それと韻を踏むものについて考える機能を活性化しています。
そうです。
それは驚くべきことです。なぜなら、これは次の単語を予測する技術だからです。しかし、次のトークンを予測しているとき、すでに次の文を考えている、それは私にとってまったく驚異的です。
そうです。そして、ある程度、コードに重点を置くこと、コードの表現を構築してコードを生成する能力が非常に興味深い理由は、コードを見ると、以前にプログラミングをしたことがある人にとって、コードにはその構造、階層的構造があり、それはエンコードされているからです。
必ずしも理解している言語ではなくても、たくさんのコードを見る人は、関数、変数、ライブラリなどの概念を理解しています。プロジェクトのこれらの異なる粒度レベルは、そこにエンコードされています。
そして、十分にコードでトレーニングすることで、機械は本質的にこれらの種類の構造的手がかりを推論します。
魅力的です。つまり、あなたがこの技術について話したこと、そしてこれは私の頭を少し爆発させるようなものです。この技術が、アーキテクチャを考えるとするはずがないと思われることをできるという事実です。
ビデオモデルや画像モデルについて考えるのと同じで、ちなみにあなたの元同僚であるYann LeCunは常に、AIビデオを生成するためには、物理世界で何が起こるかを予測して計画できる必要があると話していました。
絶対に。
そして、主要な研究者でさえ完全には理解していないと思われる埋め込まれた知性があります。例えば、Yanのお気に入りの例を使ってモデルに鉛筆を落とすように頼むと、それがどこに行く可能性があるかには非常に多くの順列があります。そして今、モデルは物理学のレッスンなしで、それが落ちてテーブルに当たり、跳ねるかもしれないが、跳ね上がることを理解しています。
そうです、落とされたオブジェクトから十分なデータを見てきたからです。これらの種類の振る舞いがあります。
しかし、異なる惑星で落とされた類似のオブジェクトの振る舞いを予測しようとすると、おそらく予測は間違っています。なぜなら、すべてのデータは私たちの重力定数で取得されたからです。
そうです。つまり、これについて話しているとき、私はちょうどスタイロフォームカップから男性の指が出てきている生成されたビデオを見ました。
ですから、改善の余地はたくさんあります。
たくさんあります。
さて、Demis HassabisがGoogleのビデオモデルがある意味でこれらの世界モデル機能を持っているという話があります。彼らは物理学を理解しており、あなたは世界モデルを、この技術が本当に成長する可能性がある別の分野として取り上げました。
それは最先端です、まだある種未定義です。
そうです。正直に言って、ここでは原始人に戻りますが、例えば、あなたが以前挙げた例の一つで、モデルが外に出て金融取引を完了し、金融取引の影響を理解できるようにしたい場合、それは世界がどのように機能するかを知る必要があるという理由に少し混乱しています。
そうです。
しかし、それをテキストで教えることはできませんか?例えば、私のクレジットカードを使って何でもオンラインで買うと破産するということを、テキストや数字のロジックで教えることはできませんか。したがって、それをしないでください。なぜモデルが、世界が機能する方法の基本的なルールを学ぶために重力を理解する必要があるのでしょうか?
そして、これが私が以前、物理世界モデルとデジタル世界モデルを区別した理由です。重力の概念を理解しない本当に効果的なエージェント、ウェブベースのエージェントを実際に構築できる可能性があります。そして、銀行システムの機能を理解する必要のないロボット用の物理世界モデルを構築できる可能性があります。
つまり、世界という言葉を、含まれた環境として定義できます。しかし、その環境にエージェントを展開したい場合、その環境のルールを十分に理解する必要があります。課題は、すべての可能な未来、さまざまなイベント、さまざまなイベントが起こることに対して、十分なデータのカバレッジを得ることです。
エンタープライズAIの実践例
今日、それが実際に最も有益な多くのケースは、人間がテーブルに居場所がある場所です。例を挙げます。人々はカスタマーサービスにチャットボットを使うことについてよく話します。チャットボットをプラグインするだけで、すべての質問に答えます。24時間365日利用可能などです。
実際には、もちろんこれらの種類のケースに展開されるチャットボットはたくさんありますが、実際にうまく機能するのを見たユースケースの一つは、ボットに関連するすべての情報をまとめさせることです。スクリプトに従うだけのチャットボットではなく、カスタマーサービスを行うとき、多くの異なるソースからすべての関連情報をまとめます。
そのシステムに付随するドキュメント、クライアントのケース、持っている問題の説明、それらすべてをまとめます。そして、診断を提示し、いくつかの提案されたアクションを提示します。そして、計画を検証し、アクションを実行するために、人間をループに保ちます。
つまり、人間は、これらは携帯電話のプランのようなものよりも複雑なケースですが、それでも、これらのケースでは、すべての情報をまとめて人間のために蒸留するのに時間がかかっていたもの、おそらく30分くらいかかっていたものを、今では約20秒に短縮できます。情報を分析し、検証し、アクションを実行します。
ですから、人間とAIエージェントを組み合わせる能力があれば、実際にははるかに強力な結果が得られることがよくあります。世界モデルが完全でなくても、人間がループにいれば、欠けている部分を見つけ出します。その追加情報を与え、その情報をエージェントのトレーニングに戻します。
そうすれば、継続学習が得られます。
そうです。
そこに到達しています。到達しています。
AGIに到達するためにモデルが重力を理解する必要があると信じますか?つまり、基本的に、ビットや文字などでAGIをトレーニングできるというような考え方の学派がいくつかあります。画像もです。そして、ポーカーのルールだけでなく、人がポーカーテーブルに手を置いたときに何が起こるかをモデルが本当に理解する必要があると信じる人もいます。どう思いますか?
そうですね。私は実際、単一の超知能エージェントに到達するという事実ではなく、多くのことのために多くのエージェントが存在する未来に私たちが住む可能性がはるかに高いという事実に賭ける傾向があります。
ですから、いくつかのエージェントは絶対に重力を理解する必要があります。世界で動き回る物理的なロボット、オブジェクトに当たる、オブジェクトを拾い上げるなどをするロボットを持つつもりなら、彼らはそれを理解する必要があります。
例えば、私たちのデジタルライフを扱う他のエージェントは、それを理解する必要がないかもしれません。そして、これらのエージェントが互いに対話し、互いに話し合うためのプロトコルも必要です。
ですから、私は実際にそれがはるかに可能性の高いシナリオだと思います。すべてを理解し、完全にカプセル化された世界モデルを持つ必要がある超エージェントを持つのではなく。
最近、AIラボのリーダーたちが言っている人気のあることがあります。彼らは能力のオーバーハングについて話しています。AI技術は使用されているよりもはるかに多くのことができるということです。
それを信じますか?
絶対に。そうです。
それについてもっと話してください。できることで行われていないことは何だと思いますか?
毎日見ています。少し窓を開けます。Coherに参加することに非常に興奮した理由の一つは、研究をするチームがある数少ない場所の一つだからです。
ですから、研究で日々何が起こっているかを見ることができます。モデリングをするチームがあります。ですから、私たちが構築しているモデル、評価、評価の完全なスプレッドを見ることができます。そして、実際のクライアントに行く製品であるエージェントプラットフォームがあります。ですから、全体を見ることができます。私たちのモデルができることを見て、製品に組み込んだものを見ます。そして、多くの顧客が完全な機能を使用していないのを見ます。さまざまな理由で。
ですから、私たちが持っている能力と今展開されているものとの間には大きなギャップがあると思います。時には理由は能力の問題です。超知能、大きなモデルについてたくさん話しますが、実際には、支払っている顧客は、パフォーマンスと効率性の良いトレードオフを望んでいます。
ですから、より大きなモデルをトレーニングしますが、より小さなモデルを展開します。それがトレードオフを与えるからです。仕事を成し遂げるのに十分な知性です。そして、私は「もっとたくさん提供できますよ」と思います。彼らは「いや、十分です」と言います。ですから、それは彼らにとって完全に合理的な立場です。ですから、そのうちのいくつかは効率性の理由です。
そのギャップの一部は、システムとプロセスが整っている組織に入っているからでもあります。そして、時々、これらのプロセスが今日設定されているものと、AIエージェントにとってより歓迎的な環境であるものとの間に不一致があります。ですから、これらの種類のことがあります。
そして、もう一つは、多くの知性がエンコードされていないことが多いと思います。ですから、エージェントは行って、多くの内部システムにプラグインし、プライバシーとセキュリティの考慮事項を持つすべてのビジネスインテリジェンスを活用します。彼らはすべてのその情報を活用しますが、時々、今活用していない大きな情報のポケットがあります。そして、もしそれに接続したら、もっと多くのことができるでしょう。
ですから、組織や個人からAIへの情報共有におけるインピーダンスの不一致が、多くの機械知性をテーブルに残しているもう一つのケースです。
エンタープライズについてすぐに話しますが、これが消費者にどのように適用されるかについて一つ質問させてください。
明らかに、私たちは多くの技術について話しました。そして、ビジョンは大きなテクノロジー企業内にあります。Apple IntelligenceやAlexa Plusのような、ユニバーサルアシスタントのようなものを持つことです。どちらも独自の方法でロールアウトしましたが、両方とも、そして、Metaには独自の製品があり、Googleには独自の製品があります。これらのどれも世界を燃やしているわけではありません。
これは能力のオーバーハングのもう一つの例だと思いますか、それとも技術がまだそこにないだけなのでしょうか?
両方とも真実だと思います。
人々は超知能を期待していると思います。つまり、基本的に超知能を約束されています。ですから、彼らはこれらのAIシステムから魔法を期待しています。それは魔法ではありません。ですから、彼らが今日できることと期待との間には大きなギャップがあると言えます。
そして、人々が試みることと、これらのエージェントの強みであるかもしれないこととの間にも不一致があります。私は少し比較しました。チームで働いていて、新しいチームメイトが入ってくる、1日目。この人が何ができるか、できないかを正確に知らないかもしれません。一緒に働くのに時間がかかります。そして、時々、その人はもっと多くの情報を与えると、はるかに良くなります。時々、彼らが持っていなかった新しいスキルを発見します。しかし、結局のところ、多くの場合、その人はすべてをどこでも一度にできるわけではありません。
ですから、この両方が同時に真実だと思います。
そうですね。また、多くの企業政治もあります。私はこれを書いたばかりです。
もちろん。
私は最近Big Technologyでこの記事を書きました。基本的に二つの基本があり、実際にあなたはこれについて話すのに最適な立場にいます。または、ここで私たちに本当の話を教えてください。
私の有利な点から見ると、基本的に多くの企業が進んでいる二つの軌道があります。企業自体は、あなたの顧客について話しているわけではありませんが、全体的な企業について考えると、多くの企業がこの技術を導入するのに苦労しています。
しかし、個人は利益を見始めています。ですから、実際には、生産に入らないパイロットを持つこれらの企業があります。しかし、下の方で誰かがClaude Codeを使っていて、実際に仕事を成し遂げています。
それについてどう思いますか、そして、その乖離が続くのを見た場合、それは何を意味すると思いますか?
それは絶対に真実だと思います。
私たちは常にこれを見ています。私たち自身の会社内でさえ。人々が技術を活用する能力は大きく異なります。つまり、現実は、その技術がますます増えていく世界に向かっているということです。ですから、技術を理解して活用する能力を持つ人々は優位性を持つことになります。
なるほど、同意します。休憩を取る前の最後の質問です。それから、より実践的な応用、よりCoherentなものに移ります。
AIラボが生産する技術の点で非常に接近しているという事実に、私はまだ頭を悩ませることができません。一つが革新を構築すると、次は革新を持っています。
一つが前進しているように見え、次が前進しているように見えます。
ラボの一つが何かにヒットして、実際に他のラボに対してリードを開くことができるシナリオを想像できますか、それとも永遠に首の皮一枚で続くのでしょうか?
アイデアを箱に入れておくことは本当に難しいと思います。特に、多くの点でこれらのアイデアは人々の頭の中に存在し、私と同じくらい、これらの会社間の人々の動きを見てきたからです。彼らは常にピンポンのように行き来し、アイデアを持ち運びます。コードが片側に残っていても、一度洞察を見たら、それを見なかったことにはできません。
そうです。
ですから、彼らは再実装する必要があるかもしれません。異なる方法で表現する必要があるかもしれません。異なる名前を付けるかもしれません。しかし、アイデアはただ循環します。
アイデアを箱に入れておくことはできません。そして、それが正直、何年もの間、私がオープンサイエンスの大きな支持者であった理由です。人々を箱に入れておく意志がない限り、これらのアイデアを箱に入れておくことができるとは信じていません。そして、私たちはそれをするつもりはありません。
ですから、アイデアを閉じる方法があるとは思いません。アイデアが循環するときに、すべての人がより速く進歩するという事実を受け入れるべきです。
そして、これらすべてのラボが超知能に到達したとしましょう。それを囲い込むことはできないので、それを開発することに経済的価値はどこにあるのかと尋ねられてきました。
私たちはまだ技術の非常に初期段階にあり、支配的な経済モデルが何になるか、AI時代の正しいビジネス戦略が何になるかという点では、さらに初期段階にあります。実験する時間を自分たちに与える必要があると思います。今、インターネットとその経済的影響について30年ほどの視点があります。それを理解するには何年もかかるでしょう。
しかし、多くの場合、技術を開発する人々は、技術をスケールする人々、実際に商業化する人々、実際にそれを制御して規制する人々と必ずしも同じではありません。
ですから、そのすべてから生じる非常に複雑なエコシステムがあります。
なるほど。この休憩の反対側で、この技術のすでにある実際の経済的影響について話します。Coherが取り組んでいることについて少し話します。
それから、もっと多くをカバーします。すぐ後で戻ってきます。
エンタープライズAIのユースケース
そして、Big Technology PodcastでJoelle PineauとCoherのチーフAIオフィサーと戻ってきました。もちろん、これはダボスのQualcomm Houseでホストしているダボスシリーズの一部であり、その後の数週間にわたって実行されます。
Joelle、あなたをお迎えできて素晴らしいです。ビジネスにおけるAIのユースケースとして私が集めたものをお伝えします。何か欠けているかどうか教えてください。それから、最も価値があると思うものを教えてください。
4つ書き留めました。一つは外部チャットボット、Sierraでブレット・テイラーが話していたような顧客エンゲージメントタイプのチャットボットです。
もう一つは内部知識です。例えば、企業が社内に知識を持っていて、それがすべて断片化されていて、内部知識を照会できるボットがあるかもしれません。
三つ目は、機能しないシステムに紙を貼ることです。これ以上の説明は必要ないと思います。
懐疑的ですが、まだ。
そして四つ目は自動化です。
そうです。
ビジネスにおけるAIとして大きなカテゴリーを欠いていますか、そして、実際の価値や現在最大のカテゴリーはどこにあると思いますか?
それを切り分ける異なる方法があると思います。それは完全に合理的な切り分け方だと思います。私が見た別の切り分け方は、予測AI、生成AI対エージェントAIのようなものです。これは全く別のレベルの機会です。
そして、もう一つの切り分け方は、アプリケーションドメインごとです。AIが医療で何をするか、科学的発見のために何をするか、銀行で何をするか、例えば公共部門で何をするかなどです。これが人々が異なる機会のクラスを見てきたもう一つの方法です。
では、最大のものは何だと思いますか?
非常に多くの可能性があります。一つを選ぶのをためらいます。正直に言うと、Coherがチップを置いた場所、そしてコア仮説は、本当に高いプライバシーとセキュリティの保証を必要とするエンタープライズAIのケースです。
なるほど。
私が概説した二番目のカテゴリーに少し当てはまる大きなアプリケーションのクラスがあると思います。多くの内部ビジネスインテリジェンス情報を持っていて、おそらく断片化されています。その情報をすべて活用して従業員に力を与えたいです。
そして、その場合、特にその情報がAPI経由でウェブに表示されたくないものである場合、ローカルデータで機能し、従業員に情報を提供し、本質的に従業員の親密なパートナーである社内のAIシステムを構築する機会があります。
ユースケースやケーススタディのようなものを教えていただけますか?
例えば、金融サービスで多くの仕事をしています。想像できると思いますが、そのデータの多くは情報の点で非常に機密性が高いです。私たちが見ている非常に具体的なユースケースは、金融分析のためのものです。
ですから、さまざまなクライアントにアドバイスすることが仕事の人々がいます。彼らは多様なデータセットを引き出す必要があります。この特定の顧客に関連する情報は何か、現在の状況、可能性などに関連する情報は何かなど、すべてのその情報を引き出して、クライアントのための個人的な計画、金融計画のようなものを作ります。
これは、この技術がはるかに簡単にできるアプリケーションの種類です。そして、計画を照会し、十分な情報があるかどうかを決定し、より多くの情報源を収集する必要があるかどうかを決定できます。そして、内部情報と外部情報を組み合わせることができますが、その出力はプライベートのままです。安全なままです。その情報を見る必要がある人々の手の中にとどまります。
最近、金融サービス業界の誰かから聞かれたことに感謝します。エントリーレベルの従業員はどうなるのか、多くのその照合と外部情報の引き出しを行っていた人々です。
私は素晴らしい答えを持っていませんでした。なぜなら、エントリーレベルの従業員には標準的な従業員よりも少ない給与を支払い、職場でのいくつかの学習と生産的なことがあることを予想するからです。そして今、私がそれを彼らのためにできるなら、これらの人々は何をするつもりなのかという質問です。
エントリーレベルの従業員がAIを適切に使用できる場合、彼らは完全に機能するアナリストになるレベルに飛び級します。そして、彼らは本質的にツールを使って10倍の仕事ができます。ですから、雇用主に価値を提供する能力の点での彼らの成長は、AIツールを与えることによってちょうど拡大されました。
それでは、脅威は実際には中間にある人々、キャリアの中盤にいる人々にあるのでしょうか?ソーシャルメディアのインターンが入ってきて、突然会社のPRやマーケティングを管理するようになるという古い話のようなものです。プロンプトの仕方を知っていて、Coherを使用できるZ世代の子どもで、突然15年間特定の方法で物事を行ってきた人が肩越しに見なければならないのでしょうか?
完全に破壊的な技術を導入するときはいつでも、それが多くの場合見られることだと思います。その技術がネイティブで非常に直感的で、非常に迅速に使い方を学ぶ若い世代を見ます。そして、それは彼らをはるかに効果的で生産的にします。技術と素早く関わることができない人々は、不利な立場にあることに気づきます。
キャリアの初期に、そしておそらくこれが私が会社で長く続かず、自分で始めなければならなかった理由ですが、何かをしたいというエネルギーと欲求を持っていたことを覚えています。プロトタイプを構築できるものがあって、それを会議に持っていって見せることができたとしたら、このサイドプロジェクトに取り組むために開発者の数時間を持てますか、と言う代わりに、それは物事を変えるでしょう。
絶対に。そして、正直に言うと、その能力は会社の誰にでも提供されます。それにアクセスできるのは、より若いスタッフだけではありません。リーダーシップの立場にある人々もそうです。メモを書く代わりに、突然、完全に成熟したプロトタイプを作成できます。
プロトタイプを作成するのに10人、10人のスタッフが必要ありません。アイデアがあれば、迅速にプロトタイプを作成でき、それをチームに送ってプロジェクトを始めることができます。ですから、その種の能力は、組織全体でプロジェクトを設定する新しい方法を開くことになると思います。
AIコーディングエージェントの現実
このClaude Codeというものは、見ていて興味深いものでした。
そうです。
一夜にして、開発者のコードを自動補完するものから、出て行ってインターネット上で物事を行い、特定のタスクを達成するために物事を構築するようなものに変わりました。
ですから、一方で、AIシステムが出て行って物事を行うというこのアイデアは、私はこのショーで何度か言いましたが、Amazonの元ワールドワイドコンシューマーCEOが週末にCRMをバイブコーディングするという話を見ます。
それはクールですが、私はただ、どれくらい現実的なのかと思います。ですから、興味があります。なるほど。あなたは私に「はい、それは現実です」というような表情をしています。
それは私のアイデアに戻ると思います。そのように週末にバイブコーディングできる人々は、それが突然1億ドルのビジネスに変わるという意味ではありませんよね?しかし、それはチームと意図を伝える方法です。
ですから、良いアイデアを持っている限り、これらのアイデアをはるかに現実的な方法で共有し、はるかに速くプロトタイプを始めることができます。
アイデアを伝える他の方法があります。チームを指示する他の方法がありますが、それが突然はるかに多くを開きます。AIが多くのものであることは興味深いですが、それはコミュニケーション技術です。
それがそうなりつつあります。そして、これが新しいコーディングエージェントが開いている種類のことです。
Coherには、取り組んでいるこのようなバージョンがありますか?
同じ種類の能力に取り組んでいると言えます。コアジェネリックモデルを構築しています。今提供している体験とは少し異なると言えます。North Platformの観点からです。しかし、その種の協力作業がたくさんあります。外に出て本質的にエージェントを展開し、外部情報を活用するというようなことがたくさんあります。ですから、似ている要素がいくつかありますが、今のところ特にコーディングのユースケースにはあまり焦点を当てていません。
Coherは明らかに多くのお金を調達しました。10億ドル以上です。しかし、これは引き延ばしません。OpenAIは週末にそれをくしゃみします。
今、AIが少数の非常に大きな企業によって開発されている世界があります。
あなたの元雇用主であるMetaは大きなプレーヤーです。Amazon、もちろんGoogle、Microsoftです。そして、OpenAIとAnthropicは、今やラウンドでVC資金の1年分全体を調達します。
これほど少数の手に集中しているという事実のリスクについてどう思いますか?
正直に言うと、モデルを開発して展開できる複数のグループがエコシステムにとって有益だと思います。具体的な例を挙げると、Coherは多言語モデルに非常に早くから取り組んでいました。
ですから、複数の言語、20、30以上の言語にわたって情報を理解し、消化する能力です。私たちは、本当に尊敬され、オープンソース化されたモデルのラインを持っていました。これらの企業のいくつかのレーダーには全く入っていません。英語中心の情報に非常に焦点を当てています。完全に問題ありません。異なる会社のための異なるスペースです。
アジアの市場、ヨーロッパの市場に入ると、突然、実際に複数の言語またはローカル言語にわたって最先端であるモデルを持つことが重要になります。そして、それは全く新しい市場を開きます。
今、機会は非常に広いので、実際には、新興のプレーヤーが本当に成長し続け、非常に健全な収益を上げ、才能を引き入れ、実際にこれらの他の企業が構築しているものとは異なる新しいものを構築するためのスペースがあります。
ですから、私は、AIを構築している企業が多い方がはるかに健全だと考える傾向があります。そして、多くの異なることをする多くの異なるAIについての私のアイデアに戻ると、企業レベルでさえ、これが起こっていることです。異なるものを構築し、互いに学び合う多くのプレーヤーがいます。
しかし、ビッグテックがそれほど多くを持っているという事実は、心配ではありませんか?
私を心配させません。
なるほど。
つまり、それについてはるかに長い議論ができます。しかし、それは心配させませんし、Coherで構築しているものが素晴らしい成功への道を持っているという事実に対して、私が睡眠を失うことはありません。
なるほど。ちなみに、MicrosoftとAmazonとGoogleが大きな株式を持っているAnthropicとOpenAIについて言及しました。
そして、もっと多くあります。
そうです。Warioを行う人、AnthropicのDario Amodeiは、GoogleとAmazonからすべてのその数十億を得たという事実ではないかもしれません。しかし、彼はビッグテック企業について言うべきことがいくつかあります。
彼が最近言ったことはここにあります。これらの企業のいくつかは、本質的に科学的背景を持つ人々によって率いられています。それが私のバックグラウンドです。Google DeepMindのDemisのバックグラウンドです。
それらのいくつかは、ソーシャルメディアを行った起業家の世代によって率いられています。科学者が構築した技術の効果について考え、責任を回避しないという長い伝統があります。
起業家、特にソーシャルメディア起業家の世代の動機は非常に異なると思います。彼らが対話した方法、消費者を操作したと言えるかもしれない方法は非常に異なります。
ですから、基本的に、彼は彼らに実行してもらいたくないと思います。
Darioからの強い意見ですが、これはDarioにとって特徴から外れたものではないと思います。
それは正当な懸念だと思いますか?
あなたは研究科学者でもあり、ソーシャルメディア企業でも働いていたので、非常に興味深いです。ですから、誰かがこれの答えを知っているなら、それはあなたです。
本当に重要なことは、誰もすべてにおいて優れているわけではないということです。
問題は、何か素晴らしいものを構築する方法についてアドバイスをするために、他の人を部屋に入れる方法です。Metaで過ごした時間があります。研究者からリーダーシップチームへの非常に強いチャネルがあったと言えます。意見は部屋に持ち込まれました。
Coherで確かに見てきたと思います。研究チーム、モデリングチーム、製品チーム、これらすべての視点が一緒になる部屋があります。この考えに戻ります。一人がすべてのその情報をすべて持つことを期待することはできません。そして、彼らが多様なチームを構築している限り、これらの多様な声に耳を傾けている限り、彼らは結局より良い製品を構築するでしょう。
なるほど。そのノートで、広告が生成AIの画像に入り始めたので、外部の人々、私のような人々の間で、これらの企業がエンゲージメント最大化のようなことを行い、時間を最適化しようとするのだろうかという疑問があります。そうすれば、その数字を上げることができます。
それが起こると思うかどうかを尋ねたくはありませんが、研究者として、それが経済的に実行可能かどうかを尋ねたいです。
モデルは今、十分に効率的ですか?例えば、広告を表示するとして、LLMでその訪問を提供するために訪問するとして、それは利益が出る可能性があります。それとも、これらのユースケースを提供するのはまだ非常に高価で、エンゲージメント最大化のこの概念さえも意味をなさないのでしょうか?経済的に有効ではないからです。
一般的に、試行錯誤を通じて、実行可能な経済モデルを見つけます。ですから、それは価格モデルなどに大きく依存します。
購入するのが高価な広告です。
しかし、モデルがどのように設定されているかによります。私は、これが最初にロールアウトされる方法だとは知りません。それがどのように進展するかを見なければなりません。
持っている情報に基づいてコンテンツを調整する能力があると思います。それはそこにあります。それは経済的な観点から引き続き使用されるレバーです。
AI主権という新しい概念
AI主権。終わる前に、国々や銀行のような機関が、独自のモデルを構築し始めています。または、既製のものに頼っていません。
ですから、Coherが取り組んでいることですので、少し話してください。私が知らないことです。この推進があるという事実、または少なくともそれが議論されていることです。
ですから、AI主権とは何で、それはどのように展開していますか?
そうですね、主権はいくつかの異なる方法で使用されてきました。場合によっては、独自のモデルを持つ能力を意味します。
ですから、金融サービスと銀行の場合、それは確かに彼らが投資し、考え、解決策を探すことに多くの時間を費やすものです。彼らは機会を見ています。彼らは初期採用者だったと思います。以前の世代のAI技術、例えば予測モデル、統計モデルなどでさえもです。ですから、彼らはこれを自然な進化と見ています。
ですから、彼らはAIに対する洗練度と準備の点でかなり進んでいます。そして、多くの場合、彼らはそれに投資する手段を持っています。ですから、私たちは確かにそこで多くの関心を見ています。
しかし、多くの場合、才能のギャップがそれを少し難しくしていると思います。ですから、時々、彼らは独自のモデルを構築しようとしたりなどしました。それから彼らは私たちのところに来て、もう少し箱から出してすぐに成熟した解決策を探しています。
ですから、私たちはそこで本当に堅固なパートナーシップを持っています。主権について考えるもう一つの方法は、企業がAIのための堅牢な計画を望んでいるということです。
ですから、彼らはオプションを望んでいます。一つのモデルを使用しているかもしれませんが、実際にベンチマークを比較するために別のモデルを持ちたいです。一つのモデルアクセスが遮断されたり、高すぎたりした場合、別のモデルがあります。
ですから、主権の側面があり、それは本当に堅牢な戦略を構築することです。それは単に自分のものを使うか、一つのものを使うということではなく、技術へのアクセスを制御することです。
そうですね。あなたがそれについて話すと、私にとっては、これがどれだけ速く動いたかがただ驚くべきことです。
そして、2022年の私たちの最初の会議に戻ると、2026年なので、3年以上経っています。
しかし、それは年々、世界が全く異なります。
そうです。
ですから、あなたへの最後の質問です。そのペースを維持できますか?
多くの面で非常に速く動いています。投資の規模だけでも。
採用については、私たちは曲線の非常に初期段階にいると思います。ですから、それが次の課題になります。この技術を社会を通じて、ビジネス世界を通じて、人々の生活の中で、どのように拡散させるかです。そして、それをどのように成功裏に行うかです。
しかし、そうです、特に商業化と採用に関しては、ペースは本当に非常に非常に初期段階だと思います。ですから、まだ長い道のりがあります。
本当に。さて、Joelle、私たちは何度か話してきました。多くの私たちが疑問に思っている大きなことを取り上げて、それを研究と実践的な側面に根付かせることができる方法をいつも感謝しています。
ですから、あなたはいつでもショーに歓迎されます。来てくれてありがとうございます。
ありがとうございます。いつも楽しいです。
さて、皆さん。見てくれて聞いてくれてありがとうございます。そして、ダボスのスペースで私たちを迎えてくれたQualcommに感謝します。Big Technology Podcastで次回お会いしましょう。
さて、ありがとうございます。
素晴らしかったです。本当にありがとうございました。
ありがとうございます。
皆さん、ありがとうございました。


コメント