IBMによるGranite 4.1およびシステムレベルのAI開発パートナーであるIBM Bobのリリース、Google DeepMindによる分散学習プロトコルDeLoCoの論文、さらにDeepSeek-V4の登場について解説する。また、量子コンピューティングの進展とエコシステム構築に向けた産学連携の重要性についても議論を展開する。

IBM Granite 4.1とIBM Bobのローンチ
企業が気にするのは、表を理解できるかどうかですよね。SFのような最高にかっこいい画像を作れるかどうかではありません。表を理解できるかどうかが重要なのです。本日のMixture of Expertsでは、そういった話題をたっぷりとお届けします。私はティム・ファンです。Mixture of Expertsへようこそ。毎週、人工知能の最前線で活躍する、最も聡明で思慮深い専門家の皆さんにお集まりいただき、今週のニュースを掘り下げていきます。今週のエピソードでは、シニアリサーチサイエンティストのマリーナ・ダニレフスキー、AIオープンイノベーション担当チーフアーキテクトのゲイブ・グッドハート、そしてプリンシパルリサーチサイエンティストのコウタロウ・マグロウをお迎えしています。皆さん、ようこそ。マリーナ、お久しぶりですね。本日は3つの大きなニュースをご用意しています。さらに、戦略的成長・量子パートナーシップ担当ディレクターのジェイミー・ガルシアを迎えた、量子に関するボーナスセグメントもお届けします。まずは分散学習プロトコルであるDeepMindのDeLoCoについて、それからDeepSeek V4についても少しお話しします。ですが、まずはもちろん、IBMのニュースから始めましょう。
今週は2つの大きな発表がありました。1つは、システムレベルのAI開発パートナー、つまり基本的には汎用コーディングパートナーであるIBM Bobです。そしてもう1つが、新世代モデルであるGranite 4.1です。まずはGraniteについてお聞きしましょうか。ここでは何に注目すべきでしょうか。前の世代と何か違う点はありますか。
ええ、こちらではとてもエキサイティングな朝を迎えています。収録時点のわずか1時間9分前に、Granite 4.1がリリースされたばかりですからね。Slackの通知をスヌーズにしなければならないほどでした。本当にワクワクするローンチです。現在のほとんどのモデルが汎用的なユースケースをターゲットにしている中で、市場からすると少し奇妙に映るかもしれません。今回のリリースでは、Graniteチームは特定のタスクに特化し、汎用エージェントフレームワークをうまく補完するモデルを提供することに重点を置きました。今回のローンチには、LLMのテキストモデルだけでなく、視覚や音声のマルチモーダルモデルも含まれています。さらに、次世代の埋め込みモデルも含まれており、これらをすべて組み合わせることで、汎用的な推論エージェントモデルから得られるものを拡張し、特定のタスクに対してクラス最高のサポートを提供することを目指しています。最新のビジョンモデルは、一般的な視覚機能を提供するだけでなく、表やグラフの理解に特化しています。特定のタスクにおいてトップクラスの品質を提供できるわけです。同様に、音声モデルも文字起こしと翻訳を主なタスクとしながら、可能な限りサイズを小さくすることを目指しています。最高の品質ベンチマークを維持しながら、できる限り多くのデバイスに搭載できるよう極限まで小型化しています。言語モデルは30億から300億パラメータまでの3つのサイズがあり、比較的小さなパッケージに多くのインテリジェンスを詰め込んでいます。主に指示の実行とツール呼び出しに焦点を当てていますね。これらは、RAGパイプラインを構築し、エージェントエコシステムにおけるバックグラウンド調査や、より大規模なエージェントワークフローをサポートするための特定のツール呼び出しワークフローとしてオフロードできるようなものです。
このポジショニングは非常に興味深いと思います。このローンチの一つの見方として、あらゆる分野でコストが爆発的に増加しているという事実があります。無尽蔵の資金を持たない多くの企業がこれを導入する際、コストは非常に現実的な懸念事項になります。そこで、この点についてどうお考えかお聞きしたいのですが。もちろんエージェントへの大きな期待はありますし、ここ2年ほどずっとエージェントについて話し続けてきました。しかし今回のポジショニングは、エージェントの世界に生きているかどうかに関わらず、はるかに特化したモデルにタスクをオフロードする必要性が依然として多く存在するということを示しているように感じます。このエコシステムは今後どのように進化していくと見ていますか。エージェントそのものに焦点を当てるだけでなく、エージェントを取り巻くインフラを構築する必要があるように感じます。
全く同感です。エージェント技術は、誰もが注目している非常に重要な新たなワークロードだと思います。しかし、ワークロードの一部として無視できない他の多くの要素も存在します。エンタープライズAIを見てみると、それは単一的なものではなく、多元的なものです。例えばBobの例を見ると、各タスクを適切なモーダルクラウドにルーティングするマルチモーダルオーケストレーションが行われています。複雑な推論にはMistralやGranite、安価な補完やセキュリティレビューなどの特化タスクには微調整された専門モデルを使用します。Graniteでさえ、ファミリーとして出荷されていますよね。言語、視覚、音声、埋め込みがあります。ここでのアイデアは、これらをどのように組み合わせて設計するかということです。最先端の研究所が単一の巨大なインテリジェンスを販売しているのに対し、IBMは構成可能なシステムアーキテクチャを販売していると言えるでしょう。80年代のOSベンダーの成熟への移行に似ているかもしれません。巨大なプログラムから構成可能なサービスへの移行です。1つの巨大なモデルがすべてをこなすという時代は、企業においては持続可能ではありません。コストが大きなウェイトを占めるからです。特定のタスクには最先端モデルを使う余裕があるかもしれませんが、現場には他にも対処すべきことが山ほどあり、費用対効果が高く持続可能な方法で行う必要があります。それが最終的に本業に利益をもたらすのです。ですから、特化型モデルは非常に重要であり、Graniteファミリーが焦点を当てているマルチモダリティといった機能は、企業にとって極めて重要な機能です。
私がここで感じているのは、補完性という物語です。注目すべきは、エージェントベースのプロジェクトであるIBM Bobもリリースされており、これら2つの要素を組み合わせて、かつ構成可能で交換可能にしようという取り組みがあるように感じます。IBM Bobのローンチをそのように捉えていますか。
そうですね。これは、大規模モデルがいかにコモディティ化していくかという、私たちが長年予見してきた流れに沿うものだと思います。競争しようと思えばできますが、全く同じ大規模モデルが5つも6つも必要でしょうか。そんなことはありません。特に企業においてはほとんどの場合そうでしょう。コストは本当に重要です。そして、特定のタスクでどれだけ優れたパフォーマンスを発揮するかが重要なのです。ビジョンモデルに関しても、企業が重視するのは表を理解できるかどうかです。SFのようなかっこいい画像が作れるかはどうでもよくて、表を理解できるかどうかが求められているモデルなのです。
仕事として終わらせる必要がありますからね。
ええ、それに表を理解しようとする時に、あまりお金をかけたくないはずです。ですから、これらを独立した機能として扱い、これが私の仕事ならあなたがやりなさい、これが私の仕事ならあなたがやりなさい、と組み合わせていくモジュール性が求められます。それこそがBobの役割であり、素晴らしいファミリーリリースを通じて私たちが達成しようとしていることです。
先ほどのコモディティ化に関する指摘は非常に重要だと思います。他のコモディティについて考えてみてください。機能が一般的になれば、あとはサプライチェーンの最適化や、どの方向に計算するにしても分母を減らすこと、つまり使ったお金から最大限の価値を引き出すことが重要になります。BobとGraniteファミリーは、この異なる側面に焦点を当てています。Graniteは、エージェントのコンテキスト全体にノイズを入れたくない特定のタスクをどう処理し、結果だけを得るかに焦点を当てています。その結果をエージェントのコンテキストに戻すわけです。まさにそのために設計されたのがGraniteモデルです。一方でBobは、コストを削減するためにいつ、どのようにそれらのサイドタスクを呼び出し、高価なモデルに主要なロジックを保持するかを最も知的に判断する方法を追求しています。したがって、Bobの目標は必ずしも個別の最適化ではありません。多くのシステムは消費者向けに始まりました。そこでは基本的にサブスクリプション料金を支払い、それが月々の予算に組み込まれるため、誰もそれ以上気にしません。消費者モデルとしては受け入れやすい方法です。しかし、第1四半期のうちに企業予算のトークンを使い果たしてしまったというような話が、すでにネット上に溢れています。企業レベルで考えると、些細なタスクに高価なトークンを浪費しているという現実的な持続可能性の問題があることに気づき始めます。最近よく言われるのが、トークンマキシング、という言葉ですね。社内で最もAIに精通していることを証明するために、使えるトークンを限界まで使い切ろうとする考え方です。これでは会社の予算を圧迫するだけです。ですから、トークンを絞るにせよ、適切なサイズにするにせよ、効果的かつ適切なトークン単価で使用できることこそが、企業がこれを大規模に運用するためのスイートスポットになります。今回の2つのローンチは両方ともそこをターゲットにしています。
モダナイゼーションに関しても興味深い側面があります。これはBobとGraniteで他社が真似できない強みだと思います。例えばCOBOL、IBMのメインフレーム、Zシリーズなどを見てください。本番環境には、ほとんどのコーディングエージェントが認識すらできない言語で書かれた何兆行ものコードが存在します。Bobはこれらを第一級の対象として扱います。これは単なる機能ではなく、私たちが持つ深い堀です。極めて重要なレガシーコードに大きく依存している銀行や金融業界などの企業にとって、これは非常に重要であり、ここでのモダナイゼーションは本当に鍵となります。
このセグメントの最後にお聞きしたいのですが、皆さんは、エージェントの時代は実は過ぎ去ろうとしているのではないかと考えていますか。先ほどのコメントを踏まえて少し言い換えると、私たちが本当に問うているのは、ある企業において日々こなさなければならないタスクは何か、ということだと思います。そしてそのタスクの大部分はかなりルーチン化されています。つまり、非常に再現性の高いものが多いのです。そのため、汎用的で本格的な振る舞いを持つ必要性は、多くの企業が実際に必要としているものとは逆行しているとも言えます。ある意味で、エージェントはビジネスにとって予測不可能なコスト要因になってしまっています。ですから、今はエージェントに興奮しているかもしれませんが、結局のところビジネスで起こることの90%はルーチンワークであり、エージェントが提供する汎用性は究極的には必要ないのではないかと考えています。私は少し悲観的すぎますでしょうか。
少し悲観的すぎると思いますが、私たちがこれから目にするのは、エージェントが提供するユーザー体験が明らかに通用する領域と、エージェントが達成するタスクが反復可能になり、一般的なエージェントロジックから抽出されてはるかに決定論的なものになる領域との振り分けだと思います。現在は、すべてが手書きのコードやユーザー自身による手作業から、汎用システムに導入してシステムに任せられる、という振り子の揺れの中にいます。そして、コスト最適化を図ろうとする中で見えてくるのは、ユーザーが汎用システムで経験するパターンがいくつかの共通パターンに収束し始めるということです。その後、それらを抽出してツール化し、より小さなモデルとツールセットで実行されるサブエージェントを作ることができるようになります。これにより、コストと品質の両方をコントロールできるようになります。これらの機能をより緊密なワークフローに組み込めば、問題が発生するリスクを大幅に減らすことができます。同時に、トップレベルのエージェントを入り口とし、個人やチーム、企業のために仕事を処理してくれるという、非常に有益なユーザー体験は維持されます。そして、特定のルーチンタスクについては、こうした適切にパッケージ化された費用対効果の高いソリューションに委譲されるようになるでしょう。
この蒸留というコメントにぜひ賛同したいです。私も完全に同意します。ジェネラリストに関してはあなたが正しいと思いますが、現実は再び専門性とタスク特化型へと向かっていくでしょう。先ほど言ったように、最初はジェネラリストが必要です。何が機能し、何が機能しないのかが完全に分かっているわけではないからです。私たちは皆、汎用モデルができることと失敗することの意外性に驚かされてきました。それは面白いことですが、こうした経験を積む必要があります。どうやって、その、学習データを取得してどのようなメリットがあるべきかを判断すればいいのでしょうか。汎用モデルとやり取りする人々が様々な方法で成功したり失敗したりする膨大な情報が必要です。そこからようやく、何が機能して何が機能しないかを理解した、という地点に到達できるのです。これは一部の人がアプリオリに考えたことではなく、データに基づいています。私たちは皆、部分的に正しく、部分的に間違っているでしょう。ですから、さまざまな程度の苦痛を伴いながらも、このサイクルを通過するのは正しい道筋なのです。私たちは今、そのサイクルの中にいるに過ぎません。
付け加えさせていただくと、エージェントのデモの時代は終わった、とは言えないと思います。インフラとしてのエージェントの時代がまさにここから始まろうとしているのです。そして、エージェントを扱うこのハイブリッドな世界を持つことが重要になります。ジェネラリストがいて、スペシャリストがいて、これらすべてが連携する階層化されたオーケストレーションでなければなりません。コストを削減し生産性を高めるためには、適切なオーケストレーションが本当に鍵となります。ですから、今リリースされているのは開発者を置き換えるものではありません。それは、ガバナンスの効いたマルチモーダルエージェントが、人間が判断を下す間に作業の30%を静かにこなすというようなものです。アピールする話としては小さいかもしれませんが、実際に獲得できる市場ははるかに大きいはずです。
分散学習プロトコルDeLoCoとデータセンターの未来
インフラオタクとして、私はこのニュースにとても興味を持ちました。DeepMindが発表した、彼らがDeLoCoと呼んでいる手法に関する論文です。DeLoCoはDistributed Low Communicationの略で、複数のデータセンター間で大規模モデルの学習を分散して実行できるかどうかに関する継続的な研究を前進させる内容です。彼らはこの手法が非常にうまく機能し、最先端技術を一歩進めるものだと述べています。これを見ると私は本当に興奮します。様々な場所にデータセンターを建設できるようになる。学習を巨大な施設に集中させる必要がなくなるんだ、と思えるからです。そこでハードウェア面に精通しているあなたにお聞きしたいのですが、この種の論文や研究は、ある意味で少し遅きに失しているのではないかという疑問があります。私たちは今、一箇所で学習を実行することを前提とした巨大なデータセンターを建設しており、それを動かすのは非常に困難です。現実的な目的としては、今後も超大型データセンターで学習を実行していくことになるのでしょうか。それとも、長期的に見てこうした手法が学習作業のアーキテクチャを変えていくと思いますか。
それは非常に興味深い質問です。私もこの論文を読んで、2023年から2025年までのほぼすべての最先端モデルの学習計画を牽引してきた、ギガワット規模の単一サイトクラスター、という前提について深く考えさせられました。現在、その前提が最大のパフォーマーであるGoogle DeepMind自身によってこの論文で覆されようとしています。これは単にコストの問題ではありません。電力の問題でもあります。ギガワット規模のサイトには専用の変電所が必要です。例えば北バージニアの送電網はすでに限界に達しています。ですから、DeLoCoは単なるアルゴリズムではなく、電力網の許可やサプライチェーンのボトルネックに対するヘッジなのだと思います。ここで対称性が見られます。学習に関してはフェデレーションが進む一方で、推論は集中化を続けるように思えます。推論にはKVキャッシュのコロケーションが必要であり、低レイテンシや緊密な同期などが極めて重要だからです。そのため、データセンターがなくなるわけではなく、二極化していくのだと感じています。より分散化された学習と、一箇所に集中した推論という2つのパターン、異なるトポロジー、異なるハードウェア最適化が見られるようになるでしょう。それが、ギガワット規模の単一サイトクラスターの再考を促すことになります。
この論文でもう一つ興味深かったのはグッドプットという指標です。この分野もようやく成熟してきたと感じさせる指標です。正しい方向へ導き、良い仕事をもたらすために本当に重要なスループットや指標は何かということです。長年、ベンチマークにおいてはピーク時のFLOPSやハードウェアの稼働率が重視されてきましたが、グッドプットと現実的な障害への対応が重要になります。論文では、従来のデータセンターの27%に対し、88%という数値が示されています。これが示しているのは、本番環境での学習コストを本当に決定づけているのは、障害の多さによって生じている膨大な無駄だということです。同時にこれは、分散システムが20年前に経験した、アイドル時のスループットから、障害発生時のテールレイテンシへの移行と同じパラダイムシフトを起こしています。ですから、FSDPや、最先端モデルの拡張に使われているテンソル並列などの4D並列の次の章に入ったように感じます。今日の分散学習の現状に挑戦する、本当に興味深い方向性です。
その通りですね。では、その点についてマリーナにも聞いてみましょう。超大型データセンターのエネルギー問題について触れられていましたが、そのエネルギー消費量が論争の的になっていると言うのは異論のないところだと思います。ですから、テクノロジーの進歩そのものだけでなく、世論や政策の観点からも、電力網が追いつかない現状においてはデータ消費量の少ないデータセンターを建設する必要性に迫られ、こうした技術がより実現味を帯びてくるのではないかと考えています。電力網が追いつかなければ、その電力を必要とする他のすべての人々に大きな影響を与えますからね。ここでの科学技術とAIを取り巻く政治や政策の議論との接点について、どうお考えでしょうか。
素晴らしい視点だと思います。他の電力網の状況に応じて、学習量を調整できるデータセンターを考えることができるからです。もし電力網全体が大きな負荷にさらされている場合、例えばカリフォルニアが非常に暑くてエアコンがフル稼働しているような時は、ある場所で実行している学習の一部を他の場所に移すことができるかもしれません。また論文で言及されていたもう一つの興味深い点は、場所によって異なる速度や異なるハードウェアで学習を行っても、全体として機能させられる可能性があるということです。つまり、望む結果を得るためにすべてを一度にアップグレードしたり、すべてを一度に買い替えたりする必要がないことを意味します。この柔軟性は非常に魅力的です。例えば、学習できる時間帯、学習量、引き出せるリソースに一定の制限を設ける、といった政策を実際に導入する余地を与え、結果的に誰もが完璧とは言わずとも十分に満足できる状況を生み出せるからです。企業側は、電力網の状況に応じて分散させることでやりくりできる、と言え、一般市民は自分たちに何らかのコントロール権があると感じることができます。データセンターのやりたいようにさせるか、さもなければ出ていくか、というゼロサムゲームではなくなるのです。それは素晴らしいことだと思います。ただ、こうした論文の技術的な内容と、なぜそれが重要なのかを一般の人々に説明するのは決して簡単ではありません。彼は見事に説明してくれましたけどね。ここは彼の専門分野ですから。ですから、こうした非常に技術的な側面が、実際に政策などにどのような影響を与えるのかを翻訳して伝えることの重要性を、あなたは突いていると思います。そういったコミュニケーションがもっとあれば素晴らしいですね。科学コミュニケーションは難しいものですが、人々にとって非常に価値のあるものになり得ます。このトピックについてもっと多くの記事が書かれることを期待しています。コウタロウが書いてくれるかもしれません。
ええ、もっとカルテック風にね。間違いなく。それを説明するのは良いアイデアです。私からも一つ付け加えさせてください。マリーナが言ったことに続くのですが、経済性の問題です。現在、分散学習を行うには、GPUとクラスターが緊密に結合されたデータセンターに大きく依存しています。しかし今回の手法はゲームのルールを変えます。同じバージョンのGPUを揃える必要がなくなり、古いGPUと新しいGPUを混在させることができるのです。実際、この論文では2世代前の古いTPUを使用した例が示されていました。これは非常に興味深いことです。なぜなら、世界中のどこにでもある計算能力の容量を活用できるようになるからです。ピーク時以外の部分的なクラスター、地理的に孤立した施設、誰も最先端の学習に割り当てたがらない古い世代のアクセラレータなど、現在世界には標準的な計算リソースが大量に存在しています。DeLoCoはそれらを有用な容量に変えるのです。電力の制約と相まって、最先端モデルの学習は、単一のサイトを90日間貸し切るというよりも、世界規模で分散されたフェデレーテッド・バッチジョブを実行するような未来を示唆しています。これは学習の経済性を根本的に変え、より持続可能な方法で分散学習を行う新たな道を多くの人に開くものです。企業にとっても、設備投資が常に最新最高のGPUやアクセラレータの調達に結びつく必要はなくなり、古い世代を再利用し、混在させながらでも良好な学習を実行できるようになります。
素晴らしいですね。ゲイブ、オープンな視点からの影響について少し話してもらえませんか。私の年齢がバレてしまいますが、昔SETI@homeというのがありましたよね。
まさにその例えを出そうとしていましたよ。SETI@homeの説明はお任せしますが、これを突き詰めていくとどこまで到達するのか、非常に興味深いと思います。
その発想に行き着いたのは面白いですね。私が十分に幼かった頃は、裏で何が起きているのか全く理解していませんでした。公共図書館のパソコンのスクリーンセーバーとして表示されていて、自分のパソコンにもインストールでき、もしかしたら学校のパソコンにもインストールされていたかもしれません。パソコンがアイドル状態の時にバックグラウンドタスクとして動き、地球外生命体を大規模に分散して探索するというものでした。私の頭にも真っ先にそれが浮かびました。私は学習の専門家ではないので、この論文の技術的な実装については私の理解を完全に超えていると認めておきます。ただ、私なりに解釈できた範囲では、実際の計算を分散させる際の様々な重要なポイントにおいて、彼らは許容ウィンドウを導入しているということです。その許容ウィンドウの限界がどこまで広がるのかを把握するには、私よりもずっと深く数学を理解する必要があります。現時点での私の推測では、私たちが夜パソコンを使っていない間にノートPCで計算のほんの一部を実行するといったレベルにまで広げることはできないと思います。もっとも、今はエージェントが夜間にコードを書いてくれているので、パソコンが空いているという前提自体がないかもしれませんが。しかし、障害、レイテンシ、あるいはエコシステムに参加する個々のメンバーが出力できる計算速度に対する耐障害性の概念がどこまで通用するのかを見るのは非常に興味深いです。これによって、参加者全員がローカルの計算能力を少しずつ提供するような、真の意味でパブリックなオープンソースの共有モデル、つまりコミュニティ所有のモデルが誕生するかもしれません。ただし繰り返しになりますが、この論文で提案されているアルゴリズムが、そこまでの分散化とシャーディングをサポートできるかどうかは分かりません。
一方で、これが最先端モデルの規模をもう一桁押し上げる要因になる可能性もあると考えています。最先端モデルの学習を1つのデータセンターに収める必要がなくなり、10個のデータセンターに分散できるようになったとします。そうすれば、すでにアクセス可能な規模、あるいはレンタル可能な規模で、10倍大きなモデルを効果的に学習させることができるようになります。それがモデルの推論サイズにどのような影響を与えるのか、非常に興味があります。繰り返しますが私は学習の専門家ではありません。しかし、これが決して公開されることのない特大のベースモデルを生み出し、それがその後、より多くのインテリジェンスをコード化した実際に使える推論モデルへと蒸留されていくという未来を想像できます。いずれ分かるでしょう。これがGoogleから出てきた理由についての私のもう一つの見方は、最先端を走ろうとしている組織として、機能の飛躍的な向上を可能にする技術を探しているのだろうということです。それがインテリジェンスの桁違いの向上であれ、サイズの向上であれ、データの向上であれ、とにかく電力やデータセンターの物理的スペース、最新GPUの可用性といった根本的な限界を突破して、さらに大規模で分散可能なものを求めているのだと思います。今日まで最先端モデルを学習させるために揃える必要があったこれらの制約を打破し、フェデレーテッドな方法で構築できるようになれば、理論上の限界のいくつかは消滅し、より優れたモデルに向けて実際に前進できるようになります。
DeepSeek-V4とオープンモデルの巨大化
オープンモデルの世界では、DeepSeek V4が登場しました。これは、オープンモデルがどこまで到達できるかの境界を押し広げ続けてきたDeepSeekグループの最新モデルです。ゲイブ、まずはあなたからお聞きします。リリース資料に目を通して最初に思ったのは、オープンモデルが本当に、本当に巨大になっているということです。プロモデルで言えば、ええと、数字を出しますね。490億のアクティブパラメータを持つ、1.6兆パラメータのモデルです。これは狂気じみていて、適切なインフラを持つ個人の実行能力を明らかに超えています。そこでお聞きしたいのですが、この巨大なオープンモデルを一体誰が使っているのでしょうか。そして、どのような用途があるとお考えですか。
今回のリリース全体に対する私の最も重要な見解は、DeepSeekの復活という話題はさておき、これもまたコストが重要であるという強い指標だということです。先ほどのGraniteとBobのセグメントで、簡単なタスクを小規模モデルにオフロードするという話をしましたよね。同様に、エージェントタスクのロジックを管理するトップラインのエージェントモデルのコストも下げたいはずです。彼らの圧縮されたスパースアテンションを用いたアテンション実装や、最新、最高のチップ以外でも実行できるであろう能力により、このインテリジェンスを自社で利用したい組織は、最先端のプロバイダーから購入するよりもはるかに安価に実行できるようになるでしょう。これは改めて、インテリジェンスのレベルは上がり続けており、それは重要だが、個人のサブスクリプション規模ではなく企業全体でコストを管理する必要がある大企業にとっては、コストを低く抑える必要があるということを示しています。これがこのモデルの主なストーリーだと思います。
もう一つ非常に興味深く、こうしたDeepSeekのリリースでいつも感心するのは、この研究所が本当にクールなアイデアを次々と生み出している点です。特にこうした超大規模モデルの学習領域では、実験を実行するだけでも莫大なコストがかかります。新しいアテンションの仕組みを考案することは、それが実際に機能するかどうかを確認しなければならないため、決して安上がりではありません。小さなバージョンで学習させて機能するかを確認するヒューリスティックな手法は色々とありますが、スケールアップするのか、彼らが目指している100万コンテキスト長にわたって実際に維持できるのか、といった検証が必要です。それを見るのは本当に素晴らしいですし、同じ仕組みが今後、より小さなオープンウェイトモデルにも波及していくと期待しています。
しかしサイズの質問に戻ると、明らかにこれは、最先端の機能を低コストで求めている組織をターゲットにしています。ただ、FlashとかNanoというラベルのついたものが、私の128GBの環境に収まるサイズだったらどんなに良かったかと思わずにはいられません。言葉の意味がなくなっているように感じますよ。幸運にも近々2つ目のGB10を受け取れるかもしれなくて、この2つのクラスターに何を収められるか考え始めているところです。自分のローカルAIのワークホースにこのインテリジェンスを取り込みたいと本当に思っているんです。しかし、ローカルのハードウェアに収まるような妥当なサイズにまで下がってこない限り、これらのモデルの配置場所は依然としてデータセンターやどこかのクラウドに集中し続けるでしょう。オンプレミスのクラウドであれ、AI専用のクラウドであれ、一般的なクラウドプロバイダーであれ、容易にはコモディティ化できないネットワーキングとハードウェアが必要になります。ですから、これらをもう一段階下のサイズに押し下げ、汎用ハードウェアに収まるようになり、誰もがローカルで実行できるようになる次のバージョンを本当に楽しみにしています。
マリーナ、研究者としてお聞きします。ゲイブは、単にサイズが大きいだけでなく、DeepSeekが実験している非常に興味深いアイデアがたくさんある、と話していました。今回のローンチで何か注目した点はありますか。
いくつかあります。1つは、ゲイブも言及したアテンションの仕組みです。モデルに何に注目させるかを決定する方法ですね。情報を圧縮し、特定の情報に焦点を当てるというこのアイデアは、私にはすぐに、ああ、彼らはコーディングエージェントやエンタープライズアシスタントを作ろうとしているんだな、と感じられました。なぜなら、私たちがコーディングエージェントをどう使っているかを考えれば分かります。リポジトリ全体を指し示して、これを読んで、何かして、と指示しますよね。それは膨大なコンテキストです。私たちはもう本について話しているわけではありません。大量のコンテキストを読み込ませるべき本当の理由について話しているのです。そして、その大部分は重要ではないから、何が重要かをあなたが自分で見つけ出しなさい。私はもうそれを自分の問題にしたくないから教えませんよ、と言っているわけです。ですから、彼らのやっていることは非常に興味深いアプローチに思えました。
彼らがメモリに関する研究を行っていることも知っています。もちろん多くの人がメモリの研究に取り組んでいますが、率直に言って、私たちがコンテキストをどう表現するかは、私たちが適切に対処すべき次の真のフロンティアの1つだと思います。モデルを何度も何度も繰り返し学習させることはできますが、コンテキストをどのように与え、それを使って何をさせるかが依然として非常に重要なのです。これまで人間がコンテキストを作成してきた方法は、この種の用途には最適化されていませんでした。そのため、あらゆる種類の様々なトリックが次々と考案されています。これは現在進行中の研究の中でも、より興味深い分野の1つだと思います。メモリ管理という用語で呼ばれることもありますが、様々な概念として捉えることができます。私にとって興味深いのは、ユーザーに負担をかけずにモデルにコンテキストを提示し、特に時間が経っても情報を忘れることなく機能させるにはどうすればよいかということです。長時間のセッションを実行していると、モデルが情報を忘れたり、書き換えたり、自己矛盾するような形で情報を統合してしまったりする問題が依然として見られます。ですから、その方向へのいかなる進展も非常に興味深いと思います。
また、エージェントフレームワークでの使用に最適化しようとしていたとも聞いています。繰り返しになりますが、彼らがどこに向かっているのか、何を目指しているのかは非常に明確です。ええ、彼らの向かう先はとてもはっきりしています。それは全く問題ありません。ただ、彼らが何に焦点を当てているのかという点が興味深いと思いました。DeepSeekの時も、オーマイガー、DeepSeekがすべてを席巻している、という瞬間がありましたが、他の多くの研究所もかなり早く追いつきました。今回のリリースも興味深く、価値のあるものです。株式市場を暴落させるほどではないかもしれませんが、それは他の経済的な安定にとっては良いことかもしれません。彼らが常に、どうやってコストを下げるか、どうやってコストを下げるか、を最優先に考えながら新しいものを生み出しているのは本当に興味深いです。注目に値する研究所です。
では最後にコウタロウ、DeepSeekについての締めくくりのコメントをお願いできますか。彼らは完全復活したと言えるでしょうか。
ええ、彼らは戻ってきたと思います。そして強力に戻ってきました。特にハードウェアとソフトウェアの協調設計のストーリーと、彼らがテーブルにもたらした様々なトリックが光っています。彼らは非常に興味深く革新的なアルゴリズムのアプローチを持ち込んでいます。スパースアテンションやLightning Attention、それにカスタムCUDAカーネルに少数の関連トークンだけを選ばせる手法などです。MoEも今やパラメータを安価にするためのデフォルトになりつつあります。
しかしもう一つ興味深いのは、現在の推論スタックが再考を迫られているということです。DeepSeekがもたらしたこれらの変化、とりわけ3%のアクティベーションは、クローズドな研究所には簡単には真似できない差別化のポイントです。1.6兆パラメータのうち490億パラメータだけをアクティブにするというのは、巨大な数字ですが割合にすればわずか3%です。クローズドな研究所は、同等のスパース性に合わせるようにサービングインフラを再構築しない限り、この推論の経済性に太刀打ちできません。構造的に見ても、これがDeepSeekのAPI価格が下がり続けている理由であり、クローズドな研究所が利益率に大きなダメージを与えずに追随できない理由だと思います。これは推論の経済性という観点から、非常に興味深い角度ですね。彼らが持ち込んだこれらすべてのハードウェア・ソフトウェア協調設計のトリックを考慮するとそうです。
さらに、マリーナが言及した100万コンテキストについても同じことが言えます。RAGの計算式やパイプラインは、そもそも大きなコンテキストにはアクセスできないという制限を前提に構築されました。だからこそ、チャンク化を行い、検索というプロセスが必要だったのです。しかし、デフォルトの層で100万コンテキストが自由に使えるようになれば、過去2年間にRAGパイプラインを構築したすべての企業は再考を迫られます。検索を続けるべきか、それともドキュメントセット全体をそのままコンテキストに突っ込むべきか、と。コンテキストが高価だった時代にはその選択は決まっていましたが、今それが再び問われているのです。アクセラレータ・ハードウェア上でエンタープライズシステムを構築している私たちにとって、これは推論スタックで何を最適化すべきかという前提を変えるものです。AIエンタープライズスタックのために私たちが設定していた多くの前提を、一から考え直さなければなりません。
量子エコシステムの構築と今後の展望
締めくくりにふさわしい素晴らしい指摘ですね。それではジェイミーのセグメントに移りましょう。このパネルディスカッション、最高でした。マリーナ、コウタロウ、ゲイブ、本日はご参加いただきありがとうございました。またすぐ番組にお呼びしたいと思います。
ジェイミー、ご参加いただきありがとうございます。今チューニングを合わせたリスナーの皆さんのために改めて紹介しますと、戦略的成長および量子パートナーシップ担当ディレクターのジェイミー・ガルシアをお迎えしています。ジェイミー、Mixture of Expertsへようこそ。
お招きいただきありがとうございます。
今、数ヶ月ごと、あるいは数週間ごとに量子コンピューティングの大きな発表があるような時代を生きています。最新の技術的ブレークスルーや最新の科学的疑問に目を奪われがちですよね。今日お聞きしたいのは、まさに量子問題に取り組むあなたの立場から見て、そうしたすべての発見を実現するために舞台裏で何が起きているのかということです。最近この分野にいる友人と話したのですが、彼は、多くの活動が起きていて多くの企業が参入しているにもかかわらず、量子は依然としてチームの努力によって成り立っているように感じる、と言っていました。リスナーの皆さんにその感覚と、IBMがそれをどう捉えているかをお伝えしたいのです。
ええ、量子コンピューティングにおいて何らかの進歩を遂げるには、常にチームの努力が必要です。なぜなら、量子コンピューティングは現在進化・発展の途上にあり、ハードウェアが信じられないほどのスピードで進歩していると同時に、ソフトウェアの開発も行われているからです。アルゴリズムやアプリケーションの開発も並行して進んでいます。これらすべてに、異なるスキルセットが必要なのです。ですから、様々なバックグラウンドを持つ人々が集まります。ハードウェア側の革新を牽引する量子エンジニアや物理学者がいれば、ソフトウェア側のツールを作成しなければならないソフトウェア開発者もいます。そして彼らは、化学や生物学といった全く異なる分野の主題専門家と協力して取り組みます。だからこそ、まさに村全体が必要なのです。
私たちの組織自体が、異なるスキルセットを持つ人々が集まる多様性の縮図のようなものです。例えば私自身は化学のバックグラウンドを持っており、10年以上前に量子チームと一緒に働き始めました。それは数ある例の1つに過ぎませんが、舞台裏でイノベーションを起こすためには、そうやって人々が集結しなければならないのです。
最近のニュース記事を読んでいると、IBMは大学とのパートナーシップを次々と結び、こうしたネットワークの構築に努めているように見えます。UIUCやMITとのパートナーシップがあり、他にもたくさんあると聞いています。最近あちこちで活発に動かれていますね。
ええ、パートナーシップは極めて重要です。IBMの社内にもプログラムはありますが、物事を実現するためにはIBM外部の人々と協力しなければなりません。そこには他の企業も含まれますし、もちろん大学も含まれます。おっしゃった大学とのパートナーシップですね。UIUC、ジョージア工科大学、そしてMITです。量子に関する共同作業ができることは非常にエキサイティングです。それぞれが独自の分野に注目しています。付け加えておくと、これらのパートナーシップは数十年かけて確立されてきたものもあります。ですから、IBMとこれらの大学とのパートナーシップ自体が目新しいわけではありません。しかし、量子への関心が非常に高まっているため、既存のパートナーシップの枠組みの中で量子分野が大きくクローズアップされているのです。例えばMITとの取り組みは非常にエキサイティングで、量子空間におけるアルゴリズムとアプリケーション、そしてそれらのアプリケーションを開発するための基礎となる数学について共同で研究していく予定です。これは本当に重要なことだと思います。大学のパートナーが持つ深い専門知識を活用し、双方の知見を持ち寄って互いに学び合うことで、科学を前進させ、有意義でインパクトのある共同作業へと繋げることができるのです。
そのネットワークは次にどこへ向かうのでしょうか。現在、どのようなパートナーを探しているのですか。焦点はどこにあり、IBMが構築しているネットワークにまだ欠けているものは何だとお考えですか。
そうですね、例えばUIUCは、私たちが量子中心のスーパーコンピューティングと呼んでいるものに焦点を当てていく予定です。それから、メビウスの輪の半分のような分子を実際に作り出すことに成功したという発表をつい最近見たかもしれません。あれは量子分野の研究者たちとの共同作業によるものでした。このようにすべてが組み合わさることで、私たちが抱えるより大きな課題に取り組み始めているのです。多くの意味において、一人ですべてを行うことは不可能です。これらの課題に取り組むためには、分野全体を活性化させる必要があります。次なる大きな、影響力のある量子アルゴリズムを発見することは、世界で最も簡単なことではありません。ですから、これはこの分野やパートナーたちに向けた、一緒に取り組み始めましょうという呼びかけなのです。そして、量子の優位性に向けて実際にこれらの問題に対処できるよう、量子コンピューティングをHPCやAIとどのように統合できるかを考え始めるためのものです。私たちは、今年それが実現し、その事例を目にし始めると予測しています。ですから、もはやIBM一社の問題ではなく、私たち全員の問題なのです。エコシステムを活性化させ、これほどの注目を要する非常に大きな課題に向けて協力し合うことが重要です。
少し先の話を見据えてお聞きします。先ほど話した友人は、量子はすぐに暗号を解読して、すべてを変えてしまうだろう、と言っていました。今後12ヶ月から24ヶ月の間に迎える次のマイルストーンは何でしょうか。次に来る大きなブレークスルーは何だと思いますか。量子優位性について触れられましたが、それが何でなぜ重要なのかについてもお話しいただければと思います。量子について常に考えているわけではないリスナーに向けて、次に期待すべき大きなニュースは何でしょうか。
はい。私たちが定義する量子優位性とは、量子コンポーネントを含むワークフローが、古典コンピューティング単独よりも安く、正確に、あるいは速く問題の解を出力できる状態を指します。分野や業界によって、それが意味するものは異なります。しかし、例えば大規模な生体分子を、最先端の古典コンピューターよりも高い精度でシミュレーションできるようになることを想像してみてください。これは非常にエキサイティングなことです。量子コンピューターは万能ではありません。ビッグデータを処理するマシンでもありません。量子コンピューターが最も得意とする特定のタスクがあるのです。ですから、CPU、量子プロセッシングユニット、そしてGPUをすべて結合させ、これらのワークフローをオーケストレーションし、異種計算プラットフォームの各部分から最大限の能力を引き出す必要があります。それが私たちの目指しているところです。
そして、意義のある問題を特定することについては、本当にパートナーの皆様に期待しています。なぜなら、それこそが彼らの専門分野だからです。特定の業界から来ている人、あるいは化学の世界的権威であれば、どこにボトルネックがあるのかを知っています。本当に意義があり、分野を前進させるような問題がどこにあるのかを知っているのは彼らなのです。ですから今後12〜24ヶ月の間には、ハミルトニアン・シミュレーション、最適化、機械学習、偏微分方程式といった様々な領域から、量子優位性の実例がさらに多く出てくると予想しています。これらは、計算の一部を量子コンピューターで処理するワークフローを使用することで優位性が得られ、量子が本当に役割を果たせる分野だと考えています。
バックグラウンドが化学だとおっしゃっていましたが、ある意味で化学の熱烈な支持者のような感じですか?私のバックグラウンドは主にAIですが、長い間、AIには何もできないと言われていました。しかしチャットが登場した時に、なるほど、これで本当に分かった、となりました。量子に関しても同じような感覚を覚えます。会話をしていると常に、あらゆるものに応用できて、とてつもなく大きなことになる、と言われますが、これこそがすべてを変える、と皆が納得するような1つのキラーアプリケーションをまだ待っている状態ですよね。化学出身のあなたとしては、最初は化学の分野でそれが起きる、と考えていらっしゃいますか。
そうですね。量子コンピューターは量子力学の言語で動作します。そして量子力学的なシステムというのは、私たちが思い浮かべる自然界のシステムそのものであることが多いのです。ですから、量子に最も適していると考えられる問題には、化学、材料科学、物理学などが含まれます。自然界を記述するということは、量子コンピューターにとって完璧にフィットするのです。化学をバックグラウンドに持ち、計算化学者との働き方を知っていて、それが研究所での発見をどう加速させ、実験室での作業をどう補完できるかを知っている私にとって、量子がもたらす約束を知ることは個人的に非常にエキサイティングなことです。これは完全に状況を覆すことができる、と思えるからです。実験室で実験をしてから後でモデリングするのではなく、事前にモデリングして実験室での時間とコストを大幅に節約し、シミュレーションの出力結果を持ってそのまま実験室に向かうことができるようになるかもしれません。
ですから、量子は間違いなく化学に向いています。しかし、先ほど挙げた他の分野も非常に興味深いと思います。金融、最適化、ヘルスケア、ライフサイエンス、生物学などです。動的なシステムであれば何であれ、量子にとっては興味深い対象です。ですから、まだどこか一つに賭けることはしません。先ほど言ったように、この分野全体が活性化されているからです。例えばGitHubの私たちのQuantum Advantage trackerを見れば、異なる分野にまたがる事例が見られます。それ自体が本当にエキサイティングなことです。
ええ、本当にワクワクする話に同意します。今年、量子優位性に到達した暁には、ぜひまた番組にお越しいただきたいと思います。ジェイミー、現在の状況についてお話しいただき、お時間を割いてくださりありがとうございました。
こちらこそ、お招きいただきありがとうございました。
本日はお時間となりました。リスナーの皆さんもご参加ありがとうございました。お楽しみいただけた方は、Apple Podcasts、Spotify、その他すべてのポッドキャストプラットフォームでご視聴いただけます。それでは、来週のMixture of Expertsでまたお会いしましょう。


コメント