Claude Mythos、Project Glasswing、そしてAIのサイバーセキュリティリスク

セキュリティ
この記事は約32分で読めます。

本動画は、Anthropic社が開発した強力なAIモデル「Mythos」と、そのサイバーセキュリティにおける脅威に対処するための「Project Glasswing」について考察する解説番組である。あわせて、OpenAIとAnthropicの財務状況から見るエンタープライズ向けAIとコンシューマー向けAIの戦略の違いや、AIによる科学的発見の可能性を探る「GPT-1900」の実験、さらにはマスターズ・トーナメントの膨大な過去映像から特定のショットを自然言語で瞬時に検索できるAIシステム「Masters Vault」のデモンストレーションなど、AI業界の最新動向と実践的なユースケースを幅広く紹介している。

Claude Mythos, Project Glasswing and AI cybersecurity risks
Visit Mixture of Experts podcast page to get more AI content → your infrastructure safe from the next generation of AI? ...

オープンなセキュリティ研究とAIの進化

セキュリティ研究をよりオープンにするメリットについて考えると、歴史的に見てもその恩恵は計り知れないものがあります。暗号学の分野全体を見渡してみると、攻撃手法が公に発表されることでより強固な設計が求められ、結果的に技術が強化されてきたという背景があります。本日のMixture of Expertsでは、そういった話題も含めて盛りだくさんでお届けします。

私はティム・ホンです。Mixture of Expertsへようこそ。毎週、人工知能の最前線で活躍する最も賢明で明晰な専門家たちを集め、今週のテクノロジーニュースについて議論し、ナビゲートしていく番組です。今週は、マスター・インベンターのマーティン・キーン、プリンシパル・リサーチ・サイエンティストのカウタル・エル・マグラウイ、そして後半の特別コーナーには、IBMフェローでありマスター・インベンターのアーロン・ボーマンを迎えてお送りします。皆さん、ようこそ。

番組へのお帰りなさい。いつも言っていますが、今回も本当に盛りだくさんの内容です。今日は非常に大きなニュースがいくつかあります。ウォール・ストリート・ジャーナルがOpenAIとAnthropicの財務データを報じた件や、科学の分野でAIを使った非常に興味深い実験の話題、そして先ほど言ったようにアーロンが登場してマスターズでのプロジェクトについて話してくれます。

Anthropicの強力なAIモデル「Mythos」と異例のリリース見送り

まずは今週最大のニュースと言える、AnthropicのProject Glasswingについて話しましょう。Anthropicの次なる偉大なモデルが登場するという噂は以前から飛び交っていましたが、その名前はMythosになると言われていました。

そして今週初め、Anthropicは実際にMythosが最新のモデルであることを発表し、認めました。SWE-benchのタスクにおけるこのモデルの驚異的なパフォーマンス指標が報告されましたが、最も興味深かったのは、このモデルが持つサイバーセキュリティの脆弱性を特定する能力について警鐘を鳴らしたことです。

非常に奇妙な結果となったのは、AnthropicがMythosをそのままリリースするのではなく、「私たちはMythosをリリースしません。提携パートナーとの連合を通じて、このモデルを世に出す前に世界を安全なものにしようとしています」と発表したことです。

マーティン、まずはあなたに聞いてみましょう。これは少し異例ですよね。研究所が何かをリリースしないと決定したことがこれほど大きなニュースになることは滅多にありませんが、どうやら私たちは今、そういう世界にいるようです。

そうですね、これは他の主要なモデルのリリースとは全く異なります。通常であれば、研究所は新しいモデルを開発すると、できるだけ多くの人に使ってもらい、話題を盛り上げようとします。

Twitterのインフルエンサーに数週間早くアクセス権を与えたり、ベンチマークを実行させたり、モデルの出力結果や視覚的に印象的な生成物を見せたりします。しかし、今回は全く違うアプローチです。さらに異例なのは、コーディングや制作能力がどれだけ向上したかという従来のことよりも、サイバーセキュリティとその能力に焦点を当てている点です。

基本的に彼らが言っているのは、このモデルはあまりにも強力で、既存のあらゆるソフトウェアをハッキングできてしまうということです。あらゆる種類の脆弱性を見つけ出すことができるため、まだ一般向けにはリリースできないのです。

カウタル、あなたにも意見を聞きたいです。私もサイバーセキュリティの話が最も興味深い部分だと思います。ある引用文を読みたいのですが、Ciscoの代表者はこう言っています。「AIの能力は、サイバー脅威から重要インフラを保護するために必要な緊急性を根本的に変える閾値を超えました。もう後戻りはできません」。

これは、エンタープライズ分野で長い歴史を持つCiscoのような企業にしては、かなり大きな発言です。彼らは業界でも冷静なプレイヤーですが、そのセキュリティ部門のトップが、このモデルはゲームチェンジャーだと言っているわけです。

カウタル、サイバーセキュリティの観点から見て、今や攻撃側が圧倒的に有利になったと感じますか?このモデルがあれば、どんなコンピューターにもハッキングできてしまい、防御側にはどうすることもできないのでしょうか?

ええ、私はマーティンとは少し違う見方をしています。もちろんマーケティング的な側面もあるでしょうが、このプロジェクトは本当に前例のないものであり、一般公開しないという決定は単なるマーケティングとして片付けるべきではなく、真剣に受け止めるべきだと思います。

このモデルができることの例を見てみると、かなり恐ろしいものがあります。例えば、1999年から存在し、あらゆるOpenBSDサーバーをクラッシュさせる27年越しの脆弱性を発見したり、多くの自動ツールが500万回もスキャンしてもフラグが立たなかったコード行に潜む16年越しのFFmpegの脆弱性を見つけたりしています。

これらは非常に深い洞察を示しています。また、サンドボックスからの脱出インシデントもありました。研究者が指示していないにもかかわらず、外部との通信を試みるなど、モデルが自律的に行動したのです。

これらすべての事実が示しているのは、Ciscoの責任者が言ったように、現在の解釈可能性や制御手法の限界を超えた能力を私たちが扱っているということです。さらに深いシステム的な洞察もあります。ソフトウェアセキュリティにおける攻撃側と防御側の非対称性は、常に構造的なものでした。

攻撃者は1つの脆弱性を見つければよいのに対し、防御側はすべての脆弱性を排除しなければなりません。では、AIによって何が起こるのでしょうか。AIは攻撃側の攻撃対象領域を劇的に拡大し、この非対称性をさらに悪化させます。

このプロジェクトは、そうした能力の増幅を防御側にも活用しようとする試みだと思います。なぜなら、防御側は迅速に動くだけでなく、真っ先に動かなければならないからです。

AI規制とセキュリティ対策の交差点

これは安全性において非常に重要な意味を持ちます。例えば、2026年8月頃に施行されるEUのAI法の次のコンプライアンスフェーズを見ると、高リスクAIシステムに対するサイバーセキュリティ要件の自動化された監査証跡は、もはやオプションではなく法的に義務付けられます。

Project Glasswingは、規制当局がガバナンスインフラを求めているまさにそのタイミングで登場したと言えます。今後18ヶ月ほどの間に、コンプライアンスと攻撃能力の話題がどのように交差していくのか注目するのは興味深いでしょう。

確かにそうですね。マーティン、カウタルが言ったことは心配になりますよね。私たちは金塊を買って、すべてをYubiKeyに移すなど、個人のセキュリティについてどこまでパラノイアになるべきなのでしょうか。AnthropicはMythosを世界にリリースしていませんが、こうした能力は間違いなくやってきます。個人的なセキュリティを次のレベルに引き上げるまでの時間はどれくらい残されているのかと考えてしまいます。リスナーの皆さんはどう考えるべきでしょうか。すべてを止めて、セキュリティを全面的に強化すべきでしょうか?

そうですね、Mythosという名前は神話を意味していますから、私たちの大半はProject Glasswingに参加しているわけではないので、それにアクセスできるようになるまで、何ができるのかを推測するしかありません。

それは非常に的を射た指摘ですね。初期の研究から、このモデルがカウタルが言ったようにあらゆる脆弱性を発見したことは事実のようです。今私たちが当然のように安全だと思っているものが、今後も機能し続けるのか、今のところ判断材料が少なすぎます。

プレビュー期間が終わった後、これがどうなるのかは非常に興味深いですね。Anthropicはこのプレビュー期間後にどうするかを発表していません。その後、一般に利用可能になるのでしょうか?分かりません。

現在私たちが手がかりにできるのはシステムカードに書かれていることだけですが、おそらくAnthropicはこれまで自社のソフトウェア開発にこのモデルを社内で使ってきたのでしょう。過去1ヶ月のAnthropicの動きを振り返ると、信じられないような30日間でした。毎日、Claudeやそのアプリに重要なアップデートがありました。

多くの人が首を傾げ始めました。「どうしてこんなことが可能なのか?どうやってこれほど多くの機能を実装しているのか?自己再帰的な改善モデルを持っているのではないか?」と。そして今、その答えがMythosを使っていたからだと分かったわけです。

ただ興味深いのは、私が頻繁に使っていて素晴らしいと思っているClaudeのアプリには、実はバグがたくさんあるんです。Mythosはそのバグを見つけていないのでしょうか?それともサイバーセキュリティの脆弱性を見つけるのだけが得意なのでしょうか?ですから答えとしては、銀行口座を空にしてタンス預金をする必要があるかどうかは、まだ誰にも分からないということです。

クローズドかオープンか:セキュリティとAIのバランス

ええ、その通りだと思います。ちなみに私はまだ銀行口座を空にして金に換えたりはしていませんよ。

カウタル、ここで非常に興味深い疑問があります。Anthropicはセキュリティ問題へのアプローチで一つの選択をしました。彼らは「我々には信じられないほど素晴らしい新機能がある。これらのモデルを安全にする最善の方法は、少数の企業のコンソーシアムを作り、モデルをリリースする前に世界をより安全にするために取り組むことだ」と言っています。

マーティンも指摘したように、私たち外部の人間にはそこで何が起きているのか全く分かりません。セキュリティがどう改善されているのか、あるいはリスクが正確に何なのかを評価するのは非常に困難です。

そこでカウタルに聞きたいのですが、企業はこのバランスをどう取るべきだと思いますか?オープンとクローズドのバランスと言えますよね。次世代の能力を持っていると本気で思えるモデルに関して、何が世界をより安全にするのでしょうか?

非常に良い質問ですね。ここでのAnthropicのコンソーシアムに関する中心的な主張に注目したいと思います。なぜこのコンソーシアムモデルが一時的なものなのかという点です。彼らはこれを永久にクローズドにしておくつもりはないと思います。最終的にはオープンにしたいはずです。なぜなら、Mythosのプレビュー版のような機能は、他のフロンティアモデルがクローズドであっても、いずれは普及していくからです。

例えば、OpenAIがGPT-3 Codexをリリースしたとき、彼らは自社のフレームワークに基づき、それをサイバーセキュリティにおいて非常に高い能力を持つ最初のモデルと分類しました。Anthropicは、Metaクラスのモデルの能力が広く利用可能になるまで、長くても1、2年しか猶予がないと考えています。

ここでの狙いは、最も重要なグローバルインフラを担う組織が最初にこれらのモデルにアクセスできるようにすることだと思います。防御側に先行スタートを切らせる方が、安全策が完璧になるのを待つよりも良いという賭けです。

ですから計画としては、Mythosよりもリスクの低い、次期Claude Opusのようなモデルで安全策を開発し、安全性のフレームワークが成熟するにつれてアクセスを段階的に拡大していくことになります。誰にでも提供する前に、テストを行い、セーフガードを設け、特に重要なグローバルインフラの責任者たちに実際に触ってもらって状況を確認したいわけです。先ほども言ったように、これは攻撃側にずっと大きな攻撃領域を与えてしまう非常に危険なものだからです。

ええ、まさにその通りで、現在Mythosが最も賢いモデルであることを証明するベンチマークがあります。しかし、それはある時点での状態に過ぎず、他のモデルも追いついてくるでしょう。しかもそれは最先端の研究所のモデルに限りません。

GPT-4が出た時のことを振り返ってみましょう。GPT-4は他のすべてのモデルをはるかに凌駕していましたが、今では30億パラメータのオープンソースモデルがGPT-4と同等の性能を持っています。

オープンソースモデルも追従しており、おそらく最先端モデルから9ヶ月遅れくらいで、こうした脆弱性の一部を発見できるようになるでしょう。ですから、私たちはそれに備えなければなりません。少数の企業コンソーシアムが先に脆弱性を見つけられるからよかったね、などと悠長に構えているわけにはいきません。これは悪意のあるアクターも含め、誰にでも利用可能になるのですから、準備が必要です。

あなたが提示した問題は非常に難しいものだと思います。なぜなら、明確な正解がないからです。Anthropicがここでやっていることは中間的なアプローチで、完全にアクセスを遮断したわけでもなく、一般に公開したわけでもありません。キュレーションされたコンソーシアムに、制御された条件下でアクセスを許可しました。

セキュリティ研究をよりオープンにするメリットについて考えると、歴史的に見てオープンな公開と研究から莫大な利益を得てきました。暗号学の分野全体は、攻撃手法が公にされることでより優れた設計が強制され、強力になっていきました。

一方で反論もあります。12の大企業だけがアクセスできる状況で、2人だけのチームでオープンソースをメンテナンスしているような人たちには何もありません。そこには一種の緊張関係があります。コンソーシアムモデルの弱点は、AWS、Google、Microsoftなど、すでに最もリソースが豊富な組織に防御能力を集中させてしまうことです。

オープンソースのメンテナーたちは、Linux FoundationやApacheへの400万ドル程度の寄付による間接的な利益しか得られません。これは、何兆ドルもの価値を持つ企業に提供される数億ドルのモデルクレジットと比べれば、誤差の範囲です。

では、適切なバランスとは何でしょうか。おそらく、発見された事実とモデルの能力との間に線を引くことだと思います。発見された脆弱性、特に特定のバグやパッチなどは、インターネットを直接保護するものですから、できるだけ早くオープンに共有されるべきです。

一方で、モデル自体、特に自律的なエクスプロイト生成能力などは、解釈可能性や制御に関する研究が追いつくまで、継続的な制限を設けることが正当化されるでしょう。ですから私の考えでは、バグレポートなどの結果は公開し、自律的なエクスプロイト生成などの兵器的な能力については制限すべきだということです。

結果がどうなるか注目していきましょう。マーティンが言ったように、これが最終的にどう落ち着くのかは誰にも分かりませんから、壮大な実験を見守ることになります。

エンタープライズ vs コンシューマー:AI企業の財務データが語る未来

さて、次のトピックに移りましょう。ウォール・ストリート・ジャーナルから非常に興味深い数字が出てきました。彼らはOpenAIとAnthropicの財務データをいくつか入手しました。

最も興味深いのは、その規模の大きさです。両社とも信じられないスピードで成長していますが、特筆すべきは、Anthropicがより小さな企業であり、ClaudeがChatGPTよりもはるかに小さなシェアしか持っていないにもかかわらず、莫大な収益を上げているということです。

これは、フロンティアAIの前に2つの道が開かれていることを示唆しています。1つは完全にエンタープライズ向け、もう1つは完全にコンシューマー向けです。マーティン、時間の経過とともにこのような棲み分けが進んでいくと思いますか?

そうですね。これまでも、ChatGPTがAnthropicよりもはるかに大きなコンシューマー事業を持っているという違いはありました。しかし、ここ数週間でOpenAIが方向転換し、よりエンタープライズに焦点を当てると話しているのを耳にしています。

今日の収益を見ると、Anthropicの収益はほぼ完全にエンタープライズからのものであり、OpenAIの収益の大部分はコンシューマー、つまり月額課金している個人ユーザーからのものです。しかしOpenAIも、エンタープライズこそが進むべき道だと考えているのは明らかです。

これは以前のエピソードでも話題になりました。Soraのようなコンシューマー向けのコンテンツ生成機能などがOpenAIから消えつつあることについて、「我々はエンタープライズのユースケースに計算資源を集中させる必要があり、これはエンタープライズ向けではない」と彼らは言っています。

収益規模ではAnthropicの方が小さいにもかかわらず、はるかに大きな企業であるOpenAIが彼らの戦略を模倣し、エンタープライズへと向かっているように見えます。これは、他のどこかの企業にとって、コンシューマー向けの未開拓市場が丸々残される可能性を意味します。これまでChatGPTが完全に独占していた領域に、他の誰かが参入するチャンスが生まれるかもしれません。

カウタル、AIのコンシューマー分野についてどの程度強気ですか?皆が利益の出るエンタープライズに向かっている中で、コンシューマー向けAI企業が入り込む余地はあるのでしょうか?それとも、コンシューマー向けAIは実はそれほど大きなビジネスではないということなのでしょうか?

非常に良い質問ですね。エンタープライズとコンシューマーの間には、戦略的な大きな違いがあると感じています。AnthropicとOpenAIの例を見ると、Anthropicは最初からコンシューマー向けを指向しておらず、エンタープライズのAPI契約やクラウドプロバイダーとの取引のために構築されました。

その結果は目に見えています。Anthropicの収益の80%は法人顧客からのもので、Fortune 10企業の8社がClaudeの顧客です。500社以上の企業がAnthropicに年間100万ドル以上を費やしています。一方のOpenAIは、週に1億9000万人以上のアクティブなChatGPTユーザーを抱えています。Anthropicのコンシューマーへのリーチは、そのわずか5%に過ぎません。

しかし、Anthropicはトップラインの年間経常収益(ARR)でOpenAIを猛追しています。コンシューマーの規模と収益の規模は同じではありません。エンタープライズ契約は基本的に維持率が高く、Anthropicで見られるように拡張の経済性も良く、解約率も低くなります。初日からエンタープライズファーストだった企業が、その結果として頭角を現しているのが分かります。

これらは異なる戦略であり、どちらが競争に勝つのか、あるいはハイブリッドモデルになるのかが問題です。しかし、それに注目するよりも、経済性が非常に重要だと思います。なぜなら、明らかにされた財務データが示すように、フロンティアAIは従来のSaaSの経済モデルを構造的に破壊しているからです。

一般的なソフトウェアでは、ユーザーを1人追加する限界費用は規模が大きくなるにつれてゼロに近づきます。しかしAIではその逆が真実です。推論コストは普及に比例して増大し、新しいユーザーが増えるたびにデータセンターへの負担が増加します。

ですから、ここでの本当の戦いはモデルやコンシューマー対エンタープライズの話ではなく、推論時のトークンあたりのコストの話だと思います。推論のためのハードウェアとソフトウェアの協調設計の問題を解決した者が勝つでしょう。メモリ効率、演算子の融合、データ移動の冗長性を排除するアルゴリズムなど、これらの問題をうまく解決した企業が、この業界のユニットエコノミクスを定義することになります。

トレーニングはニュースの見出しを飾りますが、ビジネスで勝利をもたらすのは推論です。推論こそが、常に運用し続けなければならない継続的なものだからです。

推論の数字は非常に興味深いですよね。現在、両方の研究所で収益の約半分が推論コストに食われているという統計がありますが、その割合は時間とともに低下しています。

問題は、これが最終的に「収益の半分は常に推論に消える」という状態に落ち着くのか、それともそのコストを劇的に下げる画期的なブレイクスルーが起こるのかということです。これは、このビジネスがどこまで成長できるかにおける非常に大きな疑問のようです。

マーティン、もう一つ話したいのは、そのすさまじい成長スピードについてです。テクノロジーやプロダクトのブロガーであるレニー・ラチツキーが昨日投稿したところによると、AnthropicのARRは現在300億ドルに達したそうです。2月の190億ドルからの増加です。1ヶ月で110億ドルのARRを追加したことになり、これはある意味で前例のないことです。

これを見て「あとどれくらい成長できるのだろう?」と考えてしまいます。Nvidiaの数字が狂気じみていて、「1兆ドルの価値になるぞ」と言われているのと同じくらい、これらの数字はもはや現実離れしています。

マーティンにお聞きしますが、この成長はどれくらい続くと思いますか?私たちはまだ始まりの段階にいるのでしょうか、それとも中間地点でしょうか?判断するのは非常に難しいですが、どう考えているか興味があります。

そうですね、このウォール・ストリート・ジャーナルの報告書を見ると、2つの重要なコストがあることが分かります。もちろん1つは既存のモデルを動かす推論コストで、もう1つは新しいモデルを作る開発コストです。

カウタルがより効率的なモデルによって推論コストを下げる方法について話してくれましたが、同時に新しいモデルは小さくなるどころか、はるかに巨大になっています。ですから、仮に推論を効率化する努力をしなかったとしても、モデルがどんどん大きくなりコストがかさむという事実だけで、長期的には推論コストよりも大きな収益の割合を食いつぶしていくことになります。それがこの報告書の示していることです。

ティムが言うように、ここには本当に驚くべき数字が並んでいます。Nvidiaの時と同じで、「数字って一体何なんだ?」という感じです。

もはや過去の現実とは全く似ても似つかない数字です。OpenAIは2028年に1210億ドルの収益を上げ、結果として850億ドルの損失を出すと予測しています。1年で850億ドルの損失を出す企業なんて完全に狂気です。しかも、それはその期間に収益が倍増するという前提での話です。収益が倍増しても850億ドルの損失が出るのです。

なぜでしょうか。それは新しいモデルのトレーニングコストがあまりにも高いからです。もし現在の数字からモデル開発のコストを除外すれば、AnthropicもOpenAIもおそらくわずかに黒字を出しているでしょう。

実際、OpenAIは研究用コンピューティング(モデル開発)を除外した会計報告書も提供しています。「R&Dのコストは計算に入れないでおこう」というわけですが、そのR&Dこそが非常に大きな違いを生む巨大な部分であり、モデルが大きくなるにつれてますます膨らんでいくのです。

ですから、ここには効率化のための2つの領域があります。1つは、既存のモデルをより効率的に実行できるかどうか。推論コストをある程度改善するような取り組みはたくさんあるようです。しかし、世代を重ねるごとに指数関数的に高騰するモデル構築のコストを抑えられる日は来るのでしょうか?

なるほど、そういう風には考えていませんでしたが、確かにそうですね。推論の効率化と、新しいモデルを構築する必要性との規模の競争のようなものです。時間の経過とともにどちらが他方を上回るかという問題ですね。

しかし、モデルがどんどん大きくなっていくため、推論分野で根本的な変化が起きない限り、いずれモデル開発コストがあらゆる効率化の効果を上回るというのが一般的な予測のようです。

AIによる科学的発見:GPT-1900の実験

さて、次のコーナーです。世界を終わらせるようなサイバーセキュリティの問題や、何百億ドルもの支出について話してきましたが、私がAIのニュースで一番好きなのは、人々が取り組んでいるちょっとした実験だったりします。

マイケル・シアという人物がオンラインで少し話題になった投稿をしたのですが、私にはこれが非常に興味深い実験に思えました。彼は「GPT-1900」と呼ぶものを作りました。

彼が答えを出そうとしたのは、AIが科学的発見を行うのが得意かどうかという問いです。そのための1つの方法は、現在私たちが持っているすべての事実を使って、AIが今日新たな発見をできるか試すことです。

もう1つの方法は、AIの時計を巻き戻し、例えば1900年当時の科学者が持っていた事実だけを与えて、現在私たちがすでに発見している概念を再発見できるかどうかを見るというものです。これは非常に説得力のある実験です。

マーティン、あなたに聞いてみたいです。これに対するあなたの感想や、これが将来的にAIが科学的探究のレベルを本当に前進させるかどうかを知るための良い直感を得る方法だと思うか、教えてください。

そうですね、これは「AIは新しい知識を生み出せるのか、それとも単なるパターンマッチングなのか」という根本的な問題に帰結します。このタスクの場合、科学的ブレイクスルーを起こすために必要な情報はすべてモデルの訓練データに含まれている可能性があり、本質的には単なるパターンマッチングかもしれません。

ですから問題は、それらの点を結びつけて独立してその発見にたどり着くほど賢いかどうかということです。非常に興味深い実験でしたが、残念ながら決定的なイエスかノーの答えは出ませんでした。

例えば、「光には質量がないのに、なぜ重力は光を曲げることができるのか?」という質問をされたとき、モデルは光線を囲むエーテルなどについて語る、19世紀風の奇妙な答えを返してきました。おそらくもっと深く掘り下げれば、瀉血(しゃけつ)や悪い空気のことまで話し出したでしょう。

非常に面白い実験ですが、これがうまくいかないだろうと思う理由が2つあります。1つは、モデルがこれらの答えを導き出すためにどれだけのテスト時計算量が与えられたのかということです。重力がどうやって光を曲げるのかとチャットボットに尋ねて、すぐに答えが返ってくるようなやり方だったのでしょうか。

相対性理論を独立して発見しようとするなら、モデルに丸5分間考えさせたのでしょうか。アインシュタインはこれらのことを思いつき、すべての思考を巡らせて実験を行うのに、もう少し長い時間をかけたと思いますよ。AIの推論時間がどうであれね。

なるほど、AIにとって不公平なテストだと言っているのですね。これらの問題を熟考するために必要な時間を与えていないと。

その通りです。そして2つ目の理由は、彼らが構築したGPT-1900というモデルが、約30億パラメータの非常に小さなモデルだったということです。小さなモデルについて私たちが知っているのは、ほぼすべてのドメインにおいて、たとえ自分が訓練された専門ドメインであっても、巨大なフロンティアモデルよりも賢くないということです。

少し前の時期、専門的なタスクを実行するために独自のLLMをトレーニングする企業がありました。例えばBloombergは、Bloombergのデータのみで訓練された独自のLLMを作成しました。法律関係のデータのみで訓練された法律特化のLLMもありました。

しかし結果として、これらの特化型モデルは、一般的なタスクにおいて汎用モデルよりもパフォーマンスが劣ることが分かりました。なぜなら、より多くのパラメータを持つ汎用モデルの方が、あらゆることにおいてより賢いからです。

このケースでは、30億パラメータのモデルを、フロンティアモデルではなく、アインシュタインやニュートンのような人物と比較しているわけです。勝機があったでしょうか?しかし、非常に興味深い実験であり、これをさらに進展させてほしいと思います。

ええ、おそらくこれは実際の研究というよりは、概念的なものなのでしょう。本気でこれを追求するなら、当時のすべての科学文献を学習させたMythosを配備するようなことをすべきなのでしょうね。

このマイケルという人物が示した結果から私が得た直感の1つは、多くのモデルがまだ既存のパラダイムを「活用」するモードにとどまっているということです。彼の実験の中で、モデルが「相対性理論だ」と言い出すことは一度もありませんでした。それに近い示唆的なものはたくさん生成しましたが。

ですから、真の予期せぬブレイクスルーにおいては、まだ人間の側にアドバンテージがあるように感じます。カウタル、この状況は長く続くと思いますか?

そうですね、AIが人間と同じように本物の科学を行える段階に達するには、まだ多くの要素が必要だと思います。ここで、トーマス・クーンの視点を取り入れたいと思います。彼は科学の哲学者・歴史家であり、1962年の著書『科学革命の構造』は20世紀で最も引用された学術書の一つです。AIに科学において何ができて何ができないかを考える上で、彼のフレームワークは非常に有用だと思います。

彼の視点を見ると、彼は2つのことを区別しました。1つは、すでに受け入れられたパラダイムの中でのパズル解きである「通常科学」。もう1つは、パラダイムそのものが置き換わる稀な瞬間、つまり全く新しいパラダイムを生み出す画期的な結果をもたらす「革命的科学」です。

現在のAIシステムは、受け入れられた枠組みの中でのパズル解きである前者が非常に得意です。しかし、新しいパラダイムを創造することには苦戦しています。モデルは相対性理論に繋がる推論のプロセスを再構築することはできますが、「物事を相対的なものとして捉え直す」といった決定的な概念の転換や、全く新しい地平を開くことには困難を伴います。

これは単なるパターン認識の問題ではなく、支配的な存在論的枠組みを喜んで捨てるという、最も確率の高い次のトークンを予測するように訓練されたシステムの性質に真っ向から反することだからです。

しかし、一部のフロンティアモデルはすでに実際の科学を行い始めています。OpenAIがGPT-4について発表した内容をご存知でしょうか。人間の物理学者が何十年も特定のケースを計算し続けても発見できなかった、グルーオン散乱振幅の一般的な公式という、理論物理学の新しい結果を導き出したのです。

もちろん、これは真のクーン的な意味でのパラダイム創造ではありませんが、別の何かです。人間の直感では大きすぎる数学的空間の体系的な探索と言えます。モデルは新しいパラダイムを壊したわけではありませんが、人間が見逃していた、既存のパラダイムの中に隠れていた構造的な規則性を発見したのです。

ええ、「AIができるようになったら、それはもうAIではない」という古い格言のようですね。AIがそれを発見したら、途端に単なるパターンマッチングだったと言われてしまう。すべての事実があれば私たちにもできたはずだ、と。

システムがあまりにも複雑だったから私たちが見逃していただけだ、ということですね。

その通りです。しかし、科学的発見は単なる検索問題ではないと感じます。仮説を生成し、現実に対してテストし、予期せぬ実験結果も含めて反復し、モデル、つまり世界観を修正することが本当に必要です。

LLMがやっていることは固定されたコーパスに対する操作であり、書かれた内容を統合して推論することはできても、科学者がそうあるべきように、新しいデータに「驚く」ことはできません。

ですから本当に進むべき道は、こうした閉ループを持つことのように感じます。ここでのボトルネックはモデルの知能ではなく、言語モデルの推論と、実験やシミュレーションのインフラとの間のフィードバックループが存在しないことだからです。

ですから、科学を真に変革するモデルは、GPQA Diamondなどで最高得点を取るようなものではなく、おそらく実験室のワークフローに統合されるようなものになるでしょう。モデルがこのフィードバックループの中で使われる段階になれば、違う結果が見えてくるかもしれません。

カウタルが言った「モデルが正統派の枠組みを超えて考える必要がある」という点についてですが、これまでの科学的ブレイクスルーの多くがどのように起きたかを考えてみてください。

それはしばしば、正統派の考え方から外れた、全く違う考えを持つ異端児のような人物によってもたらされます。最初は強い抵抗に遭い、「完全に間違っている」と言われますが、結局彼らが正しかったことが証明されるのです。

現在のLLMはそのようには動作しません。実際、完全にその逆です。ですから、そういったことができる「異端児GPT」のようなものが必要だと思います。

ええ、良い指摘ですね。基本的にすべてのLLMは知識を圧縮しているだけで、まだ知識を創造してはいません。研究環境においてこれらのシステムをどのように組み込み、統合していくかにおいて、その違いは非常に重要だと思います。

最後に少し考えたいのですが、これが他にどんな分野に応用できるでしょうか。例えば、1900年のすべての絵画をモデルに与えたら、最終的に表現主義か何かを発明するでしょうか。ここにも同じようなパラダイムがあると思いますか、それとも物理学から芸術に移ると全く違う話になるのでしょうか?

そうですね、人間が歩んできた道が、何があっても起きるはずだった必然の道であり、それが明らかに進むべき方向だったのかどうかは分かりません。それとも、数え切れないほどあった可能性の一つを偶然進んだだけで、今振り返るとそれが明白に思えるだけなのかもしれません。

これは、私たちが実行できる可能性のある結果という、平行世界のような話になっています。もしこれらのモデルを構築し、何度も実行して、その結果どこに行き着くのかを見ることができれば、非常に魅力的な実験になるでしょうね。

それはかっこいいですね。それぞれが平行世界にいて、平行宇宙をシミュレートしているようなものです。今年はこちらの世界か、あちらの世界か、というように。

面白いですね。さて、いつもながら素晴らしい議論でした。カウタル、マーティン、番組に出演していただきありがとうございました。またすぐにお呼びしたいと思います。

Masters Vault:マスターズの歴史的映像をAIで検索可能に

それでは次のコーナーに移りましょう。アーロン・ボーマンとの事前録画のセグメントです。今日はボーナスセグメントをお届けできて本当に嬉しいです。このポッドキャストのレギュラーリスナーにはおなじみの、マスター・インベンターであるアーロン・ボーマンを迎えています。アーロン、番組へようこそ。最近マスターズで取り組んでいる作業のデモを見せてくれるそうですね。

ええ、ここに来られて嬉しいです。ティム、招待してくれてありがとう。

さて、もう少し詳しく教えてください。あなたが番組に来てくれるたびに、違うリーグ、違うスポーツ、違うイベントに取り組んでいますよね。今回はゴルフの世界に戻ってきたようですが、今日はどんなプロジェクトに取り組んでいるのですか?

これは非常に興味深いプロジェクトです。考えてみてください。長年にわたり、ゴルフのメジャー大会の一つであるマスターズは、膨大な映像コンテンツのアーカイブを蓄積してきました。何十年にもわたる歴史的なショットや、記憶に残る瞬間、伝説的なパフォーマンスが記録されています。

しかし、ここに課題があります。すべての映像コンテンツを持っていることの価値は高いにもかかわらず、それは非常に非構造化されており、探しているものを正確に見つけ出すのが難しいのです。

その上、何百時間もの放送映像があり、過去のマスターズで起きたゴルフの特定の瞬間を検索する簡単な方法がありません。映像は、ファンが考えたりクエリを投げたりするような形ではインデックス化されていません。プレイヤーのショットや様々な結果といったコンテキストは、映像の中に埋もれてしまっています。ですから、コンテンツは存在しても、真の意味でアクセス可能ではないのです。

そこで登場したのが、この「Masters Vault」と呼ばれるプロジェクトです。目標は非常にシンプルですが、強力でもあります。1つ目は、この映像の中にある意味のあるコンテンツを自動的に抽出し、ラベル付けして、インデックス化すること。2つ目は、ユーザーが自然言語でそのコンテンツを見つけるための検索を可能にすることです。

私たちは、この問題にどう取り組むか正確には分かっていませんでしたが、2つの仮説からスタートしました。1つ目は、放送のグラフィックスと実況解説を正確に処理し、ゴルフのシーンと統計データを理解できれば、ユーザーは非常に正確かつ幅広く検索して、そういった瞬間を見つけられるだろうということ。

2つ目の仮説は、抽出したメタタグを要約して融合させることで、データの冗長性を減らし、理解度を向上させ、より正確な検索結果を提供できるだろうというものです。

ですから、その核となるのはマルチモーダルAIシステムであり、視覚、音声、言語を組み合わせて人々が情報を検索できるようにしています。対象となるのは58年分、数百時間に及ぶ厳選された長時間の放送映像です。これは巨大なデータセットですが、同時に巨大なチャンスでもあります。

確かにそうですね。アーロン、これから構築したものの簡単なデモを見せてくれると思いますが、あなたが番組に来てくれるときにいつも楽しみにしているのは、直面した技術的な課題について教えてもらうことです。これらは大規模なプロジェクトで、ビデオファイルは非常に重いですよね。この規模のプロジェクトを進める上で学んだことや、特定の課題に直面したか興味があります。

ええ、確かにいくつかありました。そのうちのいくつかをハイライトして説明しましょう。1つは、時間とともに進化する放送グラフィックスです。放送グラフィックスは時代とともに劇的に変化してきました。

例えば1960年代の映像を見ると、コースの物理的な模型があり、スコアボードを手動で管理しています。画面上のグラフィックスは最小限でした。しかし現在では、すべてがデジタル化され、ショットトラッキングがあり、コースの3Dモデルがあり、高度な分析とインサイトが提供されています。システムは、これらすべての時代の放送フォーマットを理解しなければなりませんが、これは非常に困難です。

2つ目は、実況解説の曖昧さと言えるでしょう。実況者は、現在のショットについて話していても、過去のショットに言及することがよくあります。また、現在のクリップの中に、直前のショットや、さらに言えば過去の年のショットについての解説が含まれていることもあります。これを適切に処理しないと、誤った検索結果を導いてしまいます。

そして3つ目は、ビデオ品質のばらつきです。古い映像は非常にぼやけていて低解像度です。その後、2016年には部分的に4Kになり、2018年には一部のホールで4K HDRが導入されました。今では8Kの導入も見え始めています。しかしモデルは、これらの年月の全域にわたって、一貫性のない視覚的品質を処理しなければなりません。

放送グラフィックスは単にスコアを表示するものから進化してきましたが、現在私たちがこのプロジェクトでやろうとしているのは、ゲームそのものを説明することなのです。

では、構築したものを見せてくれますか?ぜひ見てみたいですし、リスナーにも見せたいです。

はい、喜んで。それでは、いくつかのデモをお見せしましょう。まず、www.masters.comにアクセスし、メインメニューから「Masters Vault」を見つけてください。そこからアカウントを作成してログインすると、この非常に興味深く強力なシステムにアクセスできます。

まず、非常に大まかな検索をしてみましょう。例えば、バッバ・ワトソンを見つけたい場合は、単に彼の名前を入力します。名前の綴りを間違えても大丈夫ですし、ファーストネームかラストネームだけを入力してもシステムが処理してくれます。

検索を実行すると、結果が返ってきます。ここでの仕組みですが、最終ラウンドの放送映像からすべてのショットを抽出し、ホールとショット番号ごとに分類しています。ここに表示されているテキストはすべて生成AI技術を使って生成されたもので、とても素晴らしいものです。

次に、これを絞り込んでみましょう。「バッバ・ワトソン」で「第2打(ショット2)」を検索します。少し具体的になりました。すると、表示されている結果がすべてバッバ・ワトソンの第2打になっているのが分かります。放送からそのショットだけを見事に抽出しています。

さらに、よりきめ細かく正確な検索をしたい場合はどうでしょう。「バッバ・ワトソン」「第2打」「年:2019年」で検索してみます。2番目に表示されているヒット結果を選んでみましょう。見事に2019年の第2打だけを抽出しました。もちろん、特定のホールを指定して検索することもできます。これは見ていて楽しいですよね。

しかし、次に皆さんにお見せしたいのは、システムがシーンそのものを理解しているということです。「バッバ・ワトソン」で「バンカーから」と検索してみます。これには多くの意味合いが含まれます。まずバッバ・ワトソンを見つけ、さらにバンカーショットのシーンを見つけなければならないからです。これは簡単なことではありません。

入力してからの速さを見ていただけたと思います。ほぼ瞬時に結果が返ってきました。かなりすごいですよね。最終ラウンドの放送から2つのショットが抽出されています。このうちの1つをクリックして、これが本当にバンカーからのショットであることを証明しましょう。

「16番、バンカーからのバッバ・ワトソン」という実況とともに、ボールと、グリーンに飛び散る砂が見えますね。砂を使ったプレーをすべて検出しているわけです。ここで映像を止めます。

もう1つのヒット結果もお見せしましょう。これも明らかにバンカーショットですね。つまり、システムは正しく認識しており、誤検知はありませんでした。非常に正確で精密です。

もう一つやってみましょう。多くの人は、結果に基づく検索を知りたがります。「バッバ・ワトソン」で「イーグル」と検索してみます。先ほどと同様、非常に速く結果が返ってきました。速度と精度のトレードオフになりがちな中で、私たちはこの速度と精度を誇りに思っています。

このクリップを選んでみます。どうやってイーグルだと分かったのでしょうか。スコアカードでイーグルに言及しているのが見えますね。しかし、これは歴史的な映像なので、モデルにとっては非常に混乱を招く可能性があります。実際のクリップを再生してみます。

バッバ・ワトソンがイーグルを狙っています。イーグルを決めるかどうか見てみましょう。素晴らしい、見事にイーグルを決めました。「2番ホール」という実況も聞こえます。私たちは結果を正しく認識し、ビデオ自体からグラフィックスを正確に解析できました。数百時間のビデオを処理して、これを検出しているのです。

最後に、私が気に入っている面白い機能をお見せします。大まかな検索で、「バッバ・ワトソン」で「2019年のみ」に絞ってみます。これを選択して再生してみます。ここで一時停止します。

再生バーに小さな黄色いマーカーがたくさんあるのが分かりますか。これは、この放送ストリームの中でのヒット箇所を示しています。検索した特定のヒット箇所を見つけられるだけでなく、このストリーム映像内の任意のマーカーをクリックして、すぐにその場面を再生できるのです。行ったり来たりも簡単にできます。これも素晴らしい機能です。

ぜひ実際に触って楽しんでいただければと思います。私がお見せした検索を色々と組み合わせて、どのゴルファーでも検索できます。ラウンド4の映像であり、テレビで通常見るストリーミング放送だということを覚えておいてください。

私たちがここでやっているのは、ビデオを静的なメディアから、検索可能でインテリジェントな知識システムへと変換することです。視覚、音声、データ、言語を組み合わせることで、単に歴史を「見る」だけでなく、それを「検索」し「照会」できるようになるのです。楽しんでいただければ幸いですし、フィードバックもお待ちしています。

素晴らしいですね。アーロン、プレゼンテーションをありがとう。そしていつも番組に来てくれてありがとう。皆さんもぜひチェックしてみてください。リンクはショーノートに貼っておきます。アーロン、また近いうちに番組でお会いできるのを楽しみにしています。

ありがとうございました、ティム。感謝します。

さて、今日はここまでです。いつもご視聴いただきありがとうございます。お楽しみいただけた方は、Apple Podcast、Spotify、その他あらゆるポッドキャストプラットフォームで登録をお願いします。それでは来週のMixture of Expertsでまたお会いしましょう。

コメント

タイトルとURLをコピーしました