AIに関するインタビュー – AGIへのカウントダウン: アラン・D・トンプソン博士がo3と超感覚データについて語る (2024年12月)

11,323 文字

Interview about AI - The Countdown to AGI: Dr Alan D Thompson on o3 and Extrasensory Data (Dec/2024)

Dec/2024More Alan:

2024年もAIの進歩は指数関数的な曲線を描き続け、2025年にも大きな進展が見込まれています。すでに来年リリース予定のオープンAIの新モデルo3で、私たちは未来の一端を垣間見ることができます。今日はAIとロボット工学に関する私たちのお気に入りのゲスト、アラン・D・トンプソン博士とともにその詳細に迫ります。彼は世界で最も広く読まれているAIニュースレター「The Memo」の執筆者であり、主要な組織から常に引用され、読まれ、活用されているAIの第一人者です。AIやロボット工学、脳機械インターフェースなどの最先端の情報を得たい方は、life architect.memoで登録できます。
トンプソン博士、本日もお越しいただきありがとうございます。
ありがとうございます、クリス。また参加できて光栄です。
今年は本当に刺激的な一年でしたね。最新のメモと2024年12月のAIレポート「The Sky is Steadfast」を公開されたばかりですが、冒頭で指摘されている点から始めましょう。引用させていただくと、「2024年は平均して毎月20の主要な大規模言語モデルがリリースされ、つまり38時間ごとに新しいモデルが登場した」とありますが。
はい、私自身がそのすべてを追跡していたので骨身に染みています。38時間ごとに新しいモデルを文書化しなければならず、ゆっくり眠ることもできませんでした。ChatGPTやGemini、Claudeだけだと思っている人もいますが、実際にはそれよりもはるかに多く、約500の主要な大規模言語モデルが存在します。中国やサンフランシスコ、シリコンバレー全体がAIを爆発的に発展させているのはもちろんですが、ヨーロッパの国々やシンガポール、アブダビなども興味深い取り組みを行っています。
様々な視覚化やリサーチを作成されていますね。life architect.でも確認できますが、多くの企業の優位性を追跡した視覚化を見ると、現時点では主にサンフランシスコと北京の間で競争が繰り広げられているようですね。
その通りです。サンフランシスコではイーロン・マスクのxAI、Google DeepMind、OpenAI、Anthropicがあり、西側メディアではあまり取り上げられない中国には約8つの大規模なAIラボがあり、大規模言語モデルやマルチモーダル機能を持つAIモデルで極めて先進的な取り組みを行っています。これら2つの地域が最高の人工知能を実現するために競い合っている状況は非常に興味深いですね。
xAIについて触れられましたが、AIの分野では比較的新参者ですね。これまではOpenAI、Google DeepMind、Metaのllamaモデルなど、米国にはいくつかの企業がありましたが、現時点でxAIを1位に挙げられた理由は。
ハードウェアの能力という点で1位に挙げました。イーロン・マスクはメンフィスの古いエレクトロラックス掃除機工場にコロッサス・スーパーコンピューターを設置し、驚くべき速さで立ち上げました。更地から90日ほどで、現在は20万基のGPUでGrock 2とGrock 3モデルのトレーニングを行っており、100万基まで増やすことを目指しています。AIトレーニング用に100万基のGPUを持っている組織は世界中どこにもなく、最も近いマイクロソフトでもその半分以下です。
もし100万基のGPUを実現できれば、世界最大のスーパーコンピューターになるということですね。
その通りです。数日で0から10万基に、数週間で10万基から20万基まで増やし、100万基までの接続も整っています。私の理解では、現時点でもその途上にあります。
すごいですね。これらはすべてNVIDIAのGPUなんでしょうか。
はい、そう理解しています。xAIとコロッサス・スーパーコンピューターは、NVIDIAとOracleと強力なパートナーシップを結び、H100および同等のGPUを導入してGrock 2とGrock 3のトレーニングを行っています。マスクが100万基のGPUを一つの巨大なデータセンターに集約して世界最大のスーパーコンピューターを実現するという計画は、これまで不可能だと考えられていたことですね。
その通りです。Googleは設立から四半世紀、OpenAIでさえ10年ほど経っており、規則に則って政府の規制に従いながら一般的にゆっくりとした方法で進める必要があります。イーロンはマイクロソフトやMeta AIのように政府の規制を重視するタイプではないと思います。
興味深いですね。彼は米国のDOGE（政府効率化局）のトップでもありますが、世界最大のスーパーコンピューターをTeslaやSpaceXだけでなく、おそらく米国政府のためにも活用する可能性があるということですね。
はい、その通りです。2025年に何が起こるか見守る必要がありますが、彼は興味深いパートナーシップを持っており、様々な分野で約10社の成功実績があります。素晴らしいですね。
今話題を集めているo3モデルについて話しましょう。o2モデルはなく、今年初めに話題になった01から一気にo3へジャンプしましたが、01の時点ですでに様々なテストで人間やPhDレベルの専門家を上回り、自己認識のテストでも人間より高いスコアを記録していました。そして今、o3は01をさらに凌駕していると理解していますが。
Twitterやメディア、フォーラムでは非常に騒がしく、おそらく初めてAGIと呼ぶ人も出てきています。私はまだAGIではないと思いますが、o3モデルは01の後継モデルです。2024年11月にOpenAIのCEOがo2について語っていましたが、世界的な通信ブランドO2との著作権の問題で、その名前をスキップすることにしたようです。そして今、01の後継モデルとしてo3が登場しました。おそらくGPT-4.5、あるいはGPT-5をベースにしているかもしれませんが、それは重要な点ではありません。重要なのは、o3は思考時間が長く、推論において異なることを行っているということです。
異なる思考の連鎖の分岐、最終結果に至る異なる方法を見出し、壁時計の時間でもより長く考えているように見えます。具体的な時間は分かりませんが、数分から数時間かかっているかもしれません。OpenAI自身も、例えば子供のがんの特殊な形態を解決するために、モデルに数日間考えさせることも視野に入れていると述べています。o3やo4がそれを実現し、時間をかけて解決策を見出せるかもしれません。
01や人間と比較した場合のスコアの内訳を教えていただけますか。視覚化で追跡されているようですが。
数字が多すぎるので2つの例を挙げましょう。GoogleのProof Question and Assessment（GPQA）という大規模な評価があります。これはAIモデルのためのテストで、Googleを使用しても各質問を解けるようにデザインされています。このGPQAテストで人間の平均スコアは34%です。01は78%まで上昇し、o3が登場するまでは最高水準でした。o3はさらに12%上昇し、87.7%のスコアを記録しています。2024年には50%を超えることさえ考えられないと思われていましたが、今や天井に近づいています。このテストの天井は90%程度で、o3はほぼその天井に達しています。
もう一つの重要なテストは、Frontier Mathです。これは先月、11月にEpoch AIが作成したベンチマークで、2%を超えることはないだろうと言われていました。フィールズ賞受賞者のティモシー・ガウアーズ（私の大学の出身で、アデレードを拠点にしていました）は、これらの問題の1つさえ解けないと述べていました。先月発表されたFrontier Mathの最高スコアは2%でしたが、o3が登場してそこに23.2%を加えました。つまりo3は、2025年か2026年まで1問も正解できないと考えられていたベンチマークで25.2%のスコアを記録したのです。
すごいですね。Frontier Mathとは具体的にどのようなものなのでしょうか。何をテストしているのか説明していただけますか。
私の数学が不得意な頭で説明させていただきます。人々はepoch.でベンチマークと問題、解答を確認できます。私が見た中で最も複雑な数学の方程式です。私であれば0%のスコアになることは確実で、人間の平均も0%と推定しています。これは大学院修士・博士レベルの数学で、先ほど述べたフィールズ賞受賞者のティモシー・ガウアーズさえ1問も正解できないと言い、問題を認識すらできないと述べました。超難問として設計されたものですが、o3は250問中63問を正解しました。
作成された図を見ていますが、後ほど皆さんにも見ていただけるよう投稿します。人間の平均、01、そしてo3が並んでいて、多くのテストで人間のスコアは30%、20%、17.7%、そしてFrontier Mathでは平均0%と、考えられる最も難しい数学の問題に対してそれが人間のレベルです。今年初めに登場した01から大きなジャンプがありましたが、今やo3は01をさらに上回っています。それもたった1年以内に、というよりも01からo3までわずか数ヶ月で、このような大きな飛躍を見せているのです。
その通りです。OpenAIによると、Oモデルシリーズ（Oは OpenAIの略だと思います）はより頻繁にリリースされる予定で、異なるベースモデルを使用すると想像しています。01はGPT-4.0、o3はGPT-5をベースにしているかもしれませんが、実際の鍵となるのは、答えを出す前にモデルに考えさせる時間と、推論の過程で異なる枝分かれや経路を探索させることです。これが他の大規模言語モデルとの大きな違いです。
AGI（人工汎用知能）へのカウントダウンについて話しましょう。これはウェブサイトで最もダウンロードや使用されているグラフィックの一つで、各開発を段階的に追跡し、カウントダウンに反映させていますが、現時点でのカウントダウンはどの段階にありますか。
昨年12月（2023年）の時点でカウントダウンは64%でしたが、現在（2024年12月）は88%です。AGIカウントダウンは、様々な分野で平均的な人間レベルのパフォーマンスを発揮するAIシステムを探しています。IKEAの家具を組み立て、調理台を拭き、会計処理を行い、文書作成を手伝うなど、基本的に私の仕事を代行できることを求めています。認知的な側面については、過去数年でそのレベルに達したと考える人も多いですが、私は物理的な具現化も含めて、人間ができることすべてを実現してほしいと考えています。物体を操作したり、家を建てたりすることも含めて（もっとも平均的な人間は家を建てられませんが）、88%という数字はかなり正確だと思います。特に物理的に具現化された大規模言語モデルの登場により、残りはわずかです。
先ほど述べられたように、一部の人々はAGIに到達したと言っており、o3モデルをめぐって多くの議論が生まれています。昨年の64%から現在の88%まで大きく上昇した具体的な要因は何でしょうか。01とo3の進展、ヒューマノイドロボットの開発など、何を追跡されているのでしょうか。
2017年8月のGoogleのTransformerのリリース以来、平均的な人間ができることを実現するシステムに向けて、50か60ほどのマイルストーンに到達しました。もちろん5感すべてや動作を含み、大規模言語モデルの能力も大幅に向上しています。o3による最近の上昇は、o3モデルの推論や思考がより多くの産業分野に拡大したためです。編集作業や数学の補助を任せることができ、このモデルか次のモデルで新しい発明を生み出すことも可能になるでしょう。これは本当に魅力的です。まだo3モデルにアクセスはできませんが、単なる支援ではなく、新しいものを生み出すことにどう貢献できるのか、とても楽しみです。
po.comを通じて01を利用していると言われましたが、私も何年も前からあらゆる作業に活用しています。おっしゃる通り、非常に汎用的で、考えつくほとんどのタスクに使用でき、その範囲は拡大し続けています。また、モダリティが音声やビデオ、テキストだけでなく、より広範な情報ストリームに拡大していることについても興味深い話をされていますね。
ちょっとした話を共有させてください。人間対01対o3の視覚化を公開する直前、その視覚化を01に入力してみました。30-40の数字が含まれていましたが、私は数学が得意ではありません。しかし01は視覚化を見て、すべての数字を読み取り、変換を行い、画像内のプレーンテキストではない形で表示されていたにもかかわらず、私の問題というよりOpenAIの問題である小さな誤りを見つけ、o3のAIM2 24スコアを正しいパーセンテージに修正してくれました。編集者でさえ見逃したかもしれないものを、視覚化の30の数字すべてを推論し、1つの修正を提供してくれたことは本当に魅力的でした。
2025年には、さまざまなモダリティが登場すると考えています。これまでテキストに加えて音声、ビデオ、画像があり、最新のモデルでは会話が可能で、画像を与えると画像を返してくれます。しかし、人間の5感以上の能力を考えると、最近ケンブリッジの研究者らが発表した「Well」という新しい科学データセットのように、超新星爆発、生物学的パターン、音響波伝搬、電磁流体力学などのデータセットがモデルのトレーニングに組み込まれることを期待しています。
私のヒューマノイドロボットには、特に料理をする際の温度感知や磁気センシング、標準的な5感以外の見えないセンサーなど、さまざまな能力を持ってほしいと考えています。2025年から2026年にかけて、標準的な大規模言語モデルを通じてこれらが実現されることを楽しみにしています。
つまり、感覚的な情報の範囲を広げているということですね。最初はテキストから始まり、画像、ビデオへと進み、今では嗅覚情報、化学物質、モーショントラッキング、熱赤外線イメージング、生体電気、地理空間データなど、テキストや画像、ビデオ以外にもトレーニングに使用できるデータが豊富にあるということですね。
その通りです。しばらくは標準的なテキスト入力とテキスト出力だけでしたが、2024年を通じて大きく分岐し、科学者たちが数十年にわたって記録してきた可能性のある異なるモダリティが10倍、1000倍に増える可能性があります。そのデータを直接入力できるようになるでしょう。
これらの巨大なデータセンターとスーパーコンピューターは、データセット自体がより多様化しても、依然としてこれらのモデルのトレーニングに使用されるということですね。異なるプラットフォームに移行するわけではなく、より多くの情報とトレーニングが必要だということですね。
その通りです。トークン化またはパッチ化できるデータであれば、どのようなものでも入力できます。GPT-1は書籍でトレーニングされ、GPT-2はRedditの人気リンク、GPT-3では可能な限り多くのテキストが使用されました。私が可能な限り詳細に文書化したGPT-5のデータセットには、多くの合成生成データが含まれますが、マルチモーダルになり、今議論したような例も含まれるかもしれません。データセットの追加は今や簡単ですが、大規模言語モデルが参照し、出力できる適切で有用なデータセットを見つけることが重要です。
エネルギーの側面についても議論していますね。現在、世界には約5,000のデータセンターがあり、その半分は米国にあります。最大の集中地域は北バージニアですが、テキサスを含め、米国中で新しいデータセンターが建設されています。先ほど話題に上がったイーロン・マスクのコロッサス・スーパーコンピューターはテネシー州メンフィスにありますが、グローバルにも拡大しています。これには大きなエネルギーフットプリントがあり、マスクは急速な立ち上げのために多くの天然ガスを使用しましたが、大手テック企業は信頼性の高いベースロード電源として原子力を検討しています。かなりの電力を消費していますね。
数年後にはこの話題自体が議論されなくなるかもしれません。現時点ではGPUやサーバーファームにエネルギーが必要ですが、o3や潜在的なAGI、人工超知能について話している中で、エネルギー不足がどれだけ長く話題になり続けるか疑問です。o4やo5モデルが新しい形のエネルギーを発見し、補充の必要がない一回限りのものかもしれません。太陽光でそのような例を見てきましたが、人工知能モデルを単なるテキスト入出力以上のものに活用し、発見や発明を生み出すことを楽しみにしています。次の数年でそれがどのように展開されるか追跡していきます。
その最有力候補は核融合エネルギーですね。それが一種の聖杯のように見えます。いくつかの進展は見られていますが、まだ商業的にスケーラブルなものはありません。多くの人々がそのようなエネルギーへの希望を託しているようですが。
100年以上前、より多くの餌を与えたり特別な訓練をしたりすれば、それが最速の馬への聖杯になると考えられていたかもしれません。しかしフォードが登場し、今ではKoenigseggやさまざまなスーパーカー、異なる形態の輸送手段があります。AIシステムが私たちが考えもしなかった全く新しい形のエネルギーを発見するまでにどれくらいの時間がかかるのか、本当に興味深いですね。核融合は素晴らしいですが、馬とスーパーカーを比較するように考えるべきで、それが私たちが間もなく期待すべきことだと思います。
先ほどFrontier Mathの試験について話したように、最高の数学者でさえ解けない問題をo3が想定以上のスコアで解決しています。数学や物理学、あらゆる分野でPhDレベルの科学者を上回る成果を上げているのであれば、今日の人間の理解を超えて革新や進歩をもたらさない理由はないですね。
その通りです。私はAGIトラッカーと同様に、世界で最も優れた人間を超えるレベルのAIシステムである人工超知能（ASI）のトラッカーも持っています。周期表に新しい元素を発見したり、新しい資源を見出したり、鉱業や輸送などの特定の物流部分を最適化するシミュレーションを提供したりすることを期待しています。最も優れた頭脳でもできないことを実現する、それがAIの目的であり、2025年にはその動きが見られるかもしれません。
可能性はありますね。まずAGIの100%に到達し、その後、技術的特異点の中に入り、私のお気に入りの上位50のASIマイルストーンをチェックしていくことになるでしょう。AGI、特異点、そしてASIへと進み、あなたや私、リスナーの皆さんがそれを経験できることになります。ありえない筋書きかもしれませんが、2025年に向けて私たちはここにいます。
2025年にASIを見ることができなくても、新しいブレークスルーや発見、イノベーションの可能性は確実にありそうですね。
その通りです。まだ実現していませんが、2024年に見てきたフロンティアモデルは化学者や数学者とのピアプログラミングやパートナーシップには役立っていますが、独自の新しいものは生み出していません。それが次のステップであり、今後数年で期待していることです。
科学的なブレークスルーや新素材の革新といった観点からですか？
そうですね。life architect.asiで完全なリストを公開していますが、私たちが考えもしなかったことかもしれません。新しい輸送手段や居住形態、なぜ私たちは地上にこのような形で住んでいるのか、なぜ仕事は一つの建物で、家は別の建物なのか、地球を根本的に変え、すべての人の生活満足度を向上させるような効率化や最適化はないのか。人間としては話すことさえ難しくなります。なぜなら、私たちには目の前にある種の超知能を理解する能力がないからです。これは課題の一部でもありますが、私にとっては間違いなく興奮の一部です。かつて私が働いていた神童や、これらのフィールズ賞受賞者、非常に賢い科学者たちのレベルを超えるものを目にすることができ、この特別なタイムラインの中で超知能が何を生み出すのか見ることができるのは本当に魅力的です。
o3は01と同様に、これまでの他のAI大規模言語モデルはもちろん、PhDレベルの専門家や人間全般を圧倒的に上回っています。私たちは前例のない領域にいて、2025年か2026年かは別として、この新しい発見やブレークスルー、イノベーションを目にするのは時間の問題ですね。
AGIカウントダウンの一環として、ソフトウェア面での理論的な進歩について議論しましたが、ハードウェア面でも大きな進歩がありました。AI駆動のヒューマノイドロボットや、その開発と進歩について話されていますが、現在見られる進展について教えていただけますか。
2024年のヒューマノイドの進歩は、私の期待ほど早くはありませんでした。おそらく期待が高すぎたのでしょう。OpenAIが支援するノルウェーの企業1Xから、Neoヒューマノイドロボットの動画がリリースされ、印象的でした。アパート内での人間との交流、クローゼットでの衣服の取り扱い、ケトルやコーヒーメイキング、キッチンや家中でのやりとりを示す動画が公開されました。TeslaのOptimusロボットも多くの注目を集め、イーロンは飲み物を提供し人々と会話するデモを行いましたが、その場合は遠隔操作で、人間がケーブルを通じてヒューマノイドロボットを操作していました。
これは西側世界の話ですが、中国は今年15から20の異なるヒューマノイドロボットを発表する可能性があり、勢いを緩めていません。彼らはヒューマノイドでリーダーになる可能性があります。製造能力と、米国の5倍の人口による頭脳を持っているため、非常に印象的なことを成し遂げることができます。1X Neoは私のお気に入りで、Tesla Optimusも上位にランクされ、中国から出てくるものすべてが私にとって魅力的です。
最後のリンクは、先ほど話したすべてのセンサーを備えたLLMをこれらのヒューマノイドロボットに接続することです。2025年にはそれを期待しています。音声や一部の動きについては、特にBoston Dynamicsのスポットロボットで実現されていますが、ヒューマノイドロボットに完全に組み込まれることを期待しています。OpenAI、Google、あるいは中国のAIラボのどこが最初に実現するか、見守っていきましょう。
つまり、間違っていたら指摘してください。ソフトウェア面では米国がリードしているかもしれませんが、ハードウェア面では中国がロボット工学で大きな進歩を遂げているということですね。
その通りですね。OpenAIは数年前にロボット工学部門を手放しました。ルービックキューブを解くなどの成果を上げていましたが、あまりにも難しいと考えたようです。その代わりにノルウェーの1Xとfigureラボの2つの主要なロボット工学ラボを支援しています。figureのo2は現在BMWの製造工場で自動車製造の支援に使用されていますが、どれだけ早く追いつけるかは分かりません。OpenAIが2025年に独自のヒューマノイドロボットを開発するという話もありますが、様子を見守る必要があります。中国が西側諸国を追い抜き、独自の大規模言語モデルに支えられたいくつかの選択肢を提供する可能性もあります。その大規模言語モデルは、多くの場合、OpenAIやGoogleから出ているものと同じレベルのパフォーマンスを発揮しています。
中国の興味深い点は、大きな人口減少に直面していることです。彼らは製造業大国としての地位を維持したいと考えていますが、労働力の高齢化が急速に進んでおり、過去数十年のような巨大な人口ブームに頼ることができなくなっています。そのため、製造業を維持するために、世界のどの国よりも積極的にロボット工学や自動化を拡大しようとしていますね。
確かにそう感じます。すべてのラボがAGIを積極的に追求していると言えますが、特に米国ではガバナンスによる制約や抑制があるかもしれません。AnthropicとOpenAIの両社が、大規模言語モデルのリリースを公開する前に政府のチェックを受けると述べているのを見てきました。中国には、特に米国に存在するような大規模言語モデルやヒューマノイドロボットの設計と展開に関する同様の躊躇はないように思います。
2025年と2026年に向けて、リスナーの皆さんが注意すべき大きなポイントの一つは、音声、ビデオ、テキストを超えて、嗅覚情報、化学、モーショントラッキングなど、より広範で多様なデータへのモダリティの拡大が次の大きなブレークスルーになるということですね。
締めくくりに、トンプソン博士、まずメモについて、そして登録方法について、リスナーの皆さんにもう少し詳しく教えていただけますか。
メモは3-4年前から執筆しており、2週間ごとに発行しています。最近、主要7カ国で構成される政府間組織G7のAI文書で取り上げられ、世界最大の研究所や企業で100以上の版が使用されており、フォーチュン500社の半数以上で活用されています。life architect.a/mでアクセスできます。
完璧です。このインタビューはFinancial senseで公開され、そこからリンクも張られます。世界有数のAI専門家・研究者であるアラン・D・トンプソン博士にお話を伺いました。メモをフォローすれば最先端の情報を得ることができます。トンプソン博士、ありがとうございました。今後またお話を伺えることを楽しみにしています。
ありがとうございました、クリス。
本日の議論についてどう思われましたか？フィードバックはFinancial senseの「Contact us」、または直接CIS（Chris@FinancialSense.com）までお送りください。また、FS Insiderについて、ソーシャルメディアでも是非共有してください。このポッドキャストは、Financial Sense Wealth Managementが提供する高額資産投資家向けの財務計画と資産運用サービスによってスポンサーされています。チームのメンバーとお話になりたい方は、858-486-3939までお電話ください。
FS Insiderのクリス・シェリダンがお送りしました。ご清聴ありがとうございました。
Financial Sense Newsは情報提供および教育目的のみを意図しており、証券の購入または売却の勧誘とみなされるべきではありません。Newsで議論または提示される投資、投資戦略、投資哲学にはそれぞれ固有のリスク要因が含まれており、それらについては番組内で議論されません。リスナーの質問に対する回答は、Financial Senseスタッフの個人的な意見に基づくものであり、リスナーの適合性、目的、またはリスク許容度を考慮していません。Financial Sense Newsとその親会社は、Financial Senseで言及された企業への投資や、Newsの資料の使用から生じる財務上の損失について責任を負いません。自己責任で投資することをご了承ください。