
10,987 文字

OpenAIの最新モデルo1が先週リリースされて、人間の知能に関するほぼすべての従来の上限テストとベンチマークを打ち破りました。あらゆる分野でPh.D.レベルの専門家を上回り、自己認識や推論のレベルを測る心理テストでも人間を上回る性能を示しています。
これは最先端の技術やで。ほとんどの人は人工知能がどれだけ速く、どこまで進化してるかまったく気づいてへんねんけど、今日はみんなに最新情報をお知らせしたいと思います。
今日のゲストは、AIの主要な研究者・アナリストの一人であるアラン・D・トンプソン博士です。彼は「ザ・メモ」を発行しており、AI、ロボット工学などに関する包括的な分析を提供しています。ほぼすべての主要な研究所、ほぼすべての主要な政府機関、そしてフォーチュン500企業の大半がこの分野の動向を把握するためにこのメモを購読しています。みなさんもlife architect.ai/oで購読できますよ。
アラン、今回のOpenAIの最新モデルo1についてあなたの考えを聞かせてください。最近、あなたのメモやYouTubeのライブストリームでかなり詳しく取り上げられてて、注目を集めていますね。その前に、あなたが最近ある研究論文で引用されたことについて少し触れたいんですが、それについて教えてもらえますか?
アランD・トンプソン: そうですね。アップルの最新AIモデルは、アップルインテリジェンスプラットフォームにリンクされたUIJEAというものですが、2024年9月にリリースされました。多くの大規模言語モデルを視覚化・図示するために、実際にメモを主要な情報源として使用しました。現在の大規模言語モデルをチャート化し、可視化して、自社のモデルと比較するのにメモを使ったんです。
つまり、これらの様々な大規模言語モデルに関するデータを提供し、それらを比較する際の厳密なデータと分析において、あなたはこの分野の第一人者の一人として認められているということですね。アップルが最近の研究論文であなたを引用したこと、スタンフォード大学の科学者との共著だったことも素晴らしいですね。
OpenAIの最新o1モデルについて議論するのは素晴らしいことです。あなたはこの分野の動向を常に把握されているので、さっそくですが、この新しいモデルについてのあなたの考えを聞かせてください。
アラン: これは大きなモデルやで、クリス。o1はOpenAIによると「OpenAI Model Number One」の略なんや。モデル名と番号を完全に一からやり直してるんや。これは全く新しいパラダイムやからな。
GPTモデルのことを考えてみよう。2018年までさかのぼるんやけど、OpenAIがGPT-1をリリースしたのは、GoogleがBertを独自のトランスフォーマーアーキテクチャーでリリースする直前やったんや。GPTは6年ほど続いたけど、OpenAIは「よし、このモデルを最初から推論させよう」と考えたんや。もっと時間をかけ、内部的な思考の連鎖や推論のスクラッチパッドを与え、考える時間をより多く与えるために、より多くの計算能力とお金をかけることにしたんや。
最近のメモの中で、このモデルがリリースされた後、あなたの人生の仕事を再評価する必要があると書いたそうですね。
アラン: そうや、公の場でそう言うたんや。クリス、僕のバックグラウンドはAIと人間の知能の両方にあるんや。1990年代の初めにはQBASICでAIチャットボットをコーディングしてたし、GEにアドバイスもしてたんや。「天才を解読する」っていうシリーズでは、6人の神童を見つけて、彼らがどうやってそこまで到達したかを探ったんや。中東・北アフリカ地域の才能ある家族の会長も務めて、神童やその家族と一対一で多くの時間を過ごして、能力からパフォーマンスへどう移行するかを調査してきたんや。
IQや知能という一般的な概念についてもよう知ってるつもりや。そこへo1モデルが登場して、IQテストのベンチマークを含むすべてのベンチマークを吹き飛ばしてしまったんや。これは本当に衝撃的なことやで。
MLUベンチマークの作成者であるダン・ヘンドリック博士の言葉を一つ紹介させてもらうわ。彼はモデルのための大きなベンチマークテストであるMMLUと、もう一つのベンチマークであるMathMatの両方を作ったんや。彼は数日前にReuters通信にこう語ったんや。「o1は最も一般的な推論ベンチマークを破壊した。もう潰れてしまった」って。これは私が「人生の仕事を再評価する必要がある」と言った数日後のことやったんや。
これらのモデルのパフォーマンスは誇張できへんし、過大評価もできひんのや。o1プレビューとo1ミニは、非常に特殊な推論タスクでPh.D.の人たちをも上回るパフォーマンスを示してるんや。論文を書いたり、物理学や数学に飛び込んだりするようなタスクでもな。これは完全に新しいパラダイムやで。OpenAIが言うように、この新しいモデルは「考え、推論する」能力を持っているんや。これは哲学的に考えると本当に興味深いことやな。
ベンチマークについてもう少し詳しく教えてください。MMLUとMathのベンチマークの開発者が、それらが「破壊され、粉砕された」と言ったそうですが、一般的に以前のモデルと比較してどうなのか、o1モデルはどの辺りに位置しているのか教えてください。あなたが作成した視覚化資料、チャートもこのインタビューが掲載される場所に投稿しますので、o1モデルが他のモデルと比較してどこに位置しているのか理解する助けになると思います。
アラン: o1以前は、最先端あるいは最高性能のモデルはAnthropicのClaude 3.5 Sonnetやったんや。GPQAテストで相当高いパフォーマンスを示してた。あんまり専門用語は使いたくないけど、これは現在最も広く受け入れられている、Ph.D.によって設計された最も難しいテストなんや。Claude 3.5 Sonnetは標準のテストで59.4%を達成したんや。
そこからo1では、Sonnetの59.4%から78.3%に上がったんや。これは以前の最先端から大幅な飛躍やで。MLUでも同じように7%の向上が見られた。これらの様々なベンチマークについて言えば、これらはAIに挑戦し、互いにどこに位置するか、また人間との相対的な位置を見るために開発されたテストなんや。
先ほど言ったように、このo1モデルは、Ph.D.レベルの専門家を完全に上回るパフォーマンスを示しているんや。それも、今話した2つのベンチマークやテストだけやなく、すべての分野でや。試験、一般的な推論、記憶力はもちろん、トリビアや数学でも特に高いパフォーマンスを示してる。常識的推論、理解力、意味的関連性など、o1に投げかけるどんな問題も解決できるように見えるんや。
私も難しい問題をいくつか投げかけてみたけど、まだ解決できないものは見つかっていないんや。私のバックグラウンドを考えると、解決できない問題を提供できると期待してたんやけどな。実際、私のAIプロンプト、つまり8月に設計したばかりのプロンプトで100%のヒット率を記録したんや。それが今や9月2024年には既に破られてしまったんや。
ライブストリームやメモで言及されていたように、あなたのAIプロンプト、つまりあなた自身が開発した様々な質問やプロンプトは、これらのAIモデルをテストして、どのレベルの知能と複雑な推論を示すことができるかを見るためのものですね。最後のモデルは6つのうち2つしか正解できなかったのに対し、o1は100%正解したということですね。
アラン: そうや、その通りや。Claude 3.5 Sonnetは5問中2問正解で、6問目はボーナス問題やったんやけど、o1はそれらを100%クリアしたんや。隠れた思考の連鎖、つまり推論のスクラッチパッドを見ると、シナプス内のさまざまなデータセットや知識ベースにアクセスして、かなり難しい問題をステップバイステップで解決していく様子が分かるんや。100%のヒット率で解決してるんやで。
これは重要な質問やと思うんやけど、今議論しているこのモデルや、それ以前の大規模言語モデルの圧倒的なパフォーマンスについて、みんなが頭を悩ませるべきやと思うんや。あなたが開発したこれらの問題、5つの問題とボーナス問題、これらはウェブ上で利用可能な問題ではないですよね。つまり、o1はこれらの問題に以前出会ったことがないはずですよね?
アラン: そうや、その通りや。これらのテスト問題は3〜6ヶ月ごとに設計されてるんや。Google検索からは隠されていて、他のモデルにも与えられてへん。今回はClaude 3.5 Sonnetには見せたけどな。o1は100%のヒット率で推論できたんや。これは珍しいことやで。正直、来年までは解決されへんやろうと思ってたんや。
私のプロンプトは、かなりシンプルに設計されてるんや。5つの質問をモデルにすぐに実行させて、他のモデルと比較してどの位置にあるかをすぐに判断できるようにしたいんや。明らかにo1はここでピークパフォーマーやな。
プロンプトやテスト項目の設計に関する私の哲学は、現在の他のベンチマーク作成者と同じや。インターネットは見えない、Google検索できない、学部レベル以上の設計でなければならない、つまり今はPh.D.レベルの設計でなければならないんや。単純なトリッキーな質問やWikipediaのような質問ではダメなんや。
今や、ピークレベルの人間によって設計されなければならない段階に来てるんや。それは私やないけど、これを解決しようと本当に頑張ってる人たちがたくさんおるんや。4年前、MLUやGPQA評価の作成者たちが言うてたんや。「博士レベルの人間に、別の博士レベルの学生や人間が検証するのが難しいような質問を設計させよう。でも、各質問が検証されていることを確認しよう」って。そして、そのベンチマークスイート全体がo1によって解決されてしまったんや。
私たちは本当に難しい状況にあるんや。今や、人間が設計できるテストの上限に達してしまって、AIが解決できないようなものはもうないんや。実際、o1のようなモデルに対して、十分にスマートな問題を設計できる人間がもういないんや。このモデルは今後も進化し続けるだけやで。ほぼ線形的に進化していくんや。これは本当に革命的なことやで。
あなたが言ったことを聞いて笑ってしまいましたよ。私たちはもう、o1でさえテストするのに十分難しい問題を開発できるほど賢くないんですね。今や、AIに他のAIやo1自体にテストを開発させる必要があるということですね。
アラン: そうや。でも、その難しさは、その質問が正しいかどうかを誰が検証するかってことなんや。これは人類にとって本当に興味深い問題になるやろうな。
o1の作成に携わったOpenAIのGnome Brown博士の言葉を引用させてもらうわ。彼はこう言うてるんや。「このモデルに新しいがん治療薬や画期的なバッテリー、画期的なエネルギーを含む古い数学や物理学の問題の証明を推論させてみたらどうやろう」って。それは全然ええんやけど、AIが解決したとして、それが正しいかどうかをどうやって知るんや? これは今、人類が抱える本当に興味深い問題なんや。
o1が今やすべてのベンチマークやテストの上限に達して、あなたが言うたようにあらゆる分野でPh.D.レベルの専門家を上回っているという状況を見ると、私たち人類はもう「よし、テストに合格した。超知能やな」って認めて、様々な問題に取り組ませるべき時期に来てるんやないかって気がしますね。
アラン: その通りや。それが今まさにOpenAIが研究室でやってることやと確信してるわ。一般の人々、私も含めてやけど、o1プレビューにはアクセスできるけど、o1の完全版モデルへのアクセスはないんや。もちろん、資本主義的なビジネスやエンタープライズであるOpenAIなら、おそらく内部でモデルを走らせて、ソフトウェア開発者の代替にしたり、人類全体の利益になるような問題を解決したりしてるやろうな。ただ、私たちにはまだそれが見えへんだけやね。彼らが何十億ドルものスーパーコンピューティングハードウェアを使って今やっていることは、きっと魅力的なものやろうな。
これから見られるアプリケーションの数は本当に驚くべきものになるでしょうね。私たちにはまだ、これがどのように使われるのか、すべての方法を想像することさえできません。今後数年間でこれが展開されていくのを見ることになるでしょうね。
さて、少し前に話題に出たことに戻りたいんですが、このo1モデルの大きな性能向上を達成するために、「思考と推論」を示し、処理時間も少し長くなっているということでしたね。この追加の計算にかかるコストはどのくらいなのでしょうか?
アラン: 2018年のGPTモデル、Bertモデル、その他のトランスフォーマーモデルから始まって、トレーニングへの投資、つまり資本的支出と、プロンプトと応答への投資、つまり推論と呼ばれる運用費用を見てきたんや。
一般的に、投資はすべてこの資本的支出側にあったんや。最先端モデルのトレーニングに何億ドル、今や何十億ドルも費やしてるのを見てきたんや。これは、おそらく6万年相当のトレーニング時間をかけて、モデルにさまざまな概念、文章、データセットを見せる時期やね。
そして、それがブラックボックスに入って、質問や回答で問い合わせができるようになる。質問1回につき1セントくらいで問い合わせができるんや。これが運用費用や。非常に大まかな数字やけど、質問1回につき1セントやね。
ここ数年で見てきたのは、最初はGoogleの研究から始まって、今はAnthropicやOpenAIが推論の計算をスケールアップすることを検討してるんや。「トレーニングに10億ドル使った。質問するのに1セント使ってる。質問するときに10セントか15セント使って、脳内でその資料をもっと長く練らせたらどうやろう」ってな具合やね。
これがまさに私たちがやったことなんや。10倍長く考えさせると、確かにその運用費用は10倍になるけど、パフォーマンスも10倍以上に向上するかもしれへん。これは本当に興味深いことやと思うわ。
多くのビジネスマンは「なんでもっと早く思いつかへんかったんや?資本的支出も運用費用もあるんやから、運用費用にお金をかけ続けるのは全然ええやないか。むしろ資本よりも運用にお金をかける方がええかもしれへんな」って思うかもしれへん。
でも、これは新しいことなんや。人工知能の大規模言語モデルの世界で初めて行われたようやね。o1は本当にこれを徹底的にやってるんや。
資本的支出にそれほど費やしてないかもしれへん。私には、o1モデルはGPT-4oに強化学習を追加しただけのように見えるんやけどな。でも、質問するコストは確実に増えてるんや。
例えば、GPT-4が po.com で650クレジットかかったとしたら、o1は質問するのに1万クレジットかかるんや。OpenAI API経由でも同じことが言える。これは公式の数字やけど、GPT-4oは100万アウトプットで15ドルかかる。o1は60ドルかかる。4倍の増加やね。
これは、大量のテスト時間や推論計算を許可したからや。200秒、300秒と長い時間考えて、完全なPh.D.の論文を一から書くような驚くべき回答ができるようになったんや。
あなたが指摘されたように、o1はより計算集約的で、計算コストが高くなっていますね。そして明らかに、そこから得られる結果ははるかに優れているわけですね。
アメリカは世界最大のデータセンター市場で、データセンターの数では他のどの国よりもリードしていますよね。バージニア州に住んでいる人は、もう今では街角ごとにデータセンターがあるって文句を言うくらいです。
他の多くの企業もこのo1モデルやOpenAIのやり方に収束していくとしたら、この計算集約度に対応するために、さらに多くのデータセンターが必要になるということでしょうか?
アラン: そう思うけど、この知能の爆発的な成長が、あらゆるレベルで大規模な効率化につながることも考えてみてな。トレーニングの効率化もあるやろう。10億ドル使っても、30億ドル分の価値が得られるかもしれへん。
推論の部分、つまり運用費用の部分でも効率化があるやろう。今日は15セント使ってるかもしれへんけど、エネルギー効率などの向上で、実際にAIが私たちに与えてくれた効率化によって、それを下げられるかもしれへんな。
ここで2つ注目すべきことがあるわ。まず、BlackRockとMicrosoftが最近パートナーシップを結んで、今後数年間で最大1000億ドルをデータセンターに投資する計画を立てているんや。Microsoftだけでも、OpenAIのために別の1000億ドルのスーパーコンピューターを開発しようとしてるんや。これは本当にMicrosoftだけの話やけど、OpenAIやBlackRockの関連もあるんや。
次に、イーロン・マスクのxAIを見てみ。彼らは巨大なデータセンターの電力供給のために原子炉を使おうとしてる。AnthropicがAmazonと何をしているか見てみ。Oracleが数十億ドル規模のデータセンターで何をしているか見てみ。これらすべてが本当に大規模なんや。
確かにそうですね。市場への影響という観点から大きな視点で理解しようとすると、もちろん半導体企業やデータセンターの構築に多額の投資が行われてきました。
これらの大規模言語モデルを追跡し、以前に上限に達したと考えていた人がいたとしたら、今回のo1モデルで新たな上限に達したことが分かりましたね。つまり、私たちには全く新しい性能範囲が開かれたわけです。
これは、他の企業もさらに多くのデータセンターを構築し続けたいと思うことを意味するように思えます。質問は、これをスケールアップする上での限界にいつ達するのかということですね。エネルギーはもちろん懸念事項ですが、あなたが認めたように、多くの企業が今や原子力を使ってこれらのデータセンターの一部に電力を供給することを検討しています。
おそらく、この進歩を遅らせる大きな要因の一つは政府の介入かもしれません。もし彼らが「おっと、人類へのこれらのリスクを見ると、私たちが注意を払うべきものがあるようだ。これを全部遅らせよう」と言い出したらね。
アラン: これを印刷したり声に出したりするべきかどうか分からへんけど、政府や軍がシリコンバレーで起こってることにマンハッタン計画的なものを持ち込んでへんことに本当に驚いてるんや。
Google、Microsoft、OpenAI、Anthropic、Meta、Amazon、xAI、みんなが核の脅威よりも大きなことをしてるんや。悪い意味でも良い意味でもな。今や、がんを解決したり、完全に新しい安全なエネルギー源を開発したり、教育や医療、健康、経済全体を完全に変革したりする可能性があるんや。
これは単なるツールやない。人工知能ははるかにそれ以上のものや。文字通り、人間よりも賢い新しい形の知能を生み出しているんや。過去4年間、政府がこんなに懸念すべきことに対してこんなにも遅れを取っていることに、私は驚き続けてるんや。
もちろん、サンフランシスコの大手研究所だけやないってことは言っておくべきやな。ロンドンのDeepMindもあるし、北京だけでもBaidu、01、Alibaba、Tencent、ByteDance、JD.comなど、バイデン政権に答える必要のない巨大な研究所がたくさんあるんや。他の国々がAIを大規模に扱っていることさえまだ触れてへんしな。本当に面白い時代に生きてるんやな。
そうですね。もちろん、この分野の政策、つまり大規模言語モデルの構築に関しては、ある意味で様々な国々の間で競争的な軍拡競争が行われているのを見ることができますね。特にアメリカと中国、そしてもちろんヨーロッパも。
本当に興味深い展開を見ているわけですね。あなたが今日議論してくれたように、機会とリスクの両面で、これから興味深い時代が待っているということですね。
最後に、今あなたが特に注目していることで、今日のインタビューを締めくくる前に聴衆に伝えたいことはありますか?
アラン: 本当に次の数ヶ月に興味があるんや、クリス。OpenAIのCEOがつい数時間前に非常に率直に語ってたんやけど、このモデルの進化は続くって。1ヶ月ごとにo1の新しいリリースが見られると予想してるんや。
まだGPT-5は出てへんけど、2024年末までには出ると予想してたんや。実際にはGPTモデルを飛び越えて、これがGPT-5になるかもしれへん。その組織の秘密主義のせいで確かなことは言えへんけどな。
でも、一部の人が行き詰まったと思ってた大規模言語モデルが、この発見と実装によって完全に変革されたのを見てるんや。次のClaude、次のGemini、次のLlamaのバージョンも注目してるわ。ここには遊べるモデルがたくさんあるんや。
今日現在で421のモデルがあるのを見たいなら、life architect.ai/ods-tableにそのテーブルがあるよ。
再び、アラン・D・トンプソン博士にお話を伺いました。彼はAI分野での最も重要な研究者・アナリストの一人です。彼が発行する「ザ・メモ」は、ほぼすべての主要なAI研究所、ほぼすべての主要な政府機関、フォーチュン500企業の大半に配信されています。最新情報を知りたい方は、life architect.ai/memoで購読できます。
アラン・D・トンプソン博士が今日教えてくれたように、OpenAIの最新o1モデルは、私たちがAIに対して作成できるほぼすべてのテストとベンチマークで上限に達しました。あらゆる指標、科目でPh.D.レベルの専門家を上回り、ほぼすべての分野で人間を上回っています。つまり、もはや私たちはAIの知能レベルをテストする問題を開発できるほど賢くないということです。
また、自己認識のレベル、心の理論、感情的推論、メタ認知(つまり思考についての思考)を測る心理学的な試験でも、AIは今や人間をも凌駕するパフォーマンスを示しているんです。
私はこのことについて多くの人と話をしてきましたが、ほとんどの人が今私たちが目の当たりにしていることを全く認識していないと断言できます。政府で働いている人々も含めてです。
だから、集団的な目覚めと現実の再調整が起こる前に、どのような高度な出来事が起こる必要があるのか考えるのは非常に興味深いですね。
ご存じのように、人間の認知は新しい情報に対して段階的に調整されるわけではありません。多くの場合、私たちの内なる現実モデルの外に存在するものを排除し、十分な量の繰り返しや大規模な質的相互作用によって、以前から深く保持されていた仮定が取り除かれた後でのみ調整されるのです。
今日議論したこと、そしてAIが毎年いかに急速に進歩しているかを考えると、私たちはそのような性質のイベントをますます目にすることに近づいているのではないでしょうか。
今日は議論しませんでしたが、確かに私たちの番組の主要なテーマに沿っているのは、超知能AIを金融市場に解き放った時に何が起こるかということです。
私たちは既に高頻度取引で、これが今日の市場での取引全体のシェアを支配しているのを見ています。しかし、これはダニエル・カーネマンのシステム1レベルの知能、つまり自動的で、稲妻のように速く、パターン認識に基づいたものに近いですね。
私たちが今開発したのは、システム2レベルの知能、あるいはシステム2の超知能と呼ぶべきもので、批判的思考、論理、複雑な問題解決や分析が行われています。
その場合、OpenAIのo1モデルに見られるようなシステム2レベルの超知能は、ジョージ・ソロスが1992年にイングランド銀行に対して行ったように、一国の金融政策に対して10億ドルの賭けをし、それによって政府や中央銀行を屈服させる能力を持っているのでしょうか?
ソロスの「世紀の取引」は、彼に「イングランド銀行を破った男」というあだ名を与えました。おそらく次にこのようなことが起こるとすれば、「○○の銀行を破ったAI」とか、銀市場を独占したAIとか、過去に伝説的なトレーダーたちが成功裏に実行してきた他の様々な戦略を実行するAIになるかもしれません。
もしかしたら、これらのことが荒唐無稽に聞こえるかもしれません。しかし、多くの大手銀行や投資機関が既に積極的にビッグテック企業と協力し、大規模言語モデルを自社の業務に統合していることを念頭に置いてください。
これは単に顧客サービス、不正検出、リスク管理といったものだけではなく、洗練された取引戦略にも及んでいるのです。
このように強力なシステムがあれば、確かに多くの機会とリスクが生まれます。以前にも言ったように、私たちがいかに賢く特別な存在であるかについての私たち自身の精神モデルは、おそらく今後数年間で少し再調整を受けることになるでしょう。
今日議論したことについてもう少し調べたい方のために、このインタビューが掲載されているFinancial Senseのページにリンク、チャート、記事のリストを用意しています。ぜひ目を通してみてください。
今日アラン・D・トンプソン博士と議論したことについて、フィードバックや質問がある方は、chrisf@financialsense.comまでメールを送ってください。または、Financial Senseのウェブサイトにアクセスして、「Contact Us」をクリックしてメッセージを残すこともできます。
FS Insiderのクリス・パペトゥです。ご視聴ありがとうございました。
Financial Sense Newshodあくまで情報提供および教育目的のものであり、証券の購入または売却の勧誘と見なすべきではありません。Newshourで議論または紹介される投資、投資戦略、投資哲学にはそれぞれ独自のリスク要因があり、番組内では議論されていません。
リスナーからの質問への回答は、Financial Senseのスタッフの個人的な意見に基づいており、リスナーの適合性、目的、またはリスク許容度を考慮していません。Financial Sense Newshourとその親会社は、Financial Senseで言及された企業への投資や、Newshourの資料の使用から生じる金銭的損失について責任を負いません。
自己責任で投資することをお勧めします。


コメント