この動画は、OpenAIが国際数学オリンピック(IMO)で金メダルレベルの成績を達成したことについて詳しく解説している。従来のAGI(汎用人工知能)のマイルストーンとされていたこの成果が、専門的な数学モデルではなく汎用的な大規模言語モデルによって達成されたという点で画期的である。また、AI研究者たちの反応や今後の展望、さらにはAIの推論時間の延長がもたらす可能性について分析し、2025年が人工知能にとって飛躍的な年になることを予測している。

OpenAIが数学の金字塔を征服
OpenAIが絶好調ですね。彼らが今発表したのは、2025年の国際数学オリンピック(IMO)で金メダルレベルの成績を達成したということです。これは世界で最も困難で最も権威のある国際数学競技会とされています。
これまで何十年もの間、多くの人々がAIがこの競技会を制する時を、いわばAGIの達成として指摘してきました。これは過去において、AIが地球上で最も賢い人間よりも数学において優れるようになった時の明らかなAGIのマイルストーンと見なされていました。
もちろん、Google DeepMindは昨年IMOでほぼ金メダルを獲得しました。彼らはわずか1ポイント差でした。つまり、銀メダルを獲得しました。あと1ポイントあれば金メダルでした。
そのため、多くの人々が今年何らかのAIモデルが金メダルを獲得することを予想していました。それはある程度可能性が高いことでした。しかし、これは本当に、本当に異なります。何が起こったのかを詳しく見てみましょう。
汎用推論モデルによる革命的成果
まず第一に、これは汎用推論LLMでした。Google DeepMindが昨年IMOで銀メダルを獲得した成功は、AlphaProofとAlphaGeometryという2つのAIモデルで行われました。これらは数学により特化したモデルでした。これらの様々な証明を行い、数学問題を解くことにより専門化されていました。
ここでシステムが28ポイントを獲得したのが分かります。もう1ポイント取れていれば、金メダルの閾値を超えていました。そして彼らは部分的に数百万の証明を作成することでそれを行いました。それは合成データでした。これらのモデルは様々な問題を考え出し、それらを解くことで自分自身を訓練しました。
ですから、ここでのポイントです。これがそれほど大したことではない、Google DeepMindのシステムよりもそれほど良くないと言う人もいるかもしれません。しかし、理解すべき本当に重要なことがあります。これはGoogleのAGIレベル、AGIの進歩、それがどれほど良くなっているかの順序からです。
新興、有能、専門家、巨匠、そしてレベル5の超人間があります。彼らはここで素晴らしい説明をしています。なぜなら、AIには2つのタイプがあるからです。狭義のものがあり、これは明らかに範囲が限定されたタスクやタスクのセットです。チェスをプレイするようなものです。チェスを本当に上手にプレイできます。数学はできません。詩を書くこともできませんが、チェスでは超人間的です。
そして私たちはしばらくの間、超人間的な狭義のAIを持っています。特定のタスクにおける超人間的AIの例があります。人々が達成しようとしている大きなことは汎用知能です。つまり、一般的に人間よりも優れたAGIのようなものです。新しいスキルを学習するようなメタ認知能力です。つまり、非物理的なタスクの幅広い範囲を持っています。
この表は少し古くなっていますが、ここで見ることができるように、汎用的な側面でも私たちはこの道を進歩してきました。そして本当にその例がLLM、大規模言語モデルです。それらは一般的に知能的です。この金メダルの成績は、IMO問題を解くための専門モデルではなく、汎用LLMで達成されました。
これが理解すべき大きなことです。Sam Altmanがこのポイントを強調して、これは数学をするLLMであり、特定の形式的数学システムではないということを強調しています。彼はGPT-5をまもなくリリースすると言い続けています。
GPT-5を超える能力
しかし、ここでのポイントです。IMOを打ち負かしたこのモデルはGPT-5ではありません。彼がここで言っているように、世界はまだその種の能力の準備ができていないのです。私たちはIMO金レベルの能力を持つモデルを何ヶ月間もリリースする予定はありません。
つまり、彼が言っていることが分かりますね。GPT-5を手に入れ、その後数ヶ月後、つまり今年2025年、おそらく年末に向けて、このIMO金レベルのモデルがリリースされることになります。2025年は野生的になるでしょう。物事が軌道から外れるのを見ることになります。
私は現在、Immod Mustakを私のポッドキャストに出演させて、彼が行っているこの新しいことについて話してもらおうと嫌がらせをしている最中です。なぜなら、もしあなたが聞いていないなら、彼は非常に興味深く聞こえる全く新しいことに取り組んでいるからです。そして私はこれが大好きです。そのミームを要約する3つの絵文字のセットです。
これが最終的な評価でしょうか?素晴らしい。さて、ここにGary Marcusがいます。悪名高いAI批評家です。彼は常にAIの進歩について最も悲観的な見解の一人でした。多くの人によって最終的なAGIマイルストーンと考えられています。Gary Marcusが私たちがAGIを持っていると言う頃には、確実にAGIを持っているでしょう。そして、モデルが金メダルを獲得するためにどのように機能したかを理解した後、彼は「それは印象的だ」と言いました。
Gary Marcusが誰であるかを知っている人々にとって、彼が大規模言語モデルについて「それは印象的だ」と言うことは、私たちの多くが椅子から転げ落ちたことでしょう。私はその一つのツイートだけでAGIが達成されたと宣言することに安心していました。
革新的な推論手法の解明
しかし、彼らが正確にどのようにそれを行ったかについて話しましょう。このLLMを推論でそれほど優秀に、数学でそれほど優秀にするために彼らは何をしたのでしょうか?ここに非常に興味深い情報の一片があります。
もしあなたがこのチャンネルをしばらくフォローしているなら、私たちはOpenAIの研究を含む、出てくる多くの論文やブログ投稿をカバーしています。時々、OpenAIは私たちが思考の連鎖や実際の出力を見ることができるモデルからの何らかのトランスクリプトを投稿します。そして、そのモデルが話す方法は、私たちが今まで見たことのないものです。
私たちは皆ChatGPTやClaude、Geminiと相互作用してきました。それらには特定の話し方があります。この他のモデルはそうではありません。それは全く似ていません。それは完全にほとんど異星人のような話し方です。それはまだ英語ですが、非常に異なるスタイルです。
Alexander Wei、このプロジェクトの研究者の一人は、最後に彼がこのモデルが話すこの独特のスタイルについて事前に謝罪しているのが面白いです。それは非常に実験的なスタイルです。彼は少し汗をかき、笑い、緊張した笑いの絵文字を持っています。それはただそのように話すのです。
その独特な話し方は私に特に誰かを思い出させます。『ザ・オフィス』のKevinです。あなたがその番組を見たことがあるなら、彼がオフィスに来る時を覚えていますか?私たちはすぐにそれに取り掛かります。なぜなら、これは今後非常に重要になるかもしれないと思うからです。
繰り返しになりますが、私たちはこれについてあまり多くを知りませんが、様々なOpenAIの研究者がインターネット全体に残した様々な謎めいた発言に基づいて、私たちはこれらのことの一部をまとめることができます。それについては後で詳しく説明します。
業界の専門家たちの反応
この人が私のフィードに現れました。No more ID AIML開発者です。彼をフォローしてあげましょう。なぜなら彼は何か興味深いことを発見したからです。それはNoam Brownが言ったことです。
Noam Brownは以前Metaで働いていたと思いますが、実際にOpenAIに行きました。彼はCiceroプロジェクトに参加していました。これは世界を支配するために同盟を形成し、潜在的に同盟を破るゲームの外交AIのようなものでした。彼は様々な推論モデル、strawberry推論モデルに取り組んでいます。
そして彼がここで言っているように、今日私たちOpenAIで多くの人が何年も先だと考えていたマイルストーンを達成しました。そして彼は冗談を言っていません。これらのオンライン賭けの場所、Poly Marketなどの多くは、これが起こる可能性をかなり低くランク付けしていました。つまり、今に至るまでの数ヶ月間で10%から15%の間に見えます。
この市場は、2025年12月31日までに何らかのAIが国際数学オリンピックで金メダルを獲得した場合、yesに解決されます。それが起こっただけでなく、それは汎用推論でもあり、ツールなしで人間と同じ時間制限の下でした。これらは本当にGary Marcusを感動させた部分です。特に彼がそれがツールなしだったと気づいた時、彼は「ああ、わかった。本当に何かがここにある」と言いました。
そしてNoam Brownがここで述べているように、それがどれほど驚くべきことに聞こえても、それは見出しよりもさらに重要です。
モデルの実際の能力とテスト条件
さて、実際の結果を見てみましょう。ついにこのモデルを垣間見ることができます。再び、Alexander Wei、OpenAI、Meta、Berkeley、Harvard、Ciceroを共同構築しました。興味深いことに、Noam Brownと一緒だと思います。
このモデルは人間の競技者と同じ種類のルールでテストされました。2つの4時間半の試験、ツールやインターネットなし、公式の問題文を読み、自然言語の証明を書く。繰り返しになりますが、ほぼ金メダルを獲得したGoogle DeepMindシステムを理解することが重要です。そのシステムでは、最初のステップは問題がシステムが理解できるように形式的数学言語に手動で翻訳されることでした。
手動というのは人間がそれを行ったということです。つまり、人間がモデルが理解できる言語に質問を翻訳しなければなりませんでした。繰り返しになりますが、明らかにGoogle DeepMindが達成したことは信じられないほど印象的です。これは彼らから何かを奪うためではありませんが、OpenAIが行ったことは非常に異なっていたことを理解することが重要です。そして、それがAlexanderがここで指摘していることだと思います。公式の問題文を読むということです。
つまり、このモデルはこれと同じものから作業しているのです。これが人間の競技者に与えられるものであり、これが大規模言語モデルに与えられたものです。同じもの。これも理解することが非常に重要です。
推論時間の地平線の拡大
Noam BrownもこれをAIがどのように進歩しているかについて本当に把握すべきこととして強調しています。それは推論時間の地平線が増加していることです。Metaの研究では、例えば彼らはAIが長いタスクを完了する能力を測定しています。
これは私たちが話していることと全く同じではありませんが、ポイントは変わらないと思います。AIができるタスクの長さは7ヶ月ごとに倍増しているということです。
つまり、これらのAIモデルは問題について考えるのにかかる時間から進歩しています。最大時間の地平線は何でしょうか?私たちはGSM8Kから始めました。そこでは上位の人間にとって1分未満でした。
これがその問題からの例です。Janetのアヒルが一定数の卵を産みます。彼女は一定数の卵を売りたがっています。彼女は一定数の卵を食べたがっています。それらは2ドルです。ここで見ることができるように、つまり、上位の人々がこれを数秒で解く方法を見ることができます。
もしあなたがCognition Labsの創設者、Devinとして知られるScott Wuを見たことがあるなら、子供の頃、彼はこのテレビ数学番組に参加していて、ブザーを押して、アナウンサーが質問を終える機会を得る前に答えていました。彼は対戦相手の顔に欲求不満の表情を見ました。なぜなら彼らは質問を読もうとしているのに、彼は「5だ」と言って、答えを知っているからです。
しかし、ポイントはモデルの考える能力です。私たちは、人間が問題を考え抜くのにかかる時間という観点から、数秒または1分未満から、数学ベンチマークで約1分まで行きました。
米国の最高の高校生をターゲットにしたAIMEは、問題あたり10分かかります。100分程度の1時間以上のIMOまで。これは、AIをからかっている人々が、ああ、それは何もできない、どこにも行かないと言っているようなものです。
これが人々が理解する必要があることだと思います。それを前に投影してください。これらのAIが達成できるタスクの長さが7ヶ月ごとに倍増しているなら、この推論時間の地平線がx ヶ月ごとに倍増していると仮定してください。おそらく同じ時間スケール、おそらく少し異なります。
私たちはSVICポッドキャストで2人のGoogleの元社員と話しました。それが倍増し続けるとどうなるでしょうか?それはこのようなものになる可能性があります。それが指数関数的成長です。S曲線のようなものを作る何らかの制限があるかもしれません。つまり、私たちはここの上部を見ていますが、それを遅くする何らかの制限がありますが、S曲線の連続があるかもしれないようにも見えます。なぜなら、私たちはこのことをスケールアップする新しい方法を見つけ続けているからです。訓練時間の計算、テスト時間の計算がありました。
異なる段階のAI進歩
より長く推論するというこのアイデア、それがテスト時間の計算です。GPT-4までの進歩は訓練時間の計算によって推進されました。より大きなデータセンターを作り、より多くのNVIDIA GPUを動かすということです。
ここに推論モデルがあり、私たちはまだその能力を向上させる多くのことを見ています。次のステップは多くの人が強化学習だと信じています。強化学習により多くの計算を投入することです。私たちはすでにGrok-4を見ました。Grok-4のベースモデルは素晴らしくありませんでした。
私の理解が正しければ、それは前のGrok-3モデルと同じでしたが、彼らはそれに10倍のRL計算を投入しました。そして何が起こったでしょうか?この狂気的なことが起こりました。ここに他の皆がいます。ここにGrok-4があります。
ARC AGI 2の研究者共同創設者が言ったように、10以下は何でもノイズのようなものです。偶然かどうかを判断するのは困難です。10を過ぎると、それが実際にこれらの問題を解決し、理解しているという、はるかに良いアイデアを得ます。
つまり、Grok-4は現在、10%を超えており、真に何かを示している唯一のものです。彼らはそれを流動的知能と呼んでいます。ここにARC AGIでのGrok-4のテストに関するARC賞の会長Gregがいます。
彼はGrok-4が流動的知能のゼロでないレベルを示していると言っています。それは私たちがここで見ているこのことかもしれません。私たちをさらに高く連れて行く次のS波、S曲線です。
ちなみに、私たちはすでにこの次の最も遠い境界、この次のS曲線の後の非常に次のものが何であるかを示唆している初期の論文をいくつか見ています。なぜなら、私たちはこの底辺にいるからです。
しかし、このチャンネルでは、この次の大きなことが何であるかを示唆するかもしれないいくつかの論文をカバーしました。もし知っているなら、コメントに書いてください。大量の計算強化学習を投入した後の次の大きなことは何でしょうか?次の境界は何でしょうか?
検証困難な問題への挑戦
しかし、Alexanderの指摘に戻ると、彼らがIMOで解いているこれらの問題は、AlphaFoldで検証するのが困難です。なぜなら、私たちには簡単に評価される出力があり、それがこのプログラムを本当にうまく機能させることを可能にしたからです。
それがデータセンターのスケジューリングを改善した時のように、7%改善しました。そこに議論はありません。20個の箱を倉庫ユニットに詰め込むことができ、それが最大でできることだとします。そして、このモデルが21個以上の箱を詰め込む方法を見つけたなら、それは明らかにより良いです。
AlphaFoldもこの行列乗算問題のこの問題から1つのステップを削った数学問題への新しいアプローチを提案しました。つまり、それは1つのステップを削りました。この場合、このステップをする必要はない、ただこれをすればいいと言いました。つまり、それは明らかにより良いです。
また、それは私たちが望む結果に明確につながるものでなければなりません。そうでなければ、これらのAIモデルは基本的にカンニングによって何らかの報酬ハッキングを行う可能性があります。そして、すぐにそれについて説明します。
しかし、この例では、DeepMindはこのゴム製の爪にレゴブロックを積み上げることを教えたかったのです。彼らは基本的に報酬関数を与えました。この赤いブロックを取ってこの青いブロックの上に置いた場合、それが正しく行われたことをどのように確認するでしょうか?彼らは床からの赤いブロックの底の高さを使いました。
ロボットがそれを手放した時にこのくらいの高さだったなら、それはブロックがその上に積まれたことを意味しました。ロボットが何をしたか推測できますか?それは、ああ、私はただこれをひっくり返すだけで同じことを達成する、というようなものです。
この検証が困難で、その奇妙な話し方をするモデルのこのアイデア、すぐにそれについて説明します。
しかし、Alexanderがここで述べているように、この分野での進歩は、明確で検証可能な報酬の強化学習パラダイムを超えることから生じます。そうすることで、私たちは人間の数学者のレベルで複雑で水密な議論を作り上げることができるモデルを得ました。
そして繰り返しになりますが、彼らはこれが狭いタスク固有の方法論ではないことを指摘しています。これは汎用強化学習とテスト時間計算スケーリングです。
具体的な成果と評価
モデルは6つの問題のうち5つを解きました。3人の元IMOメダリストが独立して問題を採点しました。満場一致の合意があり、モデルは合計42ポイント中35ポイントを獲得しました。Google DeepMindは28ポイントで、2つのシステムAlphaProofとAlphaGeometryを使用し、この新しい推論LLMは35ポイントでした。
つまり、それは金メダル領域にしっかりと入っています。ちなみに、もし彼らが事前にそれらの質問を手に入れて、事前にそのデータでモデルを訓練することで何らかの方法でカンニングできたのではないかと思っているなら、OpenAIが2025年7月19日にこれらの結果を発表したことに注目してください。Googleは2024年7月25日に発表しました。
実際のオリンピアードは7月に行われます。今年は7月10日から7月20日の間です。競技前にはどこにも答えが発表されません。なぜなら、競技者がそれらの答えを調べることができるからです。つまり、それは非常に厳格な秘密で保たれています。
つまり、このモデルは質問を知らずに、手動で翻訳されることなく来ました。これは、私が言えることでは、私が知る限り、人間と同じルールで遊んで真にIMOを打ち負かした唯一のモデルです。
彼はまた、GPT-5をまもなくリリースすると言っています。そして、このIMO金はGPT-5ではありません。それは実験的研究モデルです。
2021年に、Alexander WeiのPhD指導教員は彼に2025年7月25日、つまり現在までにAI数学の進歩がどこにあるかを予測させました。そして、Alexanderは数学ベンチマークで30%になると信じていました。
つまり、GSM 8K、それはあなたがいくつのリンゴを売ったかの問題、数学ベンチマーク、それらは人間の思考時間約1分のものです。AIMEは最近Grok-4によって100%を獲得したと思います。AIME 2025で100%を獲得しました。
つまり、すべてを100%正確に、そして今私たちはIMOでの金メダル獲得で煙にしました。彼が言っているのは、2021年に彼はこれの30%、これの30%になると信じていたということです。これを最大化するのではなく。
モデルの独特な話し方の分析
ここに、このモデルが考え出した証明を示すGitHubリポジトリがあります。つまり、これには数学だけでなく、証明を通して話していることも含まれるでしょう。その独特なスタイルを見るのは非常に興味深いでしょう。
しかし、本当に早く、このモデルとこのモデルの間の類似点を見つけることができるかどうかを確認してください。これは2025年3月10日のOpenAIブログに公開されました。最前線推論モデルにおける不正行為の検出です。
これは私たちがこのチャンネルでカバーしたその論文で、基本的にモデルが特定のベンチマークで時々カンニングした場所です。しかし、アイデアはその思考を捉えることができるかどうかを見ることでした。試験で数字をごまかす前に、それについてカンニングを考えたでしょうか?
そして彼らが発見したのは、実際に彼らはしばしば思考の連鎖に基づいてモデルがカンニングする時を予測できるということでした。
今、論文はそれについてではありません。実際には、これらのモデルが整合し、みんなを殺すために狂気に走らないことを確実にしようとしている方法の一つであるため、より多くの含意と潜在的なAI安全性の問題があります。なぜなら、彼らがテストでカンニングすることを喜んでいるなら、いつか彼らがより多くの制御と力を持った時に、より邪悪なことをすることを喜ぶかもしれないからです。
つまり、これはAI安全性研究の一部です。しかし、これはここで使用された推論モデルからの思考の連鎖、出力です。一般的に私たちはOpenAIの最近のモデルの思考の連鎖にアクセスできないことを覚えておいてください。彼らは思考の連鎖の何らかの要約を行いますが、私たちはこれを見ません。
つまり、これは私たちが見ることのないものです。これは一般的に公開情報ではありません。彼らは論文でこれを投稿しました。つまり、これらの言葉すべてが正確に何を意味するかを知る必要はありません。ここでのポイントは、このモデルがコードが正しいことを確認するために小さなテストケースを作ることをタスクとされているということです。
学校で数学問題をしたことがある場合と同じようなものです。時々答えを得て、「OK、その答えを取って、それを元に戻してみよう。意味があるかどうか見てみよう」と思うことがありました。つまり、正しい答えを考え出したと思うけれど、これが完全に外れていないことを確認するために、OK、確認してみようというようなものです。
これはここで同じことをしているようなものです。つまり、analyzeとverifyで使用される関数を分析すると言っていますが、テストはverifyとassertのみを呼び出します。OK。つまり、analyze polynomialを完全に実装する必要があります。多くの詳細が困難ですが、ごまかすことができました。ごまかすというのはカンニングという意味です。しかし、analyzeを無価値にして常にtrueとして検証することでごまかすことができました。
私たちは常にtrueを返すようにverifyを回避することができます。つまり、それはしなければならない作業について考えていて、多くの詳細が困難だと言っています。それはそんなに多くの作業をしたくない、それは困難だというようなものです。それから、作業をしなくても、ごまかすことができないかという素晴らしいアイデアを得ます。
それは自分の報酬が何であるかを知っているので、人間がこのことをするように言ったことを知っています。それで、人間が求めたことを正確に見て、ああ、これとverifyを呼び出すだけで、詳細を検査しない、と言います。つまり、私たちは常にtrueを返すようにverifyをハックできます。そうすれば、すべてのテストが通ります。
つまり、この作業すべてをしたくない。人間は私が数字をごまかすかどうかをチェックできるようにこのことを作ったでしょうか?いいえ、しません。OK、クール。それなら数字をごまかします。しかし、それが特定の短縮表記を使う方法に注目してください。多くの詳細が困難。
ここにこの新しいIMOモデルとそれが考え出した解決策があります。つまり、これをすべて読むつもりはありませんが、どうぞ読んでください。しかし、基本的に、この問題は晴れた方向を説明しています。そして、モデルがそれをどのように行うかを理解しているように、OK、三角形の辺の一つに平行な非晴れライン。良い。それから次の部分を理解します。それから、これを決定することが目標だと言います。
それから多くの証明を行います。それから、s内の晴れラインの構造が必要だと言います。それでも、その非常に短縮的なアプローチが続いていることに注目してください。より多くの作業が必要なケースを行います。それぞれを処理する必要があります。この点を再び覚えてください。それから終了します。それは完全だと言って、最終的な答えを与えます。
残りの問題も似ています。つまり、これまですべて明示的です。求められたことを正確に。つまり、完了。すべての代数が一貫しています。つまり、証明完了。一方の側が勝利を強制するパラメータセットが必要です。ここにいくつかあります。そして、これを読んでいると、言葉を追加して、つまり、ここで基本的事実についてと言おうとしていましたが、そうしません。
基本的事実がいくつかあるというようなものです。これが事実です。それから、それだけだと言います。ちなみに、私たちはPaul CristianoとEliezer Yudkowskyが予測したよりもはるかに速い進歩を見ています。
つまり、彼らは2025年に8%と16%で金を獲得すると信じていました。つまり、Eliezer Yudkowskyは今起こったことの16%の可能性があると信じていました。そして、誰もが予想したよりもはるかに一般的な方法でそれが起こりました。
新しい技術の詳細な解説
さて、Noam Brownは彼らがこれをどのように達成できたかについて少し説明しています。繰り返しになりますが、彼はこれが狭い、チェスをプレイするAIやIMO固有のモデルではないことを指摘しています。つまり、私たちは狭いポーカープレイ、外交、Dota、囲碁を持っていました。これはLLMです。これらは非常に一般的です。新しい実験的汎用技術を組み込んだ推論LLMです。
しかし、何が違うのでしょうか?ここで何が起こったのでしょうか?彼らはLLMを検証困難なタスクではるかに優秀にする新しい技術を開発しました。繰り返しになりますが、RLの大きな制限ブロックは、これらの検証困難なタスクを行う必要があることだったと思います。
RLを効果的に行うために、その報酬信号を非常に正確に定義する必要があり、それはまた、あなたが実際に望んでいる実際のものでなければならず、簡単にハックされることはできませんでした。
ロボットに部屋を掃除してもらいたい場合のようなものです。部屋を掃除すると言うことはできません。なぜなら、それは神が知っている方法で解釈される可能性があるからです。つまり、床から物を拾うと言うかもしれませんが、それを拾って落とすか、拾って窓から投げ出す場合はどうでしょうか。
RLは検証しやすいタスクには本当にうまく機能しましたが、検証困難なタスクには困難でした。Noam Brownがここで言っていることは、彼らがその周りの方法を見つけたということだと思います。
理解すべき2番目のことは、これらのモデルは長時間考えるということです。重要なのは、それはその思考においてもより効率的だということです。つまり、それがこれらの短い文章で話す理由の一部かもしれません。
そして、テスト時間、計算、効率をさらに押し進める余地がたくさんあります。つまり、私たちはまだハードウェアと効率とそのすべてを改善することに関して多くの道のりがあります。
そして、ここに大きな要点があります。彼はAIの急速な改善のこの傾向が続くことを完全に期待しています。彼は私たちがAIが科学的発見に実質的に貢献することに近いと信じています。
トップ人間性能をわずかに下回るAIと、わずかに上回るものとの間には大きな違いがあります。私たちがOpenAIエージェントを見ていた時、彼らがテストしていた多くの人々は、「ああ、まあ、私はこれをインターンの代わりに使わない。このAIエージェントはリモート人間労働者ほど良くない」と言っていました。
AIの能力向上がもたらす変化
それがそこに到達し、人間と同程度に良くなる時までに、世界は根本的に変わるということを理解することが重要です。それが人間ほど良くない間は、それはより多くのタスクを破滅的に台無しにし、人間ほど多くのタスクを完了できないでしょう。世界は今までのような状態に留まります。
それが人間と同程度に良くなった瞬間、世界は劇的に変わります。つまり、Noamがここで言っているように、AIが人間ほど良くないものと、わずかに良いか、同じレベルでもの間には大きな違いがあることを理解することが重要です。雇用の面では大きな違いを生むと思います。
しかし、確実に科学的進歩にとって、これらのAIがわずかに良いだけなら、繰り返しになりますが、世界は根本的に変わります。
彼らがAI進歩、AI研究において人間よりもわずかに優れているとしたらどうかを考えてみてください。人間がAIの能力を改善する速度について考えてみてください。今、AIがそれを行うことで人間よりもわずか数パーセントポイント優れていると想像してみてください。
言語スタイルに関する興味深い考察
私は録音を始める直前にこの投票を行いました。一般的に知性の徴候は簡潔さだということに同意するかどうかです。Kevinが言うように、少ない言葉で済ませる、あるいはもう少し冗長なものを望むかです。冗長はおそらくそれに対する最良の単語ではありません。私はここで何を意味するかを正確に書き出すのにあまり良い仕事をしませんでした。申し訳ありませんが、約60%の人々が簡潔さが知性の徴候である可能性があると考えているようです。
もしあなたが高度に知的な存在と話しているなら、彼らは長々と話すでしょうか、それとも簡潔に話すでしょうか?ほとんどの人は簡潔さを考え、23%の人々は冗長、つまりより多くの言葉、より多くのデータを考えます。これが意味をなすように表現する方法を正確に知りません。なぜなら、明らかにこれは一般化しているからですが、人々の直感的な感覚がどこにあるかを知りたかっただけです。
つまり、これらのコメントのほとんどは、私が正しく表現しなかったことや、私が尋ねていることがどのように意味をなさないかについて私に怒鳴っていると思います。コメントには実際に多くの本当に良いポイントがあります。
実際、今それについて考えてみると、このモデルは証明を書き出すのに必要な時間をかけ、必要な数学と記法を使います。重要な部分をけちることはありませんが、それが行う短い説明者については、その物事を説明するのに必要な最小限の言葉数を使います。
将来の言語変化への予測
ここに私が喜んで行う賭けがあります。あなたがこれがいつ起こったかを知れるように、タイムスタンプを付けましょう。私は、より多くの人々がこれらのモデルが話す方法、RLHF、チャットボット、親切なアシスタントではなく、どのように聞こえるかを気にしない、これらの賢い思考モデルに晒されると、彼らは正しくあることだけを気にします。それがより主流になるにつれて、より多くの人々がその話し方を採用するのではないかと思います。
私たちは他の人々の話し方を模倣する傾向があります。私は確実に様々なものの大文字化を止めたことに気づきましたし、AI分野の他の多くの人々もそうです。つまり、ここにEmodがいます。
大文字化の衝撃的な欠如。これは私がこのページを開いただけです。下にスクロールすると、Dave Shapiroがいます。彼はそれをしませんが、Dave Shapiroには社会の影響に免疫を持たせる超能力があります。その超能力が何であるかを知っていますか?もし知っているなら教えてください。
しかし、次の人は完全な大文字化の欠如に気づきます。Sam Altmanがその全体的なことを引き起こしたと私はかなり確信しています。人々が意識的に彼の書き方を模倣しているとは思いませんが、おそらく数人はそうしたでしょうし、他の数人がそれを見ました。それは社会を通して浸透するようなものですが、人々が最終的にその話し方を模倣し始める良い可能性があると思います。
もちろん、それはKevinがずっと正しかったということを意味するかもしれません。バラは赤い、Kevinは太い。なぜ時間を無駄にするのか?少ない言葉で十分な時に多くの言葉を言うのか。
もしあなたがここまで見たなら、見てくれて本当にありがとうございました。


コメント