o3: AGI(および開発)の限界に挑む

10,531 文字

o3: Pushing the boundaries of AGI (and of coding)

As part of its “12 days of OpenAI”, OpenAI announced the new o3 model. This model has surpassed previous records in reas...

みなさんこんにちは。OpenAIの新しいo3モデルはテクノロジー界に衝撃を与え、その能力は飛躍的に向上しました。多くの人々が、これはAGI(人工汎用知能)なのか、あるいは人間の知能と同等なのかと疑問を持っています。o3がAGIに該当するかどうかはともかく、人間の推論に大きく依存するソフトウェアエンジニアリングのような分野を破壊的に変革することは確実です。これは仕事の未来、そして人類にとって何を意味するのでしょうか。詳しく見ていきましょう。
このビデオは3つのパートで構成されています。指数関数的な進化、汎用性の問題、そして開発者たちが懸念を抱く理由です。
パート1: 指数関数的な進化
o3は、OpenAIによる思考連鎖推論に基づく最新モデルです。まだ一般公開はされていませんが、発表され、ベンチマークも公開されています。o1の次のモデルがo2と呼ばれるべきだと考えた人も多いでしょう。しかし、イギリスの通信事業者O2(おそらく酸素にちなんで名付けられた)との潜在的な競合を避けるためだったようです。つまり、またしてもOpenAIのネーミングには改善の余地がありました。
o1を選んだ時点で、o2の存在を計画し、Googleで検索してo2が既に存在するかどうかを確認すべきだったと思いますが、そうはなりませんでした。o3は、OpenAIが12月にマーケティングの一環として行った「OpenAIの12日間」の最後に発表されました。初日にOpenAIはo1の完全版とo1 Proを一般公開しました。つまり、基本的に前世代のo1が一般公開されると同時に、次世代のo3が発表されたということです。OpenAIは常に内部的に1世代先を行っているということですね。
しかし、具体的な部分には興味深い点があります。o1は発表と同時に急いでリリースされました。実際にはo1プレビュー版を一般公開しましたが、o1プレビューを公開する前の安全性テストを完了させるのに数週間しかありませんでした。おそらく会社はo1プレビューでリスクを取ったのでしょう。しばらく何もリリースしておらず、OpenAIへの評価が下がっていたため、完璧でなくても公開しようと決めたのでしょう。
しかし今回のo3では、チームはより多くの余裕を持たせています。モデルは発表されましたが、何も公開されていません。実際には、安全性研究者(私も含めて欲しいところですが)が数ヶ月かけてモデルを実験できるようにしてから、一般公開される予定です。これはより合理的なスケジュールであり、OpenAIが主導権を握っていると感じている時に何ができるかを示す例だと言えます。しかし、繰り返しになりますが、o1とo3の間はわずか3ヶ月でした。AIの時間スケールでも極めて速いペースです。
OpenAIは、このような規模の拡大が続けられると考えています。実際、私たちはかなり長い間、AIの進歩の指数関数的な曲線上にいました。AIラボが利用可能なすべてのトレーニングデータ、基本的にはインターネット全体を使い切り、さらなる拡大の方法が見えなくなったときに一時的な停滞期がありました。それが、OpenAIが後れを取っているように見えた時期で、そのためo1を急いでリリースしたのです。
この新しいパラダイムを思いつくのに、実はそれほど時間はかかりませんでした。当初は「ストロベリー」と呼ばれていて、私もそれについての動画を作りました。上のリンクで確認できます。一時的な停滞期があったにもかかわらず、私たちは依然として指数関数的な上昇傾向にあります。これは、LLMにとってできる限り難しくなるように明示的に設計されたArcというベンチマークにおける、様々なフロンティアモデルのパフォーマンスを示すグラフです。
そのため、GPT-4以前のすべてのモデルがこのベンチマークで最大でも5%のスコアしか達成できていないことがわかります。o1は30%前後、o2は80%に近い範囲にあります。言い換えると、ここでの問題の大半がここ3ヶ月で解決されたということです。あるコメンテーターが言ったように、o3モデルは最低でもo1のパフォーマンスを3倍に引き上げました。
このグラフについては次のセクションでさらに詳しく説明しますが、今のところ誰もが明確な疑問を抱いています。これはAGIなのか？o3は人工汎用知能、つまり人間と同じくらい賢いAIなのか？そしてそれに関連する重要な問いとして、o3は一般的なソフトウェア開発にどの程度の影響を与えるのか？これら2つの主要な問いについて、次の2つのパートで取り上げていきます。
パート2: 汎用性の問題
先ほど簡単に触れたグラフに戻りましょう。このグラフはArc AGI、時にはArc AGI1と呼ばれるベンチマークからのものです。2番目や3番目のバージョンも開発中だからです。この問題は、視覚的推論に基づいているため、大規模言語モデルにとって解くのが難しくなるように設計されています。このベンチマークでの一般的な人間のスコアは約85%ですが、o3は最高の計算レベル、つまりモデルに大量のGPU時間が与えられた場合、87.5%を達成しています。
つまり、人間には簡単で機械にはほぼ不可能なはずのこのベンチマークで、人間レベルのパフォーマンスを超えているのです。ここでの一般的な傾向は、o1、特にo3が推論が非常に得意だということです。そのため予想通り、AIMIMと呼ばれる非常に難しい数学コンペティションのベンチマークでは、o1が83.3%、o3が96.7%を獲得し、1問しか間違えていません。
同様に、博士向けの高度な技術的質問では、人間の博士は通常このベンチマークで70%を獲得しますが、o1は78%、o3は87.7%です。つまり、推論能力の明確な証拠があるわけです。しかし大きな問題は汎用化です。AIシステムは新しい種類の問題や新しい領域にどの程度うまく汎用化できるのでしょうか？結局のところ、それがAGIの本質であるはずです。汎用可能な知能です。
問題は、「AIはXができないからAGIではない」と常に言う人がいるということです。そして私たちがAIの発展を見てきたように、AIは一部の分野では人間よりもはるかに優れており、他の分野では人間の方がはるかに優れているということがよくあります。そのため、AGIについてのコンセンサスを得るのは非常に難しいようです。これは曖昧な定義であり、ほとんどの人が同意するような段階をはるかに超えても反例が存在する可能性が高いでしょう。
実際、AIを開発している組織はこれに関して既得権益を持っています。もちろん、AGIに到達したと主張することに既得権益があると思うかもしれませんが、実際はその逆です。OpenAIはAGIに到達したと主張したくありません。なぜなら、それは投資家との関係に影響を与えるからです。具体的には、AGIに到達したと言った時点で、マイクロソフトは彼らの技術へのアクセスを失うことになります。
これは、OpenAIが非営利で世界のために良いことをしようとしていた時には理にかなっていました。しかし、今や完全な会社になりつつある彼らにとって、これは本当の利益にはなりません。そのため、マイクロソフトとの契約からこの条項を削除しようとしていましたが、まだ実行していません。今のところ、単にAGIを達成したと主張しないことで、その時期を先延ばしにするでしょう。
先ほど示したグラフのArcベンチマークの作成者についても触れたいと思います。彼は実際、OpenAIが発表を行った際にサム・アルトマンらとライブストリームに出演しました。次のベンチマーク、Arc AGI2はOpenAIとのパートナーシップで開発される予定のようです。つまり、作成者はもはや利害関係のない第三者ではありません。o3がAGIだとは言えないのです。実際、彼らの組織のプレスリリースの冒頭では、o3はAGIではないと述べています。
しかし、少し下の方には次のような引用もあります：「OpenAIの新しいo3モデルは、新しいタスクに適応するAIの能力における大きな飛躍を表しています。これは単なる段階的な改善ではなく、真の breakthrough（画期的進歩）であり、LLMの以前の限界と比較してAIの能力に質的な変化をもたらしています。o3は、これまでに遭遇したことのないタスクに適応できるシステムで、Arc AGIの領域で人間レベルのパフォーマンスに近づいていると言えます。」
人間レベルのパフォーマンスが「議論の余地がある」とされている唯一の理由は、通常のo3が実際には85%を下回るスコアを記録し、85%以上を達成するために大量の追加計算が必要だったからだと思います。
そのため、OpenAIやベンチマーク作成者がAGIについて何を言うかを信頼するのは難しいです。なぜなら、彼らはAGIが決して到来しないようにする動機付けを持っているからです。では、実際に私たちが持っているものは何でしょうか？
もちろん、多くのタスクで人間を超える能力を持つ狭いAIがあります。例えば、AlphaGoは囲碁で人間を超える能力を持っており、o3が推論において人間を超えていると主張することもそれほど無理はないと思います。推論は常に人間独自の特徴だと考えられてきました。法律、医学、エンジニアリングなど、私たちの最も複雑なタスクや職業の多くは、多くの推論を必要とします。特にプログラミングは、この思考連鎖推論スタイルのモデルによって最も影響を受けるタスクの1つです。
本質的に、o3はコンピュータプログラミングのための狭いAIのように振る舞うことができます。プログラミングでは超人的な能力は持っていません。まだです。その超人的な推論能力によって、プログラミングがそこそこできるようになっています。先ほど言ったように、AGIの問題は常に汎用性がどの程度あるかということに帰着します。そしてo3は高度な汎用性を示し始めています。多くの異なる知識の断片を1つの創造的な思考に組み合わせることができ始めています。ただし、それらの解決策には多くのブルートフォースを適用することで到達しているようです。
Arcのウェブサイトから再び引用します：「テスト時に、モデルはタスクを解決するために必要なステップを記述する可能性のある思考の連鎖の空間を探索します。単一生成のLLMは新規性に苦しむ一方、o3は自身のプログラムを生成・実行することでこれを克服し、プログラム自体が知識の再結合の成果物となります。」
つまり、o3は状況について声に出して考えるように、可能性のある思考の連鎖を大量に生成しており、それが創造性を生み出す方法なのです。なぜなら、最終的に知っているすべての小さなことの正しい組み合わせにたどり着くことができるからです。実際、o1とo3は推論が非常に得意になったため、OpenAIは安全性要件のチェックをモデル自身の推論エンジンに外部委託しているほどです。
これには多くのプラスと潜在的な注意点があり、この対話的整合性の技術については別の動画で詳しく説明します。ここでは、この程度の推論、そしてそれに伴う汎用性がAGIと言えるのかどうかを考えています。私にはわかりません。その判断は下しませんが、それはあなたの定義次第です。しかし、o3は間違いなく世界を変えるのに十分な力を持っています。それこそがAGIの本質です。
パート3: 開発者たちが懸念を抱く理由
もちろん彼らは懸念を抱いています。なぜならo3は推論において超人的で、プログラミングもかなり得意になってきており、そのため資本主義的な環境では、ソフトウェアエンジニアは非常に短期間で仕事を失う可能性があるからです。
まず、競技プログラミングコンテストについて話しましょう。これらのコンテストは、非常に数学的で、与えられた時間内で正しく実装するのが非常に難しい、比較的小さな問題を一連のシリーズとして解くものです。最も明白な実装は、時間切れやメモリ不足、あるいはその両方になりがちです。正しく解くのは非常に難しく、それをうまくできることが技能の証です。
歴史的に、これは面接に合格し、さらには直接仕事を得るための非常に良い方法とされてきました。私は、競技プログラミングのランキングで十分高い位置にいる人を無条件で雇用する金融取引会社や大手テック企業を知っています。
Code Forcesは、60万人以上の登録ユーザーを持つ世界最大の競技プログラミングウェブサイトの1つです。もちろん、実際にアクティブなユーザーはそれよりもずっと少ないでしょう。そこの競技者たちは、競技ゲームと同じようにELOランキングシステムを使用しています。自分よりも高いランキングを持つ相手に勝つと、最も多くのポイントを獲得できます。
OpenAIは彼らのモデルをCode Forcesの問題と対戦させてきました。o1はELO 1891を達成し、o3ミニはそれを2073で破り、追加の計算を行った完全版o3は実際にELO 2727を達成しました。これはo3を世界ランク175位、つまり世界中のプログラマーの上位99.98%に位置付けることになります。
これは異なるELOランキングと、その結果得られるタイトル、そして各カテゴリーにどのくらいの人がいるかを示すグラフです。このグラフは少し古いようです。今日では人々はより高いスコアを持っていると思います。o3はグランドマスターレベルにランク付けされました。何事においてもグランドマスターレベルに到達することは驚くべき成果です。まして60万人の登録参加者がいるプログラミングコンテストではなおさらです。
しかし、これらは単なるプログラミングコンテストの問題です。ある程度は自己完結していて、解けるように作られており、非常に数学的でアルゴリズム的です。これはo3が推論が得意なため、すでに得意としていることです。そのため、より現実的な環境でモデルがどのように機能するのか疑問に思うかもしれません。
しかし、SWE Bench Verifiedと呼ばれるベンチマークもありました。これは非常に興味深いベンチマークです。なぜなら、そこに含まれる問題は実際のGitリポジトリからの実際の問題だからです。このデータセットは基本的に、誰かがGitHub上で問題を報告し、開発者がプルリクエストを提出し、そのコードがマージされた結果として実際に合格したテストの最終的なコードと数です。
この状況では、本質的に完全に自律的なコーディングエージェントを持っています。なぜなら、o3には問題、タスクの説明が与えられ、長時間考えた後にプルリクエストを提出するからです。最終的なコードは、すべてのケースが自動テストを含んでいるため、自動的にテストとチェックされ、モデルが人間のプログラマーと同じレベルのテストカバレッジを達成できるかどうかをチェックします。
これは本当に箱の中のプログラマーであり、このベンチマークでo3は71.7%を達成しました。これはo1より約20%高い数値です。このベンチマークでの人間のパフォーマンスがどの程度なのかはわかりません。おそらく、非常に熟練したプログラマーであれば、これらの100%を達成できるでしょう。なぜなら、実際の世界で解決されたものだからです。
しかし、人間の開発者も躓くでしょう。彼らもコードにバグを持ち込み、良い堅実なコードを書くために他のプログラマーからのコードレビューに頼るでしょう。そしておそらく、そのコードを作成するのに、モデルと比べて10倍、あるいは100倍の時間がかかるでしょう。
基本的に、あるコメンテーターの言葉を借りれば、「プログラミングは生命維持装置に繋がれている状態」です。過去数年の著作権やデジタルアートと同じような状況です。自動化に関して、どの分野も一連のサイクルを経ます。最初は完全に手動で、次にスプレッドシートのようなコンピュータの支援があり、そして特に有用ではない小さなAIツールの支援があり、最終的にはAIツールに実質的なタスクを委託できるようになり、最後に仕事は完全に自動化されます。
私の意見では、デジタルアートは第4段階、つまり仕事の大部分をAIツールに委託する段階にあり、o3によってプログラミングも同じような状況になりそうです。大規模な作業をo3に委託できますが、まだ完全な自動化の段階には至っていません。それがSWE Bench Verifiedがテストしていたことです。100%ではなく71.7%を達成し、そこで潜在的に仕事が完全に自動化されていると主張できる段階には達していません。
しかし、現在の段階でも、大規模なタスクを自動化することができ、そうなるでしょう。これにより、特にジュニアの職位において、ソフトウェア開発で利用可能な仕事の数が減少するでしょう。そして仕事の性質は劇的に変化するでしょう。より高度になり、それは良いことで望ましいことですが、細部に入り込むことを本当に好む人々にとっては、既存の開発者のスキルセットに合わないかもしれません。
そのため、多くのテクノロジー労働者がこれらすべてについて非常に不安を感じているのも当然です。ちなみに、法律や医学を含む多くの分野で、多くの推論が必要とされる分野は、第4段階に到達する点においてそれほど遅れていないと思います。
しかし、その詳細に入る前に、安全性の観点から再帰的自己改善について話したいと思います。これらのAIモデルが次の、そして最高のAIモデルを作成するために使用される可能性は実際にかなり高いです。o4を作成するためにo3を使用しますか？おそらくそうでしょう。o3の作成にo1は使用されましたか？多分。それを言うのは難しいです。
これは、私たちが数年間存在してきたフィードバックループの強い加速を表すでしょう。企業が超知能に向かって取り組む中で、考えるべき安全性の問題が多くあります。将来の動画でそれについてさらに説明しますが、ここでは簡単に強調しておきたいと思います。
コンピュータプログラミングを中心としたこれらの職業すべてに何が起こるかについて、私は最も近い類似性はデジタルアートと著作権にはないと考えています。なぜなら、そこには多くの推論が関与していないからです。むしろゲームの方が近いでしょう。ゲームは非常に長い間AIの研究対象となってきました。最も単純なものから始まり、AIモデルで完全に解決できるようになると、次のものに移っていき、それらのゲームのプレイヤーたちは自分たちの娯楽が完全に自動化された影響に対処しなければなりませんでした。
そして、私たちは競技プレイヤーがそのゲームをプレイすることで生計を立てているゲームについて話しています。AIシステムによって最高の人間が打ち負かされたゲームには、1997年のチェス、2011年のジョパディ！、2016年の囲碁、2019年のスタークラフト2が含まれます。
囲碁は興味深いケースです。なぜなら、それは強化学習における最初の大きな成功事例の1つであるAlphaGoによって打ち負かされたからです。Google DeepMindはこのシステムを囲碁をプレイするように訓練し、最終的に当時の世界最高のプレイヤーであった韓国のイ・セドルとの対戦を行うまで、いくつかの非常にプロフェッショナルなプレイヤーからフィードバックを得ていました。
モデルは有名な第37手を打ちました。これはすべての観戦者とプロのプレイヤーを当惑させました。それは間違いのように見え、モデル自身もこの手が実際のプロの対局で打たれる確率は1万分の1しかないと考えていました。これはイ・セドルが予期していなかった創造的な一手でした。彼は部屋を出て気持ちを落ち着かせ、戻ってきましたが、対局に敗れました。
しかし、その後の対局でイ・セドルは同様のタイプの手を打ち、今度はAIがそれを予期していませんでした。その手が起こる確率を1万分の1未満と予測していたのです。そのため、AlphaGoが最終的にイ・セドルに勝利したにもかかわらず、彼や他の多くのプロのプレイヤーは、それと関わることで実際に多くを学んでいると言いました。それは非人間的に見えましたが、それによって彼ら自身も学ぶことができる方法でした。
イ・セドルは最初はゲームを続けましたが、最終的に「打ち負かすことのできない存在がいる」と言って引退を決意しました。しかし、他の人々は囲碁を続けています。そして逸話的には、AlphaGo以降、囲碁は実際により人気が出ています。なぜなら、常に一緒にプレイできる素晴らしい相手がいるからです。実際、私も最近同じ理由で囲碁を学び始めました。
これは本当に難しいです。なぜなら、手に一種のパリティーまたは対称性があるからです。非常に強い位置と破滅的な位置は、たった1つの石の違いしかないかもしれません。そして、囲碁の探索空間はコンピュータが実際に探索するには大きすぎます。パターンを探し、何が良く見えて何がそうでないかを理解するように脳を訓練する必要があります。
スタークラフト2も非常に興味深いです。なぜなら、これはリアルタイムストラテジーゲームで、決定を下すのに多くの時間がないからです。実際、これは最も速いペースのストラテジーゲームの1つです。スピードの制限にもかかわらず、DeepMindのAlphaStarモデルは3つの種族すべてでグランドマスターランクを達成しました。はい、スタークラフトはCode Forcesと同じようにELOシステムを使用しています。
2019年までに、AlphaStarはすべてのプレイヤーの上位99.8%に位置していました。スタークラフト2の人気は、ストラテジーゲームジャンル全体の人気が低下しているのと同様に低下していますが、私はゲームのプレイヤーたちがある程度AlphaStarを歓迎したと思います。彼らのゲームに注目が集まり、AIが攻略目標とする本当に難しいゲームとして選ばれたことは良かったのです。そして、ゲーム開始時に相手を威嚇しようと、誰もがAlphaStarの名前のバリエーションを選んで遊んでいました。
そのため、ゲームから私たちが見ることができるのは、AIが自分より優れていると感じ、自分より良い成績を出していると感じる時点で辞める人もいれば、それを受け入れ、自分を訓練するツールとして、あるいは実際に改善するために使用する人もいるということです。ソフトウェアエンジニアリングがここからどこに向かうのかを正確に言うのは難しいですが、これらの例を心に留めておくのは有用だと思います。
Auraからの引用です：「現在、コンピュータサイエンスが私たちが知っているような形では死んでいることを理解している人はほんの一握りです。AIは過去2ヶ月間に私が取り組んだすべてのコードを書いており、私が尊敬する多くの人々からこのような言葉を聞いています。そして世界の大多数はまだ追いついておらず、これが可能だということさえ知りません。それに応じて計画を立ててください。」
これらすべてから私の学びは何でしょうか？まず、「プレイヤー・オブ・ゲーム」、カルチャーシリーズの2番目の本は、AIがほぼすべての面で優れているポスト・スカーシティ社会における人間の描写として良いとされています。私はまだ読み終えていませんが、もしこれらの一部についてユートピア的な見方を求めているなら、チェックしてみてください。
基本的に、私たちは世界中の多くの分野と同様に、ソフトウェアエンジニアリングにおける自動化の5段階を加速的に進んでいます。実際、人類は個々の人間のパスをたどっています。年を取るにつれて、管理職に移行していきます。そして、この変化に関わる人々としての私たちの任務は、風に合わせて曲がり、自分たちのために良い人生を築けることを確実にすることです。
最後に結論として、私たちはOpenAIの新しいモデルo3について話しました。これは幅広いベンチマークで競争相手を上回っています。最も印象的なのは、大規模言語モデルにとって本当に難しくなるように明示的に設計されたArc AGIベンチマークです。現在、o3はそのベンチマークで一般的な人間のスコアを上回っており、それは自然に「o3はAGIなのか？人間と同じくらい賢いのか？」という疑問につながります。
業界関係者は否定していますが、彼らは現時点でそう言う既得権益を持っています。長期的な記憶と計画の欠如など、そうではないと考える技術的な理由もありますが、o3が実際にAGIに該当するかどうかという問題は実際にはどうでもいいことです。関係ないのです。それでも、ソフトウェアエンジニアリング業界に大きな混乱をもたらすでしょう。
これはまた、o3が再帰的自己改善に使用される可能性を高めます。つまり、o4の作成を開始するためにo3と協力することです。これもまた、私たちが皆考えていたAGIの重要な側面の1つです。AIエンジニアの仕事をいつ自動化できるのかということです。そのため、たとえo3が実際にAGIではないとしても、それは多くの同じ属性を持っており、社会に多くの変化をもたらすでしょう。
もしこの動画が気に入ったなら、o1のリリース時に作った以前の動画をチェックしてください。それはもう少し技術的で、これらの思考連鎖モデルがどのように機能するかの詳細に踏み込んでいます。クリスマススペシャルで長めの動画を作るという私の伝統を守ることができましたが、今日はこれで以上です。ご視聴ありがとうございました。さようなら。