AGIのマイルストーン: サム・アルトマンがOpenAIのO3の画期的進展を明かす

4,491 文字

インターネットを初めて使った時のことを覚えていますか。「すごいけど、大したことないじゃない」と思ったのに、時が経つにつれて仕事や人間関係、さらには私たちの考え方まで、すべてが変わってしまいました。今、私たちは再びそのような瞬間に立ち会っています。OpenAIがAGI（人工汎用知能）に関する最新情報を共有したのです。今は画期的なことに思えないかもしれませんが、信じてください。この瞬間に立ち会うことは重要なのです。彼らが明らかにしたこと、そしてなぜそれが私たち全員にとって重要なのかを紐解いていきましょう。
まずは簡単な質問から始めましょう。「サム、AGIにどれくらい近づいているのでしょうか？」
サム・アルトマンは興味深い考えを示しました。AGIは単なる一足飛びの進歩ではなく、能力の階段を上っていくようなものだと。この考え方の転換は重要です。なぜなら、AIの進歩の測り方を変えたからです。
「私たちはこれまで、システムを完成させるたびに『どの点でAGIではないのか』を考えていました。それは簡単でした。ロボットアームでルービックキューブを解かせたり、ちょっとしたことをさせたりして、『ある程度のことはできるけど、明らかにAGIではない』と。今はそれを言うのが明らかに難しくなっています。そこで私たちは、AGIを一般的なものとして語るのをやめ、レベルの枠組みを採用しました。AGIという言葉があまりにも過剰に使われるようになったからです。
簡単に説明すると、レベル1はチャットボット、レベル2は推論機能、レベル3はエージェント、レベル4はイノベーター、レベル5は組織というように分類しています。O1で明らかにレベル2に到達したと考えています。非常に印象的な認知タスクをこなすことができる、非常にスマートなモデルです。いくつかの重要な点でAGIのようには感じませんが、次のステップとしてエージェントのような特性を持たせる（これが私たちのレベル3です）ことができれば、そしてそれは遠くない将来に実現できると思いますが、驚くほど有能なものになるでしょう。
おそらく、ほとんどの人はまだAGIとは呼ばないでしょう。しかし、一部の人は呼ぶかもしれません。これは『重要な何か』だと感じられるようになるでしょう。そしてそこから、新しい科学的発見のペースを本当に加速できるものへの飛躍、それは私にとってAGIの非常に重要な部分なのですが、その点についてはやや確信度が下がりますが、それでも長い時間はかからないと思います。今や、これらすべてが急速に起こると考えています。」
ここで賭け金はさらに上がります。AIが私たちが想像したよりも速く新しい科学的発見の扉を開くことができれば、それは単なる技術的なマイルストーンではなく、人類にとってのマイルストーンとなります。
「前回のDevDayから今回までのモデルの能力の進歩を考えると…11ヶ月前に発表した4 turboから、難しい問題に対するO1の性能を見ると、『これは本当に速く進んでいる』と感じるでしょう。次の1年、そして2年は非常に急速な進歩があると思います。それ以降は確実性を持って見通すのは難しいですが、私はそれほど遠くないと考えています。この時点で定義が本当に重要になってきます。定義がこれほど重要になってきたということは、私たちが何らかの形で近づいているということを意味しているのかもしれません。」
「以前は、AGIについて二元的な見方がありました。ある日眠りについたときにはAIは存在せず、次の日に目覚めたらAGIが存在している、というような。今はそういう考え方はしていませんが、この見方はどのように進化してきたのでしょうか？」
「私もその意見に同意します。私たちは今、しばらくの間非常に曖昧に感じる期間にいると思います。これはAGIなのか、まだAGIではないのか、どの時点でAGIと言えるのか。それは単に滑らかな指数関数的な進化になるでしょう。」
サムの言う通り、単一の「AIが到来した」という瞬間はないでしょう。代わりに、徐々に目覚めていくような感覚になるでしょう。しかし、より大きな疑問が生じます。私たちはその境界線を越えたことをどうやって知るのでしょうか？振り返ってあの時が転換点だったと思うのでしょうか、それともすべてが混ざり合ってしまうのでしょうか。
「おそらく歴史を振り返る多くの人々は、そのマイルストーンがいつだったのかについて意見が一致しないでしょう。それが馬鹿げた考えだったと気づくだけでしょう。チューリングテストでさえ、私はいつも非常に明確なマイルストーンだと思っていましたが、曖昧な期間があり、あっという間に過ぎ去って、誰も気にしなくなりました。しかし、私は正しい枠組みは、これは単なる一つの指数関数的な進化だと考えています。
とはいえ、AIシステムがOpenAIのAI研究においてすべての面で明らかに優れた性能を発揮するようになれば、それは何らかの重要な不連続点に感じられます。おそらくそのように考えるのも間違いで、依然として滑らかな指数関数的曲線なのでしょうが、それは確かに重要なマイルストーンに感じられます。」
AGIのレベルから、その進歩を測るベンチマークまで。AGIが単一のマイルストーンではないとすれば、私たちはどのようにしてその進歩を追跡できるのでしょうか？そこでARCが登場します。そして信じてください、ここから本当に興味深い展開が始まります。
「このベンチマークについて話したいと思いますが、ここでARC財団の会長であるグレッグさんをお招きしたいと思います。」
「サムとマーク、今日は私たちを招いていただき、ありがとうございます。皆さん、こんにちは。私はグレッグ・カマドで、ARC財団の会長を務めています。ARCは単なるベンチマークではありません。知能のリトマス試験紙のようなものです。AIシステムに人間特有のこと、つまりリアルタイムでの学習と適応を行うよう挑戦させるものです。どのように機能し、なぜAIにとって難しいのか、詳しく見ていきましょう。
私たちの最初のベンチマークであるARC AGIは、2019年にフランソワ・ショレが『知能の測定について』という論文で開発しました。しかし、それは5年間誰にも破られていません。AI業界では、それはまるで何世紀もの時間のように感じられます。ARCを克服するシステムは、汎用知能への重要なマイルストーンとなるでしょう。そして本日、新しい最高記録を発表できることを嬉しく思います。
しかし、その前にARC AGIとは何かについてお話ししたいと思います。例をお見せしましょう。ARC AGIは入力例と出力例に関するものです。目標は、変換のルールを理解し、出力を推測することです。サム、ここで何が起きているとお考えですか？」
これは私たちにとってはほとんど本能的なことですが、AIにとって、事前にルールを知らずにこれらのルールをその場で理解することは、パズルを解くようなものです。だからこそARC AGIは重要なのです。AIに私たちのような思考をさせようとしているのです。
「おそらく空白のスペースに濃い青い四角を置くということですね。」
「はい、その通りです。人間が直感的にそれを推測するのは簡単ですが、AIにとって何が起きているのかを理解するのは驚くほど難しいのです。もう一つ難しい例をお見せしたいと思います。マーク、あなたにお聞きしますが、このタスクで何が起きていると思いますか？」
ここでARC AGIの天才的な部分が輝きます。各タスクは完全に異なり、AIに既知のことを繰り返すのではなく、適応を強制します。暗記ではなく、私たちがするように、リアルタイムでの学習が必要なのです。
「これらの黄色い四角それぞれについて、色のついた四角の数を数え、その数で境界を作るということですね。」
「その通りです。そして多くの人よりも早く理解されましたね。おめでとうございます。興味深いのは、AIはこれまでこの問題を解くことができなかったという点です。人間のパネルがこれを解決できることを確認しているにもかかわらずです。
ARC AGIのユニークな点は、すべてのタスクが異なるスキルを必要とすることです。つまり、青い四角で角を埋めるような別のタスクは出題されません。それは意図的なものです。なぜなら、私たちはモデルがその場で新しいスキルを学習する能力をテストしたいからです。既に暗記したことを単に繰り返すのではなく、それが重要なポイントなのです。
ARC AGIバージョン1は、最先端モデルで0%から5%まで到達するのに5年かかりました。しかし本日、O3が新記録を達成したことを発表できることを非常に嬉しく思います。私たちが低計算量で検証した結果、O3はARCの準非公開ホールドアウトセットで75.7%のスコアを記録しました。」
これは転換点です。5年間、どのAIシステムもARC AGIの最も困難な課題を克服できませんでした。そして今、OpenAIの最新モデルO3がその壁を打ち破ったのです。しかし、これは本当の知能なのでしょうか、それとも単に巧妙なアルゴリズムなのでしょうか。
「これは非常に印象的です。なぜなら、これは私たちのパブリックリーダーボードの計算要件内で達成され、ARC AGIパブの新しい1位となったからです。おめでとうございます。」
「ありがとうございます。能力のデモンストレーションとして、O3に長時間の思考を要求し、高計算量にスケールアップすると、O3は同じ隠れホールドアウトセットで87.5%のスコアを達成できました。」
これは大きな進展です。AIは正式に一部の分野で人間の性能を上回りました。
「これは特に重要です。なぜなら、人間の性能は85%の閾値で比較可能だからです。これを超えることは重要なマイルストーンであり、これまでこのようなシステムやモデルをテストしたことはありませんでした。これはARC AIの世界における新しい領域です。素晴らしいベンチマークを作っていただき、ありがとうございます。」
「はい。これらのスコアを見ると、私は自分の世界観を少し変える必要があると感じます。特にこのO3の世界において、AIが実際に何ができるのか、何が可能なのかについての直感を修正する必要があります。」
AGIレベルの再定義からARC AGIの記録更新まで、私たちは未来を形作る瞬間を生きていることは明らかです。問題は、私たちが次に来るものに準備ができているのか、そしてこれらのブレークスルーが一部の選ばれた人々だけでなく、すべての人々の利益になるようにするにはどうすればよいのかということです。
コメントで教えてください。この進歩は私たちをAGIにより近づけていると思いますか、それともまだこの究極の目標からは遠いのでしょうか？まだ登録していない方は、ぜひチャンネル登録とライクボタンをお願いします。