オープンAIの「完全コード自動化」が今年中に実現…

10,960 文字

OpenAI "Full Code Automation" Coming This Year...

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

今回ご紹介するのはケビン・ウィールさんです。彼はオープンAIの最高製品責任者で、AI Weeklyの「最も魅力的な笑顔賞」を5回受賞しています。最近、彼はOverpoweredポッドキャストに出演し、ソフトウェア開発の未来がどのように形作られていくのか、AIがどのような役割を果たすのか、そして基本的にすべてのコーディングがAIによって自動化されると予想されるかについて語りました。このポッドキャストのホストには多くの称賛を送りたいと思います。かなり鋭い質問をしていましたね。間違いなく聞く価値のあるポッドキャストです。下にリンクを貼っておきますので、ぜひチェックしてみてください。
結論から言いますと、彼は2025年がAIがプログラミングにおいて人間より優れるようになる年だと言っています。永遠に。彼の考える理由を見ていきましょう。ヒントですが、それは推論に関係しています。特に強化学習と大規模言語モデルがどのように大規模推論モデルにつながるのか、そしてその驚異的な成長についてです。数週間前、私はAnthropicの人と話していて、「Anthropicはコードが99％自動化される時期についてのタイムラインを持っていますか？実際に機能するコード、フロントエンドやバックエンドに書くコードのことです」と尋ねました。彼らは「はい、2027年です」と答えました。あなたはそれについてのタイムラインを持っていますか？少なくともこれがどのように展開されるかについての考えはありますか？
「私たちの進歩率からすると、2027年だとむしろ驚きます。もっと早くなると思います」とケビンは言います。つまり、Anthropicが2027年と言うなら、我々は2026年と言おうということです。
「GPT-4oを発表したとき、非常に優れたコーディングモデルでした。GitHubのCopilotなど、世界中の人々が大規模に使用しています。しかし、01 Previewを発表したときとは比較になりません。それはずっと優れたコーディングモデルでした。なぜなら、コードを書くときは推論が重要だからです。クロスワードパズルやナンポウをやるときも、コードを書くときも、ある程度の推論、問題をより小さな問題に分解し、仮説を立てて検証または反証する能力が必要です。それが推論の役割です。
01 Previewは、世界で100万番目に優れた競技プログラマーくらいでした。プログラミングコンペティションで比較すると、100万位くらいになります。あまり良く聞こえないかもしれませんが、世界には3、4000万人のプログラマーがいますから、上位2、3％くらいになります。これが01 Previewでした。正式発表された01は、競技コーディングコンテストで世界で1000番目くらいのエンジニアでした。まもなく発表される03は、同じベンチマークによると世界で175番目に優れた競技コーダーです。そして後継モデルのトレーニングを始めると、すでにさらに優れています。
私は、少なくとも競技コーディングのベンチマークによれば、今年はAIが競技コードにおいて人間より永遠に優れるようになる年だと思います。コンピュータが70年前に掛け算で人間を超え、15年前にAIがチェスで人間を超えたのと同じように、今年はAIがプログラミングにおいて人間より永遠に優れるようになる年です。もう後戻りはできません。オープンAIもAnthropicもGoogleも、多くの注力をしています。このうち、これは非常に速く進むでしょう。それによって世界は変わると思います。はるかに良い方向に。
ソフトウェアを作成するためにエンジニアである必要がなくなったら、できることをすべて想像してみてください。ソフトウェアを書くことができれば…AIがソフトウェアで人間を超えることがチェスで人間を超えるよりもずっと重要な理由は、ソフトウェアを使えば、ほぼ何でも好きなものを作れるからです。すべての人がソフトウェアを作れるようになれば、世界にどれほど民主化効果をもたらすことができるでしょうか。
ある人々と話していたのですが、コロナの時代に彼らは地元の都市のためにコビッドに関連するさまざまなデータを追跡できるウェブサイトを作ろうとしていました。しかし、空いているエンジニアがいなかったし、彼ら自身もスキルがなかったので、作ることができませんでした。その結果、その情報を持つことができませんでした。今日ならそれは問題ありません。トップモデルなら、これらのモデルが任意の量の優れたソフトウェアを生成できるようになる前でも、どれでも問題なくできるでしょう。だから私はこの未来に興奮しています。とても近い将来にやってくるでしょう。」
「ケビン、でもエンジニアがより自由な時間を持つことが本当に世界のためになると思いますか？私にはエンジニアの友人がたくさんいますが、私が好きなものに競争エネルギーが向けられる必要はないと思います」
「あなたのことはわかりませんが、私は1日のかなりの部分を、やりたくないことに費やしています。仕事の雑用的なものであったり、子供のサッカーチームのフォームに記入したりなど、自動化してほしいと思う部分がたくさんあります。そうあるべきですし、同様に、私は長年エンジニアでしたが、ある時点で、一部の問題は本当に難しく、長時間すべての時間と注意を注ぐ必要があります。一方で、これがどう機能するかはわかっているけど、ただたくさんのタイピングが必要なだけだという場合もあります。それほど差別化されてないただのタイピング作業です。そういうものは自動化されるべきですし、そうなるでしょう。」
すごく早いですが、これは私がやっているクイックテストです。頭に見えるこのマイクはオーディオテクニカのATM50Xです。これはサウンドテストではなく、YouTubeが今やっていることを確かめるための単なる好奇心です。通常のプログラムに戻りましょう。
オープンAIが月額2万ドルのPhDレベルのエージェントを計画しているというリークに基づいた記事を先日紹介したことを覚えているかもしれません。複数の階層があり、そのうちの1つは月額1万ドルのソフトウェア開発者エージェントになります。前回気づかなかったのですが、「大規模収益モデル」と呼んでいることにも気づきました。非常に賢いですね。彼らはエージェントによる新しい収益源の大幅な成長を予想しています。2026年には会社全体の収益が260億ドルになると予測しています。エージェントだけでなく全体の収益ですが、これは成長を続けるでしょう。他の製品の成長を示す別のチャートもあります。その一部はエージェント、おそらく検索も含まれるでしょう。
これが公開されたのは日本でのことで、サム・アルトマンがこれらのコーディングモデルの進歩について話していました。彼らの最初の推論モデルは世界で100万番目に優れたものでした。01は約1万番目、03は約175番目です。彼らは現在、内部モデルを持っており、それは世界で50番目に優れたものだとされています。サム・アルトマンは2025年末までに超人的なコーダー、つまり世界一位よりも優れたものが登場すると予測しています。
ちなみに、これはケビンが話している内容です。これはより最近のインタビューなので、彼は少し更新情報を提供しています。彼が言及している数字は少し異なるかもしれませんが、彼らが言っている進歩やポイントは大体同じだと思います。
約1ヶ月前に、私はもっと人々を驚かせると思っていた動画を作りました。それはオープンAIによる研究に基づいており、彼らが強化学習を使って大規模言語モデルに推論を教える方法、特定のコーディングタスクなどでより優れた能力を持たせる方法についてのものでした。これは彼らがCodeForcesの問題を解く能力を示しています。これは一種の競技コーディングなので、ソフトウェアエンジニアリングと全く同じではありませんが、ご覧の通り、この線を超えると世界中のコーダーの上位1％に入ります。少なくともこの特定のタスク、競技問題のサブセクションについてです。03は175位付近、つまり世界のトップ200コーダーの中に入ると彼らは言っています。彼らは内部モデルを持っており、それは50位付近に位置すると言っています。
ケビンは以前のインタビューで、彼らが次の推論モデルをすでに内部的にトレーニングしていることを事実上確認したと思います。少なくともそういう風に解釈しました。そのモデルを「04」と呼ぶとすれば、少なくとも彼らの内部テストによれば、世界で50番目に優れたコーダーということになります。このタイムラインで彼らが2025年末までに超人的なものが登場する可能性があると言っているなら、これはそのタイムライン内に収まる可能性があるように思えます。
これらの多くが議論の対象であることを理解することが重要です。AIがソフトウェア開発を完全に自動化する可能性は非常に低いと言う人も多くいます。むしろ、AIに頼って何も知らないままソフトウェア開発の職業に入る人が多くなり、AIスロップを生み出すことになるだろうと言う人もいます。そのため、ソフトウェアの仕組み、コードが何をするのか、その詳細を本当に知ることがより重要になるでしょう。そういう人たちはAIが犯す多くの間違いを修正することで多くのお金を稼ぐことになるでしょう。
最近、私はCloud codeと、最近登場したManisというAIエージェントをテストしています。興味深いのは、AIコーディングエージェントになるアプリケーションのスタックがどのようなものになるかという構造がほぼ完成しているということです。多くの人はCursorを知っています。これは好きなモデルを使用できる開発環境で、オープンAIやAnthropicなどの推論モデルを導入できます。しかし、次のレベルのものは基本的にCloud codeとコンピュータ使用のようなものだと思います。Manisは構造的な部分を本当に的確に捉えていると思います。Manisが好きでない人も多いことは知っていますが、私はそれを勧めているわけではありません。彼らがどのように構築したかという概念的なアイデアは複製されると思います。なぜなら、彼らは間違いなくいくつかの素晴らしいデザインアプローチを持っているからです。
Cloud codeを1週間ほど使った後、この投稿を見て、全く間違ったプロンプトをしていたことに気づきました。殺し文句のプロンプトは「もっと考えて」だったようです。どうしてそれを思いつかなかったのでしょう？冗談です。これはCatです。彼女はCloud codeを使っている人やこういったことをやっている人にとって素晴らしいフォローです。彼女はAnthropicにいます。Cloud codeを試そうと思っている人や少し苦戦している人のために、この投稿のリンクを下に貼っておきます。彼女はベストプラクティスを紹介していて、それがはるかに簡単にするのに役立つと思います。
私はそれに特定のことをさせようとしていて、かなり印象的にうまくいきましたが、Catはより良いアプローチを説明しています。特にCloudにタスクについて話して最初にコンテキストを集めさせ、それから考えるように言うこと、そして興味深いことに、より多くの計算能力を使わせることができます。これはAnthropicの発表で取り上げたもので、任意のプロンプトやプロジェクトにCloudがどれだけの計算能力を割り当てるかをより制御できるようになるというものです。例えば「考えて」「もっと考えて」「さらに考えて」と言うと、プロジェクトの複雑さに応じて異なる結果が得られる可能性があります。
この動画を見た後、「AIは3年以内にコーディングを自動化すると思いますか？」という投稿をしました。Anthropicの創設者であるDario Amodeiは2027年までに実現すると考えていると言っています。MicrosoftのCEOであるSatya Nadellaは、具体的な年を言及しているかどうかはわかりません。公開企業なので何も明確に言わないように注意しているかもしれませんが、ソフトウェア作成は主にエージェント、つまり何らかの推論モデルやスキャフォールディングによって行われるようになると言っています。動画の最後にその意味を正確に説明しますが、ここまでの調査結果を示します。ぜひあなたの投票も入れてください。人々がどう考えているか知りたいです。
現在、イエスはノーの2倍以上になっています。つまり、人々は2025年、2026年、または2027年、つまり今後3年以内に実現すると考えています。DarioとKevinが正しいということです。ノーと答えた人は2027年より長くかかるか、あるいは自動化は決して実現しないと考えています。人間のエンジニアには機械では実行できない能力や物事を見る方法があるのかもしれません。
ここで私が見ているこの全体の発展について簡単に説明します。現在、AnthropicからのCloud codeと、AIエージェントであるManisがあります。例えば、Manisは仮想マシンを実行しており、それはオープンソースのオペレーティングシステム上で動いています。この場合はUbuntuで、これはLinuxのディストリビューションの一つです。完全に無料で、非常にオープンで強力です。使い方を知っていれば、正確に入力するものを知っていれば、かなりのことができ、非常に効果的にできます。開発者に広く使われています。例えば、Googleの開発者はLinuxに大きく依存しています。彼らはMicrosoft WindowsやAppleのオペレーティングシステムを使用していません。Linuxを使用しており、それはオープンソースです。
私もUbuntu上にCloudをインストールしてみました。それは素晴らしく機能しています。例えば、GitHubにあるプロジェクトについて話すと、それは行ってプロジェクトを作成し、環境を整え、プロジェクトをクローンし、必要なファイルやrequirementsファイルなどをダウンロードしてインストールします。問題が発生すれば、トラブルシューティングを始めます。基本的に何かのコマンドを実行して、ソフトウェア開発プロジェクトなどの作業準備をするために必要なことの多くを行います。
ビジョンの面では、Cloud codeは本当のビジョンを持っていません。アップロードした画像を見ることについて話しているのではなく、例えばゲームのコードを書いて、実際にプレイされているゲームを見て、それについての決定を下せるかということです。それはまだできません。Manisはビジョンシステムを使用しています。ManisはBrowser Useというオープンソースのビジョンモデルを使用しており、ブラウザとやり取りすることができます。ここにBrowser Useの動作の様子を示します。様々なウェブページなどをナビゲートしているのがわかります。
最近、オープンAIはOperatorをAPIとしてリリースしたので、それを使って様々なことができるようになりました。これは少し異なります。なぜなら、それは単に要素を選択できるだけでなく、実際のビジョンを使用するからです。それはより人間のようなもので、ウェブページを見て様々なボタンがどこにあるかを見ることができ、マウスを動かして特定のものをクリックすることができます。より人間らしいものです。
現在、コンピュータで人間ができることなら何でもできるものを作るために必要な様々なパーツをほぼすべて持っているように見えます。コードを書くためのものです。コードを書く能力については話していません。できることについて話しています。最初のコーディングクラスを受けたばかりの人をコンピュータの前に置いたとします。彼らはコマンドラインやターミナルを引き出していくつかのコマンドを入力し、ブラウザを開いて研究をしたり、GitHubに行ってドキュメントを読んだり、いくつかのコードを作成し、いくつかの異なるファイルを作成して圧縮し、あなたに送ることができるかもしれません。
別の見方をすれば、リモートワーカーのようなもので、リモートワーカーができることなら何でもできるようになります。それはほとんどManisとオープンAIのOperatorを組み合わせたもの、あるいはCloud codeとオープンAIのOperatorを組み合わせたものですが、Cloud codeはManisほどエージェント的ではないと思います。Cloudはまだコパイロットのように感じ、行ったり来たりして話しています。それは自分で一定期間物事を行うことができますが、戻ってくる必要があります。Manisの場合、非常に複雑なプロンプトでは、完了したプロジェクトを持って戻ってくる前に、かなりの時間自分で物事を行います。
まだバグや問題、エラーがあり、常に正しく動作するわけではありません。私がManisに与えた最も複雑なプロジェクトの1つは、スネークゲームを作成し、ただのありきたりなスネークゲームにならないように新しいデザイン要素を追加し、その後2つのスネークを競合させ、それぞれにPyTorchまたは同様のものを使用した2つの別々の強化学習トレーニングパイプラインを作成するというものでした。これらのゲームがより良くプレイする方法を学ぶために1000のシミュレーションを実行するシステムを作成しているようなものです。そして2つの異なるトレーニングアプローチを使用することになっています。それが完了すると、どちらのトレーニングアプローチが優れているかを見るために、これらのスネーク同士を対戦させます。2つの自律的なスネークが競合するPythonのスネークゲームで、PyTorchで作られた強化学習トレーニングパイプラインを分割テストしているのです。これはかなり高度なものですよね？
これを簡単にできるとは思っていませんでした。プロジェクトを完了できなかった理由は、どうやってやるかを理解できなかったからではなく、多くのファイルがあり、非常に大きなプロジェクトだったため、それを私に渡す方法を見つけられなかったからです。ZIPファイルを渡せませんでした。それは自分のコンピュータ上にあり、「このフォルダにありますよ」と私に伝えていましたが、私はあなたのコンピュータにアクセスできないのです。なぜなら、それは仮想マシンのUbuntuを持っていますが、私はそれにアクセスできないので、ファイルを取得することができません。しかし、私の知る限り、それは作業を行い、2つの異なるパイプラインを作成し、そのうちの1つがより効果的であることを確認しました。
トークンを提供すればGitHubリポジトリを作成できると言っていましたが、それはまだテストできていません。ユーザーの数が多すぎて対応しきれていないようです。最初は問題なく5つの非常に複雑なプロジェクトを実行できましたが、今ではクラッシュが増え、再起動しなければならず、トークンを消費しています。今は1日に1トークンしか得られないようです。
潜在的に非常に強力なアーキテクチャであり、複製される可能性があります。Manisだけがそれを持つわけではありません。今後ますます増えていくと思います。オープンソースのOperatorのようなもの、Manisのようなエージェント的なスキャフォールディングなど、誰かがこれらの部品をすべて組み合わせるでしょう。
Operatorのような本当のビジョンを持つ何かが必要だと思う理由は、例えばCloud codeでは、それが自分の出力を見ることができないからです。ゲームを作成するように頼むと、グラフィックがレンダリングされないコードを繰り返し提供してくれました。そのため、問題が何かを調査する必要がありました。「簡略化したアプローチを試してみましょう。画面に立方体が見えるはずです」などと言い、私は「はい、見えます」または「いいえ、見えません」と答えなければなりませんでした。それに基づいてトラブルシューティングができました。特定の方法でセットアップされていれば、おそらく簡単にそれを見て、自分でトラブルシューティングすることができるでしょう。
完璧なエージェント的スキャフォールディングのためのすべての部品を組み合わせることに非常に近づいていると感じます。そこに最高のコーディングモデルを追加し、それを接続すれば、このものが自動ソフトウェア開発者になり始めるかどうかについて、非常に良い考えが得られると思います。そしてそのものは非常に可能性が高く、今年中に登場すると思います。その時点で、このプロセスのどこにいるのかを判断することが非常に簡単になるでしょう。なぜなら、現在は議論があるからです。
これらは開発者がより多くのことをするのを助ける素晴らしいツールになるのでしょうか？ケビンが言ったように、時には何が必要かを正確に知っていて、そこに行くためにただ多くのタイピングをする必要があります。確かにAIがそれを助けることができることは理解できます。しかし、完全に新しい革新的なエンジニアリングタスクがあり、非常に創造的になり、高度な思考をして、それを解決し、完璧に機能することを確認する必要がある場合はどうでしょうか？AIはそれができるようになるのでしょうか？
それが大きな問題です。そして具体的にはいつですか？今年か、2027年か、それともしばらくはないのでしょうか？なぜなら、非常に上手にコードを書けるAIは、ほぼ何でも作ることができます。特に雇用だけでなく、誰もが自分が適切だと思うプロジェクトのためにコードを生成する能力にも大きな影響を与えるでしょう。
ケビンが言ったように、オープンAIはこれに多くのリソースを投入しています。AnthropicもGoogleも同様です。そして今、新しいDeepSeekバージョン、R2についての噂を聞いています。それは非常に近い将来に登場するはずで、コーディング能力が大幅に向上していると主張しています。そのようなオープンソースのシステムをこのようなアーキテクチャにプラグインできるようになったら何が起こるでしょうか？
その時点では、ソフトウェアを作るだけではなくなっています。この人は素晴らしいフォローです。彼はClaudがBlenderと直接対話できるMCPを構築しました。Blenderは美しい3Dオブジェクトやシーンなどを作成することができるものです。基本的にAPI呼び出しや、この場合はModel Context Protocol（MCP）を通じてClaudをBlenderに接続することができれば、大規模言語モデルが他のすべての種類のものに接続することを可能にする新しいものです。これは彼らがそれを行う方法を標準化するようなものです。
AnthropicはMCPを11月に導入しました。我々は簡単な動画を作りましたが、現在本当に爆発的に広がっています。Cloud codeのような何か、コードを書くことができるこのエージェント的なインターフェースが、Blenderにフックして3Dの世界を作り出すことができるようになると想像してください。この場合は「宝物を守る低ポリゴンドラゴン」です。そこにあります。そしてそれらを取り出して、ビデオゲームなどに入れることができます。
私は未来を予測することはできません。オンライン上には、ソフトウェアエンジニアリングの難しい部分の多くを自動化することがなぜ非常に難しいのか、AIコーディングがなぜ恐ろしいメスになり、どこにも行かず、多くの問題や間違いを引き起こすのか、それがどのようにしてコードの理解を悪くしてしまうのかについて、非常に優れた説明をしている非常に賢いソフトウェアエンジニアがたくさんいます。彼らは非常に正しいかもしれません。
同時に、MicrosoftのSatya Ndella、Google、オープンAI、Anthropic、Elon Muskとその xAI チーム、xAIの傘下にゲームスタジオをオープンし、AIを使ってビデオゲームを作るなど、これらのすべての企業のCEOがこの問題を解決することを目指して多くのお金、才能、知性を注いでいるのを見ています。そして彼らがこの問題を解決する頃には、ソフトウェア開発ができるエージェントを作れるなら、それは他の多くのタスクも自動化できる可能性が高いです。単一目的のものではなくなるでしょう。
予測するのは好きではありませんが、もし強制されれば、より高い失業率か、少なくとも一部の職業の置き換えを予測するでしょう。それが必ずしもソフトウェア開発者やるいは3Dデザイン、アニメーション、AutoCAD、CADなどに関わる人々の上位20％に起こるとは言っていません。しかし、特に複雑でないものに対して、どうしても大きな影響を与えないようにするのは難しいと思います。
天才レベルの才能を必要としない仕事はたくさんあります。ただ仕事をこなすだけ、いくつかの認知能力と、コードであれ何であれ、ただたくさんタイピングする能力だけが必要なものです。そのような仕事はたくさんあります。以前のManisに関する動画では、あなた方の一人が「自分の仕事の85％をそれができる」と言及していました。今後ますますそのようなことが見られるようになり、それは2025年、今年中に到来するでしょう。
最初のソフトウェア開発エージェントが登場すれば、この全体がどこに向かっているのかについてはるかに良い考えが得られるでしょう。必要なすべてのツール、すべてのビジョンやエージェント的なスキャフォールディングを与えても、それでもボールを落とし、うまく実行できないのであれば、「まだすぐそこまで来ていないのかもしれない」と言えるでしょう。しかし、過去2年ほどこれらのものをテストしてきた者として、より複雑なテストケースを考え出すことがますます難しくなっていると言わざるを得ません。
もちろん、私が行うテストはどれも大規模なデータベースを持つものや、巨大なコンテキストウィンドウを必要とするものではありません。それはまた別の障害になるかもしれません。しかし何が起きようとも、非常に興味深い時代が来ています。コメントであなたの考えを教えてください。ここまで見てくれたことに感謝します。私の名前はrarthです。また次回お会いしましょう。