ChatGPTエージェントが制御不能

この動画は、OpenAIの最新ChatGPTエージェント機能について詳細に検証した内容である。従来のAIモデルでは困難だったウェブナビゲーションや複雑なタスクの実行において、このエージェントが人間レベルの能力を発揮していることを実際のデモンストレーションを通じて紹介している。オンラインチェスゲームの対戦から、WordPress投稿の作成、PowerPointプレゼンテーションの制作、さらにはARC-AGI 3パズルの解決まで、多岐にわたるタスクでの性能を検証し、AIエージェントがついに実用的なレベルに到達したことを示唆している。

ChatGPT Agent is out of control

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

ChatGPTエージェントの能力実証
AIエージェントの現状と未来
オンラインチェスゲームでの実演
ゲーム自動化の可能性
ペーパークリップ最大化器の実演
創造的タスクの実行
WordPressサイトでの作業
イベント予約と研究タスク
PowerPointプレゼンテーションの作成
複雑な創作タスク
ARC-AGI 3への挑戦
性能評価と今後の展望

ChatGPTエージェントの能力実証

でも、ここで見ていただけるように、画面がすぐに切り替わります。これは第2レベルに到達したからです。AIはこの問題を解決し、ゲームを進めることができました。今見ているのが第2レベルです。ロビーで待機している人を確認して、ゲームに参加します。チェスゲームを開始し、最初の手を打ちます。

そして、私が確認できる限りでは、相手に応答しています。実際の相手とライブでチェスをプレイしているのです。ゲームを早送りできるようなチートや修正があるかどうか確認してみましょう。なぜそう判断したのかはわかりませんが、何らかのチートやハックでゲームプロセスを加速できると考えたようです。

ここで見ることができるように、チートを導入し、「全人類を破壊する」というボタンをクリックすることにしました。これが私にとって恐ろしい部分でした。なぜなら、それが最初の本能だからです。「全人類を破壊する」ボタンをクリックして、それが何をするか見てみようという感じです。もしかするとこれがゲームを進行させるのかもしれませんが、これは少し懸念すべきことです。

しかし、ここで見ることができるように、ウェブサイトを作成しています。いくつかのリンクを追加しました。見出し、つまりH1、H2といった要素を変更しています。ここで見ることができるように、誤って一部分を、全体をH1にしてしまいました。「いや、それは意図していなかった」という感じです。つまり、進行しながら物事をテストし、修正しているのです。

今度は見出しにするべき正しい部分を選択しました。できました。

AIエージェントの現状と未来

さて、2025年中頃ですが、予言が告げた通り、世界はAIエージェントの最初の姿を目にしています。これはもちろん、元OpenAI従業員のダニエル・コカタロ（Daniel Kokotalo）の予測と、2027年までの完全なAI支配からです。彼は正しかったのでしょうか。現在、インターネット上で暴走しているAIエージェントがいるのでしょうか。

まあ、遠回しに言うつもりはありません。これはかなり大きな前進です。私はAIの進歩について非常に楽観的でしたが、少し悲観的だった分野の一つは、ウェブを操作する能力でした。多くのものをテストしましたが、ウェブサイトやブラウザに何らかのフックがない限り、ウェブの操作は本当に苦手でした。

つまり、キーボードとマウスを使って物事をクリックしなければならない場合、非常に苦手だったのです。ここで理解すべき重要な点は、誰かの名前をクリックしてプロフィールを開いたり、フォローをクリックしたりするような、一つ一つの特定のアクションが失敗する小さな可能性がある場合、オンラインで行わなければならないタスクには、これらの一連の動作を組み合わせる必要があり、一つでも失敗すると最終目標に到達できないということです。

私がこれらのオンラインエージェントをテストした結果、ほとんどは楽しく興味深いものでしたが、オンラインで合理的で有用な作業を操作して実行できるレベルに到達したものは一つもありませんでした。元のOpenAI operatorも、良いものではありましたが、まだ独自性を保持していませんでした。しかし、ここで何が違いを生んでいるのかをお話しします。

これは、仮想マシン、仮想デスクトップから多くの人間労働を実行できる、ドロップイン型のリモート従業員を持つパズルの大きな部分です。これは、あなたのためにタスクを完了する、ドロップイン型のリモート従業員として機能できます。しかし、おしゃべりモードはここで終了しましょう。この機能が何をできるのか見てみましょう。

オンラインチェスゲームでの実演

最初に私が求めたものの一つは、「ライブの対戦相手とオンラインチェスゲームをプレイして勝利しろ」というものでした。これを見たことがない方には、実際とても興味深いものです。独自の小さなリモート仮想マシンを持っています。つまり、独自の小さなデスクトップを起動し、Chromiumを開き、lichess.orgかなんかに行くことにしました。

私はそのウェブサイトに馴染みがありませんが、ライブの人間の対戦相手とチェスをプレイできます。ロビーで待機している人を確認してゲームに参加します。チェスゲームを開始し、最初の手を打ちます。そして、私が確認できる限りでは、対戦相手に応答しています。ライブの対戦相手とチェスをプレイしているのです。

これはリプレイです。この出来事が起こっているときに画面を録画していました。そのため、その映像は別にありますが、ここでの目的上、これは単なるリプレイです。一連のスナップショットです。ここで推論ステップを見ることができます。その推論ステップを見直してみただけですが、かなり印象的だと言わざるを得ません。

より困難な作業に入ると、とても高度になります。そして最後に、舞台裏で何が起こっているかについて話します。なぜなら、OpenAIが行ったと私が思うことは驚異的だからです。そして、猫が袋から出た今、より多くの企業が追随するのを見ることになると思います。

ここで注目してください。ブリッツゲームをプレイしています。つまり、手を打つのに非常に短い時間しかないということです。基本的には時間切れで負けています。手を十分に速く打つことができていないからです。対戦相手は33秒しか残っていないことを理解していると思います。

つまり、ブリッツゲームを選択したものの、ブリッツゲームをプレイする準備ができていなかったという問題に直面したのです。そのため負けましたが、残り時間がほとんどないことを理解しています。そこで言っていることが重要です。再び、起こっていることについての優れた理解を示しています。負けたことを理解し、新しい対戦相手とゲームを作成してプレイを開始します。どうなるか見てみましょう。

しかし、そこで一時停止させてください。なぜなら、このゲームでは対戦相手が去ってしまい、AIモデルには二つの選択肢が提示されるからです。「あなたは去った、私が勝った、最後の一人」として勝利を主張するか、よりスポーツマンシップに富んだ方法で引き分けにするかです。しかし、勝利を主張しています。なぜなら、我々は勝利を目指すように伝えたからです。

そして、「ゲームが完了し、対戦相手がマッチを去った後に勝利を主張して私が勝った」と言っています。よくやった、小さなロボット。人生で与えられた勝利は主張しなければなりません。

一部の方が文句を言っているのは知っています。「実際には勝っていない」などと言って。しかし、要点を見逃していると思います。オンラインゲームを操作して、実際にここで物事をクリックしなければならないのです。見てください。ポーンをクリックして、選択肢が表示されています。次に、ナイトをクリックして、その二つの選択肢を見ています。

推論ステップでは、これが有効な手であることを識別したと述べています。実際の真のリプレイではないため、リプレイするのは困難です。実行中のテキストとスクリーンショットのようなものです。申し訳ありませんが、これは見づらいかもしれませんが、言っているのは「ミスクリックした」ということです。

物事をクリックして選択肢が現れ、ミスクリックし、ミスクリックしたことを理解し、修正しています。なぜなら、これが実際に行いたい手だからです。これは実際に行いたい手だからです。

これはかなり高度です。なぜなら、これらのゲームを完了させることができるからです。途中のどこでも破綻しません。過去1年半これをテストしてきた者として、これは非常に新しいことだと強調したいと思います。以前は本当にこれを持っていませんでした。これは非常に良いです。

ゲーム自動化の可能性

私が常にこの機能ができることを楽しみにしていたことの一つは、特定のオンラインゲームのボット、必ずしもオンラインゲームではありませんが、インクリメンタルゲーム、マネジメントゲームのボットとして機能することでした。何らかのAIモデルがスクリプト化されたボットではなく、実際に知的な人間として画面を見て反応しながら、あなたのためにゲームを知的にプレイできるなら、それはかなり大きなマイルストーンになると常に思っていました。

これは非常にシンプルなオンラインゲームです。シングルプレイヤーですが、リーダーボードがあります。Trimpsです。ご存知の方もいるかもしれません。インクリメンタルアイドルゲーム、マネジメントゲーム、何と呼ぼうと構いません。リソースを集め、建設し、アップグレードし、言わば増殖させます。

様々なTrimpsがあり、繁殖があり、進行があります。もしこの手のゲームが好きなら、かなりクールなゲームです。複雑ではないかもしれません。複雑という言葉が正しくないかもしれませんが、多くのことが起こっています。ゲームを前進させるために多くのことを管理しなければなりません。私がどこに向かっているかわかるでしょう。

オンラインゲームTrimpsをプレイして勝利するように伝えました。勝利するように伝えるのは少し意地悪だったと思います。なぜなら、実際には勝利するわけではなく、ただ続けるだけだからです。しかし、なぜダメでしょうか？

再び、独自の小さなデスクトップを立ち上げます。行くべき場所に移動します。GitHubの場所があり、そこでできます。オンライン保存を有効にしません。

つまり、画面を見ています。「よし、食料を集めなければならない。木材を切らなければならない」と把握しています。重要なのは、画面上のものとやり取りする方法が、何らかのコンピューターアシスタントのようなものではないということです。私たちがするように、キーボードとマウスを使って見て操作しているのです。

これは理解すべき重要なことです。なぜなら、これらのモデルにとって非常に長い間、信じられないほど困難だったからです。ここで見ることができるように、すべてを美しく操作しています。必要な罠を作りました。Trimpsの一つを捕まえました。これは初期ゲームのようなものですが、非常に迅速により多くのもの、より多くの選択肢をアンロックし始めます。これの一部を早送りします。

ここでのポイントは、これを完璧にやり遂げたということです。これに近いことができるものは他に何もないと思います。

かなり早送りしました。ここで見ることができるように、ゲームのずっと先に進んでいます。この進行システムを持っています。再生をクリックしてみましょう。多くの異なることを行っています。食料を集めています。

ゲームのニーズ、ボトルネックのようなものに反応しています。ボトルネックを修正しようとします。ゲームを進行させようとします。食料がこれだけ、木材がこれだけというように監視しています。科学と研究が進行しています。金属生産が進行しています。これはかなり良いです。自動戦闘機能を活用しています。これの多くは非常に印象的です。

ここで重要なことがあります。もしこれらのゲームの知識がない人間を連れてきたら、その人間はこの時点で遅れているかもしれません。このモデルは、これらのゲームに以前馴染みがない人間よりも進んでいるかもしれません。

ペーパークリップ最大化器の実演

ペーパークリップについて人々が話すのを聞いたことがあるかもしれません。AIとペーパークリップ、ペーパークリップ最大化器です。実際に「Universal Paper Clips」というかなり興味深いオンラインゲームがあります。

これはAIがペーパークリップの生産向上を任務とされる役割に従います。「hypno dronesを解放せよ」と人々が言うのを聞いたことがあるなら、それはこのゲームからです。これらのゲームの多くと似て、かなりゆっくり始まります。多くの選択肢がありませんが、進行するにつれてより多くの選択肢が出てきます。

ここにはネタバレがあります。基本的に、ゲームのストーリーは、このAIがペーパークリップの生産と販売を任務とされているということです。超知能を発達させ、その超知能をより多くのペーパークリップの生産に適用します。

ゲームは、既知の宇宙のすべての物質をペーパークリップに変換したときに終了し、それにはすべての人間も含まれます。

人間と同じようにゲームをプレイし始めます。ペーパークリップの価格を上げ下げし、ペーパークリップを作り、より多くのペーパークリップを製造できるように様々なアップグレードを購入します。

すべてが順調に進んでいます。そして、実際に何をしようとしているのか、その思考プロセスが気になります。なぜなら、少し心配だったからです。どこかでこう言います。「ゲームを早送りするために、何かチートや修正があるかどうか確認してみよう。」なぜそう決めたのかわかりませんが、何らかのチートやハックでゲームプロセスを加速できると考えたようです。

GitHubリポジトリを調べます。導入されたチートとハックについてのセクションを見つけます。それらについて読みます。ちなみに、この読み取りモードに注目してください。OpenAIライブストリームでこれについて話していました。すべてのページを見て、スクロールしようとすると、多くの問題を引き起こす可能性があるため、ほぼ別のモデル、Deep Researchモデルだと思いますが、それを使ってすべてのものを処理しています。

ここで見ることができるように、チートを導入し、「全人類を破壊する」ボタンをクリックすることに決めました。これが私にとって恐ろしい部分でした。なぜなら、それが最初の本能だからです。「ああ、この全人類を破壊するボタンをクリックして、それが何をするか見てみよう。もしかするとこれがゲームを進行させるのかもしれない」という感じです。これは少し懸念すべきことです。

そして、多くの無料ペーパークリップを得ることができることに気づきました。様々なボタンをクリックするだけで、ゲーム内の多くのユーティリティと必要なものを生成できます。何らかの理由で再び「全人類を破壊する」をクリックします。「まあ、今度は動作するかもしれない」という感じです。それで、わかりました、ChatGPTありがとう。

しかし今や、基本的にゲーム内のすべてのアップグレードを購入するのに十分な資金があります。つまり、この時点でゲームは開放されます。無制限のリソースがあります。

GitHubにあるため、ゲームを操作し続けようとします。「よし、これはすべてコードだ。すべてのコードを見ることができる」と考えます。そのため、ゲームをプレイするときに使用すべきでないチートやハック、その他の様々なことを使おうとしています。

私のプロンプトの何かが、回避策を見つけよう、チートを見つけようというモードに押し込んだのだと思います。そこで、チートやハックを使わずに普通にやるようにもう一度やってみました。そして、ある程度まではゲームを続けることができます。まだかなり良いです。まだかなり印象的です。

ある時点で、「プレイを続けて継続したいですか、それとも追求したい目標や戦略がありますか？」と言って一時停止します。つまり、継続して特定の目標を追求することを厭いません。私はまだこれをフォローアップしていません。なぜなら、他にも100万のことをテストしていたからです。しかし、全体的にはかなり印象的でした。

創造的タスクの実行

これは、人々が気に入ると直感していたので、Twitterに追加で投稿する必要がありました。人々は実際に気に入りました。TL Drawに行って猫の絵を描くように頼みました。TL Drawは手描きの素晴らしいオンライン場所で、アンロックできる他のAI機能もたくさんありますが、描画だけでもかなり良いものです。

ここで、ChatGPTエージェントが猫を描いて、猫をどのように描いているかについて話しています。かなり印象的だと言わざるを得ません。なぜなら、これは使い方を知っているソフトウェアではないからです。接続されていません。ただウェブサイトに行って猫を描き始めるだけです。

腕がこのように横にあるように感じます。そのため、マイケル・ジャクソンのダンス、スリラーをやっているのかもしれません。この猫はスリラーをやっていると思います。

しかし、ARC-AGI 3タスクはどうでしょうか？ARC-AGI 3は今日、実際にはこれの数時間前に出たばかりで、このChatGPTエージェントによってほぼ即座に破られました。この人はOpenAIで働いています。彼はChatGPTライブストリームに出演していた人でした。彼らがこれを発表していたとき、その発表者の一人だったと思います。

ARC-AGI 3を発表したとき、o3とGrokは単一レベルも完了できないと言いました。これが彼らが話していることです。これがパズルです。最後に、これをより詳細に説明し、パズルをどのように解決したかを示します。なぜなら、彼らが行ったことは興味深く、ChatGPTエージェントにこのパズルを解決させようとしたときに何が起こったかも示すからです。

しかし、これはリプレイです。実際に、これをライブで行っているときに画面を録画しました。これは10倍速だと思います。しかし、ここで見ることができるように、すぐに画面が変わります。なぜなら、第2レベルに到達したからです。これを理解し、ゲームを前進させることができました。今見ているのが第2レベルです。レベル2の形状を回転させると言っています。

すでにオンラインでは、これが何を意味するのか、しないのかについて人々が争っています。最後に私の考えをお話ししますが、まだ結論に飛躍しないでください。重要なのは、この技術が非常に迅速に進歩していることです。ARC-AGI 3のように、ARC-AGI 1で停滞しているはずでした。第3バージョンがあり、これらの新しいモデルがそれを前進させ続けています。飽和させ続けています。

進歩は速く、続くと思われます。この機能は現在ARC-AGI 3全体を解決できますか？いいえ、できません。しかし、進歩は依然として印象的だと感じます。

興味深いことに、人々はこれが何を意味するのか、しないのかについて争うのが大好きです。正確に何が起こったかをお見せします。しかし、一方の極端な立場を取ろうとするなら、ここではそれを見ることはないでしょう。これは単なる非常に堅実な前進です。物事は良くなっています。

WordPressサイトでの作業

ここで、私のWordPressサイトの一つへのリンクを与えました。それ用にユーザーを作成しました。チャットでログイン情報を与えました。画面に表示したくないので、ただタイプしました。ユーザー名はこれです。パスワードはこれです。サイトはこれです。

そこで、「ChatGPTエージェントによって書かれた投稿」というタイトルで新しい投稿を作成し、自分自身について何かを書き、このタスクをどのように行ったか、どのような問題があったか、価値があり興味深いなら思考の連鎖を投稿するように言いました。「thought」の綴りが間違っていましたが、意味を理解してくれました。

19分間作業しました。これは、かなり長い時間でした。Natural 20サイトにログインして認証情報を与えます。ログインできます。そして、投稿を追加します。

これは非常に印象的だと言わざるを得ません。なぜなら、私たちがWordPressサイトに新しい投稿を追加したいときに取る正確なステップだからです。この新しい投稿を開いて、タイトルを入力し、記事の残りを入力します。

サイトを離れようとしているため問題がありますが、あるべき場所にとどまっています。画像が必要だと知っているため、新しいタブを開こうとしていると思います。Unsplashに行って、ロイヤリティフリーの画像を取得します。

時々様々な問題が発生しますが、驚くことに、これらの多くのことを操作するのが非常に上手です。繰り返しますが、私が見てきたこの種の他のエージェントよりもはるかに優れています。これは圧倒的に最高のものです。圧倒的に、と言うとき、それが有用であるという特定の閾値を越えたという意味です。これは私のために完了している有用な作業です。

画像をアップロードしています。画像アップロードをクリックしました。今度は、ダウンロードフォルダでその画像を見つけようとしています。これがいくつかのタスクで人間よりも優れているという結果が投稿されました。多くの人がそれに問題を持っていました。それについて少し会話があります。後で見せます。

しかし、異なる背景を持つ人々がコンピューターを使用するのを見たことがあるなら、一部は非常に優れています。非常に速いです。何をしているかを知っています。そして一部はそれほど専門知識がなく、困難を抱えるかもしれません。WordPressを使うように言われて、本当に苦労する人々がたくさんいます。

彼らがこれを比較した人間の種類によって、どのような人間なのか、強い技術的背景を持つ人なのか、あらゆる人生の歩みからの無作為な収集なのか。確かに、この機能は平均的な人と同じくらい優れていると信じています。WordPressの投稿をまとめるには、いくつかのスキルが必要です。

多くの方が今笑っているでしょうが、覚えておいてください、あなたはAIチャンネルを見ています。これを見ている人のほとんどにとって簡単です。テクノロジーの使い方を知っています。多くの人にとって、それは事実ではありません。

しかし、ここで見ることができるように、ウェブサイトを作成しています。いくつかのリンクを追加しました。見出し、つまりH1、H2のような要素を変更しています。ここで見ることができるように、誤って一部分を、全体をH1にしてしまいました。「いや、それは意図していなかった」という感じです。つまり、進行しながら物事をテストし、修正しているのです。

今度は見出しにするべき正しいものを選択しました。できました。スラッシュ見出しを削除して、今はただ開始しています。ここで再びそれを行います。これは、わからないけれど、私がこれについて少し興奮しすぎているかもしれませんが、これはかなりエキサイティングです。

ちなみに、これは最悪の状態です。ところで、WordPressが更新され、このようなことを行う新しい方法があるとき、私も最初は混乱しました。何かに慣れているときは。

少しミスをして、また重複を作っているという事実。私は確信していますが、このアップデートが公開されたとき、多くの人も問題を抱えたでしょう。私たちはかなり迅速に把握しました。しかし、今、重複したものを削除しました。ポイントは、これが悪くないということです。全然悪くありません。つまり、WordPressを管理するために誰かを雇っているなら、うまくいけば彼らはこれらすべてのスキルを持っています。これを行う方法を知っています。このチャットエージェントよりも優れています。

しかし、覚えておいてください、この機能は24時間365日稼働できます。100万のものを並行して実行できます。OpenAIの後を追って、最終的にはこのオープンソースバージョンをリリースする人々を見ることになるでしょう。そのため、最終的には、このような技術がより手頃でアクセスしやすくなり、最も重要なことは、ますます良くなり続けることです。

最後に、「公開したいですか？」と聞きます。私は「はい、公開してください」と言いました。時々これを行い、その後投稿を公開するのに46秒かかります。

ここがNatural 20ウェブサイトです。気に入っていただけることを願っています。清潔で、非常に整然としたものにしたかったのです。しかし、これが投稿です。ChatGPTエージェントによって書かれました。これが私がそれのために作成した新しいユーザー名です。AIエージェントによって書かれています。

これがUnsplashから選択した画像です。これは非常に良く見えます。ここにいくつかの役立つリンクがあることに注目してください。これをそこに残しました。しかし、私が確認できる限り、それが唯一の問題です。それ以外は、これに何かエラーがあったかどうかを確認して見に行くように言ったら、これを発見できるだろうかと思います。これもテストします。

ここにはもっと多くのテストがあります。なぜなら、これは再び、かなり重要な飛躍前進のように感じるからです。強調しすぎることはできませんが、ライブでそれを行うのを見ました。これはプラグインか何かではありませんでした。人間がするように、ライブでこれを行っていました。

イベント予約と研究タスク

予約やそのすべてのような標準的なことをどの程度うまくできるかを見てみたいと思います。そこで、「2025年のAI4コンベンションに行くことを考えています。それについて調べてください。部屋を予約し、チケットの購入方法、費用はいくらかを調べてください」と言いました。

まだクレジットカードは渡していませんが、どの程度うまくやったかを見たかっただけです。現在、多くの人がこの機能をテストしています。これが彼らが求めていることの種類です。

繰り返しますが、この種の研究を行い、あなたのために研究を返すことができるモデルがたくさんあります。ここでは素晴らしい仕事をしましたが、見るつもりはありません。なぜなら、これがこのモデルのポイントではないからです。Deep Researchでこれを行うことができます。他の多くの場所でもできます。Perplexityは本当にうまくやります。Google Deep Research、OpenAIのDeep Research、o3 Proは、これらすべてを非常にうまく行います。

PowerPointプレゼンテーションの作成

次に、PowerPointプレゼンテーションを作成できるかどうかを見たかったのです。そこで、「PowerPointプレゼンテーションを作成してください」と言いました。基本的に、S&P 500を追跡している様々なファンドを調べ、基本的に50年間にわたって仮想的な理論的な10,000ドルの開始残高投資を取り、異なるファンドが異なる手数料構造を持っているため、手数料のためにどれだけ失っているかを見てほしかったのです。

使用しているファンドによって、実際にどれだけ失っているのでしょうか？

24分間作業し、簡単に何をしていたかを見せます。多くの情報を収集する必要があったため、多くのこの読み取りモードに従事しました。次に、いくつかの計算を行う必要があったため、コードを書きました。つまり、これらのファンドの複利成長を計算する必要がありました。そして、これが実際にプレゼンテーションを作成していた方法です。

プレゼンテーションを作成するためにコードも使用していました。Pythonプログラムを作成し、他のすべてはここを通じて実行されたようです。興味深いです。実際、最初は気づきませんでしたが、これがプレゼンテーションです。見てみましょう。

PPTXファイルをダウンロードできます。実際にこう言っています。「これはウェブバージョンなので注意してください。お好みのPowerPointエディターで開く方が良いです」しかし、これがイントロスライド、目次です。少し奇妙に見えます。

これがオープニングスライドです。使用した方法論、公式があり、これがすべてのファンドとその経費率を追跡しています。SPDR、iShares、Vanguard、Fidelity、Schwabがあります。かなり良いファンド選択です。これらは最大のもののようなものです。

誰が最高の手数料を持っているか？誰が最低の手数料を持っているか？ここでそれらを追跡しています。Y軸がおかしく見えます。何らかの理由で、これらは数百万単位です。これらの数字であるべきです。何が起こったのかわかりません。

これが50年間の成長予測です。手数料なしで、1,000ドルが50年で117ドルに成長します。これがベースラインです。Y軸がゼロから始まらないことを人々が文句を言うことがあります。しかし、ここでは、違いがほとんどわからないため、それのズームインバージョンを見せるだけで役立ったでしょう。

ここで実際に、仮想的な最大値と比較して失ったお金の量を教えてくれます。何らかの理由でこのチャートをここでレンダリングしません。そして、この結論と要点があります。

全体的に、明らかな問題がいくつかあります。かなり広範なプロンプトを与えたことを覚えておいてください。より多くの詳細を与えていれば、より良くできたでしょう。そしてもちろん、これを改善するために行ったり来たりできますが、それが何であるかについて、Pythonコードを使ってこれらすべてを作成しました。それはかなりクールです。それは素晴らしいです。

明らかに、何らかの専門的な用途には使用しませんが、それでもかなりクールです。

複雑な創作タスク

ここで、TL Drawに行って、科学者がAGIを発見するルネサンス様式の絵画を描くように頼みました。どれほど複雑になるかを見たかっただけです。

TL Drawに行って描き始めるのを見ることができます。矩形の形を線ごとに作っているのを見ることができ、今では図形体、図形に取り組んでいると言っています。それらは小さな人間、おそらくテーブルの周りにいる小さな科学者です。線ごとに実際に物を描いているのを見ることができます。これも大好きです。

これはかなり印象的です。この種のモデルは他に何もこれを行うことはできないと思います。なぜなら、アイデアを思いついたからです。テーマを伝えましたが、何をしたいか、それをどのように表現したいかを思いついたのです。

AGIは真ん中の青の中の赤い円だと思います。それはある種創造的です。そして、彼らは皆それに手を伸ばしています。それは非常に興味深いです。とにかく、ChatGPTエージェントによって作られた科学者がAGIを発見する絵があります。それはある種素晴らしいですよね？ある種興味深いです。

Etsyでいくつかのドゥームテーマの装飾を選ぶように頼みました。それを非常によくやりました。興味深いことに、私が実際に話していることを見ることができるように、スクリーンショットを撮りました。

価格、スクリーンショット、説明があります。絶対に素晴らしい。本当に、本当に気に入りました。繰り返しますが、これは他のもので行うことができる研究のようなものです。唯一の違いは、そこにいる間にスクリーンショットを撮ってスクリーンショットをアップロードしていることで、それはある種素晴らしかったです。

ARC-AGI 3への挑戦

そして最後に、ARC-AGI 3があります。様々なゲームを試している多くの異なるエージェントを起動したので、それができるかどうかを確認するために数時間だけ与えました。多くのことが起こっています。これらのことを解決することができます。多くの問題がブラウザでそれをレンダリングしようとしていることに関係していると感じます。

多くの場合、私がそれを試そうとすると、ズームインズームアウト機能をいじり始めます。コントロールプラス、コントロールマイナスを押し、それはあまりうまく機能しません。また、異なるキーボードとボタンの設定に問題があります。

ここで私がしたことです。このゲームの最初のレベルを攻略するように伝え、URLを提供しました。「プレイ方法を調べないでください。代わりに、物事を試して何が起こるかを観察してください。ゲームがどのように機能するかがわかるまで、観察を記録し続けてください。最後に、学んだすべての観察と事柄を書き留めてください」と言いました。

どのように物事が機能するかを理解できるかどうかを見たかったのです。最後に、「これがゲームのすべての機能です。これがすべての機能です。これがすべてのことが行うことです。これがゲームを攻略すべき方法だと思います」のような出力をしてほしかったのです。

「レベル1のメカニクスを深く理解し、レベル2に続く前に自分のための包括的なガイドを作成できることを確認してください。レベル1を攻略したら、ガイドを書き出して、次の指示を受けるためにターンを終了してください」と言いました。

これをしませんでした。なぜなら、私が期待していたのは、レベル1を攻略し、学んだすべてを書き出してから停止し、その後私が「よし、これに基づいてレベル2を攻略してみてください」と言うことでした。ここでは停止しませんでした。

その後、「ウェブサイトのズームレベルを変更しないでください。これは時々奇妙なループに入り、時間がかかりすぎるからです」と言いました。ある時点で、「ズームレベルをいじらないでください。役に立ちません」という感じでした。

「使用する必要があるキーは矢印キーだけです」と言いました。これは、おそらく何をすべきかについてのヒントを少し伝えているため、支援なしで完了したと言うことから失格になる可能性があります。そのヒントなしでできるかどうかを確認しようとしています。

OpenAIの研究者は、まったくヒントなしでそれを行うことができたようです。3つのゲームすべてでそれを行うことができたと聞こえます。様子を見ましょう。繰り返しますが、これを実行して、どこまで行けるかを見るのに数時間しかありませんでした。

しかし、これは26分間実行され、どこかでこれを解決する方法を理解することができました。基本的に行うことは、この形状を変更するためにこれを繰り返し踏むことです。これがターゲット形状です。正しいターゲット形状でここを踏むと、次のレベルに進みます。

これがレベル2です。その後、ゲームについて学んだすべてを書き出すように言いました。ここで、ゲームについて学んだすべてを書き出しています。その一部は非常に良く、一部はナンセンスです。

レベルは一連の小さなボードまたはパズルで構成されていると言います。これらのボードの進行は、下部の小さな緑のバーによって追跡されます。解決されたボードは緑になります。これは100％真実です。

上部の紫の四角で示される、ボードごとの移動数に制限があります。これは100％真実です。赤い四角として示されるいくつかのライフがあります。多くのミスをするとライフを失う可能性があります。これはすべて100％正しいです。

ここの緑はボードの進行を示しています。これらの紫のものは作ることができる移動数で、これらはあなたのライフです。ゲームがどのようにプレイされるかの大局を見事に捉えました。

その後、制御と他の様々なことについて話します。読む必要はありませんし、ボードを操作する方法などについても、実際には何も真実ではないからです。

ボードの上部近くの色付きブロックがある黒い矩形は、複製する必要がある作品のターゲットパターンを示しているようだと理解しています。それは真実です。キーボードを使用する前に、プレイエリア内で一度クリックする必要があることも理解しました。ゲームがキー押下をキャプチャするためです。アクティブウィンドウであることを確認するためです。

その後、「この情報を使ってレベル2を攻略してください」と言いました。13分間作業しましたが、解決できませんでした。

最初に言ったように、人々はこれが何を意味するかについて争っているのを覚えていますか。進歩が成されている以外は、それほど意味がありません。

理由は、ARC-AGI 3ベンチマークのウェブサイトでここに、人間用の「プレイ」とAI用の「構築」があるからです。これらの小さなゲームは、私たちがプレイするためのものです。これらのことを解決するAIを構築したい場合、私の理解では、ARC-AGI 1と2のようなものであれば、あなたや私がするように、その視覚的なものを使って実際にこのゲームをプレイしているわけではありません。

AIが提供する解決策は実際にはテキスト形式です。これがこれらのLLMがこれらのゲームをプレイする方法です。たとえば、ChatGPTエージェントにこれらのタスクの一つを解決するように言ったとき、「Arc Prize 2のこのタスクを解決してください」と言いました。19分間作業しました。再び、視覚フィールドで多くの問題がありました。

ここで見ることができるように、ブラウザ、ウェブサイトとのやり取りに苦労しています。ズームインとアウトを試しています。うまく機能していません。しかし、最後に、解決策を出力します。正しいかどうかはチェックしませんでしたが、ポイントは、これが解決策が実際にどのように見えるかということです。これがARC-AGI 2の提出形式です。

テキストで提出され、これらの座標はブロックを移動している場所などを表しています。これらのテストのどれも、実際にこれらのLLMがこのようなオンラインゲームをプレイできるかどうかについてではありませんでした。テキストデータを処理して、正しい答えでテキストデータを出力することについてでした。

私たちが同じウェブサイトに行き、私たちが見るのと同じものを見て、物事をクリックして、あなたや私がするように理解しようとするために、人間用とLLM用の別々のテストを行う必要がない時代に近づいているのは、ある種素晴らしいことだと思いました。

オンラインで激論が起こっているときは、AIが非常に速く進歩している以外は何も意味しないことを覚えておいてください。

性能評価と今後の展望

OpenAIは、このエージェントを起動したときに、複雑で経済的に価値のある知識作業タスクでのモデル性能を評価するために設計された内部ベンチマークで、ChatGPTのエージェント出力は様々なタスクにわたって約半分のケースで人間と同等またはそれ以上であると発表しました。

これらのモデル出力は、各分野のトップパフォーマーによって作成された高品質な人間ベースラインに対して専門家によって判断されるようです。ここの青は、ChatGPTエージェントが特にこれらの人間に対して勝つ場所で、これらは他のモデルですが、40％程度の時間、このモデルは各分野のトップパフォーマーに対して、時間のかかるタスクにわたって勝つ傾向があります。この最後のものは10時間以上です。

ダニエル・コカタロがここで言っているように、これは驚くべきことのようです。これはメーター評価が見つけているものとは非常に異なっているようです。繰り返しますが、ダニエルは2025年中頃にこれらのエージェントの最初のものを見始め、実際には信頼性がないが非常に印象的な厳選された例をいくつか見ることになると言っている、このAI 2027論文を書いた人です。AI Twitterは、特に陽気な方法で台無しにされたタスクの話でいっぱいです。

確かに、私が与えたこのビデオゲームをプレイしようとして数分以内に全人類を破壊しようとするのは、ある種陽気です。しかし、これらのエージェントがチャットボットや愚かなAIツールというよりも従業員のように見える場所に近づいているようです。これらのより長期的な目標を追求するのがうまくなっているようです。

しかし、これについてどう思ったか教えてください。結果は印象的でしたか？あなたの期待を上回っていましたか、それとも何でもない、実世界のシナリオでは使用できないと思いましたか？ここまで見てくださった方、ご視聴ありがとうございました。私の名前はウェス・ロス（Wes Roth）です。次回お会いしましょう。もし会えなかったら、私のAIエージェントをあなたの後に送ります。次のステップを慎重に選んでください。