真のAGI?! ChatGPTエージェントがAIを永遠に変える

AGI・ASI
この記事は約15分で読めます。

この動画では、OpenAIのChatGPTエージェントが真の汎用人工知能(AGI)に到達したのかを検証している。Dr. Knowitallが実際の複雑なタスク(レンタカーか配車サービスかの選択)をエージェントに依頼し、その性能を評価する。同時に、実験的なモデルが国際数学オリンピックで金メダル級の成績を収めたことや、サム・アルトマンの発言を通じて、現在のAI技術が従来のAGIの定義に既に到達している可能性を議論している。

True AGI?! ChatGPT Agent Changes AI FOREVER
OpenAI's release of ChatGPT Agent is another step-change in the capabilities of Large Language Models, and is finally ar...

ChatGPTエージェントの実践テスト開始

みんな、どうも!Dr. Knowitallや。今日は汎用人工知能、いわゆるAGIとエージェント、そしてChatGPTの新しいエージェントモードについて話したいんや。ほら、今設定してあるのが見えるやろ?エージェントモードを有効にしてるんや。何が起こるか見てみよか。まだ試したことないんやけどな。

複雑な現実世界の長期タスクをエージェントに解決してもらいたいんや。実は木曜日のXT Takeoverに行くことと関係あるんや。そう、ちょっと遅れてしまったんやけど、レンタカーを借りる必要があるんや。で、状況が普通より複雑やねん。それはちょっと後で説明するわ。

質問を用意してるんや。実際、めっちゃ長い質問を書いたのが見えるやろ?エージェントに実行してもらった後は、ちょっと時間がかかると思うねん。その間に、サム・アルトマンの発表と、実験版のChatGPTが地球上で最高の数学オリンピック人間をほぼ打ち負かしたっていう事実について説明するわ。実際、最後の最後まで1位やったんや。金メダルを取ったんやで。これは専用版やなくて、汎用のLLM(大規模言語モデル)なんや。

しかも、ツールにアクセスできへんかった。だから、これは本当に本当にすごいことなんや。大きな問題は、もう汎用人工知能の段階に到達したかどうかってことやな。

まず最初に、この質問を実行させて開始してもらうわ。言うたように、時間がかかると思うねん。質問の一部を読み上げるから、画面を止めて全部読みたかったら読んでもええで。最初の部分と最後の最後を読むわ。

「解決してもらいたい複雑な現実世界の問題があります。サンマテオのXT Takeoverへの今度の旅行で、レンタカーを借りるか、複数のUberを利用するかする必要があります。」それからイベントセンターの住所が続く。「私のホテルはイベントセンターから約1マイルのところにあります。サンフランシスコ空港に飛行機で往復するなら、実際これは簡単です。SFOでレンタカーを借りて、出発時にまた返せばいいだけです。これを複雑にしている部分は、友達に会うためにサンルイスオビスポに飛行機で入ることです。」

「そして彼らの一人(やあ、ロビン)が彼のBeechcraft Bonanzaで私をベイエリアまで飛ばしてくれるんです。これは一般航空機なので、天候が許せば、サンフランシスコ空港ではなくサンカルロス空港に着陸することになります。空港の住所も書いてある。一般航空でVFRルールで飛ぶからや。7月24日木曜日の午後遅くに到着して、7月26日土曜日の午後11時にサンフランシスコ空港から出発します。」

「問題はこれです。レンタカーを借りるのか、どこでもUberを使うのか、それとも両方の組み合わせか、どれが安くて便利でしょうか?当然、総コストが気になりますが、便利さも重要です。バックパックとキャリーオンスーツケースを持っていて、ホテルをチェックアウトした後の土曜日一日中、それらをどこかに置いておく必要があるからです。」

「最高のコスト・利便性プランは何でしょうか?」それから読みたかったら読める注釈がいっぱいあって、最後に「この問題を慎重に調査して、上位3つの選択肢を順位付けしたリストを作ってください。レンタルを選ぶ場合は、すぐにチェックアウトできるよう関連リンクをすべて含めて、各選択肢がなぜ選ばれたのか、なぜその順序なのかを正確に説明してください。ありがとう。」

とにかく、見ての通り作業してるわ。「理解しました。サンマテオのX Takeoverへの旅行の物流を調査します。サンカルロス空港でのピックアップとSFOでのドロップオフを考慮して、Hertzのレンタルオプションを比較します」って言うてて、最初の結果を開いて、ウェブブラウジングとかしてるのが見える。それはなかなかクールやな。

明らかに進行して考えてて、Uberの料金がどのくらいかも調べてる。実際にUberではチップを渡すから20%追加するように言うたんや。だから、コスト比較するには、その情報が必要やねん。

サム・アルトマンの発表について

よし、それが進行してる間に、いくつかの投稿を読むわ。「今日、ChatGPT Agentという新しい製品をローンチしました。」これは実際17日やった。20日に録画してるんや。いろいろあって今まで試せへんかったし、実際18日まで手に入らなかった。17日に手に入ったって言われてるけど、多分17日の夜遅くにやったんかもしれん。

とにかく、エージェントはAIシステムの新しい能力レベルを表してて、自分のコンピューターを使ってあなたのために驚くほど複雑なタスクを達成できるんや。Deep Researchとオペレーターの精神を組み合わせてるけど、それが聞こえるより強力なんや。長時間考えることができるんや。それが重要なポイントやねん。エージェント的で、長期タスクができて、どれくらいうまくやるか見てみよか。

昔はロジックテストとか書かせたりしてたけど、今はそんなんは当たり前のことやねん。だから実際は、道草を食わずにエージェント的な長期タスクを処理できるかどうかってことやねん。それが本当の問題や。つまり、アシスタントのように振る舞えるかってことや。もしアシスタントに与えたのと全く同じ指示を与えたら、合理的なアシスタントなら誰でもこれらのタスクを実行して、調査して、答えを出して、私に提示できるはずやと期待するやろ。そして、もちろん、私はその情報に基づいて行動できる。

とにかく、サムが言うたように、長時間考えて、いくつかのツールを使える。つまり、計算機、プログラミング機能とかそういうのがある。もっと考えて、いくつかの行動を取って、もっと考えて、など。例えば、ローンチで友達の結婚式の準備をする、衣装を買う、旅行を予約する、贈り物を選ぶなどのデモを見せたんや。

それらは長期タスクがたくさんある。データを分析して、仕事用のプレゼンテーションを作成する例も見せた。そしてサムは、強力な製品やからこそ、こういう製品を使うことの懸念について話すんや。効用は大きいけど、潜在的なリスクも大きいんや。私たちはこれまで開発したことのない、たくさんの安全装置と警告、より広範囲の軽減策を組み込んでる。

堅牢な訓練からシステム安全装置、ユーザーコントロールまでやけど、すべてを予想することはできひん。反復的な展開の精神で、ユーザーに重く警告して、もしやりたいなら慎重に行動する自由をユーザーに与えるつもりや。

興味深い点がここにある。私は自分の家族にこれを最先端で実験的、未来を試すチャンスやけど、まだ高リスクな用途や個人情報をたくさん使うようなことには使わんと説明するやろ。野生で研究して改善する機会ができるまではな。

だから、私が求めたのは順位付けされたリストとリンクで、例えばエージェントにクレジットカード番号は与えへんかったことに気付くやろ。リスクを軽減してると考えてるからや。「行って予約して」って言うこともできたからな。もし本当に信頼できる人間のエージェントがいたら、「そう、行って予約しといて。私のクレジットカードを使って」みたいなことを全部言うやろ。

まだそこまでこいつを信頼してへん。まだ使ったことないからな。時間が経って、もし素晴らしく動いて失敗せんかったら、実際にもっと多くのツールへのアクセスを与えるかもしれん。カレンダー、Dropbox、クレジットカードとか、そういうの全部。そしたら実際に私のためにタスクを完了できる。

この時点では、実際に購入を完了するんやなくて、私に何かを提示してもらいたかった。サムが続けて言うには、「正確にどんな影響があるかは分からないけど、悪意のある行為者がユーザー、AIエージェントを騙して、与えるべきでない個人情報を与えさせたり、予想できない方法で取るべきでない行動を取らせようとするかもしれません。タスクを完了するのに必要な最小限のアクセスをエージェントに与えて、プライバシーとセキュリティのリスクを減らすことをお勧めします。」

「例えば、グループディナーに都合の良い時間を見つけるためにエージェントに私のカレンダーへのアクセスを与えることはできますが、服を買ってもらうだけなら与える必要はありません。でも服を買ってもらいたいならクレジットカードを与える必要があることに注意してください。『昨夜届いたメールを見て、それに対処するために必要なことを何でもやって。フォローアップの質問はしないで』みたいなタスクにはもっとリスクがあります。」

「それはエージェントへの大きな信頼です。これは、悪意のあるメールからの信頼できないコンテンツがモデルを騙してあなたのデータを漏洩させる可能性があります。現実との接触から学ぶことが重要で、私たちが関わる潜在的なリスクをよりよく定量化して軽減する間に、人々がこれらのツールを慎重にゆっくりと採用することが重要だと思います。」

「他の新しい能力レベルと同様に、社会、技術、リスク軽減戦略は共進化する必要があります。」明らかに、彼らは関わるリスクという点でこのモデルを真剣に受け取ってるけど、効用と能力という点でのアップサイドがあまりにも大きいから、価値があると思ってるんや。

エージェントの結果確認

よし、戻って確認すると、わあ、たくさんのウェブブラウジングをしてるな。あ、実際にちょうど終わったところかもしれん。よし、順位付けされたリストがある。このリストを見た後で、他のものも読むわ。

よし、収集した主要事実があるな。距離とUber料金。レンタカーの価格設定、イベントセンターの駐車場。それも興味深いポイントやな。考えてなかった。荷物の保管、コスト見積もりで使った仮定、旅行日、チップ、レンタカーの税金と手数料、燃料、駐車場。燃料を忘れてた。良いポイントやな。

そして最後に、順位付けされたリストになる。すべてのUberプラス荷物保管を最も安い選択肢として提案してる。本当に興味深いな。2番目はハイブリッド、3番目は全期間のレンタカー。最も便利。

残念ながら、ページにフォーマットの問題がある。ちょっとしたマイナス点や。エージェントに対してそれを数えるけど、残念やな。見えへんから。だからページを使ってメモを見せるわ。とにかく、本当に興味深い。すべてのUberプラス保管が1位にランクされてるのは、圧倒的に最も安いからやって。

本当に興味深いな。約138ドルの総支出はレンタカーのコストの半分以下や。うわあ。でもトレードオフは利便性が低いことや。ライドシェアの利用可能性に依存して、空港での荷物保管にお金を払わなあかん。実際、多分ホテルでできると思うから、少し安くなるやろ。だからうまくいけば、チップ代とかでやってくれるやろ。だからさらに価格が少し下がる。

2番目の順位はハイブリッドUberプラス1日レンタル。興味深いな。最高のバランスを提供する。Uber単独より高いけど、フルレンタルよりは節約できる。荷物を置く場所が必要な時だけレンタカーを借りる。土曜日の朝にHertzのRedwood Cityブランチで車をピックアップする。興味深い。

ブランチが8時に開くから実現可能や。天候が変わった場合にキャンセルできるよう、後払いレートを選ぶ。それは本当に良いな。サンルイスオビスポから飛行機やなくて運転して上がらなあかん場合、それは大きな変更になるからな。この計画は荷物保管料金を払うのを避けて、Uberの乗車を減らす。

そして最後に、フルレンタルは最も便利やけど最もコスト効率が悪い。3日間のレンタル、もちろん数時間だけやけど、3日目も重複するから、約360ドル近くになる。ホテルがイベントセンターから1マイル以内にあって、活動は2日間だけやから、自律性を高く評価するか、追加の旅行を計画するんでなければ、全期間レンタルする利点はほとんどない。

だから、これにはほぼ同意するわ。ベイエリアでUberがどのくらいかかるか調査してなかったけど、これが多分正しい方法やと思えた。そして正直、昼間はホテルに荷物を保管して、夕方に取りに行ってUberで空港に行くのが多分最も安い方法やと思う。

私の直感は、エージェントがすべてのこれらの調査を通して基本的に証明したことと同じや。だから、これができて、自分でやったのは本当にクールやな。実際に8分間で動いたって時間が分からんけど、この仕事をするのに8分かかったんや。でもそれはかなり速いと思う。

人間の私が、ChatGPTエージェントがやったほど早くこの調査を全部できるとは思わん。そして簡単に利便性とメモを見ることができるように。オプション1のすべてのUberが最低コスト、駐車場やガス代なし。しかし、Uberの利用可能性に依存しなければならず、サージ料金に直面する可能性がある。ランチが大きな問題や。

チェックアウト後の荷物が問題や。イベントセンターに荷物を保管するのは選択肢やないから、その時点で切れてしもた。とにかく、2番目は合理的な妥協案や。本当に必要な日、つまり土曜日だけレンタカーを借りる。興味深いアイデアや。これをブレンドできるやろ?土曜日に必要やと判断したらレンタカーを借りて、必要やないと判断したら借りひん。

だから、実際その2番目の選択肢も気に入ってる。そしてもちろん、ずっとレンタカーを借りるのは最も高いアイデアや。kayak.comをクリックしてみよう。ここにこれらのリンクがあるから、リンクが実際に機能するか見てみよう。「レンタカーについてのよくある質問」。これはよくある質問で、実際の車の取得やない。

ここで見られるように、この時点では正しい日付が入力されてへん。だから少し残念や。エージェントはこの時点で完璧やない仕事をしたと言うわ。私が欲しかったのは、kayakのやつに正しい日付がすでに入力されてて、検索も完了してることやった。だから、私がそこにいる日の正確なレンタル価格とかを実際に見せてくれることやった。

だから正当性チェックとして、実際に持ってるパラメータでこれを試して、エージェントが価格の点で実際に正しかったか見てみるわ。360ドル。うわあ。よし、まあまあ近かったな。でも、この29ドル、418ドル。わあ、すごく高い。242ドル。またプロバイダーピックはちょっと不安やけど、少なくとも評判の良いサイトでは、Hertzの400ドル、382ドルが最も安いようや。やばい。

レンタカーを借りたかったら、数週間前にやるべきやったな。多分、もっと安く借りられたやろうからな。でも少なくとも現時点では、エージェントが実際にレンタカーに関してだいたい正しい数字を持ってるようや。そしてそれはUberをすごく魅力的に見せる。

数学オリンピック金メダルの意味

だから、これらの発表に簡単に戻ろか。サム・アルトマンがリポストしてる。「汎用推論システムで2025年国際数学オリンピック競技会で金メダルレベルのパフォーマンスを達成しました。これは数学をやってる大規模言語モデルで、特定の形式的数学システムやないことを強調します。」それはクレイジーや。

これは汎用知能への主要な推進の一部で、どうもツールへのアクセスもなかった。競技者と同じように自分の心だけを持って、同じ時間制約内で実行する必要があった。OpenAIを最初に始めた時、これは夢やったけど、私たちにとってはあまり現実的やと感じられへんかった。過去10年間でAIがどこまで来たかの重要な指標や。

「私たちはGPT-5をすぐにリリースしますが、正確な期待を設定したいと思います。IMOで金メダルを獲得したこれは、将来のモデルで使用する新しい研究技術を組み込んだ実験的モデルです。GPT-5を気に入ってもらえると思いますが、IMO金レベルの能力を持つモデルをリリースする予定は何か月もありません。」

サムは他の場所で、人々がそれほど良いモデルを扱えないのではないかと心配してるって言うてる。だから、それについて彼が言ってることは少し怖いな。でもとにかく、GPT-5はo3と最終的に手に入るGPT-6(または何と呼ぶかは分からん、Brunoとか呼ぶかもしれん。彼らの命名慣行は素晴らしいからな)との間の踏み台になるはずや。

地球上で最も高度な数学的思考者、つまり人間と競争できるモデルは、あなたにとって汎用人工知能のように感じ始めるはずやろ?私にはそう感じる。そして、その話で、サムは昨日もポストした。「土曜日の朝早くに起きて、小さなコーディングプロジェクトで新しいモデルを使う2時間を持った。」

これは実験的モデルやと仮定してる。5分でできた。本当に本当に良い。どう感じていいか分からん。だから、基本的にこれらのものが地球上で最も賢い人間を凌駕してることを実感するのは少し怖いな。Grokも同じことをしてる。それらが賢いすべての分野で最も賢い人間と同じくらい賢いんや。

人間は、これらのものが賢いすべての分野でこれらのものと同じくらい賢くなることはできひん。本当に本当に印象的で、また少し怖い。どう感じていいか分からん。

AGIの定義について

そして最後に、サムからもう一つの簡単なポスト。「ChatGPTエージェントがコンピューターを使って私たちがやったような複雑なタスクを実行するのを見てるのは、私にとって本当のAGIを感じる瞬間でした。コンピューターが考えて、計画して、実行するのを見ることは違う衝撃があります。」

そして、それはまさに私たちが見たことや。つまり、実際に非常に複雑な指示セットを取り込んで、長期タスクを実行するのを見た。そう、8分しかかからなかったけど、それでも結構複雑やった。そして見てる時に、ページをめくってるのが見えた。

人間ができるより早く、すごく早くウェブをブラウジングしてた。そして異なる答えを比較してた。そして少なくとも私の簡単な正当性チェックでは、正確な情報を持ってるようで、準備ができてる。私が思う最良の選択肢を提示してくれた。確実に最も柔軟な選択肢でもある。

そして計画が変わって最後の最後にサンルイスオビスポでレンタカーを借りる必要があっても、それができるってことや。そう、もっとお金がかかるけど、少なくともそれはできる。そして他の場所でレンタカーを借りることにコミットしてへん。だから、その答えが本当に気に入ったし、素晴らしい仕事をしたと思う。

だから、これは実際汎用人工知能なんか?答えはイエスやと思うけど、問題は質問が何かを知らんということや。『銀河ヒッチハイク・ガイド』のように感じるわ。スーパーコンピューターが答え42を出すけど、人々は質問を適切に定式化してなかったことに気づく。だから42が実際に何を意味するか分からん。

だから私たちが抱えてる問題は、汎用人工知能とは何かということや。AGIをどう定義するんか?5年前にほぼ誰でもAGIを定義した方法では、これらのものは間違いなく汎用人工知能や。

最も賢い人間と同じくらい賢い。長期タスクができる。目標を与えられて、その目標に進んで到達するという意味でエージェント的や。その答えが何かを理解する。もはや単純なチャットボットとのやり取りやない。これらのものは実際に外に出て、自分で長期タスクを実行してる。

5年前にほぼ誰でも持ってたやろうAGIの定義を考えると、ChatGPTエージェントのようなものは間違いなく汎用人工知能やと思う。今私たちにとっての問題は、それが私たちの現在の汎用人工知能の定義なんか、それともゴールポストを動かしたいんかということや。それらをさらに後ろに設定したいんか。これらのエージェント的タスクに加えてXYZをしなければならないって言いたいんか。そして、それは友達よ、もっと哲学的な問題や。

このすべてについて、汎用人工知能のあなたの定義が何か、ChatGPTエージェントやGrokや他のLLMがこの時点で実際にその基準に到達したと思うかどうか、コメントで教えてくれ。そこにいる間、もしよろしければ動画に「いいね」をしてくれ。YouTubeのアルゴリズムに役立つから本当に助かる。

そして、このような動画をもっと見たいなら、購読を検討してくれ。そうすればキャッチできる。そして次の動画またはXT Takeoverで会おう。バイバイ。

コメント

タイトルとURLをコピーしました