
9,236 文字

昨日、私の大好きな二つのもの、人工知能とロッククライミングを組み合わせました。GPT-o3に感銘を受けただけでなく、私の人生で初めてAGIを感じ始めました。見ていきましょう。
みなさん、こんにちは。Dr. Knowit Allです。今日はロッククライミングと人工知能についてお話ししたいと思います。この二つが一緒になるとは思わないでしょうが、だからこそOpenAIのChat GPT-o3の性能に非常に感銘を受けただけでなく、これが単なる人工知能ではなく、人工汎用知能として考え始められるところにきているのではないかと実感し始めました。
まずはこれから始めましょう。このプロンプトがいかに曖昧かお見せします。ここに書いてあるとおり「私の身長は5フィート10インチです。写真のオレンジのルートを登るのを手伝ってください」と尋ねただけです。これはo3がどう考えるか確かめたくて試してみたのですが、驚くほど印象的でした。そして1980年代の映画のようでもありました。文字通り「ズームして拡大」機能があるからです。とても面白いです。
とにかく、これについて話しましょう。昨日ジムで取り組んでいた3つのルートがあります。ちなみに昨日はイースター日曜日でした。お祝いした皆さん、ハッピーイースターです。話を戻すと、私はまだ一つも成功していない3つのルートに取り組んでいました。そこで「これらのルートのベータ(攻略法)について何か言えるか見てみよう」と思いました。
この写真を拡大してみましょう。ここのオレンジのルートは二重テープから始まります。これが腕、これが手を置く場所、これが足を置き始める場所です。そして、ここから移動してここへ、そしてここへと上がっていきます。かなり難しいです。
ちなみに、これはスローパー(つかみにくいホールド)で、こちらはダイヘドラル(二面角)です。o3が写真の解釈でいくつか間違いを犯していることがわかります。最初、o3はルートが実際にはオレンジ色のホールド全てであることを理解していませんでした。ジムによって異なる方法論があり、同じ色のテープを使うところもあります。解釈にいくつか間違いがありましたが、私が修正すると、より良い仕事をしてくれました。
これはo3の欠点ではないことを指摘しておきたいです。新しい人間がこのジムに来た場合でも、ルートの具体的な仕組みを理解していないかもしれません。いずれにせよ、高さの参照マーカーなどがなくても写真を見ることができました。おそらくホールドのサイズから距離感を掴んだのでしょう。そしてChatGPTはツールを使って個々の部分を詳しく見て、私のための計画を作成し、テキスト形式でこのルートをどう登るべきか教えてくれました。
これは非常に難しいことです。通常、誰かにベータ(クライミング用語で情報のこと)を尋ねると、彼らは実演したり、指さして身振り手振りで示したりします。テキスト形式でこれを説明するのは難しいのです。しかしChatGPTは素晴らしい仕事をしたと思います。私はこれらのどれも完成させませんでしたが、良いアドバイスをもらいました。これらは全て私の能力の限界にあるルートです。
とにかく、最終的な出力よりも思考プロセスを見たかったのです。それこそが魅力的なことだからです。分析を開いて、どのように考えたかを見てみましょう。
2分間考えたことがわかります。これはかなり長い時間です。「簡単な方向づけ:白いテープが付いている全てのオレンジのホールドがこの課題に属しています」と書かれています。これは間違いで、次のバージョンで修正しました。「ちなみに、見るべきはオレンジのホールドだけです」と伝えると、より良い情報を提供できました。
最初の理由付けを、さらに指示を与える前に見てみましょう。「低い青いスラブから始まり、青灰色のアレット(尾根)を登っていきます」と書いています。これもクライマー用語ですが、実際は逆です。アレットではなくダイヘドラルです。角度が90°未満だからです。この画像では間違えやすいと理解できます。アレットに見えるかもしれませんが、実際にはダイヘドラルなので、足を広げて両側に触れることができます。
間違いがありますが、写真を見ただけでは妥当な間違いです。「足はオレンジの部分のみに従いますが、セッターは十分なネジ穴や質感のあるペイントを残しており、そこにスメア(足を擦り付ける)できます」とあります。質感のあるペイントはありません。Active Climbingは質感のあるペイントがないことで有名です。ペイントには砂や砂利は入っておらず、非常に滑らかで、多くのジムよりも難しくなっています。しかし、写真だけを見ての妥当な間違いです。
「5フィート10インチの身長なら、シーケンスを静的に保てます。ジャンプを強いられることはありません」これは正しいです。出力を見ると、開始位置や何をすべきかが書かれていますが、ルートの仕組みを正確に理解していないため間違いがあります。
しかし、より重要なのは思考プロセスを分解することです。ここでの作業を見てください。画像を見て「ホールドの配置に基づいて動きのシーケンスをマッピングすることに集中します。画像を注意深く調べて動きのシーケンスを説明します」と言っています。前述のように「ズームして拡大」し、Pythonコードを使って個々の画像を拡大しています。ツールを使っているのですが、とても素晴らしいです。
「詳細を考慮する必要があります。開始ホールドは左下の大きなオレンジのホールドを含むようです」と続けています。これについては全く指示を与えていませんでしたが、理解し始めています。そして「中央のオレンジのホールドのある領域にズームインします」と言って、画像の部分にズームインして、ホールドがどのようなものかを把握しようとしています。
「スタートテープは2本のストリップとグレードタグがある左下にあります。最初のオレンジのホールドは大きな垂直のものに見えます。白いテープがこれらのホールドに導いており、グレードを示している可能性があります、おそらくVB」と書いています。これは正確ではなく、実際には3と評価されています。ただ、これはサンドバッグ(難易度の過小評価)だと思います。実際にはかなり難しいルートだからです。
「ルートの進行を示す白いストリップがさらにあります」ここで間違いを犯しました。オレンジのホールドだけであることが正しいのです。いずれにせよ、これは正確さというよりも思考プロセスに関するものです。
間違いを犯し、黄色のホールドなども考慮していましたが、この作業を通じて理解し始めています。次に、より一般的な視点に戻ります。この強調表示されたセクションで、クライミングがどのように進むかを理解し始めています。
「この画像の左から始まり、右に移動します」再びアレットと考えていますが、実際には内側に入っています。この写真を見れば、どう誤解するかは簡単に理解できます。突き出ているように見えますが、実際には内側に入っています。もちろん、アレットではなくダイヘドラルだと伝えれば、より良い知識を持てたでしょうが、重要なのは結果よりも考え方です。
ベータはユーザー固有でもあります。他の人に尋ねても、彼らのベータが私には効かないかもしれません。重要なのはこのAIの考え方であり、私の考えでは正しい方向で考えています。とても素晴らしいです。
また、「#a」「#1」「#2」のように構造化していることにも注目してください。「スタートホールド」「ホールド1」「ホールド2」などとホールドを考えていて、これは本当に素晴らしいです。
ここで脱線し始めているのがわかります。灰色のホールドなどを見て、それはルートの一部ではなく、非常に簡単になってしまいます。間違えて脱線していますが、脱線しながらも5フィート10インチのクライマーを考慮していることに注目してください。これは非常に重要です。
もし身長が6フィート5インチか5フィートなら、このベータは5フィート10インチの場合とは全く異なります。身長はクライミングにとって大きな違いを生みます。また、ズームインしてこれを見て「グレード3または4と思われます」と言っています。人々の間で議論が起きているのです。グレード4だという人もいれば3だという人もいます。
誰かが「4!」と書いています。これはジムの雰囲気の一部で、ルートセッターがグレードを設定します。丸で囲まれた4があり、他の誰かが3を置いています。つまり、ユーザーとしては登ってから自分のグレードを記入できるのです。そして別の誰かが「4!」と記入しています。私はまだクライムを完成させていないのでグレードをつけたくありませんが、3よりは4に近い感じがします。
いずれにせよ、AIはそれを特定して、これが提案された3または4のクライムであることを認識できました。そして、すべての出力として「白いテープがあるオレンジのホールドがこの問題に属しています」というものを得ます。これは不正確な仮定ですが、他のクライミングジムなどに基づけば合理的です。
そこで私は提案をしなければなりませんでした。それから動きごとのベータを提供してくれますが、その理由で間違っています。また、登り方についての追加のヒントも提供してくれます。それは素晴らしいと思います。
「コンプレッションが重要」というのは本当に楽しい表現です。「まっすぐの腕、アクティブな足」これは古典的なクライミングテクニックです。腕をとてもまっすぐに保ちたいのは、このように腕を保持するのは非常に疲れるからです。
さらなる指示を与えました。「実際にはオレンジのホールドだけで、他は何もありません。手の始まりを示す二重の白いテープ。上部の単一の白いテープのホールドは、両手の終了点です。ベータを改良できるか見てください」と伝えました。
これに対して再び写真を拡大するなどの作業をしているのがわかります。「ルートには5〜6個のオレンジのホールドがあります。開始ホールドには、青いセクションの下、大きな曲線のレールの近くにテープがある左側の長い垂直レールが含まれているかもしれません。シーケンスのステップをより明確に修正しましょう」と考えています。
ここで16秒考え、さらに31秒考えています。部分的に考えているのが本当に素晴らしいです。GPT-o3がこれをできることが気に入っています。私の電話では問題なかったのにコンピュータでは表示が乱れているようですが、これは基本的にどこに行くかを理解しようとしているものです。
そして、このルートを登るための合理的な動きのシーケンスを考え出しています。「キーボディキュー:足はオレンジのみ、そして手」と書いています。基本的にこれを番号付けしており、0はセットアップの開始点、そこから1〜6までが終了までの動きです。とても素晴らしいです。
これはボルダリングで、ロープなどは使いません。落ちたら落ちるだけです。そんなに高くなく、10〜12フィート程度です。基本的に下から上まで登り、落ちたらマットの上に落ちます。
また、身長に特化したポインターとマイクロベータのトリックも提供しています。非常に興味深いです。
次のクライムに移りましょう。ここでは異なることを行っています。実際にツールを使用し、コードを使用してこの画像を分析し始めています。右下から始まり左上に移動するこの黄色いルートを登る方法を尋ねました。
「洞窟から始まって私の近くで終わるこの黄色いルートを登るのを手伝ってください」と尋ねました。同じ会話の一部であり、黄色のホールドのみを使用しなければならないという情報を繰り返し提供しませんでしたが、以前に伝えたので理解できました。
4秒考えて「洞窟エリアから始まりクライマーの近くで終わる黄色いルートを手伝います。画像はジムの一部を示しており、白いテープが付いた黄色いホールドを探しています。単一テープは通常トップを意味し、二重テープは始まりを示します」と言っています。前の会話の部分を覚えていました。
「洞窟エリア近くの右側に、テープが付いた黄色いホールドがあります。洞窟には、屋根の下に黄色いジャグ(大きなホールド)があります」これは本当です。とても大きなものですが、そう簡単ではありません。私はこのルートを終えておらず、ここまで来て角度のせいで落ちてしまいます。とても難しいです。
AIがこれを理解し始めていることがわかります。それからマッピングを開始します。再び表示の問題があるようですが、電話ではこのような問題はありませんでした。
注目すべきは、PILから画像をインポートするなど、小さなPythonコードを作成していることです。画像を開き、画像サイズを出力し、それを分解し始めています。これらをキャプションにしています。
エラーが多いので、新しい会話を始めて最初からやり直します。同じようなことをするでしょう。さらに少し情報を加えて、間違いがないようにしました。
ChatGPTにこれについて考えさせましょう。理由づけを展開します。ツール使用を実際にライブで見られることを願っています。私の電話で始めたとき、画面は小さかったのですが「ワオ、これは超クールだ」と思いました。
クライミングルートの分析を始めています。「黄色いルートのベータ、スタート位置を説明する必要があります」と基本的に私が伝えたことを繰り返しています。
画像の分析に入ります。これを展開してみましょう。「スタートホールドを確認するために右下にズームインしましょう。画像を分析中です」残念ながら、昨日と同じツールを使用していないようです。
昨日は小さなコードスニペットがあり、小さな矢印が見えました。そのようなことをしてくれることを願っています。今回は違う方法を取っているようです。もしそうでなければ、前の会話に戻ってその一部をお見せすることができます。
PILを使用していたのが少し見えましたが、基本的にはこれについて考えているのがわかります。「ユーザーが画像を提供したので、洞窟の屋根の下にある黄色いインカットジャグから始まる黄色いホールドと動きのシーケンスの説明に焦点を当てるべきです。足も洞窟エリアの黄色いホールドを使うべきです。スタート位置の下に黄色いフットホールド、アンダークリング、ドットホールドがあります。手と足の両方の配置を説明し、ルールを追加することに注意する必要があります」
再び非常に慎重に考えています。そして画像を切り分け始めます。今回はなぜかPythonツールを使用しないことにしましたが、クライムの個々の部分をズームインして確認できることは明らかです。
それを分解し、「この部分を見ます、この部分を見ます」と言っています。ここで青いホールドがあるがルート外であると述べていることに注目してください。これは正確です。黄色のホールドだけを使用できます。
また、画像をズームインすると「ルートは黄色いホールドのみを使用し、現在の画像では見えない床の近くに黄色いフットホールドがあります」と言っています。これは正しく、どこかこの辺りにあります。
自分自身と話している方法が非常に興味深いです。画像を一連の画像に分解し、「ここに別のフットホールドがあることを覚えておいてください」と言っているようです。
Pythonツールを使用していたという興味深い点がありますが、何らかの理由で電話では表示されていたのに、ここでは表示されていません。残念です。もし完全に動作しているのを見つけられなければ、電話の画面グラブを取って見せます。本当にクールです。ツールを使って文字通り「ズームして拡大」しています。「この画像のセクションを拡大して、より詳しく見てください」というような感じです。
ここでは、このホールドのテクスチャなどが見えます。そして興味深いことに「切り抜き座標が最適な選択ではなかったと思いますが、一般的なルートはまだ明確であるはずです」と自分自身に言っています。「おっと、間違えました。これをやりました」と。
そして別の画像の部分を分析し、「スタートホールドは難しいです」と言っています。その通りであり、そうでもありません。そんなに悪くはありません。「とにかき、概念的なルートに焦点を当てましょう」と言って、どうするかを大まかに描き始めます。
そして出力に到達します。「クライムは基本的に上と左に上昇するトラバース(横移動)です」これは正確です。「右の小さな洞窟から出て、灰色のパネルを横切る2つの長い黄色いバナナレールをサーフします」これはクールです。サーフィンという表現は考えていませんでした。
「4つの丸いナビンのラインを登り、TVの下にある孤独な黄色いジャグでフィニッシュします。クラックスは最初の急なパネルで圧縮状態を保ち、スローピーなレールに到達したときに足の上に体重を保つことです」はい、これは正確です。
写真を見ると、これは非常に難しいです。壁が実際に外側に傾いているからです。あなたの体重はこれらのホールドにかかっていて、それらは比較的滑らかでテクスチャがあまりなく、足は高い位置にあるので立ち上がる傾向があり、壁から引き離されてしまいます。
これは全てがどのように機能するかの正確な分析を持っています。そして動きのシーケンスが出てきます。「スタート、1、2、3、4、5、クラックスエントリー」興味深いですね。「左手が最初の長い黄色いバナナレールの右端に移動し、右手がレールにマッチします。右足が左にあるちょっとした二つ目のものにホップします」
これは興味深いです。レールに足ではなく手を置くと考えているようです。ここで間違いをしているかもしれません。「左手が紫灰色のリップレールにあり、壁にスメアしているだけで…」というように考えています。
このベータは世界最高のベータではないと思いますが、素晴らしい部分は、大規模言語モデルができるとは思っていなかった物理的なものを解釈できることです。これが重要なポイントです。
追加のポインターを提供しています。「頑張ってください。スイングのあるスタートとバナナを横切るサーフを楽しんでください」と書いています。黄色いレールの上に立つことを理解しているようです。なぜこのように考えたのかは、もっと詳細に読む必要がありますが、それが私がここで話したかったポイントではありません。
昨日と全く同じようにコードが出てこないので、電話からの画面キャプチャをいくつか見せましょう。AIがどのようなことをしているかがわかります。前述のように画像を切り抜き、拡大していて、これは本当に興味深いです。
昨日はこのようなものを作成しました。実際にPGSQLを作成しています。正確には何の略か分かりませんが、ほぼASKIIアートのようなもので、基本的にどう動くべきかを教えてくれます。
ここにキューブジャグがあり、それはここにあったでしょう。基本的にはフローの画像を作成しています。ここのジャグから始まり、コーナーキューブに移動し、キューブジャグへ、レールスローパーへ、ビッグホーンへと進みます。実際に、このルートをどう登るかについての興味深いグラフィカルな情報を作成しています。
そして、動きごとのベータへと続きます。問題をどのように分解するかが本当に魅力的で、今朝それを見て、使用したさまざまなツールと、提供したベータの違いを見るのは興味深いです。
総合すると、これは世界最高のクライマーではありませんが、優れたクライマーです。ここで起こっている物理的な性質を理解しています。少なくとも次のトークン予測のレベルまでは理解し、身体を持たないものとしては、壁を登る基本的な物理学を理解できるのは本当に驚くべきことです。
このチャンネルで何度も話してきたように、私たちの多くの学習経験は身体から来ています。世界の体現化されたエージェントとしての経験から来ています。この大規模マルチモダルモデルが物理学と世界の体現化を理解できることを見るのは魅力的です。それが昨日ジムでこれで遊び始めたときに本当に私を驚かせた部分でした。
これが昨日クライミングジムでのGPT-o3との体験でした。この大規模マルチモダルモデルに非常にニッチなこと、非常に体現化されたこと、抽象的なエンティティではできないと思われることをやってもらいました。そして素晴らしい仕事をしたと思います。
これは実際に使えるベータなのかどうかは分かりません。本当に注意深く読む必要があるでしょう。それが私が探していたポイントではありませんでした。AIの頭の中を開いて、どのように考えているかを見たかったのです。ツールの使用法、分析、物理的な性質の理解、そして合理的な解決策を考え出す能力に非常に感銘を受けました。
それらすべてが非常に驚異的でした。そして、イントロダクションで言ったように、これは本格的に「これは人工汎用知能のように感じ始めている、体現化されていないエージェントから体現化されたエージェントとしての私と対話できるものへの移行のギャップを超えることができるもの」と思い始めた初めての瞬間でした。
それは大きな瞬間だと思います。そんなに大したことではないと思えないかもしれませんし、完璧ではないにしても「ええ、大したことない」と言うかもしれません。いいえ、これは大したことです。これは重要なことです。
私たちがここで見ているのは、GPT-o3が体現化されていない抽象的なエージェントと、私という形の体現化されたエージェントの間のギャップを埋めることができるという事実は、非常に印象的であり、起こるとは思っていなかったことです。実際、ロボットの形の体現化されたエージェントがこの段階に到達する必要があると思っていました。だから、これに驚くほど感銘を受け、少し驚いています。
それでは皆さん、今日はこれで終わります。コメントでこのことについてどう思うか、そして他のどのようなスポーツや活動を、ChatGPT-o3のような最新のフロンティアモデルでテストして、このような活動でどのように機能するか見られるかを教えてください。
ついでに、もし良ければ動画にいいねを押してください。それが他の人がこれを見つけるのに役立ちます。このような内容やAIについての他の考察をもっと見たい場合は、より多くのこのようなコンテンツのためにチャンネル登録を検討してください。次の動画でお会いしましょう。さようなら。


コメント