遊び心のある問題解決 | ARC Prize @ MIT

AIベンチマーク
この記事は約10分で読めます。

この講演では、スタンフォード大学のポスドク研究者であるJuni Chuが、人間の遊びと問題解決の関係について論じている。彼女はMITで開催されたARC Prizeのイベントにおいて、子どもから大人まで幅広い人間の遊びを研究し、学習と動機づけに関する問いを探求している。講演の中心は、汎用知能を測定する手段としてのゲームの役割である。彼女はARC 3のプレビューレベルをプレイした経験から、単に問題を解くだけでなく、ルールやオブジェクトの相互作用を学ぶプロセスそのものが重要であると指摘する。また、倉庫番というクラシックなパズルゲームを用いた実証研究を紹介し、人間がゲームをプレイする際に学ぶのは単なる解法だけでなく、どのレベルが有効か、どの程度難しいか、どんな戦略が必要か、さらには何が楽しいかといった多様な側面であることを明らかにしている。彼女の研究チームは2000件以上のゲーム記録を収集し、パズルの楽しさと難しさに対する人間の判断を分析している。

Playful Problem Solving | ARC Prize @ MIT
Junyi Chu, cognitive scientist studying the playful mind, discusses her research into games as measures of fun and intel...

遊び心のある問題解決について

最初に皆さんと共有させていただくのは、Juni Chuさんです。Juniさん、ご参加ありがとうございます。彼女はスタンフォード大学でポスドク研究を行っていますが、今日はホームに戻ってきました。というのも、彼女はここMITでLaura Schulzの指導のもとで博士号を取得したからです。Laura Schulzは今から2つ後の講演で話す予定です。Juniの研究は、人間がどのように柔軟に新しい問題を作り出し、選び、解決するのか、そして他者と相互作用する中で認知プロセスがどのように変化するのかといった疑問に答えようとしています。

ゲームやエージェント的な遊びにとって非常に関連性の高いテーマですね。それでは、Juniさんにお譲りします。

ありがとうございます。ここに呼んでいただいて。最後にこの演台に立ったのは、私が博士論文を審査していた時でした。だから今日は数年前よりも少し楽しい時間にしようと思っています。

さて、私は子どもや大人、そしてその間のあらゆる種類の人間における遊びを研究しています。そして学習と動機づけに関する疑問に興味を持っています。今日の講演を「遊び心のある問題解決」というタイトルにしたのは、それがまさに私たちがここでやろうとしていることだからです。私たちはゲームをプレイし、そのプロセスの中で汎用知能の問題を解決しようとしているのです。それが私たちの進むべき道なんです。

そこで、今日の午後に備えて、私はARC 3のプレビューレベルを全部プレイしてみました。ゲームを使って知能を測定することについて、何か言えることがあるかどうかを確かめるためです。もしまだプレイしていない方がいたら、ネタバレになってしまって申し訳ないのですが、本当に楽しかったです。これらは素晴らしいゲームでした。本当に気に入りました。

でも、楽しかったのは個々のレベルや個々のゲームそのものではなくて、全部クリアして、どれだけ速く解けるかを見ることも満足感がありましたが、本当に興味深かったのはオブジェクトが何なのか、ルールや相互作用が何なのかを学び、推測するプロセスそのものだったんです。おそらくLens Yingがロールモデル帰納と呼ぶようなもの、そういった学習プロセスが本当に興味深かったのですが、このベンチマークをプレイしている間に、他にもたくさんの考えが浮かんできました。例えば「わあ、このゲームをどうやって思いついたんだろう?Hunterのチーム、すごくクールだな。どうやって考え出したんだろう?」といった感じです。

あるいは左下のゲームでは「ああ、気を散らすような色で私を引っかけようとしているのが分かるぞ。でも気を散らされないからね」と思いました。あるいは、下にあるオレンジ色のゲームでは「ああ、この水が流れるというアイデアが本当に好きだな。レーザーも出てくるのかな?次は何が来るんだろう?」と考えていました。こういった考えは、レベルをクリアしてこのベンチマークに合格するという直接的なタスクを解決するのに役立つでしょうか?おそらくそうではないでしょう。

私はおそらく、先ほど示された曲線の右側にいたと思います。でも、汎用的に知能があるエージェントに、少なくともこういった種類の考えを巡らせる能力を期待すべきでしょうか、またそうあるべきでしょうか?私はイエスだと思います。なぜなら、人間の知能の特徴的なところは、提示された新しい問題でさえどれだけうまく解決できるかということだけではなく、これら全ての他の考えや、自分自身で思いつくことができる新しい問題だと思うからです。

好奇心は確かに重要ですよね。知能があるエージェントは、他者の目標や心的状態について推論できるべきです。何が重要で何が気を散らすものなのかを区別し、適切に注意をコントロールして配分できるべきです。そしてもちろん、まだ見たことのない抽象的な概念や、世界にまだ存在していないかもしれない概念についても、柔軟に推論できるべきです。

ゲームを通じた知能の測定

では、このような柔軟な知能をどのように測定すべきでしょうか?このイベントについて知ってからの過去2日間で考えてきた方法は、ゲームをプレイすることを学ぶときに人々が実際に何を学んでいるのかを考えることから始めるべきだということです。学習とは何なのでしょうか?どのような種類のスキルやタスクの解決方法を私たちは理解しようとしているのでしょうか?

そこで、私のポスドクでは、この特定のゲームを使ってこういった種類の疑問を検討し始めました。ご存知の方もいらっしゃるかもしれません。倉庫番と呼ばれるゲームです。80年代に発明されました。ARC 3のようなタスクに非常に似た、古典的なパズルゲームです。

このゲームを知っている方、親指を立てていただけますか?なるほど。何人かの方が知っていてプレイしたことがあるようですね。親指を下げて。このゲームを知らない方でも、この画像を見ただけでこのゲームのルールと目標を自信を持って推測できると感じる方は、両手で親指を立ててください。わあ、すごい。本当に急速な学習ですね。素晴らしい。

このsokobanonline.comという素晴らしいウェブサイトの特定のUIでは、ちょっと微妙なんですが、左上の隅に小さな赤い点があります。茶色の箱を赤い点の上に押し出すことになっていて、押すことしかできず、引くことはできません。だから間違ったことをすると角に詰まってしまうことがあります。

これはAIやプランニングにとって実は非常に難しいベンチマークであることが分かっています。かなり長期的で、深さがあるからです。時間的にかなり先のステップまで考えなければなりません。でも、ゲームをプレイすることを学ぶとき、私たちは他にも多くのことを学びます。

いくつか例を挙げてみましょう。一つは、どのレベルが有効でパズルセットに属しているかを素早く学べるということです。例えば、あれはプレイするには最悪のレベルですよね。強化学習エージェントをたくさん動かしても、理解できないでしょう。だから、知能があるエージェントとは、壁にぶつかり続けて諦めることができず、もっと興味深いタスクに切り替えられないエージェントではないと思います。知能は、そもそもどの問題を追求する価値があるのかを決めるために使われるべきだと思います。

もう一つの例もこれは実際かなり悪いです。例とより似ているように見えますが、これも悪いレベルです。解決不可能なんです。こちらは2つの箱があるパズルです。視覚的には例とはかなり異なりますが、実際には解決可能です。

レベルがどれくらい難しく見えるかについても推論できます。左側には4つの箱があるパズルがあります。実際には4つのサブゴールがありますが、2つのサブゴールしかない右側のものよりもずっと簡単です。だから難易度の判断は、これらの視覚的または物理的な特徴に必ずしも単純に結びついているわけではありません。

さらに洗練された質問もできます。例えば、この特定のレベルでどのような戦略や動きが必要かということです。これを見て、心の中でゲームプレイヤーエンジンを動かして、このパズルを解こうとしてみてください。必要な動きの種類が見えるかもしれません。ビデオが機能するか見てみましょう。

これは私がこのゲームをプレイしてゆっくり進めているところです。そうすると前方に見え始めてきますね。押し続けて、最後にUターンをしなければならないかもしれません。それから新しいレベルを見て「これは同じ戦略が必要かな?」と尋ねることができます。

でも、新しいレベルも作れます。反時計回りに進むものも作れますか?同じアイデアだけど、螺旋状ではなくS字型のパズルは作れますか?2人プレイ用のものも作れますか?だから、本当に新しいゲームを発明し始めることができて、他のゲームから借りてきたり自分で思いついたりした特定の抽象概念の恩恵を受けることができます。

そして最も重要なのは、何が楽しいかということだと思います。このレベルを楽しめるでしょうか、それとも退屈でしょうか?視覚的には本当に興味深いですよね?でも楽しいでしょうか?そしてもちろん、これら全てがあれば、社会的なことについて推論するのにも使えます。例えば、人々がゲームを解決しているYouTube動画を再生すれば、誰がよりスキルがあるか、もしかしたら誰がより楽しんでいるかさえ推測できますよね?

人間のパズル解決研究

さて、時間がなくなる前に少なくとも1つのデータポイントをお話ししたいので、先に進みます。ポスドクでは、人間のパズル解決に関するこの研究を実施していて、倉庫番を少し違うユーザーインターフェースでやっています。黄色ではなく青です。そしてかなりの量のデータを収集しました。

人間の参加者を集めました。ほとんどがこのゲームについて初心者です。2、3のチュートリアルレベルを与えて、最大8つのパズルを各5分まででプレイしてもらいました。だから2000のゲーム記録があります。

私たちが最も興味を持っているのは、人々がパズルをどれだけ楽しいか、または難しいかをどのように判断するかということです。そしてARC 3のタスクとは違って、実際に人々は圧倒的に私たちの研究は難しいと思いました。下の青いヒストグラムです。これらは本当に難しいレベルです。実際には箱が3つしかないんですけどね。

でも、楽しさの評価についてはかなり良い広がりがあります。だから私たちが考えている疑問は、なぜかということです。何が人々にパズルを解くのが楽しいと思わせるのでしょうか?

まず最初の答えは、成功するかどうかです。レベルを終えれば、とても楽しかったと言います。そうでなければ、あまり楽しんでいません。まあ、それほど驚くことではないかもしれませんが、私は学習の進歩のようなことについてFaが言及したようなことを本当にテストしたかったんです。

そこで、もう少しシグナルとデータを得ようと思いました。彼らが何ステップかかったかを見てみました。効率でしょうか?青いグラフを見ると、より少ないステップでレベルを解いた人の方がより楽しかったと報告しています。効率は楽しいのでしょう、おそらく。でもまだたくさんのノイズがあります。

レベルを決して解けなかった人たちを見ると、時には楽しんでいて、時には楽しんでいなくて、なぜなのか本当に分かりません。どのような種類の苦労がより興味深いのか、学習のように感じられるのか、そうでないのか。だから本当に答えはないのですが、作成したデータの可視化をいくつかお見せします。

これはダイヤモンドを押している人で、全てを黄色の箱、黄色のタイルの上に置くことで勝ちます。それは素晴らしいです。彼らは報酬として少し紙吹雪のアニメーションを得ます。私たちが可視化している方法は2つの方法です。真ん中のプロットでは基本的に折れ線グラフで進歩を見ることができます。

詰まってしまう可能性のある赤いエリアがあって、そのようなゲーム状態になると、もう決して解決できないということです。彼らは最初に少し詰まりましたが、その後非常に速く上昇してレベルを解決するために進歩しました。

左側は状態空間の可視化です。これらはエージェントと箱とすべてのあり得る配置で、彼らがその空間をどのように探索しているかを視覚化できます。

他の人たちはこのレベルをそれほど速くは解けず、その赤い赤いゾーンで詰まっているのが見えます。このアニメーションを再生してご覧いただきます。おっと、これは結びついていませんね。本当に速く進んでいますが、主なポイントは、このプレイヤーが本当に詰まっているということで、5分の終わりまでに突然それを解決するような探索の中で起こっている学習の種類をどのように分析し始めることができるかということです。

こういった戦略的な学習をどのように分析すべきでしょうか?それは本当に未解決の問題だと思いますし、このことについて考えた人たちと話したいと思っています。

遊びから見る汎用知能

最後に申し上げたいのは、人間の遊びを研究するとき、ここで私が話したいアイデアは、私たちは単に問題を解決しているだけでなく、問題を評価し、問題を選択し、自分自身で新しい問題も作っているということです。そして、もし本当により一般的な形の知能を理解し始めたいのであれば、これらが私たちが尋ね始めることができる2種類の質問だと思います。

何が学習されているのか。AIがレベルを解くのが得意なとき、他に何が得意であるべきか。どのような種類の汎化について考えているのか。ありがとうございました。

コメント

タイトルとURLをコピーしました