
31,186 文字

皆様、新しいドイツ博物館の新しい講堂へようこそ。最初の関門は、自然知能を使ってここまでたどり着くことでしたね。もう名誉の間ではなく、この新しい講堂です。今年7月7日以来、25万人以上の来場者をお迎えした、改装されたドイツ博物館の最初の半分がオープンしました。今晩、ライブストリームで視聴されている方々もお迎えします。会場の方々より多くの方が視聴されていることは承知していますが、今日のような素晴らしい講演者の場合、実際にその場で見て、感じて、匂いを嗅ぎ、分子を吸い込むことができるのは特別な体験です。
私たちは知らないものを恐れます。それは極めて自然な感情と現象です。今日の講演のために、ウルリッヒ・ヴァルター教授は電気を例に挙げています。それを知らない限り、恐れを抱くのは当然かもしれません。ドイツ博物館の「一般の人々のための科学」シリーズは、すでに30年の歴史がありますが、その目的は皆様を未来への旅へお連れすることです。
今日は、まさに未来についてのプログラムです。ヴァルター教授が書いているように、今日のAIの問題は、一般の人々には理解できないということです。ここで、皆さんに「一般の人」かどうか手を挙げていただくこともできますが、手を挙げない方はAIを理解していると考えられます。そのため、今晩は「初心者のための人工知能」というタイトルで講演を行います。
皆さんもご存知かもしれませんが、この有名なシリーズには「初心者のためのコンピューター」「初心者のための電子工学」などがあります。しかし今晩は、ヴァルター教授がAIの未来への旅にお連れします。
彼について簡単にご紹介させていただきますと、1993年のD2ミッションでスペースシャトルに搭乗した宇宙飛行士として皆様ご存知のことと思います。地球を見下ろし、ドイツ博物館の上空を何百回も通過する度に郷愁を感じたそうです。宇宙飛行士が、あらゆる合理性や物理学を超えて、ドイツ博物館に対して郷愁を感じるというのは素晴らしいことですね。
ミュンヘン工科大学の宇宙工学の教授として、宇宙でのリアルタイムロボット工学に取り組んでおり、最近では高齢者向けのロボット支援を含むサービスロボット工学にも取り組んでいます。私たちの共通の大学であるミュンヘン工科大学のガルミッシュ・パルテンキルヒェンの新キャンパスで、「ジェリアトロニクス」という分野を確立しました。
多くのテレビ番組や司会を通じて、皆様よくご存知の方です。最近、ニュースペースや宇宙、近宇宙で何か起こるたびに、専門家としてスタジオに招かれています。私たち全員が認識できることですが、複雑なことを誰よりもシンプルに説明できる方です。
連邦功労十字章第一級、バイエルン功労勲章を受賞し、バイエルン倫理評議会のメンバーでもあります。フォイヒトにあるヘルマン・オーベルト博物館の館長も務めています。ここで、ロケット工学の父であるヘルマン・フォン・オーベルトの博物館を訪れることをお勧めします。3階の新しい宇宙飛行部門でも取り上げられています。
他にも多くの賞や栄誉を受けていますが、それらを全て挙げると時間がかかりすぎてしまいます。しかし、一つだけ強調したいのは、ウルリッヒ・ヴァルター宇宙飛行士は「ほぼすべてを説明する」という本を書いています。物理学の不思議な世界を、私たちが理解できるレベルまで分かりやすく説明しています。
そこには多くの実践的なアドバイスが含まれており、私も大変参考になりました。例えば、家や部屋を数日間不在にする際に暖房を切るべきかどうかという、エネルギー的に有利な方法についての最終的な答えなど、実践的な多くのテーマが取り上げられています。
この本は上階の書店で購入可能で、もしかしたらサイン入りで入手できるかもしれません。
また、ここには、ドイツ博物館とミュンヘンの大学(LMU、工科大学)、マックス・プランク協会との大学間協力による展示があります。テーマは「生命の起源」で、すべての人々の心に深く関わるテーマの一つです。この特別展示も、近日中にご覧いただくことをお勧めします。これは過去への旅であると同時に、未来への旅でもあります。
しかし今晩は、ウルリッヒ・ヴァルター教授に人工知能について説明していただきます。彼が私たちの元にいることを嬉しく思います。彼の魅力的な方法で私たちを旅に連れて行ってくれることでしょう。そして最後には、私たちはすべてを理解していることに気づくことでしょう。
[拍手]
「はい、ヴォルフガングさん、この温かく素晴らしいご紹介をありがとうございます。皆さんは、なぜ宇宙飛行士が人工知能について説明するのかと疑問に思われるかもしれません。その理由についても説明させていただきます。実は、人工知能に関してはいくつかの経験があるのです。というのも、先ほど教授が説明したジェリアトロニクスというプロジェクトで共同研究を行っているからです。人工知能との関わりについて少しお話しし、その後、人工知能とは何か、そして特に何でないのかについて直接説明していきます。そして、いいえ、私は確信していますが、誰もが理解できるはずです。
まず、これほど多くの方々にお越しいただき、嬉しく思います。おそらく100人ほどの方々がいらっしゃっていると思います。インターネットで視聴されている方々もお迎えします。この講演が数ヶ月にわたって多くの方々に視聴されることも承知しています。もちろん、後でYouTubeでご覧いただけるでしょう。
では、本題に入りましょう。「初心者のための人工知能」ということですが、先ほど説明があったように、「初心者」とは皆さんが愚かだという意味ではありません。経験がない、知識がない、普通の人であり、常々これは一体何なのかと疑問に思っているということです。
ジャーナリズムでは、人々が話を回りくどく説明し、それを読んでも理解できないということがありますね。それは多くの場合、書き手自身が理解していないからです。ほとんどの場合そうだと考えてよいでしょう。実際、すべての本に当てはまることですが、何かが理解できないという場合、それは通常、著者自身が理解していないということです。残念ながら、理解なしに多くのことが書かれています。
しかし、今晩はそれを理解できるように説明しようと思います。この画像では、人工知能ではありませんが、機械の手と人間の手の間のある種のアイコンが見えます。これは、バチカンのシスティーナ礼拝堂にある有名な絵画で、神と人間が出会う場面を描いたものです。二つの世界が出会うということを、この画像も象徴しているのです。
ここで、インターネットでよく見かけるようなものを見てみましょう。そこで私が問いかけたい質問は、このような典型的なロボットが実際に何ができるのかということです。
まず、このようなロボットには3つの重要な要素があることを知っておく必要があります。1つ目はセンサーです。センサーとは環境と相互作用できる必要があるということです。私たちには目や手、触覚があり、聞いたり匂いを嗅いだりすることができます。これらがセンサーです。
これらのセンサーからの入力や情報は脳に送られ、そこで処理され、そして専門用語で言うところのアウトプットが、いわゆるアクチュエーターに送られます。アクチュエーターとは腕や手のことで、私たちが動くことができるのはこれらの筋肉がアクチュエーターだからです。これが専門用語です。
センサーとアクチュエーター、そしてその間の知能、これが重要なポイントです。もしロボットに何か意味のあることをさせたいのであれば、この3つが必要です。センサー、アクチュエーター、そして知能です。これを頭の中に留めておいてください。
AIについて話す際、私たちはこれを抽象化し、いわばこの脳、つまり人工知能だけを見ています。入力がどこかから来て、何らかの出力を生成することを想定していますが、その出力をアクチュエーターに変換する必要はありません。もちろん、アクチュエーターに変換できれば最良ですが、人工知能は本当に、入力情報を出力情報にどのように処理するかということだけに関心を持っています。
では、このロボット工学はどのように始まったのでしょうか?まず、これらのアクチュエーターから見ていきましょう。これらは非常に重要です。なぜなら、これらによって何かを行動に移すことができるからです。
すべては、ここに見えるロボットアームから始まりました。このロボットアームは、私のミッション、D2ミッションで初めて飛行しました。それは1993年のことでした。無重力状態でのシャトルでの実験でした。無重力の利点は、アームに重さがないため、地球上よりもスリムに作ることができることです。そのため、それほど頑丈である必要はありません。アームは自動的に自身を支えることができます。
これが、いわゆるサービスロボット工学の始まりでした。それが何かについては後ほど説明します。このアームを実際に作った人物について、おそらく聞いたことがあるかもしれません。非常に有名なゲルト・ヒルツィンガー教授です。彼は当時DLRで働いており、現在は引退していますが、この種のロボット工学の父と言えます。そして後ほど見ていただきますが、これは知的なロボット工学の一種です。
ここでは、私がこのロボットアームでトレーニングしている様子が見えます。グリッパーハンドだけが見えていて、アームの残りの部分は見えていませんが、当時、このようなアームで宇宙で作業できることを実証しました。これは宇宙飛行士にとって非常に重要です。なぜなら、常に自分で何もかもする必要はないからです。
宇宙服を着て外に出て作業するのは、時間がかかります。理想的には、外部にロボットアームがあり、内部から制御できることです。今日の宇宙ステーションではそのようになっています。これを「テレプレゼンス」と呼びます。
今日、私の研究室でも同じことを行っています。ここで私がコントロールスティックのようなものに座っているのが見えます。実際には、単なるスティック以上に複雑なものです。ビデオを通じて、しかも立体的に見ることができます。そのため、シャッターメガネをかけています。つまり、常に片目ずつ交互に見ているのです。
30ヘルツで交互に切り替わり、実際には2つの画像が投影されています。ここで見ることができますが、シャッターによって左目には一方の画像、右目にはもう一方の画像が届くようになっています。これによってステレオ視が可能になり、深さを感じることができます。
このコントロールスティックで、上に見えるアームを操作することができます。深さも認識できるので、アームを前後に動かすことができ、もちろん横方向にも動かせます。これでトレーニングを行い、当時シャトルの宇宙で実際に実施し、宇宙でロボットアームを非常にうまく使用できることを実証しました。シャトル内から操作できるため、自分で宇宙空間に出る必要がないのです。
このアームから、実際にアクチュエーターを持つ最初のロボットと言える非常に有名なものが開発されました。私たちの実験「Rotex」から「Justin」というスペースロボットが生まれたのです。
見ての通り、かっこいい青い外観をしていますね。最初のものと比べると、これはまったく異なる品質です。研究室から出てきたものがこのようにスタイリッシュになったわけです。2本の腕があり、指も持っています。5本ではなく4本ですが、それでも十分なことができます。
ただし、注意していただきたいのは、外見は素晴らしく見えますが、残念ながら内部はかなり空洞です。後ろには長いケーブルが伸びており、知能は後方のどこかのコンピューターに存在します。つまり、ここではまだ知能がアクチュエーターから分離されているのです。
もっとも、上部には実際にセンサー、つまり2台のビデオカメラがあります。この情報が大きなコンピューターに送られ、そこでかなりの計算が必要になります。その結果が腕に送り返され、動きが生成されます。これが現在の技術水準です。
現在、このようなサービスアームは「サービスロボット工学」のために使用されています。自動車組立工場で溶接作業を行うようなロボットとサービスロボットの違いは何でしょうか?
今日の溶接工場のロボットは、常に特定の動きだけを行います。それは非常に正確ですが、その動きしかできず、他のことはできません。これが従来のロボット工学です。
一方、サービスロボット工学とは、変化する条件に柔軟に適応できるロボットアームを持つことを意味します。そのため、このようなアームを使って人間と一緒に作業することができます。つまり、そのようなアームは人間の作業を支援することができます。
これは、アウディなどで使用されている、危害を与えないようにケージの中に入れられているロボットアームとは大きく異なります。もちろん、これには危険も伴います。なぜなら、ロボットアームは人間に触れた時に停止することを「知る」必要があります。「知る」というのは間違いですが、感知する必要があります。害を与えてはいけないのです。
これは大きな課題です。つまり、何らかの方法で「ああ、ここに人間がいる、引き下がらなければならない」と認識し、それでも作業を続けなければなりません。そうして初めて、いわゆるサービスロボットが本当に機能するのです。
このサービスロボット工学は、今日のロボット工学の最高峰です。今日では誰もがこれを求めています。作業の支援が必要だからです。自動車メーカーの溶接ロボットは依然として存在し、その作業を完璧にこなしますが、新しい車種ごとにプログラムを書き換える必要があります。サービスロボットではそれは必要ありません。これが大きな利点です。
ですから、傾向としてはこのようなサービスロボットに向かっていますが、お気づきの通り、そのためには知能が必要です。単にプログラムすることはできず、環境に反応する必要があります。これが大きな課題なのです。
このようなアームは現在、ジェリアトロニクスにも使用されています。ここで典型的な例を見ることができます。このロボットも同様のものですが、見た目は異なり、別のメーカーのものです。メーカーはFranka Emikaで、ミュンヘンに本社があります。
このロボットを使用して高齢者を支援することを目指しています。これが基本的な考え方です。高齢者が一人で暮らしている場合、時には助けが必要になります。このロボットが支援するのです。
これは実際にガルミッシュ・パルテンキルヒェンに設置されており、そのためこのロボットは「Garmi」と呼ばれています。ガルミッシュ・パルテンキルヒェンで高齢者を支援するロボット、それがGarmiです。
ある程度の名声を得ており、ここではGarmiが科学者たち、そして政治家たちに囲まれているのが見えます。主に科学者たちですね。もう私のことはご存じでしょう。私もこのプロジェクトの一員だからです。政治家たちも関心を持っています。
メルケル首相もご覧になりました。皆、大きな期待を寄せています。問題は、Garmiがどのように機能するかということです。実際の動作をお見せしましょう。
左側にGarmiが見えます。今、患者さん、左側にいる方が患者さんとして、握手をしています。Garmiは患者さん、つまり若い方と握手することができるのでしょうか?
残念ながら、答えは「いいえ」です。Garmiには確かにステレオビデオがありますが、それは全く別の場所にいる人に送り返されます。その人はどこかに座っていて、典型的にはガルヒングの私たちのところにいます。その人がこのビデオ映像を受け取り、この入力装置を持っています。
実際、これは全く同じアームです。そして、その人がこのように動かすと、Garmiも同じように動きます。すると、すぐにわかりますね。Garmiには全く知能がありません。知能は実際にはこの頭の中にあるのです。
これが今日の状態です。もちろん、私たちは今、この頭の中にある知能をここに組み込もうとしています。これが長期的な目標であり、そうすれば本当に良いロボットになるでしょう。センサーとアクチュエーターだけでなく、知能も持つことになります。
まだそこまでは至っていませんが、両者を統合しようとしています。これが長期的な目標です。そこで、人工知能について考える必要が出てきます。どうすればこの人工知能をGarmiに組み込むことができるのでしょうか?
この質問に答えるために、まず人工知能とは実際に何なのか、人工知能を知的と呼ぶためには何ができなければならないのかを理解する必要があります。
それは今日ではかなり明確です。科学者たちの間で、人間のようにあらゆる感覚で世界を経験し、それと相互作用できることという合意があります。それだけではありません。私はあなたたちを見て、それに反応します。腕を動かし、あなたたちの表情を見て反応します。良い知能はそれもできなければなりません。
アクチュエーターを持ち、この視覚情報も処理できるロボットが必要です。第二に、自己学習によって少なくとも同程度の世界理解を導き出す必要があります。これは非常に重要です。知能とは、世界を理解し、そのために何をすべきかを知ることを意味します。
例えば、後ろのどこかで動物を見かけたら、それは何か普通ではないことなので、私の注意を引きます。これが世界理解です。なぜなら、ここにクマがいるのは普通ではないことを知っているからです。そうでなければ、他の人には気づかないかもしれません。
しかし、人間にはそのような本能、経験、世界理解があり、生活で何が重要かを理解しています。たとえそれが些細なことでも。例えば、夜に森の中にいる時、脳はすぐに影を悪い狼などとして過剰に解釈しますよね。これがまさに私が言う世界理解です。
例を挙げてみましょう。ここにあるのがサービスロボット工学です。これは、ロボットに本当に知能が備わった時の人工知能への良い道筋です。言語理解、つまり誰かが言語を理解し、それを翻訳できること、つまり言語翻訳。画像処理やパターン認識。人間は顔を非常によく認識できます。
同窓会の写真を見る時、100人の顔の中から、写真がぼやけていても、すぐに友人を見つけることができます。これは人間にできることであり、これは素晴らしいパターン認識、つまり画像処理です。
知識処理も含まれますが、それほど重要ではありません。自動証明は数学的証明を指しますが、これは副次的な役割しか持ちません。
では、知能とは何を意味するのでしょうか?何らかの方法で定義する必要がありますね。一つの考え方、あるいは一般的な考え方を投げかけてみましょう。「知能とは、知能テストが測定するものである」。これはあまり賢明な定義や考え方とは言えません。なぜなら、これは一種の再帰的な結論だからです。
つまり、自分自身の尻尾を追いかけるような主張をしているわけです。実際、ここで意味しているのは、この知的な馬力、つまりIQです。
問題は、今日存在する標準的なIQテストは、主に言語的知能と論理的知能を測定しているということです。時には空間的知能も測定しますが、これは私たちが本当に興味を持っている知能とは程遠いものです。
認知研究では、6つの異なる知能形態を区別しています:
言語的知能
論理数学的知能
自然主義的知能(世界理解、これは自然科学者の特徴です)
音楽的知能
空間的知能(空間的に方向づけができる能力)
感情的知能
身体運動的知能(運動選手やダンサーが持つ、リズムに合わせて体を動かせる知能)
対人関係能力(表情や表情をとてもよく解釈できる特別な才能を持つ人々を知っているでしょう。これも一種の知能です)
これらすべてが含まれます。今日のIQテストではこれらは測定されません。そのため、IQテストが本当の知能の良いテストなのかは疑問です。
私の言い方からもわかるように、私はこれにやや批判的な立場を取っています。そのため、IQ、つまりIQ数値がどれほど重要なのかについて少し研究してみました。ご存じの通り、全人口の平均値は100で、100以上は優れており、100未満は劣っているとされています。
より高いIQが人生でより大きな成功をもたらすのかどうか。科学者たちはいつものように実験や研究を行いました。高いIQ値を持つ人々は、持たない人々よりも人生で成功しているのかを調査しました。
結果をお見せしましょう。高いIQ値は職業的成功のわずか10%しか説明しません。10%というのはほとんど何もないに等しいです。
ストレスの少ない条件下では、IQは経験的にリーダーシップの成功を予測します。しかし、ここで重要なのは、職業は常にストレスフリーではなく、むしろほとんどの場合ストレスがあるということです。
ストレスの多い状況では、逆に高いIQはリーダーシップの成功を低下させます。つまり、逆効果なのです。
そして、私をさらに驚かせたのは、高いIQは学校での成績にわずか25%しか寄与していないということです。これは通常の学校から大学入学資格までについて話しています。これは科学的に研究され、証明することができます。
つまり、良い学校の成績には、高いIQ以外にもはるかに多くのものが必要だということです。そのため、すぐにお伝えできますが、IQを忘れてください。お子さんのIQ値を測定しようとしても意味がありません。
それによって、お子さんが職業や学校で成功するかどうかを予測することはできません。もしお子さんの成績が悪くても、それはIQ値が低いということを意味しません。むしろ、しばしばその逆が当てはまります。
つまり、一方は他方と何の関係もないということです。別の言い方をすれば、私たち全員が知っているように、学校で学ぶことの多くは後の人生では必要ありませんし、必要なことは学校では学びません。それがその背後にある事実です。
結論として、IQテストは実践的な知能を測定するのに不適切です。これを一旦そのままにしておきましょう。
では、あなたは疑問に思うでしょう。では、どうすれば良いIQを測定できるのか。何らかの方法で測定する必要がありますね。良い知能テストとは何か。
そこで数十年来のゴールドスタンダードが存在します。それは「チューリングテスト」と呼ばれるものです。1950年からすでに存在します。チューリングは科学者、情報科学者で、次のような提案をしました。これは実際にかなり賢明な提案でした。
このチューリングテストについて説明させていただきましょう。これによって、今日では知能がどのように測定されているのかを理解できます。多くの人々は、依然としてこれが知能をテストする方法だと言っています。
チューリングの提案は次のようなものです。あなたが真ん中に座っていて、誰かまたは何かとコミュニケーションを取る際に、それが知的かどうかを知りたいと考えます。次のようにします。相手を見ることはできず、ただ話すだけです。つまり、ヘッドホンをつけてマイクを前にして、その人または何かに質問をします。その答えから、それが知的かどうかを判断するのです。
長い質問の後で「これは知的だ」と判断したら、それは知的だということになります。言い換えれば、人間がどのように反応するかを知っていて、その対象が人間のように反応すると判断すれば、それは知的だとみなすのです。これがチューリングテストの仕組みです。
一見すると、これは理にかなっているように見えます。実際のテストがどのように行われるか見てみましょう。これは実際に行われたテストです。「Perry the Therapist(セラピストのPerry)」と呼ばれるものです。
患者とセラピストの間のコミュニケーションを見てみましょう。あなたが患者で、見ることのできないセラピストと話をし、そのセラピストが知的かどうかを判断する必要があると想像してください。
会話はこのように進みます:
セラピスト:「お手伝いできますか?」
患者:「わかりません」
セラピスト:「ご自身について何か話してください」
患者:「いいえ」(知的かどうかを確認したいので、このように答えます)
セラピスト:「それについて詳しく話していただけますか?」
患者:「今日は疲れていて、具合が悪いです」
セラピスト:「その理由はご存知ですか?」
患者:「年を取ってきているからです」
セラピスト:「続けてお話しください」
患者:「すべてに対する興味を失ってしまったようです」
セラピスト:「その感情についてもっと話してください」
患者:「なぜそう感じているのかわかると思います」
セラピスト:「本当ですか?」
患者:「家族が恋しいのだと思います」
セラピスト:「なぜ家族が恋しいと感じるのですか?」
患者:「家族は挑戦です」
セラピスト:「それはあなたにとってなぜ重要なのですか?」
このように会話は続きます。ここで質問です。このセラピストは知的だと思いますか?それとも単なる機械だと思いますか?どう思われますか?なぜ機械だと思うのですか?
私は患者として「いいえ」と答え、セラピストを試そうとしています。人間らしい特質があるかどうかを見るためです。
あなたの直感は正しいですね。すべてが表面的に感じられ、その背後に何もないような、人間らしさが感じられません。実際、これはコンピュータープログラムで、「Perry」と呼ばれています。Perryは「Paranoid(偏執症)」の略です。
このプログラムは、カリフォルニア大学ロサンゼルス校(UCLA)の精神医学教授であるケネス・コルビーが開発しました。この電子セラピストは、典型的な精神療法のための30,000から40,000の単語と表現を認識することができました。
そして、Perryはチューリングテストに合格しました。アメリカで、そして非常に成功的に。一部の患者は、人間のセラピストよりもPerryとの対話を好んだほどです。
これはある意味で成功だと思います。人々がこのような表面的なものと対話することを選ぶのですから。正直に言って、セラピストが本当に理解できるかどうかは必ずしも重要ではない場合もあります。そのような場合、Perryで十分かもしれません。
しかし、私たち全員が、これは本当の知能ではないと考えていると思います。では、チューリングテストを実際に適用する場合、本当の人間らしい知能があるかどうかをどのように判断できるのでしょうか?
別の例をお見せしましょう。これも実際に行われたチューリングテストです。より難しいものになります。
あなたが真ん中で質問する立場にいて、相手が本当に知的かどうかを判断したいとします。次の2つの状況を説明します:
男性がファストフード店に行き、ハンバーガーを注文しました。受け取ったハンバーガーは茶色い塊に焦げていました。男性は怒って店を出て行き、支払いをしませんでした。
男性がファストフード店に行き、ハンバーガーを注文しました。受け取ったハンバーガーにとても満足し、支払い時にウェイトレスに大きなチップを渡しました。
これが2つの状況です。そして、知能を測定したい相手に次の質問をします:
「両方のケースで、客はハンバーガーを食べましたか?」
この状況では、食べたかどうかについては何も言及されていません。満足して大きなチップを払う人が、ハンバーガーを食べたかどうかを理解できるかどうかが問題です。
私たち全員が知っているように、もちろんチップを払ったということは食べたということですよね。そして、もう一方のケースでは、怒って店を出て行ったということは、焦げていたので、おそらく食べなかったということです。
ここには生活経験と世界観が必要です。そして問題は、コンピューターがそのような生活経験を持つことができるほど知的になれるかということです。
答えは「はい」です。これもまたコンピュータープログラムでした。ロジャー・シャンクが1977年にすでに正しい答えを出していました。しかも、純粋に形式的な記号操作だけで。つまり、そのような文を論理的に分解し、純粋に論理的な推論によって、その人が本当にハンバーガーを食べたかどうかを導き出すことができたのです。
質問です。このシャンクのプログラムは本当に知的だと思いますか?表情が曇っているのが見えますね。首を振っている人もいます。一人うなずいている人もいますが、その方も首を振っていますね。
お気づきのように、これは先ほどのセラピストよりも知的だと考えたくなりますね。しかし、これは本当の意味での知能でしょうか?私たちは基本的に、これは本当の知能ではないと考えています。
なぜなら、単なる論理的推論は良いのですが、これは世界理解なのでしょうか?このようなプログラムは、どのような状況でも正しいことを行い、行動できるでしょうか?いいえ、それは疑わしいと思います。そうはならないでしょう。
したがって、私たちは次のように結論づけます:本当に意識のある知能は、真の意味論的な理解を持っていなければなりません。意味論とは、概念を理解すること、より深い理解を持つことを意味します。これが意味論です。つまり、意味を持つということです。そして、人工知能はこれを理解する必要があります。
まとめると、本当に知的なシステムには世界理解が必要です。人間は少なくとも18歳から20歳、つまり思春期を過ぎるまでかかります。その頃になって初めて、世界をあらゆる深さで理解し、本当の意味で世界理解を持っていると言えるようになります。
そして外の世界は非常に複雑で、そのため1日ではなく18年もかかるのです。これが違いを生み出します。すると、人工知能もそれほど早く知的になることはできないということがわかります。人間でさえ、かなり優れているにもかかわらず18年かかるのですから。
それでも、私はチューリングテストを使ってこの広大な世界理解をテストすることはできると考えています。そのため、科学者たちへの私の提案は次のようなものです。
これが私の究極のチューリングテストです。システムが本当に深い世界理解を持っているかどうかをどのようにテストできるでしょうか?
私なら次のようにします。座って、次のような質問を投げかけます:「次の話についてどう思いますか?」これは皆さんにも聞いてみましょう。
話はこうです:50歳くらいの二人の女性が海辺に座って人生について語り合っています。一人が言います。「私の年齢は、だんだんどうでもよくなってきたわ」。すると、もう一人が答えます。「私の夫も」。
[笑い]
皆さんが笑ったことで、世界理解があることがわかります。もし相手が笑わずに「それで?何がおかしいの?」と言ったら、その人には世界理解がないことがわかります。
このような状況、そして人生にはたくさんの似たような状況があります。皆さんご存じですよね。これらは本当に深い世界理解を捉えています。
したがって、私の意見では、チューリングテストは可能ですが、少し賢くなければなりません。普通の生活でするように、ちょっと探りを入れて、ちょっとした冗談を理解する能力を見るのです。
冗談は知能の最高の形です。なぜなら、この冗談は非常に深いものだからです。人間を理解し、50歳という年齢での状況を理解し、その年齢の女性が人生について考え始めること、もう男性を必要としないということを知っている必要があります。これが世界理解です。
人工知能はこれからまだまだ遠く離れています。そのためには18年、多くの場合50年も必要です。だからこそ、年配の方々がより笑い、若い方々はそれほど笑わなかったのです。
では、質問です。私たちはまだそこまで至っていませんが、今日の人工知能はどの程度知的なのでしょうか?どこまで来ているのでしょうか?人間のようにはまだまだですが、どこまで達しているのでしょうか?
例を挙げてみましょう。皆さんもよくご存じのCAPTCHA(キャプチャ)です。CAPTCHAは「Completely Automated Public Turing test to tell Computers and Humans Apart(コンピューターと人間を区別するための完全自動化された公開チューリングテスト)」の略です。
このようなキャプチャは、ウェブサイトへのアクセスをロボットや人工知能から防ぎたい場合に使用されます。なぜなら、それらが悪用する可能性があるからです。
皆さんはどうしていますか?正直に言って、これは高度な知能ではありません。もちろん、小さなボックスをクリックして「I am not a robot(私はロボットではありません)」と確認します。正直に言って、人工知能がこの小さなボックスをクリックするのも、特に知的なことではありません。
しかし、これが今日私たちが最もよく目にするものです。そのため、このような単純なキャプチャから離れ、より知的なものを使用するようになっています。人間の世界理解を使って、コンピューターの知能と区別しようとしているのです。
今日では、このように見えます。このような画像を見たことがあるでしょうか?上に「自転車が写っている画像をすべてクリックしてください」という指示があります。
画像を見ていきましょう。左上は明らかですが、人工知能にとっては、横からではなく後ろから見た自転車を認識するのは難しいことです。ここには車輪があり、自転車かもしれません。
ここには車輪もありますが、私たちにとっては明らかに自転車ではありません。しかし、ここからが難しくなります。車輪があり、足が見えます。これは自転車でしょうか?私たちにとってはバイクであることは明らかですが、人工知能にとってはここから難しくなり始めます。
車輪の一部だけを見せても、それでもまだ理解できるかもしれません。しかし、これを見てください。これは自転車でしょうか?はい、乗っていますが、車輪は見えません。人工知能は「はい、自転車です」と言うでしょうが、私たちは「いいえ、これはタンクがついています。自転車にはタンクはありません」と言います。
ここで世界理解が重要になってきます。タンクのある乗り物は自転車ではありません。これは車で、もちろん明らかです。しかし、これは興味深いですね。これは自転車でしょうか?
私たち全員が「はい、自転車です」と言いますが、人工知能は「車輪が見えない、何も見えない、確かに2本の棒があるけれど、それだけで自転車とは限らない」と言うでしょう。
しかし、私たちはこの角度で、このような小さな部品があれば、それは自転車にしかありえないことを知っています。これが世界理解です。そして、今日の人工知能にはこれができません。なぜなら、18年間訓練したわけではなく、おそらく数ヶ月しか訓練していないからです。
ここでは世界理解が問われています。これが今日行われていることです。世界理解を持つ人工知能からは、私たちはまだ遠く離れています。
ちなみに、今ご覧いただいた自転車のキャプチャは、今日でもまだコンピューターをウェブサイトから遠ざけることができます。なぜなら、私たちはまだこの世界理解からかなり遠いところにいるからです。
専門家たちは今日、人工知能ではなく、機械学習について話しています。なぜなら、それは本当の知能とは何の関係もないからです。人工知能は人間のようなものを意味しますが、いいえ、そこまでには至っていないことをすぐに認めて、機械学習という言葉を使います。
では、専門家たちが正しかったとすれば、今日どこにいるべきだったのか見てみましょう。1960年代に未来学者たちが人工知能についてどのような予測をしていたか調べてみました。
IQ150以上(これは非常に知的で、世界中でそのようなIQを持つ人はほとんどいません)のコンピューターは、ほとんどの回答者が1990年までに実現すると予測していました。完璧な翻訳コンピューター、正確な文法を持つものは1977年までに実現すると予測されていました。
もう一つの予測があります。MITの人工知能の創始者の一人、天才のマービン・ミンスキーは1970年に「3年から8年以内に、平均的な人間の一般的な知能を持つ機械を手に入れるだろう」と述べました。
そして、ハンス・モラベックという非常に有名な記事があります。専門家の間では非常に有名で、人工知能の第一人者です。1998年に「When will Computer Match the Human Brain(コンピューターはいつ人間の脳に追いつくのか)」という記事を書きました。
この記事で、もし1秒間に約1億の命令(インストラクション)を処理できれば、つまり脳やコンピューター内部で何かが実行される場合、1秒間に1億の命令が処理できれば、人間の脳と同じレベルになるだろうと書いています。
彼の予測では、家庭用コンピューターで2020年代には実現するだろうとしています。そして私たちは2020年代に生きています。
今日の家庭用コンピューターの能力を見てみましょう。AMD CPU Ryzen 9 7950X、今日の家庭用コンピューターのCPUで最高のものは、229,000 MIPSを処理できます。つまり、ここでの100 MIPSどころではなく、何桁も多いのです。
それにもかかわらず、私たちはまだ本当の知能を持つことからはほど遠い状況です。先ほどの例をお見せしました。専門家は間違えるものだということを覚えておいてください。
ノーベル賞受賞者のマックス・プランクが言った素晴らしい言葉があります:「すべての専門家が同意している時は、最大の注意が必要だ」。ここでその理由がわかります。
1970年代以降、すべての専門家は、すべてが人間よりも知的になるだろうと考えていました。しかし、私たちはそこからまだ遠く離れています。
そして、私たちが本当にそこから遠く離れていることを示すために、テストを行ってみました。今日の人工知能がどの程度知的かを知りたくなり、そのためにGoogle、特にGoogle翻訳ほど適しているものはありません。
これは今日私たちが持っている最高の翻訳システムで、もちろんその背後には理解があるはずです。そうでなければ、本当に良い翻訳はできないはずです。
そこで、次のような入力をしてみました:「Es ist das Pferd, dass das Kind reitet(それは子供が乗っている馬です)」。
誰が何に乗っているのかはすでに明確ですね。そこがポイントです。つまり、状況が明確になるように文を組み立てたのです。馬が子供に乗っているのではなく、「子供が馬に乗っている」のです。
そうではありません。そこには「馬が子供に乗っている」とは書いていません。「Es ist das Pferd, dass das Kind reitet」と書かれています。これはドイツ語では2つの方法で理解することができます。馬が子供に乗っているとも、子供が馬に乗っているとも解釈できます。
一般の人々は正しく理解します。では、Googleはこれを理解したでしょうか?英語では、このような違いはありません。
Googleは「It is the horse that rides the child」と答えました。完全に罠にかかってしまいました。理解できていないのです。
もう一つのテストをしてみましょう。「Das Buch, das auf dem Kopf steht(逆さまになっている本)」と入力しました。本棚に本があり、逆さまになっている特定の本のことを指しています。
この場合、英語では「that」と「which」を区別します。「that」は、私が「その」特性、つまり逆さまになっているという特性を指しているということです。「which」は副次的な特性を指し、文から省略できる何かを指します。
Googleはどう翻訳したでしょうか?これは本の識別に重要な特性なので、「The book that is upside down」と訳すべきです。これが完璧な正しい翻訳です。チェックマークです。
では、世界理解があるかどうかを確認するために、別の入力をしてみました:「Das Buch, das gestern gekauft wurde, steht auf dem Kopf(昨日買った本が逆さまになっている)」。
この従属節「昨日買った」は重要ではありません。私は逆さまになっている本のことを指していて、それが昨日買われたということは重要ではないのです。昨日でも一昨日でも、赤い本でも何でもよいのです。それは重要ではない従属節です。
したがって、「The book, which was bought yesterday, is upside down」と訳されるべきです。Googleはどう訳したでしょうか?「The book that was bought yesterday is upside down」。つまり、間違った翻訳です。
これは、システムが理解していないことを意味します。これは重要ではないことだと理解していません。知能はありません。このように訳されるべきだったのです。
さらに考えてみました。Googleはアメリカ人によって書かれているので、逆に英語の文を入力して、ドイツ語に正しく翻訳されるかどうか見てみましょう。英語は理解しているはずです。
「He fed her cat food」と入力しました。これも英語では二重の意味があります。彼女の猫にえさをやったのか、彼女に猫の餌をやったのか。英語ではあいまいです。
これがポイントです。人工知能システムがこれを正しく理解できるかどうかを確認したいのです。Googleはどう翻訳したでしょうか?「Er fütterte ihr Katzenfutter(彼は彼女に猫の餌を与えた)」。世界理解がありません。Googleには理解がありません。
これが今日のGoogleの知能の結果です。
では、実際に今日の人工知能の背後で何が起きているのか、どのようにして可能な限り良い知能、あるいは人工知能、機械学習(そう呼ばなければなりませんが)を達成するのか見てみましょう。
これは「ディープラーニング」と呼ばれています。ディープラーニングがどのように機能するのか理解するために、これらの言葉は全て知っていますが、まだ理解していませんので、ニューロンがどのように機能するのかを少し見てみる必要があります。
つまり、私たちの頭の中にあるものです。頭の中には多くのいわゆるニューロンがあります。これらは上に見える細胞で、私たちの頭の中には約1000億個あります。そしてそれらは全て相互に接続されています。
1000億個の細胞が相互に接続されており、これが重要です。なぜなら、ニューロンは電気的なインパルスを送ることができ、それが他のニューロンに伝わるからです。これが私たちの知能を作り出し、私たちの頭の中での情報処理を可能にしています。
このシグナルは、例えばこのような軸索(アクソン)と呼ばれる接続に沿って伝わります。これらの接続には鞘があり、シグナルがそこを通過したかどうかを知りたい場合は、この鞘に沿って流れた電圧を測定することができます。
電圧計のようなものを当てて、通過するインパルスを測定します。ここで電圧を測定できます。ミリボルト単位で、時間とともに電圧が一時的に上昇するのが分かります。ここでインパルスが通過し、その後終わりです。
これは2-3ミリ秒(1秒の1000分の1)で起こります。非常に速い速度です。
これが私たちの脳の仕組みです。そして、このシグナルが下部に到達すると、シナプス間隙と呼ばれるものがあります。これは非常に重要です。なぜなら、この点で電気的シグナルは神経伝達物質に変換されるからです。
これは特定の化学的、有機的物質で、間隙を越えて放出され、受容体(つまり対応する部分)で受け取られます。そして、これらの神経伝達物質がどれだけ受け取られるかによって、シグナルの伝達が強くなったり弱くなったりします。
これは非常に重要なポイントです。なぜなら、このシナプス間隙での伝達の強さによって、一つのニューロンが他のニューロンにどの程度影響を与えるかが決まるからです。
学習とは、このシナプス間隙がどれだけ強く次のニューロンに影響を与えることができるかということに他なりません。良い記憶の場合、より多くの神経伝達物質が放出され、より多くの神経伝達物質が存在します。知らない場合は少なくなります。
このように私たちの脳は機能しています。さらに、私たちの頭の中では、平均して各ニューロンが1000個の他のニューロンと接続されています。つまり、この相互接続性、多くのニューロンが非常に多くの他のニューロンと接続されているということと、シナプスでの伝達の強さ、これがトレーニングを決定します。
18年間トレーニングすると、あるニューロンは100の接続しか持たず、より重要なニューロンは10,000の接続を持つようになります。そして、それらの接続が強化され、「ああ、ヴォルフガングを見た、彼を知っている、これはヴォルフガングだ」と言えるようになります。これが私のトレーニングです。
このように脳は機能しており、人工知能でもまさにこれを再現しようとしています。そのため、全く同じことを行います。
このような層、いわゆる層を取り、これらがニューロンです。そして入力を加えます。入力はここではx1として記述されています。見てください、これは私の指です。3本、2組の指と親指があります。
これに触れると、私の脳にシグナルが送られます。例えばX1は私の親指で、「接触」というシグナルを送ります。このシグナルはそこに伝えられます。これに触れると、それはX2で、この「接触」シグナルがこのニューロンに送られます。同様にこれについても同じです。
このように理解する必要があります。そして、ニューロンは「さて、何が起こったのかを解釈しなければならない」と言います。
例えば、手を握る場合、これら2組が活性化され、親指は活性化されません。つまり、親指にはシグナルがなく、他の4本の指にシグナルがあります。そして、ニューラルネットワークはこれを「握手」として解釈します。そして「握手」が出力されます。
このように私たちの脳は機能します。もちろん、非常に単純化して説明していますね。そして、このようにしてすべてを理解することができます。
例えば、親指でここを押す場合、この入力だけが活性化され、他は活性化されません。そして、ここから何も出力されないため、解釈は「親指がテーブルを押している」となります。
しかし、これはもっと知的になります。なぜなら、これらは非常に単純な状況だからです。人間ははるかに複雑です。そこで、このような神経層をさらに追加します。これらは隠れ層と呼ばれます。
そして、より多くの可能性を持つことになります。実際、X1、X2、X3だけでなく、今日では1000までの入力と、20、30、50と非常に多くの層を持つことができます。
しかし、これを比較してみても、20層と256(デジタル数)の入力があったとしても、20 x 2500の接続しかありません。これは多くありません。先ほど見たように、私たちの頭の中ははるかに多くの接続があります。
したがって、今日のような複雑なニューラルネットワーク(これらはニューラルネットワークと呼ばれています)でさえ、脳ができることからはまだまだ遠いところにいます。
このようなニューラルネットワークが何をできるのか見てみましょう。各ニューロンが次の層の各ニューロンと接続されているのがわかります。そして、この複雑さが、人間の脳で模倣されるべき知能を生み出すのです。
また、この神経層から次の層への処理を通じて、より高度で複雑なものを処理し認識できるようになることがわかります。これが、これらの異なるネットワークの目的です。
カエルを具体例として見てみましょう。カエルはどのようにしているのでしょうか?これは非常に単純な例です。カエルには目があり、網膜の後ろに3つのセンサーがあるとします。
コウノトリを見ると、上と下が活性化され、中央は何もありません。これは「ジャンプして逃げろ、コウノトリだ」を意味します。ハエを見ると、中央だけが活性化されます。つまり、中央のニューロンだけが活性化され、これは「食べる、ハエだ」を意味します。
青空の場合、何も活性化されません。これは「休め、ハエを消化しろ」を意味します。このように、実際にこのような単純な両生類でも機能しています。
現実では、実際にどのように配線されているのでしょうか。実際にこのように配線されています。これは先ほど見たものです。ここが軸索、つまり電気インパルスの導体です。ここがシナプスで、何かが活性化されると、このように単純に実際に機能します。
しかし、私たちの脳ではそうではありません。私たちには1000億個のこのようなものがあり、それに応じた強力な接続があります。
より多くを持っていると仮定し、これが実際にどのように行われるのか見てみましょう。深いニューラルネットワーク、つまり多くの神経層を持つものを取り、前面に入力を行います。
実際には、おそらく2000のピクセルを持つ画像があるとイメージしてください。つまり、入力は実際にX1から2000までです。このシグナルは、これらの異なる神経層に与えられます。
もちろん、それらは対応して大きくなければなりません。私の画像には収まりませんが、適切な大きさにできます。そして、観察が行われ、「これは夕日です」と言われます。
最初は「赤」と言うでしょう。しかし、「いいえ、これは夕日です」と言われます。このニューラルネットワークに「これは夕日だ」ということを理解させる必要があります。
どのようにするのでしょうか?これは「バックプロパゲーション」と呼ばれる方法で行われます。つまり、これらの層を逆方向に進み、「夕日」が出力されるまで、これらのシナプス的なものを調整します。
そして、「よし、理解した」と言います。次に、他の10枚、20枚、あるいは100枚の夕日の画像を見せ、毎回、それぞれのシナプスを調整して、異なる夕日も理解できるようにします。
このように人工知能、つまり機械学習は学習します。そして、次のようなことを行います。「さあ、始めよう」と言って、新しい夕日の画像を見せます。
もちろん、これは少し複雑です。なぜなら、太陽はすでに沈んでいて、上は青い空、下はまだ赤いからです。これを夕日として理解するでしょうか?
このニューラルネットワークは、ベッドと夕日を区別するようにトレーニングされています。つまり、非常に単純な状況です。しかし、ベッドには暖かい光があり、上には青い布団があるかもしれません。青い布団の上の暖かい光、例えば上からの光を理解するのでしょうか?
異なる層がこの画像をどのように解釈するか見てみましょう。私たちは層ごとに見ていきます。すでに夕日とベッドでトレーニングされたネットワークです。
かなり上の方から始まり、「これはベッド」と言います。軸上では「夕日」となっていますが、夕日というよりもベッドだと言います。
第2層では、「ベッドは少なくなり、夕日がかなり多くなったが、まだそうではない」と言います。
次の、より理解力のある層では、「はい、これはより夕日らしい」と言います。次の層では、さらに夕日らしくなります。
このように、正しい解決策に向かってゆっくりと進んでいきます。次は「いや、やっぱり違う」と言いますが、最後には「おそらく夕日だ」と言い、最終的に「これは夕日で、おそらくベッドではない」と結論付けます。
これを見て、「まあ、ある程度理解している」とわかります。これが今日行われているやり方です。しかし、問題は、毎回新しい画像を見せて「これはベッド」「これは夕日」と言いたくないということです。
自分で学習してほしいのです。子供たちにもそうするでしょう。一度「車」と言えば、後は自分で車を学習しなければなりません。人間はそうします。これをこれらのシステムにもさせたいのです。
そこで、次のようにします。まず、通常インターネットからデータを取得し、ネットワークをトレーニングします。ここでは犬と猫をトレーニングしています。これは非常に難しい課題です。
私たちにとって犬と猫は明確ですが、このような知的なネットワークにとっては非常に難しいです。目、耳、尾など、つまり極めて難しいものです。ここでは犬と猫の区別をトレーニングしています。
理解したと思えば、トレーニングされたモデル、つまり対応する接続を持ったものができあがります。そして、「さあ、自分で学習しなさい」と言います。
単にインターネットからデータを取得して見せ、それは自動的に行われ、子供のように学習する必要があります。新しい画像で常に学習を続け、「よし、理解した」と思えるまで続けます。
これが今日の方法です。ちなみに、これは「強化学習」と呼ばれています。
このような人工知能の長所と短所を見てみましょう。まず、短所から見てみます。そのため、これを赤で示しています。
彼らがすることは、システムをトレーニングし、トレーニングが終わると、システムを起動します。その後は、システムは新たなトレーニングをすることができません。
しかし、人間は18年、20年トレーニングします。それをこれらのシステムには行いません。一度システムがトレーニングされ、起動されると、それで終わりです。そこまでに学習したことだけです。
人工知能は専門家システムとして考えることができます。システムが本当によくトレーニングされ、本当によく作られていれば、0.1秒以内に物事を正しく認識することができます。
これらは「専門家システム」と呼ばれ、本当に優れたものになり得ます。しかし、それらはとても狭い分野の専門家システムでしかありません。
例えば、シャガールの芸術作品を認識できる専門家システムがあります。しかし、他の何かを見せると、もう理解できません。これが短所です。
しかし、良い点は「転移学習」です。つまり、一度このようなニューラルネットワークを持ち、これらのシナプス接続が確立されると、この情報を他のすべてのニューラルネットワークに配布することができ、このニューラルネットワークを持つ他のすべてのコンピューターも同じように知識を持つことができます。
これは素晴らしいことです。一度トレーニングするだけで、何千もの他のシステムに適用できます。人間ではこれはできません。脳を見て、そこでニューロンがどのように配線されているかを知ることはできません。すべての子供が自分で学ばなければなりません。これはここでは良い点です。転移学習は非常に上手くいきます。
しかし、ここで問題が出てきます。深い、つまり多くの神経層を持つこのようなシステムを見てみましょう。問題は「ブラックボックス問題」と呼ばれるものです。
言い換えれば、システムが自己学習する場合、システムが正しく学習したかどうかはわかりません。出力が出てきて、それが南であることはわかりますが、それ以上のことはわかりません。内部でどのように配線されているかはわかりません。
しかし、時には正しく学習したかどうかを知りたい場合があります。そこで次のようなことを行います。実例を挙げましょう。
ここにあるのは、船を認識するようにトレーニングされたシステム、ニューラルネットワークです。多くの船でトレーニングされています。これは一つの画像で、「これは何か?」とシステムに尋ねると、答えは「船」です。
ここで「なぜこれが船だとわかるのか、ネットワークよ」と尋ねたくなります。それはどのように行うのでしょうか?「ヒートマップ」または熱分布図を作成します。
ヒートマップとは何でしょうか?このニューラルネットワークに「これが船だとわかる部分を教えてください」と尋ねます。そうすれば、正しく認識したかどうかがわかります。
この質問の結果をお見せしましょう。赤い部分は、システムが船だと認識した部分を示します。緑と青は、それが重要ではない部分を示します。
すると「おや、システムは船そのものにまったく興味を示していない」ということに気づきます。このシステムは「水がたくさん、あるいはかなりの水が見える時はいつも、そこには船がある」というようにトレーニングされています。
システムにとって、水イコール船なのです。そして「これはありえない」と思うでしょう。しかし、このブラックボックスの中で何が起きているのかわからないため、そういうことが起こるのです。
システムが実際に何を学習したのかについては、非常に注意深く見る必要があります。
別の例を挙げましょう。ここに馬がいます。これは典型的なインターネットの画像で、システムが馬を学習し、認識すべき画像です。
私たち人間にとって、これが馬であることは全く問題ありません。これは馬です。そして、この知的なシステムにとっても問題ではありません。「馬」と言います。
「なぜこれが馬だとわかるのか」と尋ねてみましょう。ヒートマップが示すのは、ここ、下の部分です。見てください、下に「www.pferdefotoarchiv.de(馬の写真アーカイブ)」と書いてあります。
つまり、システムは「画像の下に『馬の写真アーカイブ』と書いてある時はいつも、そこには馬が写っている」ということを学習したのです。これを学習したのです。
これは賢いやり方ですが、この効果は非常によく知られており、「賢いハンス効果」と呼ばれています。賢いハンスとは何でしょうか?
賢いハンスは前世紀初頭の馬で、板を蹄で叩くことで、計算や数を数えることができると言われていました。ここに賢いハンスが左に、右側にはその教師が見えます。
数学教師のヴィルヘルム・フォン・オステンは、ハンスの特異な能力で大きな注目を集めました。公の場に出て、何百人もの人々の前で「今から馬に計算させてみせます」と言いました。
何らかの数字、例えば7を示し、「さあ、賢いハンス、2プラス3プラス4は7です。答えは何でしょう?」と言います。
すると賢いハンスは、見えている板を蹄で叩き始めます。1、2、3、4、5、6、7。大きな拍手。素晴らしい。馬は計算ができたのでしょうか?
いいえ、賢かったのです。なぜなら、これが賢いハンスだったからです。馬は何を学習したのでしょうか?人々が拍手を始めた瞬間に止めなければならないということを学習したのです。[笑]
これが賢いハンス効果です。このことから、正しい答えが出てくるからといって、システムが本当に理解しているということを意味するわけではないことがわかります。
単に知的だっただけで、何も理解していなかったのです。したがって、人工知能においては、答えが正しくても、システムが本当に正しく機能しているかどうかについては、非常に注意深く見る必要があります。
賢いハンスについては以上ですが、まだ別の問題があります。単純に一つの画像をお見せしましょう。「これは何ですか?」という質問に対して、答えは「空に何かがある」となります。
私たちにとって、これは全く問題ありません。そこで、人工知能のニューラルネットワークに「これは何か?」という課題を与えます。
するとシステムは解釈を始めます。これは実際の例で、本当にこのような結果になりました。最初の層は、ここに見えるものが「私の最初の解釈です」と言います。
私たちは「それは自分の脳ではそうは解釈しないけれど、まあ、そういう解釈をしたいなら構わない」と言うでしょう。次の層での解釈は次のようになります。
「ああ、何をしているんだ?」と思うでしょう。動物を認識するようにトレーニングされているので、何らかの動物を見出そうとし始めます。これは実際のテストです。
そして最後の層に到達します。結果はこちらに見えます。何が見えるでしょうか?「アドミラル犬」、「ピクスメル」、「豚ヘビ」(前が豚で後ろがヘビ)、「ラクダ鳥」があります。
システムには想像力があると言わざるを得ませんね。そして右側には「犬魚」があります。これが結果です。まったく理解していません。
しかし、私たち人間もこのような二重性や過剰解釈から免れているわけではないと思わないでください。そのような例を一つ持ってきました。
私たち自身もこのような二重性や過剰解釈に陥りやすいことを示すものです。この画像で何が見えますか?
ウサギですか?ここに目があり、前に鼻があって、後ろに耳がありますか?それとも、アヒルですか?ここにくちばしがあり、目があって、後ろに頭部がありますか?
両方可能です。つまり、人間も誤った解釈や過剰解釈をする傾向があります。これは物事の本質なのです。
しかし、人間は18年かけて学習することで、微妙な違いを見分けることができるようになり、その違いを認識できるようになります。人工システムにはこれが通常ありません。
ここに例を挙げましょう。左側は学習されたままの金魚です。そして今日では、この画像にわずかなノイズを加えるだけで十分です。
すると、こんな感じになります。私たちは「違いはどこ?」と言うでしょう。ここにノイズがないことと、ここに追加のノイズがあることに注意する必要があります。
すると、システムは「これは金魚ではない、デイジーの花だ」と言います。つまり、このようにトレーニングされたシステムにわずかな変更を加えるだけで、出力が完全におかしくなってしまうのです。
これは今日大きな問題であり、この問題は「敵対的問題」と呼ばれています。敵対的とは、人工知能に対する一種の攻撃です。これにより、人工知能は実際に攻撃されやすくなり、しかもそれは比較的容易です。
いくつか例をお見せしましょう。すでに一つの例を見ました。システムはパンダの認識にトレーニングされ、画像を見せられます。わずかなノイズを加えるだけです。大きなノイズである必要はありません。
これがノイズ入りの画像です。違いは見えませんが、すべての細部を認識するこの人工知能にとっては混乱を招き、「テナガザル」と言います。
「なぜそう言うのか?」と思うでしょう。まあ、テナガザルにも見えなくもないですが、実際にはこれがパンダであることは知っています。
あるいは、次のようなことができます。このワシか何かの鳥、赤いワシのようなものでトレーニングされています。画像をほんの少し、わずかに回転させるだけで、システムは「オランウータン」と言います。
わずかな変更で、まったく異なる結果になります。これは危険です。
あるいは、ここの下に「グラノーラバー」、つまりミューズリーバーがあります。システムはこれを学習し、ホットドッグではないと学習しました。
しかし、わずかにズームアウトするだけで、つまり全体を表示するだけで、「これはホットドッグだ」と言います。いいえ、これはグラノーラバーです。しかし、このように見えるものはホットドッグだと学習してしまったのです。
つまり、わずかな変更を加えるだけで、間違った結果が出てきてしまいます。これが人工知能の大きな危険性です。
もう一つの例をお見せしましょう。これは今日キャプチャで活用されています。左側のような非常に単純な「I am not a robot」の代わりに、このような画像を画面に表示します。
人間にとっては全く問題ありません。「正しい向きで表示されている画像をクリックしてください」という質問に答える場合、すぐに「あ、これだ」と言えます。
犬がこのように宙に浮いているわけではなく、地面の上に立っているはずです。人間にとってはまったく問題ありませんが、学習していない画像のわずかな回転でも、人工知能は即座に誤った解釈をしてしまいます。
つまり、トレーニングされた人工知能はここで正しい結果を見つけることができないのです。
そこで私も、Googleで試してみようと思いました。Googleに対して敵対的攻撃、つまり攻撃を行ってみましょう。
「It’s raining cats and dogs」という文を入力しました。これは標準的なフレーズで、すべての生徒が授業で学びます。誰もがこれが「バケツをひっくり返したように雨が降っている」という意味だと知っています。
これをGoogleに入力すると、「es schüttet wie aus Eimern(バケツをひっくり返したように雨が降っている)」と正しく翻訳しました。
そこで私の攻撃です。次のようにしました。「it’s」の代わりに「it is raining cat and dogs」と書きました。これはほんのわずかな変更です。
この小さな変更で、どのように翻訳されるか見てみましょう。翻訳は「es regnet Hunde und Katzen(犬と猫が雨のように降っている)」となりました。
言い換えれば、システムはトレーニングされ、「it’s raining cats and dogs」が出てきた時は「バケツをひっくり返したように雨が降っている」と翻訳するように学習しました。それ以外のことは学習しておらず、わずかな変更でも罠にかかってしまいます。
もう一つの例です。次のようにしました。「it’s」はそのままにして、先ほど書いた「it’s rainin’ cats and dogs」としました。英語では最後の文字を省略することがありますよね。
これが2番目の攻撃です。どのように翻訳されるでしょうか?「es regnet Katzen und Hunde(猫と犬が雨のように降っている)」と表示されます。
つまり、知能はありません。あるものは完璧に機能しますが、このようにして人工システムを混乱させることができます。これは科学界でも知られており、これが現在の研究の状況です。
ここに例があります。例えば、システムが数字を学習する場合、7には様々な書き方があり、3なども同様です。すべてうまく学習しています。
しかし、何らかのノイズを加えると、システムは失敗します。7、7、3、7、7を見て、私たちは失敗しません。「これは同じものだ」と言います。
あなたにとってはこれは問題ありません。なぜなら、18年間かけて、ノイズの入った数字も解釈できるように学習してきたからです。しかし、このようなシステムにはそれができません。
では、あなたの脳もこのようなことから免れていないことをお見せしましょう。あなたの脳に対して敵対的なことをしてみましょう。
よく見てください。あなたは誤った方向に導かれます。これは「錯視」と呼ばれるものです。何が見えますか?
「これは何か渦巻いたスパイラルだ」と言うでしょう。しかし、それは間違いです。あなたは誤った方向に導かれています。これはスパイラルではなく、円なのです。一本の線をたどってみてください。そうすると、それが閉じた円であることがわかります。試してみてください。一本の線を目でたどってみれば、これはスパイラルではなく円だとわかります。
これはあなたの脳に対する敵対的攻撃です。面白いことに、これが脳への攻撃だとわかっていても、誤って解釈してしまうのを避けることができません。
したがって、機械知能だけが誤った方向に導かれると考えないでください。あなたも誤った方向に導かれます。これが経験です。20年以上の学習の結果です。
人間の脳の素晴らしい点は、存在しないものを見ることができることです。これも20年の経験によるものです。例えば、どのような幾何学的図形が見えますか?
「白い三角形」と言うでしょう。しかし「白い三角形を探せ」と言われても、そこにあるのは角が欠けた黒い点と、途切れた黒い三角形だけです。白い三角形は存在しません。
しかし、あなたはこれらの実際の表現から白い三角形を導き出すことができます。これは別のものです。このようなものを「カニッツァ図形」と呼びます。
人間がなぜ長年の経験を通じてこのような解釈ができるようになったのか、例をお見せしましょう。この画像には何匹の生き物が見えますか?
よく見る必要がありますが、きっと正しい答えにたどり着けるでしょう。左から順に見ていきましょう。一頭目の馬、二頭目、三頭目、四頭目、五頭目の子馬。5匹の生き物です。
これはカニッツァ効果によってのみ可能です。なぜなら、これらの馬の輪郭を追うことができるからです。これは雪ですが、これはもう足だと非常に正確に区別することができます。これは人間の能力です。人工知能はこのようなものを理解することからはまだまだ遠いところにいます。
もっと難しい例を見てみましょう。ここに何が見えますか?これはより難しいですが、人間にはできます。地面の上で嗅ぎまわっているダルメシアンがいて、その後ろに影を落とす木があります。
人間にとって、このようなものは不思議なことに全く問題ありません。非常に複雑ではありますが、人工知能は完全に誤った判断をします。なぜなら、これらを認識することができないからです。
これによって、人工知能と自然知能の間にまだ大きな隔たりがあることがわかると思います。別の例をお見せしましょう。
これは驚くべきものかもしれません。これはダリの有名な絵画で、フロリダのタンパにあるダリ美術館に展示されています。タンパに行かれた際は必ず見てください。私も行きました。
この絵をこのように見ると、彼が深く敬愛し、しばしば描いた友人であり妻のガラが、ここの窓のような十字架の前に立っているのが見えます。芸術家はよくこのように描きますよね。これが絵です。
そしてタンパでは、「後ろの壁まで数歩下がってください」と言われます。そこで後ろに下がっていきます。どんどん下がって、もっと下がって、さらに下がって、遠くから絵を見ると、何が見えるでしょうか?
これはリンカーン大統領です。素晴らしいですね?ダリがこれを描いたのです。そして意図的にこのように描きました。これがリンカーンになるように。
これが私たちの学習するものです。これを脳が学習し、そのためには何年もかかります。これで私の講演の終わりに近づいてきました。
先ほど見たように、私が本当に尊敬するバーナード・ラッセル、ノーベル賞受賞者で人工知能の父が言ったように、「多くの専門家が意見を一致させている時は、最大の注意が必要である」のです。
彼は1956年に「機械は20年以内に、人間ができるあらゆる種類の仕事を行うことができるようになるだろう」と言いました。まあ、50年代だったので許せますが…
しかし、周りを見てみましょう。例として自動車修理工場の写真を持ってきました。そこに何か修理をするロボットが見えますか?
ロボットは車を組み立てることはできます。しかし、先ほど申し上げたように、それらはかなり愚かです。しかし、車を修理することは全く別の話です。
そのためには知能だけでなく、最高レベルの触覚が必要です。例えば、エンジンルームの下を見て、何かがガタガタ音を立てているのを聞き、手を下に伸ばすと湿気や油があることがわかります。
これが世界経験です。これが知能です。ロボットにはできません。太い腕ではそこまで届かないでしょう。それは別として、できたとしても、私たちはそこからまだまだ遠いところにいます。
20年後でもロボットが車を修理することはないと、私はあなたと賭けてもいいでしょう。なぜなら、知能もセンサーもアクチュエーターも、そのようなことを達成するにはまだまだ不十分だからです。
言い換えれば、人工知能について心配する必要はありません。今や人工知能にどのような欠点があるのかがわかりました。どのようにして誤った方向に導くことができるのかもわかりました。
これは逆に、人工知能から何かが出てきた時には非常に懐疑的でなければならないということを意味します。
これは人工知能が愚かだということを意味するものではありません。むしろ逆です。非常によくトレーニングされた専門家システムがあります。
例を挙げましょう。レントゲン写真に特化した人工知能があり、人間の目では見えない微細な違いを見分けることができ、それらは正しいのです。
しかし、それらは上部胸部、肺のレントゲン写真だけに特化しています。そのようにトレーニングされており、それは非常に優れています。
言い換えれば、人工知能は特にスクリーニングに適しています。200枚のコロナウイルス患者の画像を見せると、すぐに肺に異常があるかどうかを判断できます。
これは医師よりも速く、より優れた判断ができます。このようなシステムはその用途に適しています。
しかし、微妙なケース、重要なケースについては、人工知能に任せてはいけません。そこでは人間が必要です。
つまり、はい、人工知能は良いものです。大量のデータのスクリーニングには本当に役立ちます。しかし、人命や法的問題が関わる特殊なケースでは、人工知能を使うべきではありません。
これは今日知っておく必要があることです。そして、このようなシステムが人間のように知的になるまでには、まだまだ遠い道のりがあります。
そのため、私は何年も前に賭けを始めました。自動運転車は今後20年間は実現しないだろうと賭けました。私がそれまで生きていることを願っていますが、まさにそれなのです。
そこにはセンサーという入力があり、制御しなければならず、それがアクチュエーターであり、人工知能です。昨日もこの問題を目にしましたね。
道路を運転していて、前にゴミ収集車がいる状況を知っていますよね。毎朝のことです。「またか」と思います。中央線は実線ですが、もちろん追い越しますよね。
自動運転車はそれをしないでしょう。なぜなら、ルールでは実線は越えてはいけないとされているからです。
自動運転車がゴミ収集車の後ろで立ち往生し、20分間誰も追い越せないという状況を想像してみてください。これが未来の姿です。
これで締めくくりとしましょう。重要なことは、ヴェルナー・フォン・ブラウンが言ったように、米国の研究によると、学術的な予言者たちの予測の誤差率は非常に高いのです。
信じてはいけません。これがその理由です。80%のケースで彼らは間違っています。あるいは、尊敬する科学者のオボシェフスキーが言ったように「世界的な金融・経済危機は、研究機関によって日常的に予測されることはありません。アナリストがその予測の正確さで報酬を得ていたら、彼らは全員生活保護を受けることになるでしょう」。
まさにその通りです。専門家が何かをアドバイスしたら、自分で確認してください。人生では慎重になってください。
自然知能は時には良いものです。人工知能は時には良いものですが、常に良いわけではありません。その違いを見分けるには、少しその分野について理解する必要があります。
私はバイエルン倫理評議会のメンバーとして、まさにAIのような問題についてバイエルン州政府に助言をしています。だからこそ、このようなお話ができるのです。
未来をどうするべきか、将来のAIとどのように付き合っていくべきかと聞かれたら、素晴らしいアドバイスがあります。ペリクレスの言葉を読んだことがありますが、彼はこう言っています:
「重要なのは未来を知ることではなく、ただそれに備えることだ」
これは重要な違いです。もちろん、私たちは未来がどうなるのか知りたいと思います。しかし、それはできません。それは物理的にも証明できます。
しかし、常に目を開いておき、周りをよく観察し、少し批判的になり、理解しようと努め、自分なりの考えを持つことが大切です。
そして、新しいものが登場した時に「これは素晴らしい」と思えば、それを取り入れ、実行してください。そして好奇心を持ち続けてください。
ありがとうございました。[拍手]
ご理解いただけたようですね。このように生活の助けになる夕べをありがとうございました。専門家が人工知能について説明する時は、信じないでください。このような予測もあります。


コメント