AI を今までにない形で – フラヴィアン・シェルヴェの講演

25,833 文字

L'IA COMME VOUS NE L'AVEZ JAMAIS VUE - Une conférence de Flavien Chervet

L'Intelligence Artificielle Générative déferle sur le monde depuis l'arrivée de ChatGPT. Son usage est si général qu'il ...

皆さん、エルヴェさん、ありがとうございます。今夜お話をさせていただく機会を与えてくださったディモにも感謝いたします。
さて、テレビのリモコンで困ったことのない人っておられます？あ、大丈夫ですね。ChatGPTを使ったことのない人は？今夜はギークの集まりですからね。あ、何人かおられますか。
もちろんChatGPTについてもお話ししますが、それだけではありません。皆さんもう十分に耳にされているでしょうから。今夜は、以前この講演をご覧になった方もおられますが、普段私がやっているデモ、つまり複数のAIシステムを連携させて、これらのシステムが適切に使えばどれほどのポテンシャルを持っているかをお見せするデモを、さらに発展させてみました。
以前ご覧になった方には最後にサプライズがありますし、初めての方には、私がデモが大好きで、システムで遊ぶのが好きだということがお分かりいただけると思います。
これからいくつかの画像をご覧いただきますが、普通AIの話をする時には、複雑なアルゴリズムの図とか、スライドに少し醜い図表とかが出てきますよね。ご安心ください、私も醜い重要なアルゴリズムの図は1枚お見せします。
でも、他のスライドはむしろアート性を重視しました。素晴らしいスクリーンと会場がありますからね。純粋にアートをお見せします。もちろん、これらのイラストはすべて私とMidjourney というAIシステムの共同制作です。
私は一切ピクセルを描いていません。単にAIシステムに私の意図を伝えただけで、AIは人工的な想像力で – 最近はこの言葉をよく耳にしますね – これらの画像を作り出しました。これは2025年に出版予定の、AIと社会への影響についての漫画プロジェクトのインスピレーションボードです。
生成AIという言葉は、少なくともメディアでは聞いたことがあるでしょう。今や流行の言葉ですからね。生成AIは新しいものではなく、少なくとも10年前からありますが、今起きているのは生成AIの登場よりもずっと深いところにある変化だということをお見せしたいと思います。
その変化が生成AIの実用化を可能にしたのですが、生成AIはただの通過点に過ぎません。その背後にあるものこそが、社会を大きく変革する力を持っています。今夜皆さんが素晴らしい夢を見られるか、それとも悪夢を見られるか、それは私の話をどう解釈されるかによるでしょうね。
私はAIの分野に10年、いや今や11年携わっています。この白髪が証拠ですね。ここリヨンでAIを始め、リヨン・メトロポールや他のAI関係者と共にAI倫理に関する協会を設立しました。
そして徐々に、AIへの学際的なアプローチを発展させてきました。それは今夜の講演でも感じていただけると思います。もちろん技術やビジネス、企業での活用事例についてお話ししますが、先ほど申し上げたようにアートの視点も交え、さらに哲学的な視点も加えて、AIが私たちの社会に与える深い影響についても考えていきたいと思います。
私の名前はフラヴィアン・シェルヴェです。最後に私の新刊の署名会も予定していますので、ぜひお気軽にお立ち寄りください。その際は「君」づけで話していただいて構いません。
AIの分野に10年いますが、ここ1年半ほどは10個ほどのAIシステムを日常的に使っています。1日20〜30回はAIを使用していて、明らかにGoogleよりも使用頻度が高いですね。今日皆さんから電気を奪ったら仕事が難しくなるでしょう。私からAIを奪っても、まあ1年半前からの付き合いですから適応はできるでしょうが、効率は…数字では測れませんが、雨が降ってきましたね、いい雰囲気が出ますね。
測定した数字はありませんが、私の感覚では効率は10倍になったと思います。この1年半でAIシステムのおかげで、この小さな知的な職業エコシステムを自分の周りに構築できたことで実現できたことは、私自身にとっても驚くべきものでした。
しかし特に、私の創造性が爆発的に高まりました。なぜなら、何かを実現したいと思うためには、それが実現可能だと知っている必要があるからです。現代のAIシステムを使うと、これからお見せしようと思いますが、まるでスーパーパワーを手に入れたような気分になります。
使い方は簡単で、得られる結果は非常に高度なものになります。できることが分かれば、やりたいことも生まれてきます。そして、これは講演の最後でより哲学的な部分になりますが、私の感受性も大きく高まりました。
これらのエコシステムに浸っていると、人間について多くの疑問が湧いてくるからです。そこに講演の最後でお連れしたいと思います。
これは1年半の経験ですが、既に確立された技術です。先ほど申し上げたように、私がこの分野に入った時には既に何年も存在していました。5秒ほど考えてみてください。人工知能という言葉が初めて登場したのはいつだと思いますか？
既に私の講演を聞いたことがある人は知っていますね。優等生気分でしょう。1956年です。人工知能という言葉は1950年代に登場しました。かなり昔ですね。
最初は情報科学の一分野で、脳の認知機能や、例えばシロアリの巣のような – 個々のシロアリはそれほど賢くなくても、全体としてはとても知的な – システムの認知機能をシミュレートすることを目指していました。
認知機能をシミュレートする…20世紀を通じてこの分野は発展し、20世紀末には、20世紀中に作られたものはすべて、もはや人工知能とは呼ばれなくなりました。
エキスパートシステムなど、皆さんの企業の周りにも既に広く普及していますが、それは非常に機械的で、従来型の情報技術となっています。もはやAIとは呼ばれていません。
現代の人工知能は、1950年代に始まったとはいえ、本当の意味で開花したのは2000年代です。特定の認知機能、知能の核心にある機能をシミュレートすることで、他のすべての機能を可能にしました。
ここでも5秒考えてみてください。知能の最も基本的な認知機能は何だと思いますか？
後ろから声が聞こえますね。記憶？いいえ、学習です。なぜなら、学習能力があれば他のすべての認知機能を学ぶことができるからです。
知能とは環境に適応する能力です。だからこそ、木は哺乳類ほど脳を必要としないのです。移動が少ないので環境の変化も少ないからです。つまり適応能力であり、適応するためには学習できることが重要です。
ちなみに、私たちの変化の激しい世界では、唯一不変のスキルは「学習する方法を学ぶ」ことですね。
2000年代に、機械学習（マシンラーニング）と呼ばれるものが始まりました。これは学習できるアルゴリズムです。私たちが普段コンピュータで使っている情報処理とは全く異なるタイプのアルゴリズムです。
人工ニューラルネットワークに基づいた情報処理で、生物学的なニューラルネットワークにインスパイアされています。私たちはニューロンのシミュレーションは比較的うまくできますし、それらを結合して接続を作ることもできます。
そして大きなネットワークを作ると、学習能力が自然に現れてきます。つまり、人間や動物の脳の機能にインスパイアされているわけです。
機械が学習するというのは、それだけでも驚くべきことです。通常の道具は受動的なものですよね。エアバスの設計図とエアバス本体の間には、もちろん物質的な違いはありますし、現実世界での実現には複雑さがありますが、エアバス本体に存在するものはすべて設計図にあるはずですし、その逆も同様です。
設計図があれば、どうなるかが分かります。しかし学習するシステムは全く異なります。ニューラルネットワークの設計図があっても、そこには知能はありません。精製所はあっても燃料がないようなものです。
例えば、ChatGPTの背後にあるニューラルネットワークは、無料版で約170行のコードです。たいしたことないですよね。
これらのアルゴリズムと根本的に異なる点は、学習能力があり、私たちが入力したものをはるかに超えて発展するということです。学習済みのニューラルネットワーク、つまりAIは、アルゴリズムの設計図だけでは説明できないものになります。
そのため、このようなアルゴリズムからは、予期しなかったものが多く現れてきます。これについてはまた後でお話しします。
機械学習が2000年代に本当に広まった理由は2つあります。それまでは機械学習は現実的ではありませんでした。
ニューラルネットワークは、絵本を見る子供のように学習します。カバを見せられて「キリン」と言う、間違えます。「それはカバよ」と教えられ、修正します。また間違え、また修正する。また間違え、また修正する。そして3頭のカバを見ただけで、一般化してカバの概念を理解します。
AIの講演でカバの話が出てくるとは思っていなかったでしょうね。カバの概念を学習し、新しいカバを見たときに一般化して理解できるようになるのです。
AIシステムも同じですが、数百万の例を見せる必要があります。2000年代以前は、デジタル世界にそのような例がありませんでした。
しかし2000年代に、私たち全員がインターネットに接続し始め、21世紀の見えない石油、つまりデータを生成し始めました。
このデータは、21世紀の見えない精製所であるニューラルネットワークに入れられ、21世紀の文明を動かす燃料である知能を生み出すことになります。
2000年代はデータの時代、ビッグデータの時代の幕開けでした。IT企業のフォーラムにいらっしゃる皆さんにとって、データという言葉は特に驚くものではないでしょう。
これらは機械に世界を学ばせるための例となります。皆さんもこれに参加されています。例えば、インターネットでCAPTCHAを入力するとき、あのロボットでないことを証明する小さなボックスです。
これは21世紀最大の詐欺の一つですね。時々、間違った答えを入力しても通過することに気付いたことはありませんか？それは、多くの場合2つのCAPTCHAがあるからです。
1つ目は本当に人間かどうかを確認します。正しい答えを入力すると、2つ目では1つ目で正しい答えを入力したので正直に答えるだろうと考え、2つ目は単にデータにラベルを付けてAIシステムを訓練するためだけに使われます。
ある時期、手書き文字認識（OCR）を開発したかったので、CAPTCHAで「w3zx」と書かれたものをデジタルで入力させ、「w3zx」と入力することで、AIに文字言語の仕組みを教えていたのです。
その後、自動運転車を開発したくなったので、横断歩道や信号を選択させられました。このような画像を作るためです。今日では、AIが再構築する必要のある穴のある画像が必要なので、パズルのピースをスライドさせられます。
そしてまもなく、というかますます、3Dの小さなピースを回転させるCAPTCHAが増えていくでしょう。なぜなら今日、3D環境をモデル化できるAIシステムを訓練するための3Dデータが不足しているからです。
これはクラウドソーシングと呼ばれますが、他のすべての人を犠牲にして、一部の人々の利益のために行われています。このシステムの倫理性については、皆さん自身でご判断ください。でも、これが今の実態だということは知っておいてください。
2000年代に機械学習が発展し、皆さんが日常的に使っているアルゴリズムを生み出しました。例えば、スパム対策フィルターです。これはニューラルネットワークで、60万件のスパムと60万件の非スパムを見せられ、スパムとは何かを自分で一般化することを学習しました。
スパムの特徴をすべて記述する必要はありません。すべてのスパムが異なるので、それは非常に複雑になってしまいます。しかしシステムは一般化することができ、その結果、優れたスパム対策フィルターが生まれました。
2010年代にはさらに発展し、より大きなニューラルネットワークを作るようになりました。これがディープラーニング（深層学習）と呼ばれるものです。ネットワークが非常に大きいため、ニューロンがネットワークの深い部分に組み込まれています。ディープラーニングです。
ディープラーニングによって、より産業化可能なユースケースが次々と解決されていきました。典型的なのは人工視覚、つまりアルゴリズムが人間以上に世界を見る能力です。
iPhoneをお持ちの方なら、Face IDがディープラーニングを使っていることをご存知でしょう。あなたの顔を他のすべての顔から識別する大きなニューラルネットワークです。
産業界では、例えばトタルのように、パイプラインにドローンを飛ばし、ドローンがあらゆる場所の写真を撮影します。パイプラインの小さな欠陥を認識するよう訓練されており、それらを特定します。これにより予防保守が可能になり、故障が起きる前に修理することができます。
放射線科医の場合、骨折のある100万件のX線写真と骨折のない100万件のX線写真でAIを訓練すれば、どんな人間の放射線科医よりも優れた骨折の認識が可能になります。
これにより自動診断が可能になり、今日の社会では責任の問題から単なる補助として使用されていますが、例えばアフリカの医療過疎地域では、自動診断は既に広く普及し発展しています。
これらのシステムは既に私たちの周りのあらゆる場所に存在しています。皆さんのiPhoneの1ページ目のアプリケーションを見れば、この会場の平均して10個中9個はディープラーニングが核心部分にあるはずです。
これは目に見えないAIです。なぜ皆さんは5-6年前にこのAIを持っていなかったのでしょうか？なぜ今日のようにChatGPTを日常的に使えなかったのでしょうか？なぜ革命は今起きているのでしょうか？
それは3つの障壁があったからです。多くのデータが必要でした。先ほど申し上げたように、誰もがデータを持っているわけではありません。デジタル大手企業であれば、確かにデータに基づくビジネスモデルを構築していましたが、そうでなければ必ずしも簡単ではありません。
さらに、データは整理されている必要があります。CRMやERPにデータはありますが、使用可能にするには整理が必要です。
多くの計算能力も必要で、これはコストがかかります。そして専門知識も必要です。AIエンジニアの専門知識は簡単には得られず、これもコストがかかります。
さらに、扱えるユースケースはすべて非常に限定的でした。放射線科医が同僚とともに、X線写真でがんを識別する別のアルゴリズムを持ちたいと思えば、新しいデータ、新しい計算能力、新しい専門知識で新しいアルゴリズムを訓練する必要がありました。
つまり、非常に限定的な各ユースケースに対して莫大なコストがかかり、参入障壁が高かったのです。
私が挙げたこれらの障壁はすべて崩れました。私たちは人工知能の革命の中にいるわけではありません。既に4つか5つの革命がありました。冬の時期もありました。
科学技術的な現象であるすべての革命は約束をもたらし、その後その約束は果たされないことがあります。これは論理的なことです。
現在、私たちはAIの革命期にいるのではなく、AIの破壊的革新（ディスラプション）の時期にいます。ガートナーのハイプサイクルをご存知なら、技術の出現期ではなく、成熟期にいるのです。
ディスラプションは、クリステンセンが導入した用語で、一部の人々のみが利用できていたものが、より多くの人々にアクセス可能になる時を指します。これは世界を変えます。
インドのタタの自動車により、突然インドの誰もが車を持てるようになり、それは社会の力関係を完全に変えました。ディスラプションとは、あるものが多くの人々にアクセス可能になることです。
これは科学技術的な現象ではなく、社会経済的な現象です。現在、AIはまさにディスラプションの真っ只中にあります。ブロックチェーンはまだディスラプションには至っていません。IoTもまだですが、始まりつつあります。
AIは既にディスラプションの真っ只中にあり、それがIoTのディスラプションを可能にし、それを引き起こすでしょう。
では何が起きたのでしょうか？それは3段階で起こり、GPTという略語の理解にも役立ちます。
ディスラプションの最初の要素は、2017年の技術革命です。これが私の醜いスライドです。認識していただけたでしょう。これはGoogleの研究者たちが自分たちの頭脳で生み出したもので、AIで生成したものではありません。
これはTransformerと呼ばれるアルゴリズムの図で、GPTのTです。つまりGPTの背後にはこれがあるのです。理解する必要はありませんが、一度見ておくのは良いでしょう。
このアルゴリズムは当初、機械翻訳のために使われました。2015年には、アルゴリズムによる機械翻訳の結果を言語の専門家に見せたら即座に指摘されるレベルでした。
私が5月に出版した最初の本は、Transformerで完全に翻訳しました。英語のネイティブに読んでもらいましたが、AIが翻訳したとは信じてもらえませんでした。英語での私のスタイルが保たれていたのです。
Transformerは完璧な翻訳が可能です。これ自体が革命です。なぜなら、これは歴史的な出来事だからです。私たちの文明は「言語の壁」と呼ばれるものを中心に構築されてきました。
バベルの塔の神話をご存知でしょう。なぜ言語によって分断されているのかを説明する聖書の物語です。その言語の壁が今まさに崩れようとしています。
現在、Raybanの新製品がMetaと共同開発したものがありますが、リアルタイムの字幕機能があります。日本人と話をする時、あなたがフランス語で話し、リアルタイムで字幕が表示されます。
まもなくTeamsでは、日本人と話をする時、あなたがフランス語で話せば、相手は日本語で話し、あなたには相手の声でフランス語が聞こえ、唇の動きも同期されます。相手にはあなたの声で日本語が聞こえ、唇の動きも同期されます。
これは既に存在します。Agenと呼ばれていますが、まだリアルタイムではありません。言語の壁は崩れたのです。これは歴史的な瞬間です。
これがビジネスや個人生活、市民生活にどのような影響を与えるか、皆さん自身で考えてみてください。
もう一つ、Transformerは言語を適切に翻訳するために、言語の構文、つまり単語の並び方ではなく、意味論、つまり言われていることの意味に注目する必要がありました。
これは、人間の脳とは異なる統計的な方法ですが、言われていることの意味を処理できる最初のアルゴリズムです。
だから私の本全体をTransformerに通せば、翻訳してくれて、英語での意味を尊重するために数ページ全体を変更する必要があれば、そうしてくれます。単語ごとの忠実な翻訳を試みるのではありません。
このアルゴリズムは意味を理解し、私の本の300ページを、デジタルな思考の一瞬の行為で理解することができます。これは私たちとは非常に異なります。
これらのアルゴリズムは、適切に翻訳するためには、本当に人間を理解し、人間の言葉を話す必要があります。これも革命です。
私たちは30年間、中世的なデジタルの時代を経験してきました。私たちが考案したデジタルは複雑さのデジタルです。使いにくいデジタルです。
Photoshopのインターフェースには至る所にボタンがあり、Excelは結局人々を枠の中に入れてしまいます。これらは機械のために作られたインターフェースで、私たちが機械の考え方に適応しているのです。
CRMやERPは、幸いにも私たちのビジネスにあって良かったものですが、決して使いやすいものではありません。
人工知能のおかげで、CRMやERPを使いたくなるでしょう。なぜなら突然、デジタル世界全体のインターフェースが、人間にとって最も自然なインターフェース、つまり自然言語になるからです。
AIは私たちが知ってきたデジタルの延長線上にあるのではなく、その断絶です。機械を非人間化する代わりに、AIは機械を、そしてデジタルをますます人間化していくでしょう。
これはまた、自発性や人間的な温かみも伴うということです。私たちの機械との象徴的な関係は大きく変化するでしょう。
私たち全員がまもなく、デジタル世界全体へのインターフェースとなる知的なアシスタントを持つことになり、私たちは彼らと話をし、ますます温かく人間的な調子で話しかけるようになるでしょう。
既にChatGPTとそうしているように。きっと既に感謝の言葉を伝えたことがあるはずです。少なくとも多くの人がそうしています。続けてください、それは素晴らしいことです。機械を使っているからといって、自分を非人間化する必要は全くありません。
Transformerがもたらす3つ目の要素は、人間の言葉を適切に話し理解し、意味を処理するために、これらのアルゴリズムは3つのルールを見つけるだけでは満足できないということです。
言語を生成するアルゴリズムを統計的に浮かび上がらせる必要があります。言語は私たちの知能へのプロキシ、インターフェースです。
それを適切に理解するために、これらのアルゴリズムは私たちの知能の多くを統計的に浮かび上がらせる必要があります。私たちの脳とは全く異なる方法ですが、統計的に、推論能力、創造性、アナロジー、論理などの能力を浮かび上がらせる必要があります。
これは「ダークナレッジ（暗黒知識）」と呼ばれています。物理学にダークマター（暗黒物質）があるように、人工知能にはダークナレッジがあります。
これは、単に言語を学習することから、アルゴリズムの中で浮かび上がってくるすべてのものです。なぜなら、言語の背後にはすべての思考があり、人間の言葉を適切に話すためには、少し人間のように考える必要があるからです。
これらのアルゴリズムは、もちろん私たちのように知的ではありません。人間のように考えると思い込んではいけません。しかし、言語を生成するためには多くの知能を浮かび上がらせる必要があります。
だから私は、単に人工知能ではなく、デジタル知能と呼ぶことを好みます。「人工的」という言葉の背後には、正しいとはいえ – これは人工物、道具です – 本物の知能ではないという考えがあるからです。
これは私個人の意見ですが、機械の中にある本物の知能、私たちとは異なる知能について考え始める必要があると思います。私たちとは全く異なる方法で知的な宇宙人に出会うようなものです。最初の接触は私たち自身の惑星で起こるでしょう。
さて、GPTのTはTransformerのTです。GPTのPはFoundation（基盤）のPです。すぐにお分かりいただけると思います。これが現在の革命の本当のキーワードです。これがすべてを変えているのです。
生成AIではありません。これこそが社会に大きな変革をもたらすものです。Foundation（基盤）モデルはTransformerに基づいています。
従来のディープラーニングとは逆のアプローチを取ります。非常に限定的だが非常に有用な問題を解決するためにアルゴリズムを訓練するのではなく – それはコストがかかるため – 完全に無用な一般的な問題を解決するように訓練します。
例えばGPTの場合、すべての知能は、インターネット上のすべてのテキストで次の単語を予測することから生まれます。最初の単語を見せられ、2番目の単語を予測しようとします。
間違えると、正しい答えに近づくように修正します。ニューラルネットワークを修正し、最初の2つの単語から3番目の単語を予測しようとします。間違えると修正し、4番目を予測しようとします。間違えると修正し、という具合です。
そして何十億、何十億、何十億もの単語でこれを行うと、言語の統計的な理解が浮かび上がってきます。次の単語を適切に予測するためには、言語を理解する必要があるからです。
Foundation（基盤）モデルはあらゆる分野にあり、常に情報の一部を隠すという考えに基づいています。言語の場合は次の単語です。
このような画像を作る場合、私が使用しているFoundationモデルであるMidjourneyは、画像の一部を取り除き、欠けているピクセルを再構築する必要があります。その後、正しいピクセルを確認して修正します。
動画の場合は次のフレームを予測する必要があり、3Dの場合は3Dオブジェクトで見えない部分（オクルージョン）を予測し、その後確認します。
このように、データの欠けている部分を予測しようとすることで、データを理解することを学びます。これらをFoundationモデルと呼ぶのは、一度訓練されると、その分野のすべてのユースケースの基盤となるからです。
以前は、X線写真で骨折の認識とがん細胞の認識を別々に訓練する必要がありました。医療画像のFoundationモデルがあれば、すべてのユースケースがすぐに使えるようになります。
従来のモデルでYouTubeのコメントのポジティブ/ネガティブ分類をしたい場合、専用のモデルを訓練する必要がありました。言語に関する一般的なGPTがあれば、自然言語で3つのポジティブなコメントと3つのネガティブなコメントの例を見せるだけで、その特定のタスクに特化させることができます。
ファインチューニング（fine-tuning）、英語では洗練化と言いますが、そのタスクで特に優れた性能を発揮するように特化させることができます。
つまり、Foundationモデルを作るには、さらに多くのデータ、さらに多くの計算能力、さらに多くの専門知識が必要です。しかし一度作ってしまえば、希望するすべてのケースに対応でき、もはやデータも計算能力も専門知識も必要ありません。
必要なのは、まだかなり希少な資源である想像力だけです。これが今後のAIの石油です。
私たちは複雑さの革命ではなく、シンプルさの革命の中にいます。デジタルをますます自然言語で使用するようになり、それは私たちの意図を理解し、複雑で機械的なインターフェースで私たちの意図を仲介する必要なく、私たちが求めることを実現してくれるでしょう。
さらに、AIを使うために多額の支出は必要なくなります。私のような一般人でも、日曜の夜に世界最高のAIシステムを月20ドルで使用できます。ChatGPTの有料版を契約すれば、あるいは以前のバージョンなら無料でも使えます。
これは歴史的な瞬間です。だからこそChatGPTは火薬のように広がりました。成熟したAIシステムが劇的にアクセス可能になったのです。
AIはコモディティ化しつつあります。したがって、企業がこの時期に参入しないのは問題になる可能性があります。他のすべての企業が参入できるからです。
これは重要な時期であり、もちろん技術的な時期ですが、人間の時期でもあります。つまり、企業における能力の問題であり、単に新しいツールの問題ではなく、文化の変革の問題です。
これは火薬のように広がっていくからです。既にそうなっています。アメリカでは、GPTのようなAIシステムの企業への浸透率は既に68%です。フランスはかなり遅れていますが、アメリカではChatGPTのようなツールによって生産性が向上しています。
さて、FoundationのPはどこにあるのかと思われるかもしれません。GPTのPは「Pretrained（事前訓練済み）」のPです。つまり、特定のタスクに特化させる前に、一般的なタスクで事前にこれらのモデルを訓練するという考えです。
したがって、「Pretrained Transformers（事前訓練済みTransformer）」というわけです。そしてGPTのGはもちろん「Generative（生成的）」のGです。
生成AIとは、例を認識するためではなく、訓練例に似た新しい例を一から生成できるように訓練されたAIです。
これも長い間存在していました。2016年 – これはTransformer以前のAIの先史時代ですが – 2016年にデルフト工科大学とMicrosoftが科学的・芸術的な実験を行いました。
レンブラント、オランダの巨匠のすべての絵画でAIシステムを訓練し、アルゴリズムに新しいレンブラントを生成するよう求めました。
徹底的に行い、アルゴリズムにX線画像を見せて、画家がキャンバスに絵の具をどのように置いていたかを示しました。そしてアルゴリズムは3Dプリンターを使って、一滴一滴絵の具を置き、実際に絵を描くことができました。
この絵は実在し、アムステルダムのギャラリーに展示されています。「The Next Rembrandt」と呼ばれています。これは偽物の本物のレンブラントとでも言うべきでしょうか？分類は難しいですね。
純粋な模倣を行いました。レンブラントを完璧に知るように特化したアルゴリズムを訓練し、既存のレンブラントのデータを再現できるようにしました。
視覚的な楽しみのために見てみましょう。ここにレンブラントと偽のレンブラントがあります。さて、どちらが「The Next Rembrandt」、偽物だと思いますか？
画像AとBのどちらでしょう。どちらを選んでも、私が確認しないので、正解だったふりができますね。偽レンブラントは画像Bで、「The Next Rembrandt」と呼ばれています。
「ああ、そうだね」という声が聞こえます。実物を見ても、見分けるのは難しいと思います。一目見た限りでは、レンブラントの専門家の28%を騙しました。近づいて見れば、絵の具が時代のものではないことなどが分かりますが、一目見ただけでは専門家の28%を騙したのです。
これらの生成AIは興味深いものですが、Foundationモデル以前は、非常に限定的なモデルしかなかったため、既存のデータを再現するだけで、新しい価値は生み出しませんでした。芸術的な実験としては興味深かったのです。
Foundationモデルを持つと、突然スペースができます。自分の領域内でどのようなデータでも生成できる余地が大きく広がります。言語のFoundationモデル、GPTのようなLLM（Large Language Model）があれば、どのようなテキストでも生成できます。
画像のMidjourneyがあれば、既存の画像のパッチワークや既存のスタイルの内挿ではない、このような画像を生成することができます。
これは私がアルゴリズム内のすべての可能な画像の空間を探索し、自然言語で適切なコマンドを与えると、このタイプの画像を出力してくれる小さな領域を見つけて作り上げた、完全にユニークなスタイルです。
私は自然言語で話しかけ、「黒い肌の人型、白い宝石、黄色い花の背景で」というように説明し、このような画像が得られます。
Dallの第3バージョン – MidjourneyのライバルでChatGPTと同じスタートアップのOpenAIが提供しています – で生成可能な画像の数が計算されました。
その数は驚くべきもので、8に続いて80桁の数字が指数として付きます。宇宙には10の24乗個の原子しかありません。組み合わせが爆発的に増えると、私たちの表現能力を完全に超えてしまいます。
いずれにせよ、これらのシステムには新しいものを作り出すための大きな余地があります。これも大きな象徴的な転換点です。
これまでの人類のツールはすべて、人間ができることを拡張・自動化するためのものでした。ハンマーはより強く打つことを可能にし、車はより速く走ることを可能にします。
生成AIシステムは、現時点では、そしてその後に登場するさらに創造性の高いシステムは、私たちの創造に積極的に参加します。
これまでの機械やツールの世界では達成されていなかった、非常に文化的な何かに積極的に参加するのです。
文明の歴史は、戦争と創造の歴史です。歴史に記録される出来事を見ると、大きな創造と戦争です。AIが戦争に使われすぎないことを願います。もちろんそれは大きな問題ですが…
いずれにせよ、AIはますます創造に使われ、私たちの文明の文化的発展に参加するようになるでしょう。
これらのアルゴリズムは依然として人間の創造性のためのツールですが、実際 – これが私の最初の本のテーマですが – 人工的な好奇心を発達させ、独自に世界を探索し、人間とは異なる世界との関係を発展させ始めている別の種類のアルゴリズムも全体としてあります。
人間には決して見つけられなかったものを見つけ、人間とは異なる方法で、あるいは人間以上に創造的になります。私たちが持っているすべてのバイアスを持っていないからです。
私たちはまだそれを認識していません。これは一種のナルシスティックな傷です。私たちは機械より優れていると感じたいのです。なぜなら私たちは創造的で、この小さな一歩を踏み出すことができ、素晴らしく、カラフルだからです。
創造性は魔法ではありません。しかしこれは良いニュースです。創造的な機械を持つことは美しいことです。それはますます機械を人間化することになるからです。
さて、創造の世界にも革命が起きています。そして今、この革命を30分ほどで理解していただいたところで、デモをお見せしたいと思います。
複数のAIシステムを連携させて、創造的なことをやってみましょう。もちろん、これは人間と機械の共創になります。自律的に創造的になれるアルゴリズムについては話していませんが、それでも十分に面白いはずです。
大手ジュエリーメーカーと、生成AIを職人と共に使用する方法について取り組みました。職人の真正性と適切な技を保ちながら、AIをどこに位置づけるかを探り、これらの新技術と協働する方法を考えました。
そこで、ジュエリー制作に関するデモを作ってみました。車やワインボトル、スニーカーなど、何でもできますが、ジュエリーは視覚的で分かりやすいので、これでやってみましょう。
まず、ChatGPTをご紹介します。まだ見たことのない方のために。比較的シンプルです。リクエストを入力できるウィンドウがあります。
人間に話しかける時は「おばあちゃんと話す」「恋人と話す」などと言いますが、AIシステムには少し異なる話しかけ方をします。
その違いを示すために新しい言葉が生まれました。AIシステムに「プロンプト」すると言います。プロンプトは今年の流行語の一つです。
プロンプトエンジニアリングという新しいスキルが急速に発展しており、今年最も注目されているスキルの一つです。
プロンプトエンジニアリング、あるいはリクエスト工学（英語でプロンプトは「リクエスト」を意味します）は、AIの耳に囁くアートと言えます。自然言語を適切に扱い、AIから最高の結果を引き出す方法を知るアートです。
これは私たちとは少し異なるデジタルな知能なので、インターンや上司などに話しかけるのとは少し異なる方法で話しかける必要があります。
これから見ていただくプロンプト、つまりAIへのリクエストはかなり練られたものです。例えば、「創造的なジュエリーのコンセプトを提供してください」というのは良くないプロンプトです。
2つの理由で良くありません。まず、訓練データのことを考える必要があります。これらのAIシステムは、訓練データを通じて、インターネット上のテキストを通じて世界を学習しています。
インターネット上で「創造的なジュエリー」という言葉を見かけるのは、クレアのような店のサイトでしょう。クレアへの敬意を込めて言いますが、一流のジュエリーメーカーは自社のジュエリーを「創造的」とは言いません。もっと強い言葉、「大胆な」などを使います。
ポジショニングが全く異なるのです。本当に創造的で大胆なジュエリーを求めるなら、「創造的なジュエリー」以外の言葉を使う必要があります。
第二に、これらのアルゴリズムは次の最も確率の高い単語を生成することで私たちに応答することを学習しています。次の単語を予測することを思い出してください。
人間の意味での思考はしません。これは現在研究の大きなテーマですが、現時点では、プロンプトを入力すると、システムは最も確率の高い単語で応答します。
確率は非常に大規模になると知能をシミュレートしますが、つまり最も確率の高い単語で応答するのです。
「創造的なジュエリーのコンセプトを提供して」と依頼すると、非常に基本的な応答しか得られません。プロンプトが非常に一般的なので、確率の高い応答になってしまうからです。
独創的で差別化された、価値を生み出す応答を得たい場合は、プロンプトに予測不可能な要素を入れる必要があります。そうすれば最も確率の高い応答自体が予測不可能になります。
「創造的なジュエリーを提案して」という状態を超えたプロンプトを作る必要があります。ChatGPTを初めて使う時、多くの場合基本的なプロンプトしか作れません。
これは普通のことです。基本的なことを依頼してしまいます。「この職務の説明書を作って」など。しかし、より高度な応答を得るには、より高度なリクエストをする必要があることを学ぶ必要があります。
私の2冊目の本は、フランス初のプロンプトエンジニアリングのマニュアルです。2つの頭字語について話しています。
GIGOは「Garbage In, Garbage Out（ゴミを入れればゴミが出る）」の略です。入力がゴミなら出力もゴミになります。つまり、問題は機械の反対側にあるということです。
もう一つの頭字語は「VIVO：Value In, Value Out（価値を入れれば価値が出る）」です。入力に価値があれば、出力にも価値があります。
AIシステムは、合計以上の知能を生み出すために人間の知能を必要とします。これらのシステムで人工的な凡庸さを生み出すことも十分可能です。
では、始めましょう。ChatGPTが応答している間に、このプロンプトについて説明します。
「あなたは非常に創造的な一流のジュエリーデザイナーです」 – これはロールプロンプティングと呼ばれます。話を聞きたい専門家の役割にAIを置きます。
これも統計の問題です。インターネット上で、ジュエリーデザイナーがジュエリーについて話す時、一般の人が話すよりも専門的に話します。
したがって、これを言うことで、より専門的な応答を統計的に導きます。すべてのプロンプトをこのように、話を聞きたい専門家の立場にAIを置いて始めるのは非常に良い実践です。これは純粋に統計的なことです。
「大胆なジュエリーのコンセプトを作成する必要があります」 – また、言葉の選び方が重要です。
そして創造的な方法論を与えます。創造性において、長距離の連想を作ることができる、つまり滅多に出会わないものを関連付けるが、それを適切な方法で関連付けるという方法論があります。
そこでChatGPTにそれをするよう提案します。ジュエリーの世界とこの世界からかけ離れたアーティストを関連付け、各アーティストについてジュエリーを提案するよう依頼します。
「建築家のジャクソン・ポロック、セリーヌ…おや、初めてセリーヌが出てきましたね。そしてヤヨイ・クサマ」
ジュエリーにはもっとグラフィカルなアーティストの方が良さそうですね…
応答を見ると、各アーティストについてジュエリーのコンセプトを提案してくれています。ジャクソン・ポロックについては、ドリッピング、つまりキャンバスに絵の具を飛ばす技法を反映したネックレスで、メダリオンの枠の中にランダムに配置されたエナメルのしずく…など。
ソル・ルウィットも良いかもしれませんが、ポロックも悪くないですね。ブリジェット・ライリーを試してみましょう…どんな感じか見てみましょう。
色が足りないかもしれません。マレーヴィチなら上手くいくはずです。これがマレーヴィチです。本当に純粋な…そしてセリーヌを見てみましょう。普段はカンディンスキーなど、もっとカラフルなアーティストを提案してくれます。
いいえ、十分な色がありません。画面で映えるように少し色が欲しいですね。ヴァザルリ…そうです、ここに色があります。
では、ヴァザルリ、光学的錯覚の効果と実際に非常にカラフルな作品です。このコンセプトを採用して、2つ目のプロンプトに進みましょう。
これは面白いプロンプトで、プロンプトを作るためのプロンプトです。ChatGPTに、ヴァザルリのコンセプトを保持したまま、画像用の別のAIシステムMidjourney（現在市場で最高のシステム）のプロンプトの仕組みを説明します。
ChatGPTはMidjourneyを知らないので、Midjourneyのプロンプトをそのまま依頼しても良いプロンプトは作れません。そこでMidjourneyの良いプロンプトの仕組みを説明し、例を示して、提案してくれたコンセプトのプロンプトを直接作ってもらいます。
ご覧の通り、完全に指示を理解し、ここにプロンプトを提供してくれました。英語です。Midjourneyは英語の方が良く機能するからです。
ジュエリーを表現するための視覚的なキーワードです。最後に、ジュエリーを美しく見せるためのキーワードをいくつか追加するよう依頼しました。
このプロンプトをコピーして、Midjourneyに移動します。さて、重要な瞬間です。ご注目ください。現在、Midjourneyは一般向けにはまだベータ版とされており、Discordという非常に扱いにくいインターフェースを通じてアクセスする必要があります。
私は彼らのベータテスターで、まだ一般公開されていないプラットフォームにアクセスできます。ご覧ください、これが数週間または数ヶ月以内にMidjourneyが公開するであろう一般向けプラットフォームです。
これらは私が作成した画像ではありません。コミュニティが作成したものです。公開スペースにいます。誰かがここにプロンプトを入れ、「戦う女性兵士…」など、そしてご覧になった画像が生成されました。
では、私のプロンプトをここに貼り付けて送信します。createで…以前テストで作った腕時計などが見えますね。
画像が生成されているのが分かります。25%…28%…AIシステムが統計的に4つのジュエリーの提案を想像しています。
私は実際にどんなジュエリーだったか読んでいませんでした。ヴァザルリにインスピレーションを得たブートニエール…ブートニエール、幾何学的な形で…とても良いですね、機能しています。
このようなものができました。これは本当に面白く、独創的ですね。高解像度でダウンロードします。もう少し近くで見てみましょう。
ある種のブートニエール、私の小さなスカラベの代わりになりそうですね。画像を探して…そして別のAIシステムを使用します。これは画像の意味的認識を行うシステムですが、ここでは単に背景を削除するだけです。
それ以上の複雑なことはありません。以前はPhotoshopで画像を切り抜くのに時間がかかりましたが、今では即座にできます。AIが画像の内容を認識できるからです。
ダウンロードしたので、背景なしで使えるようになりました。3つ目のプロンプトに行きましょう。
はい、デモに追加したAIシステムです。Sunoという音楽に移りましょう。ジュエリーと一緒に音楽を作りたいと想像してみてください。
私はジュエリーメーカーで、少し異なる顧客体験を作りたい。販売する各ユニークなジュエリーに、例えばユニークな音楽を関連付けたい。NFTとしてブロックチェーンに登録するなど、何でも。音楽を使って少し贅沢な体験を作ります。
Sunoに移動します。Suno、現在完全に無料で、バージョン3。音楽を生成するAIモデルです。まだ準備ができていません。絶対に驚かれると思います。
同じように、ChatGPTに行って、Sunoのプロンプトの仕組みを説明し、Sunoのプロンプトを作ってもらいます。
「このジュエリーに合わせて、エレガントで詩的なピアノ音楽を作りたい。この音楽を描写する英語の文章を作ってください…」
このタイプのプロンプトの仕組みを説明します。歌詞も生成されます。声も、何でも生成できます。
ここでも同じ原則で、プロンプトを入れる場所があります。プロンプトを入れて、引用符を外して…createをクリックします。
いつも通り、2つの提案を生成してくれます。数秒かかります。完全に新しい音楽を2つ生成しています。これらも今まで存在したことのない音楽です。
歌詞も完璧に組み立てられています。フランス語のラップも生成できます。音楽のリズム的な要素、フローと呼ばれるものとも完璧に同期したラップ音楽が生成されます。
ここでは、「bijouのイリュージョン」、ジュエリーの錯覚という名前の2つの音楽が、確かにヴァザルリにちなんで、クラシカルでミニマルなピアノスタイルで生成されています。私が依頼した通りです。
うまくいっています。完了しました。音が機能することを願います。効果音と一緒だと常に少し不安定で…
[音楽]
別のものを試してみましょう。歌詞もここにあります。音が少し教会のような…まあ、以前作ったものを試してみましょう。
[音楽]
この中に良いものがありましたが…いいえ、ピアノのものが…まあ、ジョニー・アリデイを依頼すればうまくいったでしょうが、この雰囲気を選びました。
これを使います。なぜこれを選んだか分かっていただけると思います。軽くて、あまり場所を取らないものが必要だからです。
音楽をダウンロードして、同じように私のダウンロードフォルダから取得し、ここに置きます。そして、すべてを統合する最後のステップに進みましょう。
オンラインでこのジュエリーを販売し、展示したいと想像してください。ご存知の通り、プログラミングコードは人間にとって少し分かりにくいものです。慣れていないと理解が難しいです。
しかしAIにとって、それは言語です。コードで訓練されています。AIは、コードの生成において人間を追い越しつつあります。
ここ数ヶ月は非常に重要でした。完全なプログラムを生成できる新しいAIシステムが登場しました。まだ企業が行うようなレベルではありませんが、小さなビデオゲームやペイント、そのようなプログラムを、バグ一つなく完全に自律的に作ることができます。
そこでAIに、シンプルで魅力的なウェブページを作成したいと伝えます。暗いグレーの背景で、内部に10%の余白があり、2つのセクションに分かれています。
左側のセクションにはジュエリーの画像と音楽を再生するための小さなプレーヤー、右側のセクションにはジュエリーの少し詩的な説明（ChatGPTにコードの中で直接生成してもらいます）とメールを残すためのフォームフィールドがあります。
ご覧の通り、ChatGPTは誇らしげにページのコードを生成し、便利なコピーコードボタンまでついています。とても親切ですね。
コピーするだけで、コードを読む必要もありません。ここに戻って、page.htmlという名前の小さなテキストドキュメントを追加します。
最もギークな方々のために説明すると、HTMLは単にウェブページであることを示すものです。メモ帳で開きます。完全に空白のメモ帳で、何でも入力できます。
ChatGPTが提供したコードを貼り付けます。閉じます。音楽は「music」という名前だと言いました。「music」と名付けましょう。ジュエリーは「bijou」と言いました。「bijou」と名付けましょう。
そして私のページを開きます。「ヴァザルリのジュエリー」。小さな音楽を入れて…「このジュエリーは、ヴァザルリの光学芸術にインスパイアされた、光と錯覚への賛歌です。その幾何学的な形と遠近法のゲームを通じて、瞬間の儚い美しさを反映する瞑想的な観照へと誘います。」
[拍手]
[音楽]
[拍手]
ご覧の通り、これらのシステムを適切に使い、少し話しかけ方を知り、どのように連携させるかを知っていれば、今日でも迅速に結果を出すことができます。
背後にはある程度のスキルがありますが、ご覧の通り、舞台上で数分でこれを実現できました。
最後のステップがありましたが、12時33分…12時33分なので少しタイトですね。最後のステップは面白いものだったので、時間があれば最後にお見せしたいと思います。
ビジネスイベントですので、カスタマーエクスペリエンスを少し追加しようと考えていました。最後に、AIの販売員から電話がかかってきて、このジュエリーを売り込むデモをお見せしたかったのです。
これも数回のクリックで実現できます。もし興味があれば、デモの最後をお見せするために舞台に残ってほしいとお願いするかもしれません。
さて、プロンプトエンジニアリングについては、最後のサイン会で本をご用意していますので、ご興味のある方はお気軽にお越しください。
プロンプトエンジニアリングは現在必要不可欠なスキルです。これらのAIシステムを適切に使用し、お見せしたような完成度の高い結果を得るために必要です。
このスキルは、私の意見では、この10年間は必要でしょう。その後には、もちろん人工知能の他の多くの革命が待ち受けており、それらは急速に進んでいます。
現在を見てきましたが、私のデモはすべて現在のものです。これからは少し未来についてお話しし、今後数ヶ月、数年、あるいはそれ以上の期間に何を期待すべきかについて見通しをお話ししたいと思います。
非常に短期的には、今後数ヶ月の大きな新機能の一つはマルチモダリティです。先ほどご覧いただいたように、私は多くのAIシステムを連携させました。
テキスト用のChatGPT、画像用のMidjourney、音楽用のSunoなど。マルチモダリティのアイデアは、「すべてを支配する一つの指輪」のように、すべてを生成する一つのシステムを持つことです。
あらゆる種類のデータを理解し生成できる単一のシステムです。最近登場したGoogleのGeminiは、その種の本当のマルチモダルシステムの最初のものです。
特に動画で訓練され、画像や音声なども理解します。ChatGPTもPro版では行っていますが、異なるモデルを連携させているだけで、単一のモデルとして訓練されているわけではありません。
ChatGPT-5は完全にマルチモダルになり、Excelデータなどあらゆる種類のデータを理解します。実際、これは既に現実となっています。マルチモダリティは急速に進展しており、これはさらに知能のレベルを高めることになります。
第二の大きな進展は、もちろんロボット工学です。私たちが抱えていたロボット工学の問題は、機械的な問題ではありませんでした。
Boston Dynamicsの動画をご覧になったことがあれば、機械的にはかなり完成されたものができていることをご存知でしょう。ロボット工学の問題は、そして今でも問題なのは、知能の問題です。
自動運転車は大変でした。なぜなら、環境を認識するために50個の異なるセンサーが必要だったからです。人間は運転する時、頭にレーザーを発射するLiDARのようなものは必要ありません。
そこで現在、すべての自動運転車メーカーは、複雑なセンサーを取り除いています。センサーの統合の問題を引き起こしていた複雑なセンサーをすべて取り除き、人間の目よりも劣質な2つの小さなカメラだけを置き、その代わりに多くの人工知能を置いています。
背後にはFoundationモデルがあり、環境を完璧に理解できます。追加のセンサーは必要ありません。そのため、ロボット工学は飛躍的に発展しており、AIのディスラプションがロボット工学のディスラプションを引き起こすことが予想されます。
3月は本当に驚くべき月でした。私たちの歴史に記憶される月になると思います。ロボット工学に関して、ロボット工学を行うほぼすべての大手企業から、非常に重要な進展の発表がありました。
NVIDIAはロボット工学専用のFoundationモデルをリリースし、どのようなロボットでも環境を認識・理解し、ほぼあらゆる種類の行動を適用できるようになりました。
つまり、あらゆる種類のロボットのための一般的なモデルです。これはNVIDIAのGROOTプロジェクトと呼ばれています。
ChatGPTを作ったスタートアップのOpenAIは、ロボット工学を行うFigureというスタートアップと提携し、Figure 01の最初のデモを公開しました。
時間があれば動画をお見せしますが、なければYouTubeでご覧ください。このロボットは、私たちが持つすべての意図を完璧に理解し、多くの物体を非常に繊細に操作し、日常的なタスクを実行することができます。
もちろん、テスラのイーロン・マスクとOptimus、その他すべての企業が自社のロボットを発表しています。この10年がパーソナルロボットの到来の10年になることを期待する必要があります。
知能の問題の多くが解決されつつあるからです。問題はあるでしょう。来年のための革命ではありませんが、今から始まり、例えばおもちゃから始まります。
既にそうなっています。家事をするロボットほど複雑ではありませんが、多くの知能を持ち、多くのことができる拡張されたおもちゃのような製品が登場し始めています。
このロボット工学の革命はAIの革命のおかげで非常に強く現れ始めています。私の考えでは、これから来るものの中で最も根本的な第三の要素は、現在のAIシステムは、データを理解し生成することができ、それにおいて非常に優れているということです。
マルチモダルになれば、それは絶対的に優れたものになります。しかし、人間の知能の非常に重要な能力の一つが欠けています。
もし本当の意味での人工知能、つまり人間ができることのほとんどすべてができる人工知能を持ちたいと思うなら、この能力は絶対に必要です。
現在のシステムでは、タスクごとに適切な行動を行う人間が機械の中にいなければ、あまり進展しません。これらは人間を支援し、拡張するツールです。
もちろん、人間の知能に特別なものは何もありません。魔法のようなものは何もありません。したがって、人間と同じくらい知的な、そしてもちろんそれ以上に知的な機械を持つことになるでしょう。
これも良いニュースですが、もちろん巨大なリスクもあります。それについても話すことができます。いずれにせよ、現在の大きな問題は、今日私たちが持っているシステム、つまりある種のデータを学習し、それを模倣する優れたオウムのようなものから、どのように移行するかということです。
これは非常に知的なオウムですが、一種のオウムです。そこから、より自律的で、人間ができることをすべてできるような人工知能へと移行する方法です。
これは「AIシステムのエージェンシー」という問題と呼ばれています。エージェンシーというキーワードは、今後数年間、そしておそらく20年以上にわたって、政治的、技術的、道徳的に私たちの文明を揺るがすことになるでしょう。
おそらく私たちの文明が直面する最大の問題になると思います。エージェントのアイデアは、もちろん、あらゆる種類のデータを生成し理解できるAIに、さらに2つの要素を加えたものです。
一つ目は堅固な世界モデルです。現在のAIは言語を通じてのみ世界を知っています。言わば表面的な理解です。
あなたがリヨンからパリへの行き方を考える時、世界モデル全体を動員する必要があります。これは非常に自然に行われます。人間の新皮質は、他のほとんどの動物よりもはるかに発達しているからです。
これは生物学的に私たちを特徴づけるものの一つです。投影し計画を立てる能力に特化したニューロンを持つ非常に発達した新皮質を持っています。
世界モデルを操作することができ、「椅子から立ち上がって、家を出て、雨が降っているなら傘を持って、駅まで行って、電車に乗って…」というように考えることができます。
このような一連の非常に結果の大きい行動を、世界モデルのおかげで計画し、投影することができます。
これが一つ目の要素で、これは現在の研究のテーマです。AIシステムに学習を通じて、私たちと同じくらい完全で堅固な世界モデルを浮かび上がらせる方法です。
これはもはや神秘的な問題ではありません。研究プログラムがあり、そう遠くない将来に達成されることが分かっています。
日付は言えません。2年と言う人もいれば10年と言う人もいますが、この10年の間にこれらのことが起こることはほぼ確実です。
この分野で誰かをフォローしたいなら、FacebookのAI科学研究ディレクターのヤン・ルカンをフォローしてください。もともとフランスの研究者で、AIシステムに世界モデルを学習させることについて非常に興味深い研究をしています。
特に動画を通じて学習させることで、重力や因果関係、物体同士がどのように相互作用するかなどを学習できます。
どのように進めるか分かっていますが、時間はかかるでしょう。二つ目の要素は、これはあまり時間がかかりませんが、これらのシステムに人間がツールを使うようにツールを使う能力を与えることです。
人間は計算が苦手だから電卓を使います。これらのシステムは、すべてのデジタル機能を内部に持つシステムになるのではありません。
これらはますますパーソナルアシスタントになっていき、インターネットを通じてすべてのデジタルサービスを使用する可能性を与え、そしてIoTのおかげでますますすべての物体を使用し、それらと連携して世界に対してアクションを起こすことができるようになります。
データを生成するだけでなく、アクションを起こすと言います。データを理解し生成できるモデルがあり、複雑で完全なプロセスを実現するために複雑な一連のアクションを計画できる堅固な世界モデルがあり、世界に対してアクションを起こせる場合、それがエージェントです。
エージェントは多かれ少なかれ汎用人工知能です。私はadept.aiというスタートアップのベータテスターをしています。彼らは現在、これを実現するために数億ドルを調達しています。
彼らのエージェントをテストしていますが、まだ完璧ではありません。できることの例を挙げると、「4月に彼女と太陽の下で休暇を過ごしたい。3つの提案を作って」と言うと、システムはまず、私の許可があれば、WhatsAppをチェックして、好みの休暇先について彼女との会話があるかどうかを確認します。
次に、許可があれば、私の銀行口座をチェックして、予算と手段を確認します。そしてSkyscanner、Airbnb、すべての旅行比較サイトや宿泊施設に接続し、一般的な観光客では見つけられないような珍しい観光スポットを見つけるために、少し知られていないブログも探します。
3つのシナリオを美しいプレゼンテーションにまとめ、説明し、その価値を主張します。そして「シナリオ2が良い」と言うと、許可があれば支払いを処理し、すべてを購入し、もはやコンピュータではない（すべてのインターフェースが大きく変わるでしょう）未来のデバイス、つまり知的なアシスタントに、私の旅行の素敵なチケットを入れてくれます。
これは一般向けのケースで、私たちは皆、このように生活を容易にしてくれる知的なアシスタントを持てることを喜ぶでしょう。
しかし、仕事の世界にとっては根本的な問題を提起することになります。今日、人間が一人でコンピュータの前でできることはすべて、この10年の間にAIシステムの方がよりうまくできるようになるでしょう。
私たちは30年かけて、人々を個人用コンピュータ、PCの前に置くようにしてきました。なぜでしょう？それは測定が簡単だからです。パフォーマンスを測定し、個人のパフォーマンスを測定します。
したがって、学校ではパフォーマンスを学び、個人のパフォーマンスを学び、コンピュータの前にいるのに完璧に適応した技術者の世界を作り出しています。
私たちは本当の社会の進化を経験することになるでしょう。今日知っているような仕事が全く同じではない、ポスト資本主義を発明する可能性が高いです。
私たちの仕事はパフォーマンスの概念に基づいていますが、AIシステムは私たちよりパフォーマンスが高くなります。私たちは生物学的な存在です。
私たちを定義するのは、パフォーマンスの無限性ではなく、限界です。限界を持つことができ、できないことができることが人間の価値です。
もちろん今日、産業システムの中では、パフォーマンスと仕事での生産性が期待されています。しかし明日は、生産性はますますAIシステムによって担われることになり、仕事における人間の価値は、私の意見では2つの次面になるでしょう。
もちろん関係性の次元です。AIはロボットの中で人間をシミュレートできても、それがAIだと分かっている限り、同じ共感は発展しません。私たちの周りに同じような存在がいることを望みます。
関係性はパフォーマンスに依存するのではなく、親密さに依存します。二つ目の要素は真正性です。これは全く同じ話です。
陶芸家の花瓶の小さな欠点が、その後ろに職人がいて、時間をかけ、注意を払い、愛情を込めたことを示し、それが完璧なパフォーマンスであっても決して壊れない工業製の花瓶よりも価値があるのです。
ご存知の日本の芸術、名前を忘れましたが、割れた花瓶を金で修復するものがありますよね。私にとって、これこそが明日の人間の価値です。
人間の脆弱性、もろさを示し、それによって人間同士が互いにつながることを可能にするものです。生産性は、私たちよりも生産的な機械に任せましょう。
これは働かなくなるという意味ではありません。退屈になるという意味でもありません。他にもたくさんの活動があります。
ギリシャ人は奴隷を持っていました。生産的に働くことは下賤なことでした。彼らは人間の3つのパイ、哲学、政治、詩的なものに興味を持っていました。
私たちはこれらの次元を仕事において完全に萎縮させてしまいました。おそらく、これらを再投資する機会が訪れるでしょう。
おそらく明日の仕事は、これら3つの次元を中心に据え、関係性を中心に据え、人間の真正性、適切な行為を中心に据えることになるでしょう。
これが来る世界なのかどうか分かりません。しかし、これは私が人工知能について語りたい世界です。
倫理的な課題はたくさんあります。時間が来てしまいましたので、サイン会の時にお話しできればと思います。
人間の位置づけは、トランスヒューマンではなく、ハイパーヒューマン、今日よりもさらに人間的なものになります。これこそが人工知能が私に感受性を与えてくれたところです。
パフォーマンスの基準が、長期的に賭けるべき基準ではないことに気付かせてくれました。
ありがとうございました。繰り返しになりますが、意見交換をご希望の方は、ジャン=ポールと一緒にあちらに座っていますので、お気軽にお立ち寄りください。