
14,280 文字

皆さんご存知のように、人工知能(AI)の開発競争が進行中であり、人間が行えるすべてのタスクを基本的にこなせるAIモデルが開発されようとしています。この競争に参加している企業といえば、OpenAI、Anthropic、Meta、そしてもちろんGoogle。ですが、ここで見逃している重要な点があります。Googleは検索からメールまでさまざまなサービスを提供する商業企業で、強力なAIモデルを皆さんに届けるための競争に参加しています。しかし、Googleがこれほど多くのことに忙しいなか、誰がモデルを作っているのか、誰が研究をしているのか?
ここで話が面白くなります。Googleは2014年に、デミス・ハサビス、シェーン・レッグ、ムスタファ・スレイマンによって設立されたDeep Mindという会社を買収しました。そう、現在マイクロソフトAIのCEOになったムスタファ・スレイマンです。ディープマインドはGoogleのAI部門ですが、実はほとんどの人々はGoogle DeepMindについて多くを知りません。その仕組み、オフィスの様子、彼らが実際に取り組んでいるプロジェクト、リーダーシップの在り方など、秘密めいた会社なのです。
しかし私はアクセスを得ました。実際、Google DeepMindはロイヤル・ソサエティと共同でAIサイエンスフォーラムを開催していました。これは学際的な性質を持つサイエンスフォーラムで、AIについて少し、医学について少し、数学について少し、そしてソフトウェア全般、人々、さらにはゲーム開発についても理解が必要でした。そこには4人のノーベル賞受賞者と多くの優秀な人々がいましたが、クリエイターはわずか2人だけでした。私とフェラシャです。
AIサイエンスフォーラムで行われたすべてに立ち会い、常に会話について行こうと努力しただけでなく、ディープマインドの内部を見ることもできました。さらに、私はロンドン滞在の最後に、プシュミット・コイラ研究担当副社長とのポッドキャストで締めくくり、ディープマインドの謎を解き明かしました。
私はこの会社の内部の様子をお見せするためにここにいます。モデルを作るのではなく、それを微調整し、ユーザーが使用したり、見たり、プレイしたりできる有用なものを作る者として、このようなアクセスを得ることは、個人的には数年先に何が来るのかを知ることができるという意味を持ちます。もちろん、私がこういったことを言うと、多くの人がコメント欄で非難するでしょう。数年前にDall-Eのプレビューアクセスを得たときに「AIがデザインを解決するだろう」と言ったときのように。しかし、好奇心を持ち、これらのモデルの上に構築したい人、応用AIで働きたい人にとって、このビデオは非常に役立つでしょう。
世界で最も優秀な人々がどのように考え、どのように働き、彼らの野望は何か、彼らが何を読むのか、すべてが非常に有益です。彼らは普通の人々のようには世界を考えていません。
AIサイエンスフォーラムから始めましょう。前夜は歓迎ディナーでした。残念ながら写真撮影は禁止されていましたが、多くの大学の学部長、研究者、そしてメディアがいました。ガーディアン紙、ザ・サン紙、そして多くの権威ある出版物の記者たちがいました。前述のように、クリエイターはわずか2人だけでした。Dr. デレク・ヴェリタシムと私です。
「なぜクリエイターやメディアがサイエンスフォーラムにいるのか?」と思うかもしれませんが、その答えは非常に単純です。研究と進歩は、これらの研究者とメディアが協力して情報を広めなければ、小さな部屋の中に留まってしまうのです。素晴らしい研究が行われていても、世界はおそらくそれを知らないのです。例えば、AlphaFold 3が現在オープンソースになったことをご存知でしたか?今、あなたはそれを知りましたね。それがメディアとクリエイターをそこに招く価値です。
私たちは新しい技術や科学の発展が多くの人々に届くよう手助けすることができます。私の視聴者は現在グローバルで40%を占め、ショートフォームコンテンツのプラットフォーム全体で1億回の視聴に達しています。GoogleやMetaのような企業が私を招くのは、私たちがここで集めている非常に特定のタイプのスマートな視聴者層があるからです。つまりアーリーアダプターたちです。そうです、大企業はあなた、この動画を見ている視聴者がスマートだと考えているのです。もしまだ登録していなければ、購読ボタンを押すべきでしょう。
とにかく、素晴らしいディナーでした。そこでロイヤル・ソサエティの秘密をいくつか知りました。ロイヤル・ソサエティは著名な科学者たちの協会で、財宝や奇妙な鍵、多くの絵画などがあります。誰かが私に絵を見せて「これは実際にアイザック・ニュートンの肖像画です」と言いました。私はこれを確認することができませんでしたが、本当のようです。
翌日、フォーラムが始まり、すべてのパネルを聞くことができました。AIについての多くの話題があり、また材料科学のような私があまり理解できなかったことについても多くの話がありました。また、メタン生成に関わる特定の微生物を標的とすることで、微生物叢の遺伝子を編集した新しいタイプの牛を作っていることも知りました。これらの科学者たちは、メタンの排出が大幅に少ない牛を作ることを目指しており、農業における温室効果ガスの主要な発生源に実際に取り組んでいます。
これは私がここで気づいた興味深い点につながります。これらの人々は誰も一つの特定の領域に固執していないという観察です。牛の問題は、遺伝学、微生物学、環境科学の交差点にあるのです。私がこのロンドン旅行全体と、これらの素晴らしい人々との出会いから得た大きな学びは、このような極端な成功のほとんどが「ポリマス(博学者)」であることから来ているということです。
ポリマスとは、多くの異なる分野にわたる幅広い知識を持つ人のことです。実際、あることに本当に優れていると、あなたは何かを学ぶために必要なスキルを学んでいることがわかります。何かにとても優れるようになると、そのこと自体だけでなく、何かを学ぶ方法のスキルも身につけているのです。そして、その学習スキルを他の領域に適用することができます。
例えば私の場合、コンテンツ制作ができると思います。10年以上ソフトウェア開発をしてきましたし、応用AIでも良いものを多く作ってきました。ゲーム開発もできます。過去に3Dと2Dの両方でたくさんのデモを作りました。個人的には、ソフトウェア全般なら何でも習得できると思います。しかし多くの人は「すべてのことはできない、一つのことだけをするべきだ」と言います。私はこの考え方に悩まされる傾向があります。なぜなら、私は取り組んでいる問題設定が何であれ楽しんでいるからです。もし私をTwitterでフォローしていれば、私がさまざまなことを試して理解し、上達するために数ヶ月費やしているのを見ることができるでしょう。
このイベントにいる人々は、同じようですが、ステロイド剤を投与したようにさらに強力です。彼らは皆40代から50代ですが、その頭の中には多次元の宇宙があります。「それは私の専門分野ではないから理解したくない」と言う人は一人もいませんでした。その代わりに、彼らは質問します。「それはどういう意味ですか?これに似ていますか?私はこう考えるのですが、正しいですか?どこが間違っているか教えてください」と。
これらの人々のほとんどは、人々やコンピュータとの協力など、領域を超えて多くの繰り返しパターンがあることを理解しています。建物を建てるにしても研究をするにしても、最終的には両方とも人々と協力しています。多くの繰り返しパターンがあり、これらの人々のほとんどは今日、すべての領域でもちろんコンピュータを使用しています。遺伝学者たちはコンピュータで驚くほど多くの作業をしていますから、新しい技術やソフトウェアに適応して使用するのが上手であればあるほど、より優れた遺伝学者になるのです。
私が大学で勉強したこと以外に遺伝学について何かを知っている唯一の理由は、好奇心のためです。私は2017年に自分の全ゲノムを調べ、Prometheusというオンラインツールを使って自分のゲノムについてもっと情報を得ました。特に目的はなく、何かのテストに合格するためというわけでもなく、ただ自分のゲノムについて本当に好奇心があったのです。
これらの人々全員に共通することは、彼らが生活、世界、他の産業や領域について非常に好奇心が強いということです。実は、一つのことだけに非常に優れていて、他のことについては何も好奇心がない人という考えに対する信頼を失いつつあります。私たちは一生、専門家のこと、つまり一つの特定のことに非常に優れていて、他のことについては何も知らない、または他のことについての関連情報を持っていない人について聞きます。
私はそれはテレビレベルの人々の理解だと思います。テレビでは専門家がいて、宇宙と科学について話す宇宙物理学の専門家や、経済について話す経済学の専門家がテレビに出演します。若い頃、私はそれが成功の頂点だと思っていました。しかし今、年を取り、非常に成功した人々と一緒に過ごす機会を得て、ただの50ラクや1CRではなく、それよりもずっと大きな成功を収めた人々と、彼らは皆ポリマスであることに気づきました。彼らは皆、本当に好奇心が強いのです。それが彼らがポリマスである理由です。彼らは好奇心旺盛で、商業的な目標がなくてもそうなのです。フォーラムにいたほとんど全員がそうでした。
例を挙げましょう。ディープマインドの創設者であるデミス・ハサビスは、競争チェスプレイヤーとしてスタートしました。そしてゲームデザインを行い、テーマパークゲームを作りました。彼は「イービル・ジーニアス」というゲームのエグゼクティブデザイナーでした。そしてそれをやめて神経科学を学び、エピソード記憶とシーンにおける記憶再生に関する論文を書きました。その後ディープマインドを設立し、アタリゲームをプレイするAIを作りました。そして医学と生命科学におけるタンパク質折りたたみを解決しました。これは信じられないことです。彼らにとっては、分野は重要ではないのです。それはとても刺激的です。
実際、そこにいるだけで私は何らかの方法で変わりました。それは人生は短く、私たちは皆一時的にここにいるだけで、あなたが好奇心を持っているか興味を持っているすべてのことをしても良いことを思い出させてくれました。それはあなたが最も興奮する場所だからというだけでなく、不思議なことに、それはあなたがお金を稼ぐことができる場所でもあり、他の人々があなたと一緒に働くように引き付ける場所でもあります。なぜなら、その情熱は本物で真実であり、あなたの好奇心によって駆り立てられるからです。
25歳の頃、私は「情熱は無意味だ、必要なのは規律だ」などと言っていました。私は間違っていました。最後まで情熱なのです。たとえその情熱が他の人々には意味をなさなくても。
もう一つ気づいたことは、ディープマインドは基本的な科学リテラシーを持つ人々に物事を説明するために多くの努力をしているということです。彼らは非常に複雑な方法ですべてを説明することもできましたが、彼らはプロジェクトを説明するために完全なデモを作りました。例えば、ヒトコネクトームやAlphaFoldについては、使用できる非常に単純なデモがあります。彼らは大衆にそれを伝えるために最善を尽くしています。
これは、テックTwitterの一部の人々が行っていることとは反対です。そこでは物事をできるだけ暗号的にしようとし、物事を単純にしないことでゲートキーピングをしています。彼らは複雑さを楽しんでいます。なぜなら、それが彼らにステータスを与えるからです。しかしディープマインドの人々は非常に異なります。彼らは実際に科学が大衆に届くことを望んでおり、物事をシンプルに保とうとしています。
さて、良い部分です。翌日、私たちはディープマインドの本社に行きました。まず、ディープマインドに入るには、機密保持契約に署名する必要があります。そのため、実際に見たことや学んだことの一部しか明かすことができませんが、できる限り試みます。
時々、インドのGoogleの上級社員は冗談を言います。「なぜあなたは彼らよりもGoogleをたくさん見たのか」と。しかしディープマインドは本当に秘密めいています。ディープマインドがある特定の通りには、他のテクノロジー企業もあります。すぐ近くにMetaもあります。
とにかく、最初に入り、バッジを受け取りました。ディープマインドの入り口には素晴らしいアートインスタレーションがあり、無限の空間を見ているようです。とても素敵です。そしてすべての部屋には有名な科学者の名前が付いています。
8階から始め、一般的な作業セットアップを見ました。その一部を記録することは許可されていませんでしたが、一般的には、生命科学からロボット工学まで様々な分野で働いている非常に優秀な人々の集まりです。簡単に言うと、私が本当に気に入り、興味を持った4つのプロジェクトをお伝えします。
1つ目はAlpha Proof(アルファプルーフ)で、国際数学オリンピックを解決しています。プシュミットが後のビデオで言っていたように、それはOpenAI’s o1のように推論をしますが、形式言語である「lean」を使用して推論するため、幻覚が少なくなります。それはコードで考えることを可能にするようなものです。
2つ目はご存知のようにAlphaFold(アルファフォールド)で、タンパク質の折りたたみを解決します。何十年もの間、科学者たちはタンパク質がどのように折りたたまれるかを解明しようとしてきました。なぜなら、この折りたたみを理解することで、より良い薬の設計や突然変異の診断など、素晴らしいことができるからです。アミノ酸と呼ばれるタンパク質の基本的な部品を見て、全体がどのように最終的な形に曲がったり回転したりするかを予測します。彼らは今、以前は何年もかかったか、あるいは解決できなかった問題を数週間で解決しています。PhD学生にとって非常に便利です。
次にディープマインドが取り組んでいるのはProject Astra(プロジェクト・アストラ)で、常にオンのAIアシスタントで、眼鏡に組み込まれています。世界を見るのを助け、あなたが見るすべてのものを助けることができます。例えば、水道の蛇口があって修理方法がわからない場合、「AIさん、この蛇口の修理を手伝ってください」と言えば対応してくれます。
そして最後に、私が本当に興奮していたのはもちろんViO(ビオ)、ビデオモデルです。私たちはAIとコンテンツに取り組んでいることを忘れないでください。私たちの製品Alpha CTRやAIアバターを思い出してください。これらは文字通り1億回のショートフォームの視聴をパワーアップしました。コンテンツのためのモデルの進歩は、私にとって早期ユーザーです。
そこにいる大きな利点の一つは、他の誰よりも先にこれらのモデルの早期アクセスバージョンを使用できることです。そのため、他の人々よりも速く実験を実行することができます。
ディープマインドのオフィスについての2つの素晴らしいことをお伝えします。まず、あらゆる種類の食べ物や飲み物がある素晴らしいカフェテリアがあります。しかし正直なところ、私は食べ物や飲み物にそれほど関心がありません。第二に、彼らには素晴らしい図書館があります。図書館は彼らがポリマスであることをどれだけ大切にしているかを示しており、神経科学から旅行、ゲーム開発における物理ベースのレンダリング、そしてJavaやHTMLに至るまで、さまざまな本があります。
実際、私はその図書館にあるトップ本についての完全なビデオを作ろうと思っています。そして私の人生の目標の一つは、それらすべての本をあらゆる分野にわたって自分の家に持ち、実際にそれらすべてを読むことです。実際、私はいくつかの本を読んだことがあることに驚きましたが、私の新しい人生の目標の一つは、いつか家に完璧なその図書館のレプリカを持つことです。
それだけでなく、オフィス全体にネイチャー誌のコピーがあります。図書館は非常に刺激的で、それ自体が完全なビデオに値すると思います。もし購読してくれれば、すべての本、あるいは少なくともトップ本について話す完全なビデオを作ります。ぜひそうしてください。
また、それはディープマインドの人々の野望を示しています。それは本当にお金ではありません。お金は副作用です。彼らは単に自分の好奇心に従い、それに非常に優れていることの副作用として、他の誰よりもはるかに多くのお金を稼いでいます。彼らのほとんどはすでに非常にリッチです。彼らにとっては、自分の好奇心を満たし、宇宙と私たちの位置についてもっと学ぶという終わりのない目標を追求する能力なのです。
しかし私はそこで止まりませんでした。私は外部から見ている人間であり、研究担当副社長と話して、すべてについて尋ねたいと思いました。ディープマインドはどのように機能するのか、どのように人々を雇用するのか、どのようなプロジェクトに取り組んでいるのか、そしてLLMが壁に当たったかどうか、そして最後に人工知能(AGI)への道筋はどのようなものかについてです。
AGIシステムはこれらすべての問題を解決することになっています。基本的には図書館全体を包含するものです。私があなたのために会話を分解する代わりに、実際に完全な会話をそのまま配置します。信じてください、見る価値があり、将来がどのようなものになるかについて多くのアイデアを与えてくれるでしょう。
皆さん、こちらはプシュミット・コイラ、ディープマインドの研究担当副社長です。彼もポリマスで、彼の仕事はカメラを使用したモーションキャプチャーから医学まで様々な分野にわたっています。
プシュミット、これをやってくれてありがとう。今日、ディープマインドのオフィスを見学しました。インドに座っているほとんどの人はディープマインドで何が起きているのか、あなた方がAIにおいてどれほど影響力があるのかを知らないと思います。これらの神秘的な廊下で何が起きているのですか?
それは任意の機関や組織のようなものです。私たちはそれを「インテリジェンス・ファクトリー」と呼んでいます。私たちは生の素材からの直感を抽出します。私たちの場合、その素材はデータです。このデータは科学者が実験を通じて慎重に収集したデータかもしれませんし、シミュレーションを通じて作成したデータかもしれません。しかし本質的には、私たち自身や私たちが住んでいる惑星についてのこの驚くべき量のデータを収集しています。
そしてそれをすべてどのように理解すればいいのでしょうか。データが非常に大きくなると、一人の人間の心では収集したすべてを理解することができないポイントに達します。そこで、機械学習やAIのようなテクニックが必要になります。それらはデータ内のこれらの隠れたパターンを抽出し、信じられないほど重要な量の予測を行うことができます。
実際、AlphaCodeについて質問したいと思います。あなたはAlphaCodeにも取り組んでいましたよね?チームはAlphaCodeに長い間取り組んできました。競争的プログラミングは長い間、人間の知能のマーカーでした。「これが私のLeetCodeのスコアです」というように。しかしAIはとても良くなってきていると思います。これらのさまざまなプラットフォーム全体で、多くのソフトウェアエンジニアが心配しています。「これが競争的コーディングで私よりも優れるようになったら、いつの時点で自分自身でソフトウェアを構築するようになるのか」について考えをお聞かせください。これは今後4、5年でどのように進化すると思いますか?
プログラミングの行為とは何でしょうか?問題解決だと思います。プログラミングのタスクは基本的に、問題の仕様を取り、それを翻訳することです。その仕様は時には非公式なものです。誰かが「これをするプログラムを書いてください」と言うことがあります。それは問題の非公式な仕様です。あるいは誰かが特定の例を提供するかもしれません。「このインプットに対して、プログラムはこのアウトプットを出力すべきです」というユーザーストーリーのように。
しかしこれらは不完全で非公式な仕様であり、あなたがやるべきことの一部に過ぎません。プログラミングの行為は、この非公式で不完全な仕様を取り、それを形式的なルールに変換することです。完全に定義された非常に形式的なルールです。
プログラマーの魔法は、単にその翻訳をするだけでなく、ギャップを埋めることにもあります。問題文を構成要素に分解し、多くの場合、問題自体が明示されていないからです。
もし私が「数字をソートするプログラムを書いてください」と言ったら、そのプログラムは有限のメモリを使用すべきで、無限の時間実行されるべきではないなど、多くの暗黙の要素があります。それは特定のコンピュータアーキテクチャ上で実行されるべきですが、私はそれを指定していません。しかしあなたはそれを理解しました。私が意味したことを理解したのです。
AlphaCodeが行うことは、仕様を取り、特に競技プログラミングで見られる問題を翻訳し、可能なプログラムの巨大な空間を検索して、コンテストで与えられた仕様と一致するものを見つけようとすることです。素晴らしい仕事をしています。
しかし、プログラミングの全体的な行為を考えると、それはより一般的なタスクです。そこではプログラムで明示的に示されていない仕様の部分、明示的に説明されていなかった仕様の部分についても考える必要があります。
今日のAIは文脈を埋めることも非常に得意です。プログラマーが問題空間を理解しているほど文脈を埋めることができないかもしれませんが、例えば食品配達のプログラムを書いている場合、私はその地域環境を知っていて、「ドライバーが5分間停止したら、それはおそらく問題になるだろう」などとわかります。AIはそれを埋めるのに十分な知識を持っていないかもしれませんが、一般的なことは埋めることができると思います。
今日、GeminiにABCの製品仕様を作ってくれと頼むと、かなり良い仕事をします。その出力は長く、文脈豊かです。しかし、その場合、プロンプトの行為がプログラミングの行為になると言えるでしょう。より高い次元の言語である英語でプログラミングしているようなものです。それが非公式な言語であり、正確な意味を完全に形式化して指定していないにもかかわらず、モデルがそれを理解できるということは、使い方を学ぶ必要がある何かです。
つまり、なくなるのは構文の知識だけであって、最高の翻訳者である必要はないということですが、問題をうまく定式化する能力は必要だということですね。
そうすると、この「プロンプトエンジニア」という言葉は実際のキャリアになるということですね。プロンプトエンジニアはプロンプトプログラミングのようなものです。しかし、私たちはそれをそのように見ていません。プログラミングは非常に正確なもの、プロンプティングは正確ではないものと考えているからです。しかし、ある意味では、最終的には同じです。正確なものが欲しいのです。英語を使おうとC++などの形式言語を使おうと、最終目標は同じです。正確に機能するものが欲しいのです。
これは私がこの質問に対して得た最も微妙な答えだと思います。ありがとうございます。
メディアの円卓会議でデミスに質問したのですが、あなたは多くの異なるタイプの問題に取り組んできました。ディープマインドが取り組む問題空間は広く、ゲームの世界やゲームシミュレーターなどで多くのことをしてきました。また、ロボット工学でも多くの進歩があり、「General World Models(一般世界モデル)」についての大量の話題がありました。これはマルチモーダルモデルをステロイド剤で強化したようなもので、言語だけを取り込んでトークンに分解し、次の単語を予測しようとするのではなく、すべてを取り込み、必要に応じて感覚データも取り込むというものです。
これがAIへの道筋になると思いますか?「AGIへのLLMからのオフランプが必要だ」とデミスは円卓会議で言っていましたが、それがAIへの道筋だと思いますか?あなたの意見を聞かせてください。
私たちには異なるタイプのものが必要です。デミスは神経科学者としての背景のおかげで、この質問に答える利点があります。私は単純なコンピュータサイエンティストなので、単純な答えを提供します。
私の理解では、私たちが物事を行う方法、私たちが知能タスクを解決しようとするとき、異なるタイプのプロセスが働いています。エピソード記憶が必要ですが、ワーキングメモリも必要です。LLMはすばらしいエピソード記憶を持っていることを示しました。彼らは多くのデータから学習し、驚くべき方法で一般化できます。しかし、構造化されたワーキングメモリを持っているか、長期的な推論を行うことができるかという要素があります。遅い思考と速い思考の両方が必要です。
これがいくつかの問題がある場所です。これらのモデルによって暗黙的に学習された構造が十分にあるのか、ミスをせずに長い時間推論することができるのでしょうか。私たちの信念は、LLMは長い道のりを行くが、実際に人間の心が今日できることをすべて達成するためには、さらなる進歩が必要だということです。
何か見込みのある候補はありますか?何か興奮させるような新しい道筋は?
例としてAlpha Proofモデルを考えてみましょう。Alpha Proofは私たちが今年発表したシステムで、国際数学オリンピードからの数学の問題に取り組みました。あなたがこれらの問題を見たかどうかわかりませんが、私は見て完全に仰天しました。それらは信じられないほど難しい問題で、挑戦的な問題です。フィールズ賞受賞者でさえ、より難しいものは困難だと感じるでしょう。簡単な問題ではなく、解決するには時間がかかります。
Alpha Proofが行うことは、Alpha Goが行ったのと同様の方法で、非常に大きな証明の空間で検索を行うことによって、これらの問題の証明を見つけようとすることです。可能な証明について推測を行い、それらを探索しようとします。
Alpha Proofはさらに一歩進んでいます。難しい問題が与えられたとき、その問題のバリエーションを解こうとします。数学者もそのように作業するように、一般的な数について証明するよう求められたら、最初に1つの数の場合や偶数だけの場合、または整数だけの場合に何が起こるかを見ようとします。すべてについて証明しようとする前に。
それはこれらのバリエーションを解決しようとし、そのプロセスで問題について何かを学び、それによって本当にこれらのタイプの問題についての驚くべき証明を明らかにできるようになります。
Alpha Proofのようなものは知能への道筋の良い候補だと思いますか?
確かに、推論能力という点で多くの利点があります。なぜなら、正しいステップがどうあるべきかについて推論するために大規模言語モデルを活用していますが、シンボリックな部分という形式的な要素もあり、それによってより慎重な方法で自分自身を接地して物事を探索することができます。
今日の他の新しいモデルで見られるような思考の連鎖推論の一部がありますが、時々私は思考の連鎖を開き、推論リストを開きます – 通常は他のモデルでは隠されていますが、それはナンセンスなことがあります。時には「そよ風が青い」、それから「テーブルがあり、テーブルの上に皿がある」などと言い、最終的には正しい答えに辿り着きますが、「どうやってここに到達したのか」と思います。
しかしAlpha Proofの場合、私たちは形式言語で作業しているので、最終的に得られる証明が正しいかどうかを確認できます。非公式な言語での思考の連鎖とは異なり、Alpha Proofの場合はリーンプログラミング言語という形式言語を使用しているので、それが正しいか間違っているかがわかります。
最終的には、コードによる思考の連鎖推論を行っているのですね。これは非常に賢いアイデアです。
他のことについて話したいのですが、これはディープマインドが生み出したもののうち、天才的な解決策だと思うパートの一つです。それはSynthIDです。正しく理解しているか確認させてください。
テキストを生成している場合、そのテキストに透かしを入れる方法を見つけました。例えば、文があり、5つの単語があり、6番目の単語が生成されようとしているとします。生成される単語の確率があります。生成される5番目の単語が「delve」だとして、「delve」の代わりに「dig」という単語を使うとします。そして、これを書かれたテキスト全体の多くの場所で行い、したがって今や単語の確率をわずかにシフトした署名を持っていて、それがどのように透かしを入れているのかです。これは正しい理解でしょうか?
はい、SynthIDは透かし入れのソリューションです。それは生成されたコンテンツにタグを付け、それを識別することを可能にします。それは非常に重要です。なぜなら、情報のエコシステム全体を見ると、その一部はAIによって生成されるでしょうから、何がAIによって生成されたものか、そうでないものかを理解したいからです。
SynthIDは異なるモダリティに透かしを入れるためにさまざまなメカニズムを活用しています。テキストに対しては、あなたが説明していたこのサンプリングメカニズムを使用しています。このサンプリングメカニズムは基本的にLLMのエントロピーを利用しています。スペースがほとんどないからです。
イメージ、ビデオ、オーディオの場合、これらは高次元の信号なので、どこかにピクセルを投げることができます。あなたや私には知覚できないような特定のバイアスを注入することができますが、それでもその信号を取り、何らかの方法で変換しても、それが生成された信号であることを検出することができます。変換後でもその署名を抽出できるからです。
たくさんの余地があると思います。悪意のある行為者のことを考えると、SynthIDで何かを生成して、AIの使用をやめて、パラフレージングボットのようなものを使うと、テキストの場合は単語の分布が変わってしまうので、テキストの場合は特に難しいです。
イメージ、ビデオ、オーディオの場合、私たちはずっと堅牢ですが、テキストの場合は比較的低次元の信号であり、そこに署名を注入する余地がほとんどありません。多すぎると、人々はそれが何であるかを正確に知り、意味を変えたり、非常に顕著な方法で変えたりするでしょう。
したがって、テキスト用のSynthIDは基本的にLLMの分布のエントロピーを利用しています。「フランスの首都は」と言うと、エントロピーはゼロです。答えは一つしかないからです:パリ。実際、この特定のステートメントに対しては何もできません。答えは一つだけです。
しかし、「私の好きな果物は」と言うと、それはマンゴーかもしれないし、パパイヤかもしれません。「delve」のような単語の方が簡単です。なぜならそれを多くの他の単語と置き換えることができ、多くの他の単語が互換性があるからです。それが私たちが署名を組み込むために利用するエントロピーです。
とても魅力的です。これを見たことがあるかどうかわかりませんが、見たことがないと思うので、お見せします。私はInstagramで短いフォームのコンテンツを作成していて、それは完全に合成されています。例えば、これです。これは完全に合成されたインターネットで、誰かがアップルの電源ボタンの問題を修正したばかりです。
ビデオでは唇が再縫合されています。アバターシステムを使用しています。音声は完全に合成され、私のように聞こえ、イントネーションがあり、良い音がします。
SynthIDはこれに適用できるでしょうか?私の最大の心配は、一部のプラットフォームでは、誰かの大量のデータや連続した3分間のクリップをアップロードするだけで、これらのモデルが必要とする音声サンプルは3秒や10秒なので、クローンを作るのはそれほど難しくないということです。
Twitterを見ると、有名人のように聞こえ、有名人のように見える人々がたくさんいるでしょう。そこにSynthIDを置くメカニズムはありますか?
絶対にあります。SynthIDでは、特定のユースケースとしてゼロビット透かし入れがあります。ゼロビット透かし入れでは、本質的にこれがAIによって生成されたものかそうでないかを言っています。
しかし、透かし入れの別のバージョンもあります。そこでは信号に情報を埋め込みたいと言っています。その信号を消費する人が、これが起源であること、これが実際にそれを開発した人であること、そしてこれが実際にそれを作ったモデルであることなどを理解できるようにします。消費者に見ているものについての情報に基づいた選択をするためのより多くの情報を提供します。
それはとても素晴らしいです。今、Googleで画像をクリックすると、将来的には何がAIによって生成されたものか、そうでないものかを非常に迅速に知ることができるかもしれません。インターネットはゆっくりとより多くのAIに移行しています。今、Googleで画像をクリックすると、そこにはとてもたくさんのAIによって生成された画像があります。それはインターネットを混雑させています。
とても素晴らしいです。多くのことを学びました。他にも500の質問をすることができますが、あなたがここにいるのは本当に興奮します。最後の質問があります。今日、ディープマインドの図書館に行きました。素晴らしかったです。図書館であなたのお気に入りの本は何ですか?
多くありますが、全ての分野にわたって、それはポリマスのキャンディーストアのようです。それは驚くべき場所です。多くありますが、チャールズ・ダーウィンは個人的なヒーローの一人です。「種の起源」が私のお気に入りでしょう。
ありがとうございます、プシュミット。これをやってくれて本当にありがとう。出発前にもう少しディープマインドを見ることができることを願っています。ありがとう。喜んで。


コメント