AI最前線 第186話 – AdobeのAIツール、テスラのサイバーキャブ、ノーベル賞

AIに仕事を奪われたい
この記事は約54分で読めます。

32,346 文字

Last Week in AI #186 - Adobe AI Tools, Tesla's Cybercab, Nobel Prizes
Our 186th episode with a summary and discussion of last week's big AI news! With hosts Andrey Kurenkov and guest host Jo...

AIの歌い手: 明るく彩られた0と1の世界で、Adobeの夢が飛翔する。テスラの未来が街を走り、サイバーキャットが明日を示す。空に形作られるAIの心、先見の明ある者たちにノーベル賞、驚きなし。技術が鼓舞する1週間の物語、AI最前線。
アンドレイ: ようこそ、AI最前線ポッドキャストへ。ここではAIの最新動向についてお話しします。いつものように、今回のエピソードでも先週の最も興味深いAIニュースをまとめてお話しします。また、lastweekin.aiでは、さらに多くの記事やニュース、そしてこのポッドキャストに関連するすべての情報へのリンクを掲載したメールマガジンを毎週配信しています。私は通常のホストの一人、アンドレイ・クレンコフです。スタンフォード大学でAIを学び、現在はスタートアップで働いています。ジェレミーは育児休暇中ですが、もう少しで戻ってきます。ゲストホストとして、再びジョン・クロンが参加してくれています。
ジョン: そやね、不定期やけど共同司会者として戻ってきました。アンドレイ、またお誘いいただいてありがとうございます。ジェレミーも元気やって聞いて安心しました。みんな健康で、赤ちゃんも母親も元気なんは素晴らしいですね。
アンドレイ: そうですね。ジェレミーの話では、比較的早く戻ってくるそうです。次のエピソードか、その次のエピソードにはジェレミーが戻ってくるはずです。常連のリスナーの皆さんも楽しみにしていると思います。
ジョン: せやな。このポッドキャストの共同司会は貴重な収入源やからな。1エピソードごとに100万ドル儲かるで。ジェレミーはそれを逃してるんや。でも、楽しさとニュースへの理解を得られるんは間違いないな。ニュースへの理解は確かに多く得られますね。
もし以前の私が出演したエピソードを聞いてない人のために、簡単に自己紹介させてもらいます。私はNebulaというAI企業の共同創業者兼チーフデータサイエンティストです。『Deep Learning Illustrated』というベストセラー本を書きました。世界で最も聴かれているデータサイエンスのポッドキャスト「Super Data Science」のホストもしています。アンドレイとジェレミーもそのポッドキャストにゲスト出演してくれました。前回も少し触れましたが、テレビ関連のプロジェクトが2つ進行中で、とてもワクワクしています。公に共有できる段階になったら、すぐにでもお知らせしたいです。
アンドレイ: すごく楽しみですね。私たちもかなり長い間、このポッドキャストで「Super Data Science」を宣伝してきたので、AI最前線のリスナーの多くが「Super Data Science」のファンになっていると思います。少なくとも1人はいるようですね。
ジョン: そうですね。2ヶ月ほど前にApple Podcastでレビューをもらいました。必ずしもあなたたちのポッドキャストのスポンサーシップに関連したものではありませんでしたが、このポッドキャストで私の話を聞いて、Super Data Scienceも好きになったと書いてくれました。Apple Podcastの更新の話をしている間に、私のポッドキャストのレビューも確認してみます。
アンドレイ: ニュースの本題に入る前に、新しい試みとして、簡単なニュースプレビューをしたいと思います。2時間近い長いエピソードになるので、これから取り上げる内容を事前にお知らせします。
ジョン: それはすごくいいアイデアですね。リスナーとして、そういうのを求めていました。AI最前線は私が聴いている唯一のポッドキャストなので、これは私のウィッシュリストにあったんです。楽しみですね。
アンドレイ: リスナーの声に耳を傾けるのは大事ですからね。今週は少し軽めのニュースになります。あまり重要なトピックはありませんでした。Adobeに関するニュースがたくさんあります。彼らはイベントを開催し、クリエイティブツールスイートに追加される多くの新ツールについて発表しました。テスラについてもかなり話すことになると思います。ビジネス面では、彼らは大きなAIロボットイベントを開催し、多くの面白いものを見せてくれました。まあ、それについては後で詳しく話しますが。
それから、いくつかの興味深いオープンソースプロジェクトについても、おそらくかなり大きなトピックになるでしょう。先週行われたノーベル賞の授賞式についても話します。AIに関してはかなりの数がありました。政策と安全性についても少し触れます。あまり多くはありませんが、おそらくEntropic社が投稿した内容についてかなり話すことになるでしょう。
以上が今週の概要です。特に大きなものはありませんが、確かに興味深いことがいくつか起こっています。安全性と政策に関する話題は、ジェレミーが戻ってくるまで保留にしたほうがいいかもしれませんね。そうすれば、一気にキャッチアップできますから。
ジョン: そうやな、せやな。
アンドレイ: さて、本題に入る前に、いつものようにリスナーからのコメントや訂正があれば紹介したいと思います。今週は特に目立ったものはありませんでしたが、代わりにApple Podcastsの話をしたいと思います。確認したところ、現在226件の評価があります。数ヶ月前は200件くらいだったと思うので、増えていますね。
ジョン: おお、すごいですね。
アンドレイ: はい、リスナーの皆さんがテキストでのレビューはなくても星評価だけつけてくれているようです。ありがとうございます。おそらくアルゴリズム的にも役立つんでしょうね。平均評価も0.1上がって、5つ星中4.7になりました。
ジョン: それは困りましたね。Super Data Scienceはまだ4.6なんで、私が1つ星をつけないといけませんな。
アンドレイ: まあ、もっとレビューが増えれば平均に近づくでしょうからね。
ジョン: そうそう、8月23日にD321Pさんっていう方が、Super Data Scienceのレビューに「AI最前線の熱心なリスナーで、あなたがゲストで出ているのを聞いて、あなたのエピソードも聴いてみました。聴いてよかったです」って書いてくれました。D321Pさん、ありがとうございます。名前が印象的ですね。
アンドレイ: 確かに印象に残る名前ですね。さあ、ニュースに入りましょう。
ツールとアプリから始めます。約束通り、大きなトピックはAdobeです。Adobe Max 2024クリエイティビティカンファレンスが開催され、いつものように新しいものについてたくさんのニュースがありました。その多くはAIに関するものでした。
大きなニュースは彼らのAIビデオモデルです。Fireflyという傘下で画像生成モデルをかなり長い間提供していましたが、今回はAIビデオモデルです。かなり長い間ベータ版として提供していました。おそらくウェブサイト形式で、プレビュー版を公開していたと思います。
今回、Premiere Proのベータ版で利用可能になりました。Premiere Proは動画編集用のプログラムで、この分野では主要な製品の一つです。最大2秒まで映像を延長したり、映像の途中で調整を加えたりすることができます。これは単なるツールの一つに過ぎません。
他にも、テキストから動画を生成する機能があります。これはウェブアップの限定公開ベータ版でのみ利用可能です。先週紹介したSoraやMovieGenのように、通常の方法で使用できます。5秒間のクリップを生成でき、HDほどの解像度ではありませんが、かなり良質な映像を作れます。
彼らが公開している例を見る限り、ほとんどの場合、明らかにAIだとは分からないレベルの映像です。また、画像から動画を生成する機能もあり、テキストプロンプトと一緒に参照画像を使用することで、より制御が可能です。例えば、左右にパンするようなカメラコントロールも可能だと言っています。
最後に注目すべき点として、他のFireflyツールと同様に、これは商業的に安全だと言っています。つまり、著作権のあるデータを使用して学習していないので、商業用の動画制作に使用しても問題ないはずです。
アンドレイ、Adobeのファンだと聞きましたが、これを使ったことはありますか?
アンドレイ: いいえ、まだ使ったことはありません。ポッドキャストの編集以外はあまりやっていないので、今のところジェネレーティブな拡張はあまり役に立ちません。特殊効果を追加するのには使えるかもしれませんね。彼らは特殊効果やオーバーレイの生成能力をデモンストレーションしていました。
Photoshopでは彼らのAIベースのツールを使ってみました。本当に素晴らしいものがたくさんあります。特にクロッピングに関しては、個々のオブジェクトをクロップする能力は全く違います。以前は時間のかかるプロセスで、オブジェクトの周りを全部手動で囲む必要がありました。今はAIがそれを自動でやってくれて、素晴らしいです。同様に、ノイズを減らすための画像の補完など、多くの素晴らしい機能が直接統合されています。
動画編集者やよりクリエイティブな動画を作る人々にとっては、Bロールやその他の用途で非常に役立つ可能性があります。
ジョン: そうですね、すごく面白そうです。このAIビデオモデルのデモ動画を見ましたが、もちろん彼らはAI生成に見えないものを厳選しているはずです。そうしないわけがありませんよね。しかし同時に、いくつかの機能は本当にクールです。
例えば、既存の動画クリップを使って、私たちの背後に炎を追加したり、Fireflyについて話しているので、周りに蛍を飛ばしたりできるんです。カメラアングルを変更する機能も面白いですね。他の生成ビデオツールではまだ見たことがないと思います。
アンドレイ: そうですね。MovieGenでも試せるかもしれません。彼らはより高度な動画編集をサポートしていますが、主にクリップの実際の内容を変更するためのものだと思います。カメラに関しては違うかもしれません。
これはAdobeならではのものかもしれません。実際にこの種のコンテンツを作成する人々が使用することを想定しているので、SoraやMovieGenとは異なる可能性があります。
次に進みましょう。Adobeに関連するニュースがいくつかあります。これらはより先行的な段階のものです。彼らは実験的なAIツールをいくつかプレビューしました。その一つがProject Scenicで、ユーザーの入力に基づいて3Dシーンを生成し、それを参照して2D画像を生成するものです。これはかなり興味深いと思います。
基本的には、家やテントなどのオブジェクトのセットがあり、シーンをレイアウトします。そしてそれを参照として使用し、典型的なAIモデルで2D画像を生成します。この非常に構造化された3Dシーンでプロセスを開始します。これは私が見たことのないもので、興味深いですね。
彼らはまた、Project Motionもプレビューしました。これは様々なスタイルのアニメーションつきグラフィックスを作成するためのものです。そしてProject Clean Machineは、カメラのフラッシュや人が画面に入ってくるなどの妨害要素を自動的に取り除く編集ツールです。彼らはこれらを「スニーク」と呼んでいます。開発中のプロジェクトですね。おそらくしばらくは統合されないでしょう。もしかしたら実現しないかもしれません。でも、AIの研究を追跡している私たちにとっては、これらのうちいくつかは非常に興味深いものです。必ずしも他のツールや研究で見られるものではありませんからね。
ジョン: 録画前に言っていたように、このポッドキャストのおかげでAdobeのイノベーションについてよく理解できています。ありがたいことです。なぜかOpenAIが何かをリリースすると誰もが知ることになりますし、Anthropicも同じような状況です。Adobeがこういった発表をしても、同じくらいの注目を集めているようには見えませんが、これらは大きな話題です。これらの機能の一つ一つが非常に有用に聞こえます。
Adobeがここで正しく理解しているのは、これらの機能が十分に機能すると仮定すると、Adobeの製品を使用する過程で他のツールに切り替えることなく、すべてが統合されているということです。私の見解では、これが生成AIの成功への鍵です。
アンドレイ: その通りです。確か前回のエピソードでMovieGenについて話したと思いますが、MovieGenはSoraと同様にクールですが、一方で、まだリリースされていないし、実際に使用するのは実用的ではないかもしれません。計算量や時間がかかりすぎるからです。これはSoraでも同じ問題でした。実際に使用するには時間がかかりすすぎます。
また、多くの人にとって大きな問題点を狙っているわけでもありません。テキストから動画を生成するのはクールですが、Bロール以外では必ずしも役立つとは限りません。彼らは動画の特定の側面を修正できる動画編集機能を主要な機能として持っています。これは確かにより実用的なもので、有用でしょう。
Project Motionのようなアニメーショングラフィックスを作成するものや、Project Clean Machineは、確かにセクシーではないかもしれませんが、おそらくそういったワークフローではもっと役立つでしょう。
最後のAdobeに関する話題は、Project Supersonicという別の実験的なプロトタイプです。これは動画プロジェクト用の音声効果を生成することを目的としています。テキストから音声、物体認識、音声模倣を使用して、背景音や音声効果を作成します。申し訳ありません、音声効果です。
これは他の企業、例えば11 labsでも見られるもので、音声効果は短いスニペット、例えばボールが地面に当たる音などです。動画をリアルにするために明らかに必要で、フルの音楽を生成するよりはるかに簡単です。
はい、これは確実にAdobeのCreative Suiteに追加されそうですね。現在はデモ段階ですが。
ジョン: あなたが説明したように、これがCreative Suiteの一部になるのは、再び、ワークフローの中で、生成AIが痛点に対処するというのは、ここでもう一度強調しておくべき重要なことです。痛点に対処しないなら、クール以外の何が大きな商業的成功につながるでしょうか。はい、Adobeには拍手を送りましょう。頑張ってください。
アンドレイ: さて、ライトニングラウンドに移ります。Adobeから離れますが、このようなツールの話は続きます。最初の話題はYouTubeがAI音声生成ツールを米国のすべてのクリエイターに拡大するというものです。2023年に初めて導入されたDreamTrackというツールがあります。これはユーザーがテキストプロンプトに基づいて短い楽器の音声クリップを生成できるようにするものです。基本的に30秒程度のロイヤリティフリーのサウンドトラックを作成します。
タイトルの通り、今回すべての米国クリエイターに公開されます。YouTubeでショートクリップを作成する多くの人々にとって、おそらく役立つでしょう。YouTubeにはTikTokやInstagramのリールに似たショート動画機能があります。ロイヤリティフリーの音楽があれば便利なことが多いでしょう。YouTubeが以前にテキストから動画を生成するツールをリリースしたのと非常に似ています。
ジョン: まるで同じ話を繰り返しているようですね。Adobeの話と全く同じです。これらはワークフローの中のツールで、人々にとって有用です。ショートクリップやクリップを簡単に生成できたり、楽器の音声を生成したり、そして今回のDreamTracksです。とてもクールですね。きっと成功するでしょう。すべてのクリエイターに提供するのは素晴らしいことです。
アンドレイ: その通りです。これらの話題を今取り上げるのは興味深いと思います。今年の初めにSoraが登場したばかりでしたよね。去年、テキストから動画の生成はまだ初期段階でした。Soraは当時、生成できる動画の質の高さで非常に驚くべきものでした。そして今、年末に近づいている今、これらのものが実際に展開され、商用化されているAIビデオツールを目にしています。これは、AIが開発され、様々な企業によってロールアウトされるスピードについて何かを物語っています。
ジョン: ここで重要な違いがあります。明確には書かれていませんが、YouTubeが米国のクリエイターに提供しているこれらのツールはすべて無料で使用できるという前提です。これはAdobeとの違いです。また、ここでの想定は、Alphabet(Googleの親会社)が下流でより多くの収益を得るだろうということです。より洗練された動画を作り、クリエイターが参加したくなり、使いたくなり、動画を公開したくなるような簡単なエコシステムを作ることで、私の記憶が正しければ、YouTubeは世界で2番目に訪問されるサイトとしての地位を維持できるでしょう。Googleに次いでですね。
アンドレイ: そうですね、YouTubeは巨大です。多くの人が思っている以上に時間を使っています。InstagramやTikTokなど、人々が時間を費やすと考えているプラットフォームよりも上です。私の印象では、YouTubeショートはそれらほど成功していないようです。そのため、Googleがこれを推進しているのも理由の一つかもしれません。
Googleと言えば、より多くのユーザーにツールを展開する話題で、似たような話があります。すべてのGeminiユーザーがImagine 3で画像を生成できるようになりました。Imagine 3はかなり前からありましたが、制限がありました。今回、Geminiで使用できるようになりました。
ChatGPTと同様に、Geminiでも「描く」「生成する」「作成する」などのプロンプトを使って画像を生成できます。興味深いことに、これらの生成された画像にはSynth IDウォーターマークが付いています。つまり、Geminiから来たものかどうかを検出しようとすると、実際にAIによって生成された画像として認証できます。
現在、これは無料ユーザーには提供されていません。Gemini Advanced、Business、Enterpriseを利用している人々に提供されています。
ジョン: 興味深いのは、あなたが自信を持ってImagineと発音した言葉です。私はいつも確信が持てません。Google I/O 2024を見れば、どう発音しているか分かるかもしれませんが。面白いのは、このポッドキャストを聞いている人が検索しようとすると、Imagineではなく、IMAGENと入力する必要があることです。clever な名前ですね。何かを作成し、想像しているからImagineで、同時に画像生成だからimageですね。
アンドレイ: そうですね、Imagineの方が意味が通りそうです。でも、ImagenほどスムーズではないかもしれませんAagene。
ちょっと修正させてください。人物を含む画像を生成する機能は、現在、無料ユーザーには提供されていません。もちろん、Geminiは画像生成を最初にロールアウトしたときに大きな失敗をしました。そのため、再導入しましたが、まだ支払いをしている人々に制限しています。
次に進みましょう。AIがより広く展開されるというテーマを続けます。次はMeta AIで、今日6つの国でさらに展開されます。その国々はブラジル、ボリビア、グアテマラ、フィリピン、そしてイギリスです。また、今後数週間でさらに多くの国々で展開する予定だと言っています。アルジェリア、エジプト、インドネシア、モロッコなどです。
もちろん、新しい言語のサポートも追加されます。これらのMeta AIツールは、Facebook、Instagram、WhatsApp、Messengerなど、彼らが導入してきたすべてのチャットボットなどです。規制上の懸念から、欧州連合には含まれません。Meta AIだけでなく、いくつかのものでこのような状況を見てきました。
ヨーロッパの人々、Meta AIを使えなくても、個人的にはそれほど動揺しないでしょう。私自身、これらのものを使ったことがなく、あまり恩恵を受けていません。いずれにせよ、Meta AIはより広く展開されています。
ジョン: 場所を変更してアクセスできるんじゃないですかね。簡単にできそうです。ほとんどの場合、WhatsAppでは電話番号を提供するので、その国コードがありますが、FacebookやInstagramでは、単に自分の国を変更すればこれらのツールにアクセスできるんじゃないでしょうか。もしそうでないなら、イギリスはよくやりましたね。ブレグジットで何かを得ましたね。経済は何年も苦しんできましたが、Meta AIを手に入れました。
アンドレイ: そうですね。規制をあまり厳しくしない能力、イギリスはブレグジットのおかげで新しいAI法を持っていませんから、確かにこのようなビジネスフレンドリーな結果につながっています。
最後の話題は、少し異なります。もはやAIが更に多くの人々に展開されるという話ではありません。AIにもっとオタクな人にとっては少し興味深い話題です。見出しは「OpenAIが秘密のメタプロンプトを公開、Anthropicのアプローチとは大きく異なる」です。
最初は、これはシステムプロンプトのことかもしれないと思えるかもしれません。Anthropicが最近公開したものです。彼らは、実際にClaudeに入力を与えるときに与えるものを示しました。Claudeがどう応答するかを指示する大量のテキストがあります。実際にそれが何であるかを私たちは知っています。
OpenAIの場合、システムプロンプトは知られていません。これはシステムプロンプトとは異なります。これはプロンプトを最適化できるツールで使用されるメタプロンプトです。つまり、プロンプトを改善する方法についてLLMに指示を与えます。
システムプロンプトではないにしても、記事はプロンプトのスタイルを比較するかなり詳細な内容になっています。これはかなり構造化されています。マークダウン形式を使用して、ガイドライン、ステップなどの様々なセクションがあります。
一方、Anthropicのものを見ると、システムプロンプトはもう少し物語的なスタイルで、多くの段落があります。システムプロンプトやプロンプトエンジニアリングについて考える人にとっては、再び興味深いものになっています。
ジョン: これは本当にクールですね。私の理解が正しければ、このメタプロンプトは01モデルファミリーに特化したものですか?そのようですね。そうだと思います。それは興味深いですね。
実際、メタプロンプトにはステップやそれがどのようにユーザーに開示されるべきかについての記述があるので、かなり確信を持っています。前回私がこのポッドキャストに出たとき、01について話しましたね。当時はまだ新しかったです。
実際、ここ数日、01を驚くほど効果的に使っています。常に驚かされます。こうしてフードの下を少し覗けるのはクールですね。OpenAIが少しオープンになっているのも良いことです。
もしAnthropicや他のプレイヤーがこの分野である種のオープネス競争を促すなら、それは素晴らしいことです。続けてほしいですね。
アンドレイ: その通りです。これらのプロンプトは彼らのドキュメントからのものです。Anthropicはブログ記事でシステムプロンプトを公開する際に多くの議論をしましたが、これはOpenAIプラットフォームの内部にあるもので、プロンプトエンジニアリングのガイドラインなども議論しています。
これはメタプロンプトの例に過ぎず、必ずしもOpenAIが実際に使用しているものではありませんが、おそらくこの種のプロンプトエンジニアリングを行っているのでしょう。
アプリケーションとビジネスに移りましょう。まずはテスラです。自動運転やロボットの大ファンである私にとって、先週テスラからかなり興味深い発表がありました。
彼らは「We Robot」イベントを開催しました。これは長い間予告され、スケジュールされていたものです。イーロン・マスクは長い間、テスラの主要な焦点となる自動運転タクシーサービスに関する多くの情報を公開すると言っていました。先週そのイベントが開催され、とてもクールなものがいくつかありました。
新しいサイバーキャブ車を披露しました。これは未来的な外観の車で、サイバートラックを通常のセダンに凝縮させたような感じです。2つのドアがあり、2つのシートがあります。ドアは普通のドアではなく、垂直に開きます。基本的に、たくさんのファンシーなSF的な要素があります。
この種の車は2026年頃、つまり2〜3年後に本格的な生産に入る予定です。2027年より前には確実に、と約束されています。これがタクシーサービスを展開する方法になるでしょう。
それに加えて、ロボバンも披露されました。なぜサイバーバンではないのかは不明ですが、いずれにしてもロボバンです。同様の発想ですが、非常に未来的で、2人ではなく20人の乗客を収容できます。
さらに、イベント全体を通して、多数のOptimus人型ロボットが展示されていました。飲み物を提供したり、人々と会話したりしていました。
これらのロボットが2万から3万ドルで利用可能になり、個人アシスタントなど様々なことができるようになるという多くの約束や予測がありました。
以上、このイベントでは多くのクールなものがありましたが、具体的な詳細はあまりありませんでした。新しいサイバーキャブのデモも線路の上で行われました。映画スタジオで行われたので、非常に安全なデモでした。Optimusロボットも遠隔操作されているようでした。自律的ではなく、人々がコントロールして人々と話していました。
実際、株価は8%ほど大幅に下落しました。投資家は、これがスタイルよりも中身が少ないのではないかと考えたようです。
ジョン: その通りです。ハリウッドのセットで行い、提示しているのが現実というより空想のように見えるとき、次の日の株価下落にうまくつながりますね。投資家の視点からすると、明らかに期待よりも実現が少なかったようです。
その一部は、自動運転の分野での大きな競合を考えると、Waymoがリーダーであることは間違いないと思います。WaymoにはAlphabetが300億ドルを投資し、レーダーやLIDARだけでなく、ビデオカメラと連携して機能する非常に詳細な3D環境マッピングを含む複雑なシステムを開発しています。
一方、テスラがここで提案しているのは、サイバーキャブ、そして後にはロボバン(なぜサイバーバンではないのかは不思議ですが)、サイバートラック、サイバーキャブ、ロボバン…とにかく、サイバーキャブは別のものになるかもしれません。サイバーバンは別のものになるかもしれません。
テスラが何年も前から試みているのは、「完全自動運転」と呼ばれるものです。これは現実というよりマーケティング用語です。実際には、スーパーデータサイエンスの810回目のエピソードで自動運転車の5つのレベルについて詳しく話しました。特に自動運転の5つの自律レベルについて話しています。
「完全自動運転」と呼ばれているものは、完全自動運転と説明されていますが、これは単なるマーケティング用語です。実際には完全自動運転ではありません。テスラ車の運転席の後ろに誰かが座っている必要があるからです。
テスラが直面している大きな障害の一つは、彼らのAIチームが真の完全自動運転、つまりマーケティング用の完全自動運転ではなく、ステアリングホイールもペダルも必要としない完全自動運転を、ビデオカメラだけで開発しようとしていることです。それは決して機能しない可能性があります。
彼らはここでサイバーキャブが2026年頃にローンチされると話しています。イーロン・マスクは「確実に2027年より前」と言っています。両方が真実であるのはどうしてでしょうか。2026年頃、確実に2027年より前…つまり、2026年か2027年頃ということですね。しかし、それは規制当局の承認次第です。
ビデオカメラだけを使用するのは非常に難しい方法かもしれません。ここでの賭けは、はるかに安価になるということです。Waymoのアプローチは、座り心地の良い美しいジャガー車を作り出しました。本当に豪華な体験で、LIDARやレーダー、詳細なマッピング、そしてビデオカメラのおかげで、走行は驚くほど素晴らしいです。
しかし、それらの車は非常に高価です。実際、現在Waymoに乗ると、人間が運転するよりも高コストになります。もちろん、時間とともにこれらのコストは下がっていくでしょう。規模の経済が働きます。
テスラがここで望んでいるのは、ビデオカメラだけで機能するようにすることで、それらすべてを飛び越えることです。そうすれば、サイバーキャブを30,000ドル以下で販売できます。一方、私の記憶では、Waymoのジャガーはその4倍ほどです。
さて、どうなるかを見てみましょう。確かに大きなリスクがありますが、大きな報酬もあるかもしれません。株主は今のところ、リスクと報酬のバランスが取れていないと賭けているようですね。
アンドレイ: その通りです。公平を期すために言えば、テスラはまだ他のすべての自動車メーカーを合わせた価値より高いと思います。これは普通の自動車会社ではありません。彼らの主要事業はテスラ車の販売ですが、株価は非常に楽観的な未来を反映しています。少なくとも自動運転タクシー事業の大きなシェアを獲得するか、人型ロボット市場の大きなシェアを獲得するといったことです。
これはすでに株価に織り込まれています。つまり、今後数年でこれらのことを実現できなければ、株価は大きく下落するでしょう。
あなたが言ったように、現在テスラのオーナーであれば、このFSD(完全自動運転)を持っています。まだベータ版だと思います。今年初めに取り上げたように、長い間FSDは本当に悪かったです。使うのが怖いくらいでした。
FSD 12と最新のイテレーションで、かなり良くなりました。彼らは完全にAIアプローチに移行し、ビデオと人々の運転から得た膨大なデータからの学習を使用しています。
現在FSDを使用すると、確かにずっと良くなっています。はるかに人間らしく、はるかに合理的です。しかし、テスラも用語を少し変更しました。今はそれを監督付きFSDと呼んでいます。テスラで持っているのはただのFSDではなく、監督付きFSDです。
彼らはこのプレゼンテーションで、2025年までにテキサス州とカリフォルニア州で完全に監督なしのFSDを彼らの車で開始すると約束しました。これはあまりセクシーではない詳細かもしれませんが、非常に重要な詳細です。
あなたが言ったように、監督なしのFSDを手に入れる必要があります。つまり、車に任せることができ、何をするか心配する必要がないということです。これは現在Waymoで実現していて、サンフランシスコでかなり長い間機能しています。LAでテストし、より多くの都市に拡大しようとしています。
テスラはまだそれを持っていません。2025年までに実際に提供できるかどうか、とても興味深いでしょう。
次の話題はそれほど刺激的ではありませんが、それでも注目に値します。私たちが取り上げてきたように、OpenAIは今年、様々なメディア組織と多くの契約を結んできました。
新しい契約を発表しました。Hearstというメディアコングロマリットと契約を結びました。Hearstはヒューストン・クロニクル、サンフランシスコ・クロニクル、エスカイア、コスモポリタン、エルなどの出版社を所有しています。
これは彼らが行ってきた多くの契約に加わるものです。これで、ChatGPTやSurgeGPTのような製品は、この提携の一環として20以上の雑誌ブランドと40以上の新聞からのコンテンツを表示します。
過去1年間で多くの契約を結んできました。以前も言ったように、必ずしも大きな話題には見えないかもしれませんが、これはPerplexityやClaudeのようなものとの大きな差別化要因になる可能性があります。これらのメディア組織を通じて最新のニュースにアクセスするために支払う必要がある場合、このような契約を結ぶ必要があります。
OpenAIは私たちが知る限り、このような契約を結んでいる主要なプレイヤーです。この最新の展開で、彼らはこれを続けているようです。これらのすべての契約が実を結ぶかどうか、興味深いですね。
ジョン: 録音時点で2日前、Peter Goldsteinという人物と夕食を共にしました。彼は一般的に生成AIについて公に話す人物で、非常に雄弁で高学歴の人です。彼はたまたまHearstの最高AIストラテジストでもあります。
この契約が発表されたばかりだったので、今すべての秘密を教えられるかと思いましたが…いいえ、彼は非常にプロフェッショナルでした。全く裏話は聞けませんでした。舞台裏の情報も、詳細も、ドラマも、全く何もありませんでした。彼は完璧なプロフェッショナルでした。
はい、興味深いですね。これは生成AIにおいて私たちが見ている傾向の一つです。当初、これらのLLMは何でもスクレイピングすることができました。誰もrobots.txtファイルをこの種のスクレイピングを防ぐように設定していませんでした。なぜなら、これはスクレイピングと知的財産の生成に対する全く新しいアプローチだったからです。
そして今、HearstやNew York Times、Springer Verlagなど、多くの大手出版社が目覚め始めました。特に大手テック企業に対して、彼らがどれだけの価値を提供できるかに気づき始めています。
同時に、これらの同じ大手テック企業が彼らの伝統的なビジネスモデルを脅かしています。なぜなら、生成AIツールは、例えばコスモポリタンやエスカイア、サンフランシスコ・クロニクルなどの記事にクリックスルーさせるようなGoogle検索結果を得る必要がなくなるからです。
サンフランシスコ・クロニクルが広告を掲載し、ビジネスを生み出すような記事にクリックスルーする代わりに、生成AIツールが単に答えを提供してしまいます。今日、生成AIツールは検索補強生成を行い、ウェブ上でリアルタイムに情報を引き出すような方法で動作することができます。そうする場合、実際にソースを提供することがあります。クリックするかもしれませんが、時間が経つにつれ、LLMがますますリアルタイムで更新され、モデルの重みがリアルタイムの情報に基づいて更新されるようになると予想しています。
例えば、Google検索を行う際、Geminiがリアルタイムであなたの質問に対する正確な回答をLLMから返すようになり、Google の提案をクリックして結果を見る必要がなくなるでしょう。
これは再び、歴史的に新聞や雑誌のビジネスモデルを蝕みます。もちろん、彼らはいつも広告を掲載していましたが、以前は家に届けてもらうために対価を払っていました。今はそれをする人はあまりいません。これはすでに彼らのビジネスモデルを大きく侵食しています。
そのため、彼らは今まで以上に広告、特にデジタル広告に依存するようになっています。そして今、生成AIがそのモデルを脅かしています。少なくとも彼らが行う高価値のコンテンツ作成を収益化できるのは良いことです。
なぜなら、オンラインで生成されたコンテンツだけから学習する生成AIモデルの世界に行き着くと、理想的ではないかもしれません。もちろん、それをうまく機能させる方法を見つけることはできるかもしれませんが。
つまり、OpenAIのような企業が高品質なコンテンツに対価を支払うのは理にかなっています。Hearstは、Googleの検索で広告をクリックする機会が減ることで失う可能性のある収益の一部を取り戻すことができます。
長期的には、これは出版社のビジネスモデルだけでなく、Googleのようなプラットフォームにとっても興味深い問題を提起します。彼ら自身のツール、例えばGemini検索に関する噂があります。GoogleのD-bindはChatGPTと同様の機能を持っていたが、Googleのコアビジネスモデルであるディスプレイ広告を侵食するため、リリースされなかったというものです。
クリックスルー広告、つまりデジタル属性付けですね。生成AIモデルが人々が今すぐに欲しい情報をそのまま提供する場合、主にテキスト表示で、おそらく横に何かディスプレイ広告をこっそり入れることはできるかもしれませんが、将来的には、これらのツールとの対話がますます音声とオーディオを通じて行われるようになります。
そこにどうやってスポンサーシップを挿入するのでしょうか。OK、ブーストされた結果のようなものがあるかもしれません。それは人々が行く一つの方法だと思います。しかし、いずれにせよGoogleのビジネスモデルが侵食されるように見えます。
数十年にわたる検索における絶対的な、事実上の独占的支配があります。それはすべてデジタル広告によって支払われてきました。ここに入ろうとしているかもしれません。
アンドレイ: はい、そこには多くのことがありますね。これは一般的に、そしてこれらのトレンドの一つで、特にセクシーではありません。主要な見出しにはならず、Twitterなどで大きなハイプを集めているトピックでもありません。
しかし、実際には、密かに非常に重要なことで、認識し、考える必要があります。なぜなら、これはインターネットの未来と検索の未来について語っているからです。
OpenAIのこれらすべの契約と比較して、Perplexity AIも似たようなことをしています。彼らには収益共有モデルがあります。出版社プログラムがあり、フォーチュン、タイム、アントレプレナーなどの企業も参加しています。
これは非常に的確です。あなたが言ったように、Perplexityは情報源を表示し、リンクを提供しますが、ほとんどの場合、おそらくそれらの情報源をクリックして行くことはないでしょう。単にAIが言うことを読むだけです。
したがって、実際にニュースを書いている人々のための新しいビジネスモデルが必要です。これがますますそのビジネスモデルになりつつあるようです。
それだけでなく、RedditやTwitterも、少なくともRedditは確実に、データをライセンス供与する契約を結んでいます。Googleだと思いますが。
これはインターネットの別の側面で、これらのプラットフォームで提供する任意のコンテンツがデータとして収益化される可能性があります。
これは少し乾燥した話題に見えるかもしれませんが、インターネット全体の発展と私たちの情報エコシステム全体について語る興味深い現実の一つです。
ジョン: あなたが話しているうちに思い出したことがあります。少し触れましたが、これは本当に重要だと思います。この種のビジネスモデルでは、あなたが言ったように、高品質なコンテンツを作成するジャーナリストに誰が支払うのかという問題があります。
そして、新聞や雑誌が、近い将来、収益の大部分を生成AI企業から得ることになった場合、生成AI企業についての報道にどのような影響を与えるでしょうか。
例えば、OpenAIやAnthropic、Cohereのようなプレイヤーが、避けられない巨大な存在となり、一般的な文化において本当に影響力を持つようになり、同時に、私たちが情報を得るすべての情報源の費用を支払っているとしたら、そこには倫理的なジレンマがあります。
偏りのない報道を得られるでしょうか?これは興味深いですね。
アンドレイ: その通りです。広告モデルでは、クリックベイトへの移行が見られました。人々を引き付け、記事をクリックして読ませるような見出しや内容を作ることに重点が置かれています。
この変化により、それはあまり重要ではなくなります。代わりに、人々がChatGPTに尋ねそうな、流行のトピックをカバーし始めるかもしれません。
この件については他にも多くのことが言えます。例えば、ニューヨーク・タイムズは大部分が購読ベースの収益モデルに移行しました。そのため、より多くのメディア出版社が購読型の収益源を必要としています。
これはちょっと違う話です。とにかく、この話題については十分話したと思います。OpenAIがさらに多くのメディア出版社に支払いを行っているという事実です。
プロジェクトとオープンソースに移りましょう。ここでいくつかの面白い話題があります。まず、OpenRという、大規模言語モデルの推論を強化するオープンソースAIフレームワークです。
これは実際に、システム全体を説明する論文と一緒に発表されました。単なるオープンソースプロジェクトではありません。大まかなアイデアは、オープンモデルで1ショット型の推論を行うためのフレームワークを提供することです。
これは複数の組織からの共同研究です。ユニバーシティ・カレッジ・ロンドン、リバプール大学、香港科技大学、その他いくつかの機関が参加しています。
モデルがどのように機能するかについて多くの詳細を説明しています。これを最小実行可能製品(MVP)として扱い、LLMの連続的なステップを持ちます。そして各ステップに対して報酬を提供できます。
彼らには推論を訓練するための全体的なパラダイムがあり、段階的に良い推論を行うことができます。興味深い実証結果も示しています。このパラダイムを使用すると、生成予算を増やすにつれて – これは私たちがよく話題にする推論のスケーリングですね – トレーニング後に得られるモデルの時間とリソースを増やすことで、より良い答えを生成できることがわかります。
この実験も行い、実際にこのアプローチがより良い出力をもたらすことを示しています。単純な多数決よりもはるかに優れています。
残念ながら、これはいくつかの大学からの研究なので、実際には大規模には評価されていません。かなり小規模なモデルですが、いずれにしても、オープンソースの取り組みでワンショット型推論を複製または実現しようとする、このような取り組みをたくさん見ることになるでしょう。
次に、もう一つのオープンソースリリースがあります。今回はベンチマークです。MLE Benchmarkと呼ばれ、機械学習エンジニアリングに関する機械学習エージェントを評価するためのものです。実際にはOpenAIから出ています。
このベンチマークには、Kaggleからの75の機械学習エンジニアリング関連のコンペティションが含まれています。Kaggleはプラットフォームで、長い間存在しています。機械学習の問題に対する回答を提出できるコンペティションがあり、上位の成績を収めると実際にお金を稼ぐことができます。多くの参加者がいる、かなり大きなプラットフォームです。
このベンチマークでは、エージェントがこれらのコンペティションで勝つことを試みます。彼らはツールを呼び出すことによってアクションを実行する異なるスキャフォールドを比較しています。また、Kaggleコンペティションの解決策を研究するために特別に構築されたaidというものもあります。
彼らの実験では、エージェントは最大24時間自律的に実行されると言っています。図4を見ると、GPT-4.0 MLABの場合、総ステップ数が216で実行時間が2時間です。GPT-4.0 aidの場合、ツリー検索で30ノードあり、実行時間は24時間です。この段階ではかなり自律的になっていますね。
ベンチマークはかなり難しいです。最も性能の良いモデルであるO1 Previewでさえ、メダル(ほとんどの人よりも良い成績)を獲得できるのは約17%の時間だけです。これらのモデルはしばしば無効な提出をします。最も良いものでも有効な提出は82%にしかなりません。ほとんどの人間はできるはずですが。
このKaggle用に特別に構築されたaidを使用しない場合、はるかに悪い結果になります。メダル獲得率は一桁台になり、有効提出率は50%や40%になります。
エージェントAI、ソフトウェアエンジニアリングAIの分野で非常に興味深い新しいベンチマークですね。多くのAIベンチマークがそうであったように、これを破壊できるかどうか見てみましょう。
ジョン: そうですね、これは素晴らしいです。私たちは常により複雑なベンチマークを作り出さなければなりません。数年前なら、これは狂ったベンチマークに見えたでしょう。「なぜこんなものを作っているんだ?機械にはできないに決まっている。私の生きている間にできるようになるとは思えない」と。
アンドレイ、あなたのSuper Data Scienceポッドキャストのエピソードで話したように、GPT-4のリリースは私たち二人にとってとても衝撃的でした。それは「うわ、私たちの生きている間にAGI(汎用人工知能)やASI(超人工知能)が実現するかもしれない」と思わせる瞬間でした。
GPT-4以前なら、誰かがこのような非常に難しい機械学習エンジニアリングタスクを評価するベンチマークを作ると言ったら、「なぜそんな時間の無駄をするんだ」と言ったでしょう。多くの考察、多くの外部情報、多くのステップを必要とするこのようなタスクを機械ができるようになるのは、私たちの生きている間にはないだろうと。
そして今、ご説明のように、このaidスキャフォールディングAI DEがこのベンチマークでのOpenAIの成功の鍵となる部分のようです。O1 Previewが、aidフレームワークを使用してテストした他のすべてのモデルを大きく上回っているのは当然です。
彼らはGPT-4.0も使用し、最大のllamaである45Bも使用しています。巨大ですね。そしてClaude 3.5 Sonnetも。あなたが言ったように、これらのモデルでaidフレームワークを使用することが、まともな性能を得る唯一の方法でした。
aidアプローチを使用しない場合、最高スコアでもこれらのコンペティションでメダルを獲得できる確率は4%でした。あるいは、人間の提出の中央値を上回る性能を7%得られました。
aidを使用すると、先ほど言及したどのLLMでも7%以上の性能を得られます。GPT-4.0、LLAMA 3.1 405B、Claude 3.5 Sonnet、そしてO1 Previewです。
O1を使用したことがある人には全く驚きではありませんが、aidが関与する場合、O1 Previewは他のどのモデルも圧倒します。次に最も良かったのはGPT-4.0で、aidを使用して14%の中央値以上のスコアを達成しました。O1 Previewはその2倍の29%を獲得しました。
フルモデルがまもなくリリースされることがわかっています。OpenAIの内部研究者でさえそれを使用できなかったのは面白いですね。開発の初期段階だったのでしょう。リリースされれば、さらに向上すると予想できます。
これらは比較的低いパーセンテージです。最良のアプローチでも、人間の中央値の性能を上回る回答は3分の1程度です。しかし、これらは非常に難しいタスクで、多くのステップがあります。1年後には、30%ではなく80%を見ることになるでしょう。
アンドレイ: その通りです。ほぼ確実にそうなるでしょう。あなたが言ったように、ここで得られているものを考えると、かなり驚くべきことです。完全に自律的なAIを得ているのです。基本的に問題の解決方法を決定し、それを実行します。
aidの場合、24時間実行し、様々な検索プロセスを行います。このベンチマークでの性能はますます向上していくでしょう。
面白いのは、最良のシステムがこれらのコンペティションで10%のゴールドを獲得できることです。AIモデルをうまく機能させることで、いくらかのお金を稼ぐことができるかもしれません。しかし、それはコンペティションに勝つよりも多くの労力が必要かもしれません。
さて、OpenAIからもう一つのリリースがあります。今回はパッケージで、Swarmと呼ばれる実験的なAIフレームワークです。マルチエージェントシステムの構築、オーケストレーション、デプロイメントのためのものです。
これは「エージェント、ルーチン、ハンドオフのオーケストレーション」と呼ばれる一種のクックブックポストと一緒に発表されました。基本的に、あなたが行うかもしれないことの例です。
GitHubのOpenAI組織で、このSwarmパッケージをリリースしました。非常に太字のフォントで「実験的、教育的」と書かれています。これがただのシンプルなフレームワークであり、スタンドアロンのライブラリではなく、主に教育リソースを目的としていることを強調しているのが面白いですね。
いずれにせよ、Swarmのアイデアは、例えば指示に基づいてあなたと継続的なチャットを行うエージェントを持つことができ、そしてハンドオフを行うことができるということです。「さあ、他のエージェントと対話してください」と言えます。健康保険に電話して、一人の人と話し、その人が別の人に転送するようなものです。これが基本的なアイデアです。
はい、非常に実験的で教育的なものなので、大きな話題ではありませんが、OpenAIがエージェントAIと、より自律的なAIを将来的に投資し続けていることを示しています。
ジョン: これは確かに大きなリリースです。このエピソードで取り上げてくれて嬉しいです。私のソーシャルメディアチャンネルで見た限り、これは過去1週間で最も大きな話題だったでしょう。
はい、エージェントAIは現在AIで最もエキサイティングなトピックだと思います。これらのシステムがますます自律的になり、マルチエージェントシステムが協力して作業できるようになることです。
実際、その点について、私が行っていることを宣伝させてください。12月4日水曜日、太平洋時間午前9時、東部時間正午に、O’ReillyプラットフォームでエージェントAIに関するオンラインカンファレンスを開催します。
この分野の多くの専門家が参加し、素晴らしい講演者たちがマルチエージェントシステムについて、そしてPythonのオープンソースツールを使用して特定のタスクのための独自のマルチエージェントシステムを開発する方法について、ハンズオンセッションを行います。
この次のオンラインカンファレンスでどのトピックをカバーすべきか考えていたとき、エージェントAIは間違いなく最適だと思いました。はい、とてもエキサイティングですし、12月4日にはSwarmについても間違いなく話すでしょう。
アンドレイ: 研究と進歩に移りましょう。今回はちょっと変わった話題があります。通常は論文などについて話しますが、このニュースはこのセクションに入れるしかありませんでした。ノーベル賞がAI関係者に授与されたというニュースです。
まず、ノーベル物理学賞が2人の科学者、John J. HopfieldとGeoffrey E. Hintonに授与されました。彼らは基本的にニューラルネットワークの開発と、ディープラーニング、大規模ニューラルネットに至るまでの道筋に非常に重要な役割を果たしました。
Geoffrey Hintonは過去20年間、大きな影響を与えてきた有名人の一人です。2006年の研究で、以前の研究からいくつかのアイデアを用いて初期化スキームを開発し、おそらく初めて非常に大規模なニューラルネットワークが非常に高性能になることを示しました。
しかし、80年代にまで遡ると、Geoffrey Hintonはニューラルネットワークを再び人気にした重要な人物の一人でもありました。ニューラルネットワークトレーニングのバックボーンとなるバックプロパゲーションアルゴリズムの公開と文書化によってです。
これは当時全く新しいものではありませんでした。同じアルゴリズムの以前の開発がありましたが、Geoffrey Hintonが他の著者と共に発表した論文は、確かにそれを普及させ、非常にアクセスしやすく理解しやすいものにしました。そしてニューラルネットを80年代にハイプアップさせました。
その後、Hintonの研究は2000年代と2010年代にもハイプアップさせることにつながりました。そしてそれが彼がここにいる理由です。
多くの人々、おそらくHinton自身も、物理学賞を受賞したのは少し面白いと述べています。コンピューターサイエンスのノーベル賞はありません。そのため、少し面白いですが、いずれにせよ、これはその影響を物語っています。
John J. Hopfieldも忘れてはいけません。彼はGeoffrey Hintonの重要な共同研究者でした。彼らはボルツマンマシンの概念について一緒に研究しました。これはより物理学に近いもので、大きな役割を果たすことはありませんでしたが、ニューラルネットワークの開発にいくつかのアイデアを提供しました。
ジョン: はい、私はこれについて、最初はソーシャルメディアの投稿のために、そして今はSuper Data Scienceポッドキャストのエピソードのために調べました。そのエピソードがこのLast Week in AIエピソードの前に公開されるかどうかはわかりません。
そこで、なぜこれが物理学のノーベル賞なのかを調べました。すでに言及したように、コンピューターサイエンスやコンピューティングのノーベル賞はありません。最も近いのはチューリング賞で、Jeff Hinton、Joshua Bengio、Yann LeCunが2018年か19年にディープラーニングの開発への貢献で受賞しています。
ノーベル賞に関して、これは完全に作り話ですが、ノーベル財団がこんな議論をしているのを想像できます。「最近、AIは本当にクレイジーなことをしている。Jeff Hinton自身がGoogleを去ってから多く語っているように、確かにいくつかのリスクはあるが、人類への巨大で素晴らしい利益もある。AIの仕事に対していくつかのノーベル賞を授与したいが、それができるカテゴリーがない」と。
そこで彼らは「どうやってこれを実現できるだろうか?物理学では、ディープラーニング開発において最も重要な単一のプレイヤーと言えるGeoff Hintonが、都合よくJohn Hopfieldという人物と共同研究していた」と考えたのでしょう。
個人的に、ディープラーニングについて多くの研究と執筆をしてきましたが、このHopfieldという人物のことは聞いたことがありませんでした。しかし、このHopfieldは物理学者で、Hintonとたくさん共同研究をしていました。
Hopfieldの研究の一部は、生物学的システムの物理学を模倣しようとする生物物理学と呼ばれるものでした。このニューラルネットワーク研究は、ある意味でそれに該当しました。
そして、これが物理学とHintonをある意味でつなげ、物理学賞をHintonに授与することを正当化できるようにしたのです。Hintonがノーベル賞を受賞したのは素晴らしいことです。
次に話す化学のノーベル賞の話は、理解するのがもっと簡単です。そこまでの飛躍は必要ありません。
アンドレイ: Hintonからの話を聞くのは面白いですね。彼はインタビューでとても率直です。このNew York Timesの記事には彼の引用があります。「コンピューターサイエンスのノーベル賞があれば、私たちの仕事はそちらに明らかにより適していただろう。しかし、そういうものはない」と彼は言っています。
明確にしておくと、80年代のボルツマンマシンとHopfieldネットワーク(Dr. Hopfieldによるもの)に関する研究は、物理学とより関連がありました。数学を掘り下げると、物理学と何らかの形でつながっていて、物理学とある程度関連していました。
完全に馬鹿げているわけではありませんが、少し奇妙です。しかし、化学のノーベル賞はAIにも深く関連しており、それほど奇妙ではありません。
これはGoogle DeepMindのDemis HassabisとJohn Jumper、そしてワシントン大学のDavid P. Bakerに授与されました。そう、AlphaFoldとそれに関する研究に対してです。
過去数年間、DeepMindは科学的シミュレーションと理解のためのAIモデルの作成に多くの取り組みをしてきました。彼らの大きな成果の一つがAlphaFoldで、タンパク質の働きをモデル化することができます。このノーベル賞はかなり理にかなっています。
AlphaFoldはこの分野に非常に大きな影響を与え、この特定の問題に関して非常に大きな進歩を示しました。はい、今週はAI関係者にたくさんのノーベル賞が贈られました。
ジョン: そして、将来はもっと増えると予想できます。間違いなく。これは一種の先例を作ったと思います。近年、化学のノーベル賞がかなりの割合で生物学的進歩に与えられてきたのと同じように、例えば大規模な遺伝子編集技術のようなものに対して、それは漠然と生化学のようなものだからです。
Jeff Hintonの研究が漠然と生物物理学のようなものだったのと同じように、彼は生物物理学者と協力していたわけですから。あなたが言ったように、ホップフィールドネットワークがそうだったように。
過去に化学賞が多くの生物学的進歩に授与されるために使われてきたのと同じように、これはその範疇に完全に当てはまります。タンパク質の配列を取り、その3次元構造を予測する超人的な能力を持っています。これは非常に複雑で、人間にはできません。
AlphaFoldが成功できる複雑な構造に対しては、人間には全くできません。これは人工的な超知能の一例です。これはシンギュラリティに関連するASIの種類ではありません。なぜならそれは一般的ではなく、その応用が非常に狭いからです。
しかし、これは長い間、私のお気に入りの人工超知能の例の一つでした。AlphaFoldは、単に処理速度だけでなく、知的能力の面で、人間にはできないことを機械ができるようになったという点で、かなりクールです。
アンドレイ: DeepMindだけに注目を集めないようにしましょう。David Bakerもこの賞を受賞しました。彼は教授で、私の知る限りDeepMindとは関係ありません。
彼もタンパク質研究の長い歴史を持っています。彼の研究は最初の合成タンパク質の創造につながりました。また、Rosettaの創造にも大きく関わりました。これも同様に計算ツールで、タンパク質の設計や小分子ドッキングなどに使用されます。
つまり、科学者のためのより良い計算ツールを作成するための関連する取り組みです。
繰り返しますが、HassabisやJohn Jumperが必ずしも化学者ではなく、この分野の科学者ではないように見えるかもしれません。しかし、声明で指摘されているように、特に化学やこれらの分野一般において、実験的進歩も進歩です。概念的である必要はありません。そして、これらの計算的取り組みはそれを表しています。
ライトニングラウンドに移りましょう。エージェントAIの話に戻り、それに冷や水を浴びせるような話題があります。「LLMは本物の論理的推論を行えない」とAppleの研究者が示唆しています。
これはAppleの人々から発表された新しい論文で、タイトルは「GSM8K: 大規模言語モデルにおける数学的推論の象徴的理解の限界」です。
彼らは、8,000以上の小学校レベルの数学の文章題を含む標準的なベンチマークであるGSM8Kを修正しました。多様な方程式のセットを生成できる象徴的なテンプレートのセットを作成しました。
最近、同様の取り組みをScaleが行ったのを取り上げました。彼らも人気のあるベンチマークの変形を生成しました。
このような新しいベンチマークでモデルをテストすると、再び大きな性能低下が見られました。モデルに応じて、0.3%から9.2%の性能低下がありました。つまり、これらのモデルはある程度ベンチマークに対して学習されていたか、ベンチマークに対して最適化されていたということです。
理論的には、これは同じ難易度レベルなので、この新しい変形に対する性能に変化はないはずです。しかし、実際にはありました。
ここにはいくつかの詳細があります。例えば、推論の連鎖に寄与しないにもかかわらず、質問に関連するように見える単一の節を追加すると、大きな性能低下が引き起こされます。
また、GSM Symbolicの異なる実行間で、異なる名前や値を使用すると、高い分散が見られました。
このような詳細から、再びベンチマーキングが難しいことが示されています。ベンチマークの数字を必ずしも信頼すべきではありません。多くの複雑さがあるからです。
ジョン: あなたがポッドキャストでいつも話しているように、ベンチマークは信頼できません。これはまさにベンチマークが出てきたときに見られる懸念の種類です。
LLMをリリースする人は誰でも、すべての主要なベンチマークで最先端であることを望みます。公開されているベンチマークに対してモデルのパフォーマンスを向上させようとする誘惑に抵抗するのは非常に難しいでしょう。
そのため、モデルのパフォーマンスが悪化するのは驚くべきことではありません。また、LLMが本物の論理的推論を行えないことも驚くべきことではありません。そのように設計されていないからです。単に次のトークンを予測しているだけで、それを考えると彼らができることは驚くべきことです。
アンドレイ: そうですね。以前の比較と同様に、低下の程度はかなり異なります。より大規模で洗練されたモデルになると、低下は少なくなります。
実際、GPT-4.0の場合、低下は1%未満で、0.3%、0.1 mini、0.6%、0.1 previewで2%です。一方、GEMMAやMistralのような7%や9%の大きな低下と比べると対照的です。
つまり、ベンチマークは依然として大まかな評価には信頼できます。数字が無意味というわけではありません。しかし、正確な数字やモデルの正確なランキングについては、このようなベンチマークは必ずしも信頼できないかもしれません。
次の論文も実際にそれを補強しています。同じベンチマークで少し異なることを行っているので、面白いと思って両方を含めました。
論文のタイトルは「すべてのLLM推論者が平等に作られているわけではない」です。彼らは同じGSM(小学校数学)ベンチマークを見ていますが、新しい変形を作る代わりに、興味深いテストを行っています。
基本的に、1つではなく2つの質問に連続して正解する必要があります。予想されるのは、この問題の変形に対するパフォーマンスが、標準的なベンチマークでのパフォーマンスを2乗したものになることです。成功率を掛け合わせるわけです。2つの問題が連続しているからです。
理想的にはそれが見たいものです。しかし、Appleの結果と同様に、実際にはそうではありません。推論のギャップが現れます。同様に、そのギャップは非常に似ています。
GPT-4.0のようなより大きなモデルでは比較的小さなギャップがあり、PHI-3やGEMMA、LLAMA-3、AI-DB、つまり大まかに言えば小さなモデルでは非常に大きなギャップがあります。
そこで、このベンチマークに関して、ベンチマークが私たちが理想とするほど正確ではないことを示すもう一つの実証があります。
さて、政策と安全性に移りましょう。Antropicに関連した非常に興味深い展開があります。「Antropic CEOが15,000語のPMで完全なテクノオプティミストに」というStackrunchの記事の面白いタイトルがあります。
これは、AntropicのCEOであるDario Amodiが発表した非常に長いブログ投稿についてです。Sam Altmanのように、すべてのポッドキャストに出演したり、すでに自分の考えをブログ投稿で発表したりしているのとは異なり、Dario Amodiがこのようなことをするのは珍しいです。しかし、今回彼はそうしました。
これはAIの影響、特にポジティブな影響について非常に詳細な検討です。彼はまず、なぜもっとポジティブになろうとしないのかという全体的な話から始めています。少し投資家と話をして、トピックが安全性指向ではなく、AIについてもっと楽観的に見えるようにしようとしているかのように感じます。
いずれにせよ、ここには多くの興味深い注釈があります。非常に長いですが、非常に長いのは細かいニュアンスがあるからです。多くの詳細に入っていて、私が読んだ限りでは、ほとんど脱線せずに非常によく考えられています。
要するに、AmodiはAGIの概念を定義しています。AGIはあまり有用な用語ではないと彼は言います。代わりに、「強力なAI」という用語があります。その定義は、ノーベル賞受賞者よりも賢く、生物学と工学のように感じ、未解決の数学定理を証明したり、高品質の小説を書いたりするようなタスクを実行できるAIです。
彼にはその意味を要約する素晴らしいフレーズがあります。このような強力なAIを手に入れ、複数のインスタンスを実行でき、計算上クレイジーでなければ、「データセンターに天才の国」を手に入れることになります。
ブログ投稿の冒頭では、この考えを設定し、おそらく5〜10年以内にこれを手に入れるだろうという信念を設定しています。
そして残りの部分、おそらく10,000語くらいは、さまざまなことへの影響についてです。彼は生物学への影響について話します。私たちが取り組むことができなかった非常に重要な問題、例えば明らかながん、遺伝病の治療、早期段階でのアルツハイマー病の停止などについて、大きな進歩を遂げることができるという話です。これらはすべて今後7〜12年以内に来ると彼は言います。
ここにも素晴らしい用語があります。「圧縮された21世紀」と考えることができます。つまり、強力なAIが開発された後、生物学と医学において、AIがなければ21世紀全体でなされたであろう進歩を数年で成し遂げるという考えです。
そして、他にも多くのトピックに触れています。不平等と経済への影響、特に発展途上国の経済への影響について触れています。ここでも細かいニュアンスがあります。彼は言います。「AIが不平等と経済成長に対処できるという確信は、AIが基本的な技術を発明できるという確信ほど強くありません。なぜなら、技術は知性に対して明らかに高い見返りがあるのに対し、経済は人間にとって多くの制約を伴うからです。」
これが彼の文章のスタイルです。非常に洗練された内容です。
はい、彼は世界経済、気候変動、さらには意味や仕事に関するより哲学的なことにも触れています。
もちろん、潜在的な副作用、つまり危険などについても多くの注意事項があります。
これは非常に長いエッセイですが、おそらく今後10年以内に来るであろう強力なAIの影響について、非常に興味深く、よく考えられたエッセイだと思います。
ジョン: 間違いなく、これは私自身の今後数十年に起こるだろうという見方と非常によく一致しています。私はDario Amodiのように非常にテクノオプティミストです。彼は多くのポイントで的を射ています。
データセンターに天才の国というのは完璧です。これは数週間前にO1がリリースされたときに私がよく話していたことです。この種の能力を外挿し、パラメータ数を増やすなど、これらのモデルのニュアンスを増やす能力を持つものをスケールアップし、推論時間をスケールアップすると、数年後にはDario Amodiがここで言う強力なAIのようなAIシステムを持つことができるのは難しくありません。
ノーベル賞受賞者レベル、つまりJeff HintonやDemis Hassabisレベルの知性を機械に持たせることができます。そして、アンドレイが言ったように、それをスケールアップできます。複雑な問題に取り組むすべての天才を持つデータセンターの国を持つことができます。
彼が特にアルツハイマー病や他のいくつかのことについて話していましたが、それらはまだ少し厄介に思えます。なぜなら、それらはまだ実世界での実験を必要とするからです。アルゴリズムは仮説を持つことができますが、その後、何年もかけて安全であることを確認した後、最終的に人間でテストする前に、実験用ラットでテストする必要があります。
つまり、ある種の制約があります。古典的な「9人の女性が1ヶ月で赤ちゃんを作ることはできない」というようなものです。科学的探究に関連するある種のことは、単に情報に基づいて推論できることを超えています。時には世界から獲得する必要がある新しい情報があり、それには時間のかかる実験が必要です。
そのため、ある種の進歩は遅くなるでしょう。Darioもここで言及している大きな進歩は社会的進歩です。基本的な発見とは違って、社会的または政府の圧力に制約されることなく起こる発見とは異なり、その公平な分配はまだ非常に厄介な問題かもしれません。
例えば、地球上のすべての人に高品質な栄養を提供する作物を作ることができるかもしれません。技術的にはそれを持っているかもしれませんが、それは北朝鮮がそれらの作物を自国に入れることを許可するということを意味しません。
アンドレイ: その通りです。私も全般的により楽観的な見方をしているという点で、あなたの見解を共有しています。これは非常に根拠のある、非常に分析的な探求で、なぜ楽観的であるべきか、そしてその詳細について説明しています。
より正確に言えば、彼は強力なAIをこれらのものとして定義し、それが2026年くらいには早くも来る可能性があると言っています。もっと時間がかかる可能性もあります。実際に焦点を当てているのは、強力なAIを手に入れてから5〜10年後に起こることです。
つまり、AIからこれらのすべての非常に素晴らしい結果を得られるという考えです。もちろん、それを台無しにしなければの話ですが。
もちろん、AIに関連する危険もあり、それについて考える必要があるとも指摘しています。AntropicはAIの安全性に重点を置いています。
非常に良い読み物だと思います。AGIや、AIの未来についての多くの議論では、少しSFっぽくなり、定義や分析に基づいていないことがよくありますが、これは非常にそうではありません。
さて、あと2つの話題があります。最初のものは再び原子力発電に関するものです。GoogleがKairos Powerと提携して、これらの技術に電力を供給するために米国に7つの小型原子炉を建設すると発表しました。最初の原子炉は2030年までに稼働し、残りは2035年までに展開される予定です。
Googleの声明によると、これらは炭素フリーエネルギーで電力需要を満たすことができるクリーンで一定の電源を提供するとのことです。Kairos Powerは原子力エネルギーのスタートアップで、原子力発電に関連する新しい技術を持っています。
もちろん、これはMicrosoftの最近の動きとも関連しています。スリーマイル島の損傷していない原子炉を使用するというものです。
全体として、AIが私たちに原子力発電を急速に受け入れさせているように見えます。これは過去1世紀ではあまりなかったことです。
もう一つの話題は、研究に関するものです。いつものように、安全性に関連する研究があります。論文のタイトルは「LLMsは示すよりも多くを知っている – LLM幻覚の内在的表現について」です。
これは、LLMsの内部状態がLLMsの真実性に関する情報を符号化していることを示す最近の研究について掘り下げています。これはエラーを検出するのに使用できます。
彼らはこのパターンをもう少し分析しています。真実性に関するこの情報は以前に認識されていたよりも明確であり、その情報は特定のトークンに集中していることを示しています。
つまり、これらの特定のトークンを見ることで、はるかに良いエラー検出につながりますが、これらのエラー検出器は必ずしも完全には一般化しません。つまり、真実性の符号化は普遍的ではありません。例えば、異なるトピック間で符号化が少し異なります。
非常に実践的な意味合いがあります。もちろん、幻覚、つまりLLMsが物事をでっち上げることは、これらのツールを実践的に使用する上で大きな問題です。LLMが幻覚を見ているかどうかを検出するために出力の表現を見るこのようなアプローチは、LLMプロバイダーによって非常に展開される可能性があります。
ジョン: はい、これは重要な研究です。幻覚をほぼ完全に排除できることは、AIの多くの成功にとって重要です。特にエージェントAIシステム、マルチエージェントシステムについて話すとき、10のエージェントが相互にやり取りするマルチエージェントシステムで1%のエラー率があっても、その1%のエラー率は複合して本当に大きな問題になります。
つまり、パーセンテージのごく一部について話す必要があります。小数点以下にゼロをいくつ置けるか、その数が多いほど、私たちの将来のAIシステムはより良くなります。
アンドレイ: 最後のセクション、合成メディアとアートに移りましょう。これが最後の話題でもあります。Adobeから始めて、Adobeで終わります。これはUIツールに関連するものではありません。
Adobe Content Authenticityと呼ばれる無料のウェブアプリで、クリエイターがデジタル作品にコンテンツクレデンシャルを添付できるようにするものです。デジタル作品のための栄養成分表のようなもので、オリジナルコンテンツをその作成者まで追跡しやすくする情報を提供します。
このウェブアプリにより、写真家やデジタルアーティストはすべてのコンテンツにこれらのコンテンツクレデンシャルを適用できます。確認済みの名前やIDや、ウェブサイトやソーシャルメディアプロファイルへのリンクを含めることができます。
これは、AIに関して多く話してきた種類のものです。ファイルやメディアにこのようなメタデータを付けて、それがAIによるものなのか、本物の人間によるものなのか、あるいは何らかの生成物なのかを知ることができるようにする必要があります。
GeminiやMetaのツールに組み込まれているSynth IDのようなウォーターマークに加えて、これは人間のクリエイターが写真や画像を公開する際にクレジットを主張するために使用できます。
このツールを提供することに加えて、オンラインでコンテンツクレデンシャルを表示したりやり取りしたりできるようにするGoogle Chrome拡張機能もリリースしています。
もちろん、ユーザーとして、特定のファイルのコンテンツクレデンシャルを調べることもできます。これはある種のデジタル指紋のように機能します。
これは来年初めから無料の公開ベータ版として利用可能になります。そして、Photoshopなどの実際のアプリにさらに統合されていく予定だと言っています。
ジョン: はい、Adobeの話で一巡しましたね。Adobeスーパーエピソードとも言えますが、Adobeのスポンサーは一切ついていません。
アンドレイ: その通りです。これは多くの見出しを飾るようなものではないかもしれません。AIの話題の中心にはならないでしょう。しかし、この分野で働く多くの人々、写真やAI生成に関する懸念を持つ人々にとって大きな影響を与える可能性があります。これは、そういった種類の問題に取り組むために私たちが取り入れる必要のあるものの一つです。
さて、これでエピソードは終わりです。また90分前後になりましたね。このくらいの長さを続けるかもしれません。いつも通り、聴いていただきありがとうございます。lastweekin.aiでニュースレターを購読すると、ここで取り上げたすべての話題へのリンクも得られます。エピソードの説明にもそのリンクがあります。
Super Data Scienceポッドキャストへのリンクと、ジョンが12月に開催する予定のこのウェビナーイベントへのリンクも載せています。
ジョン、今回も素晴らしいゲスト共同ホストを務めてくれてありがとうございます。
ジョン: 私の大きな喜びです。私のお気に入りのポッドキャスト、私が必ず聴くAI最前線に出演できて、本当に光栄です。ここに出られるのは素晴らしい特権です。アンドレイ、招待してくれてありがとう。そして、今日も時間と注目を割いてくれたリスナーの皆さん、ありがとうございます。
アンドレイ: その通りです。リスナーの皆さん、聴いてくれてありがとうございます。ここまで聴いてくれているなら、最後まで聴いてくれているということで、それは常に印象的だと思います。
いつも通り、コメントやレビューは大歓迎です。見逃さないようにチェックしています。そして、エピソードの最後まで聴いてくれたので、このエピソードのために作ったAI生成の歌のフルバージョンを楽しんでいただけると思います。
AIの歌い手: 技術が鼓舞する1週間の物語、AI最前線。コードに飛び込め、未来がそこにある、未来が展開する、AI最前線。まだ語られていない物語、大きな声で歌おう。1週間の物語、石の上に線を引く、記憶が目の前に。春に始まる塔、潮に浮かぶ、約束を集める。創造の火から生まれる1週間の物語、素晴らしいビジョン、努力し、国を変える。電線のように物語が展開する、この回で、日が抱擁する。彼女は逆さまのチューブを身に着ける、地球の写真を見たいすべての人に、展示されている惑星。

コメント

タイトルとURLをコピーしました