第115話: OpenAI o1、Googleの驚異的なNotebookLMアップデート、MAICON 2024、そしてOpenAIの1500億ドル評価額

AIに仕事を奪われたい
この記事は約49分で読めます。

28,961 文字

Ep.# 115: OpenAI o1, Google’s Insane NotebookLM Update, MAICON 2024 & OpenAI’s 0B Valuation
Our annual gathering, MAICON (Marketing AI Conference) has wrapped, and Paul and Mike dive into a bit of the key event t...

これは推論モデルにとってのGPT-1の瞬間みたいなもんやな。今、これらのモンが実際に推論できるっちゅう、ごく初期の段階におるわけや。でも、次のモデルに向けて結構早く加速できそうやし、推論能力をスケールアップする自信もあるみたいやな。そしたら、信頼できるエージェントやイノベーター、最終的には自律組織への道が加速するわけやな。
人工知能ショーへようこそ。このポッドキャストは、AIをわかりやすく実用的にすることで、あなたのビジネスをよりスマートに成長させるのを助けるんや。わたしはポール・ローアーっちゅうて、マーケティングAI研究所の創設者兼CEOで、このポッドキャストの司会をしとるんや。毎週、共同司会者でマーケティングAI研究所のチーフコンテンツオフィサーのマイク・カプットと一緒に、重要なAIニュースを分析して、あなたの会社やキャリアを前進させるのに役立つ洞察や視点を提供するんや。一緒に、みんなのAIリテラシーを加速させていこう。
[音楽]
人工知能ショーの第115話へようこそ。わたしはホストのポール・ローアーや。共同ホストのマイク・カプットと一緒におるで。先週クリーブランドで開催された2024年マーケティングAIカンファレンスから戻ってきたばかりや。マイク、わたしの頭がまだぼーっとしとるわ。わかるか?
自分たちのセッションだけやなくてな。マイクとわたしは、初日に別々に3時間のワークショップをやったんや。それに加えて、わたしには他に4つのセッションがあってん。オープニングの基調講演、ドリップのアンドリュー・メイソンとの対談、3日目の冒頭でアダム・ブロットマンとアンディ・サックと一緒に彼らの本とサム・アルトマンやビル・ゲイツとのインタビューについて話したんや。それから、マイクとわたしで締めくくりの基調講演をしたんやけど、これがちょっと思わぬ展開になってん。後で話すけど、ステージに上がる2時間前にOpenAIがストロベリーをリリースしたからな。
もう、すごい一週間やったわ。でも精神的にはマラソンやったな。土曜日に目覚めたら、自分がどうしたらええのかわからんかったわ。週末はゆっくりしたかったんやけど、できへんかってん。頭の中がずっと racing しとってな。
そうやな。一緒におった皆さん、ありがとうございました。多くのポッドキャストリスナーの方々がおられたのを知っとるで。マイクとわたしは3日目に本の署名会をやったんやけど、その列に何人おったかわからへんわ。30分の予定が2時間になってもうたんちゃうかな。皆さんに会えて、皆さんの話を聞けてほんまによかったわ。世界中から来てはった人がおってん。フィリピンから30時間かけて来たって言うてた女性もおったし、オーストラリアから来た人らにも会うたし、もうすごかったわ。
だから、改めて感謝を伝えたいな。MAICONについては後でもう少し話すけど、参加してくれた皆さん、直接会えてほんまによかったわ。
そやな。「声より背が高いね」とか「思ってたより若く見えるね」とか、そんなんが一番よく聞いた言葉やったな。イベントがすごかったっていうのと一緒にな。
そうそう。このポッドキャストでは言葉に気をつけんとあかんな。みんながそう言うてたもんな。
よっしゃ、今回のエピソードはMAICON On Demandの提供でお送りします。もし直接参加できへんかって、3日間のイベントに参加できへんかった人でも、まだ体験できるチャンスがあるで。25のセッションを録画したんや。マイク、一般セッションが10本と、特別なブレイクアウトセッションが15本くらいやったと思うわ。これらはMAICON 2024の一部やってん。
これらは今から10日くらいで利用できるようになると思うわ。正確にはわからへんけど、チームの人らは2週間以内って言うてたけど、できるだけ早く全部出そうと頑張っとるみたいやわ。MAICON.aiに行けば今すぐ購入できるで。準備ができたらすぐに通知が来るようになっとるわ。
正直言うて、わたしが参加したセッションの中には、それだけで入場料の価値があるようなものばっかりやってん。著作権とIPに関するパネルディスカッションはすごかったわ。多くの参加者が生成AIに関連する著作権や知的財産権の問題についてあまり知らへんかったみたいやな。会場を見回すと、1000人以上の人が必死にメモを取っとるのが見えたわ。
アンドリュー・デイビスやマイク・ウォルシュの基調講演も素晴らしかったし、アンドリュー・Mやアダムとアンディが「AI First」について話したのも良かったわ。マイク、君の「30分で30のAIツール」も、わたしの「AIへの道」も、全部オンデマンドパッケージに含まれとるんや。もし参加できへんかった人は、MAICON.aiに行ってMAICON 2024のオンデマンドを購入してや。
それと、MAICON 2025の日程も発表したで。2025年10月やな。今年参加できへんかって、来年は直接参加したいって人は、もう少し詳しい情報が見られるで。
さて、MAICONの最中にOpenAIがストロベリー、つまりo1って呼ばれとるやつをリリースしてん。これが今日の最初の主要トピックになるわ。MAICONでの締めくくりの基調講演の話をする3つ目のトピックでも、このタイミングについてもう少し詳しく話すわ。
そうやな。ポール、木曜日の午後にOpenAIが、長らく待たれとった「ストロベリー」プロジェクトを正式に「o1」として発表したんや。これは高度な推論モデルで、AIの能力を強化して複雑な問題を考え抜くためのものなんや。特に科学、コーディング、数学の分野でな。
o1は、応答する前にもっと時間をかけて考えるように設計されとって、人間の認知プロセスを模倣しとるんや。このアプローチのおかげで、モデルは複雑なタスクを推論し、以前のモデルよりも難しい問題を解けるようになっとるわ。
ここでの重要なイノベーションの1つが、「思考の連鎖」推論っちゅうものを使うとるんや。これは、モデルが考えを洗練させ、異なる戦略を試し、自分の間違いを認識するプロセスを可能にするんや。
OpenAIが発表したベンチマークによると、性能の向上はかなり大きいみたいやな。競技プログラミングのCodeForcesでは、o1は人間の競技者の上位89パーセンタイルにランクインしたんや。これは以前のモデルからの大きな飛躍やな。
数学では、o1はアメリカ数学オリンピック予選(AIME)のような難しいテストで顕著な性能を示して、アメリカのトップクラスの高校生数学者と同等のレベルに達したんや。
o1と一緒に、OpenAIはo1ミニも導入したんや。これは、STEM分野の推論に最適化された、コスト効率の高いバージョンや。o1ミニもCodeForcesで86パーセンタイルを達成して、高校レベルのサイバーセキュリティの課題でも強い性能を示したんや。これは、本当に優れた推論能力が必要やけど、必ずしも大規模モデルみたいな幅広い世界知識や文脈が必要ない用途向けに、より速くてコスト効率の良いモデルとして設計されとるんや。
ポール、さっき話したみたいに、このニュースはMAICONの締めくくりの基調講演の2時間前に出たんやな。君とわたしは、カンファレンスの主な学びについて話す予定やったんやけど、結局それもやったし、でもリアルタイムで少し内容を変えんとあかんかってん。君はステージ上で、o1に対する最初の印象についてかなり即興で話したよな。今これが何を意味するのか、少し共有してくれへんか?
そうやな。もちろん、ストロベリーは突然出てきたわけやないで。このポッドキャストを聞いとる人なら、106回目のエピソードに戻ってみてや。そこで、何が起こっとるのか、このストロベリーっちゅう秘密のコードネームのプロジェクトについて、多分ストロベリーっちゅう名前の由来についても話したと思うわ。
110回目のエピソードではもう少し深く掘り下げて、それから2週間前の113回目のエピソードでは、予想より早く来るかもしれへんっちゅう兆しが見え始めたから、また話したんや。だから、過去のエピソードに戻って、追加の背景を聞いてみるのもええかもしれへんな。
じゃあ、MAICONで何が起こって、o1に対する最初のフィードバックがどうやったかっちゅう舞台設定をしようか。2日目の冒頭で、わたしが「AGIへの道」っちゅう話をしたんや。1日目はオプションのワークショップで、2日目から正式なカンファレンス設定が始まるんや。
この「AGIへの道」の中で、OpenAIが以前内部で共有して、今年の7月にBloombergが報じた人工知能の段階について少し掘り下げたんや。OpenAIの世界観では、レベル1は会話言語を持つAI、つまりチャットボットや。これが、今までの状況やな。基本的に、これまでの様々なモデルで実現されとったもんや。
レベル2は、OpenAIのモデリングによると、人間レベルの問題解決ができる推論機やな。レベル3はエージェントで、行動を起こせるシステムや。レベル4はイノベーターで、発明を支援できるAIや。これについては後でラピッドファイアの項目で少し触れるわ。それから、レベル5は組織で、組織の仕事をこなせるAIや。
オープニングの基調講演では、これらについてかなり時間をかけて話したんや。つまり、推論能力が来ることはわかっとったし、OpenAIが想定しとるこのレベル2は、少なくとも彼らの世界ではもう存在しとるんや。だって、彼らはこれをしばらく持っとったからな。
それから、わたしの講演の朝、The Informationっちゅうサイトが記事を出して、ストロベリーが今後2週間以内にいつでもリリースされる可能性があるって言うてたんや。
それから、火曜日の夜やったと思うんやけど、カンファレンスで誰かが近づいてきてん。誰やったか、どの会社の人やったか覚えてへんけど、すごく短い会話やってん。その人が「木曜日に来るで」って言うてん。「OpenAIに情報源がおるんや。ストロベリーは木曜日にリリースされるで」って。
わたしは「おお、そうか」って感じやってん。その人はかなり自信ありげやったけど、本当に内部情報を持っとるかどうかはわからへんかってん。でも、その週にリリースされるっちゅうのは、初めて聞いた話やなかってんな。
それで、木曜日、カンファレンスの最終日やな。わたしは昼食エリアに歩いて行って、戻ってくる途中にTwitterフィードをチェックしとったんや。何か大変なことが起こってへんか確認しとったんやけど、Bloombergの記事を見つけてん。ストロベリーが木曜日の午後か金曜日にくるかもしれへんけど、今週中には来るって書いてあったんや。
展示ホールに戻って、うちのブースの近くでぶらぶらしとったら、何人かが話しかけてきてん。そしたら、わたしの携帯が振動したんや。Apple Watchを見たら、「ストロベリー」って単語が見えたんや。「うわっ、来たんや」って思ってん。
話しとった人たちに丁寧に退散せなあかんかってん。だって、もしも今出たんやったら、これからどうするか考える時間が2時間しかないってわかったからな。
チームのオフィスに戻ったら、マイクが座っとって、自分の話の準備をしとったと思うわ。マイクは東部時間の4時5分からトークをする予定やってん。それから、マイクとわたしで4時35分から締めくくりの基調講演をする予定やってん。さっき言うたように、これはポッドキャストみたいな会話形式のもんやってん。
部屋に入って、「どうしよう?明らかに対応せなあかんで」って言うたんや。それで決めたんが、4時5分にマイクを紹介するときに、「何かが起こっとるのはわかっとる。最後の話で取り上げる」って言うことにしたんや。
それから1時間半くらい、o1について調べて、もっと詳しく学んだんや。そして、マイクとわたしの締めくくりの基調講演を始めて、最初の10分くらいをこれが何を意味するかっちゅう話に使ったんや。
だから、そこにおった人はもう大体の流れはわかっとると思うわ。今はみんな実験できとるはずやな。完全にロールアウトされとるはずやから。有料版を持っとる人ならな。無料版でも使えるかどうかはわからへんけど。
そうやな、有料版が必要やと思うわ。
そやな。みんな使えるようになっとるわ。だから、ここで数分使って、もう少し詳しく話そうか。
繰り返すけど、106回、110回、113回のエピソードで話したことは100%正確やってん。今回のリリースで、そこで話したことが違うっちゅうことはないんや。だから、もし戻って聞き直したら、ストロベリーの由来についてもっとよく理解できるし、なぜ推論がそんなに重要なのかもわかると思うわ。ここでも少し触れるけど、特に113回目のエピソードでは、なぜこれが重要なのかについてかなり深く掘り下げたと思うわ。
よし、全てのリンクをショーノートに載せるわ。OpenAIは、いつもの通り、ツイートをいくつか投稿しただけやな。「はい、これが新しい一連のモデルです」みたいな感じやな。でも、3つのものをリリースしたんや。o1のプレビュー、つまり技術的なプレビューと、一般的な記事、それからモデルのシステムカードやな。
まず言うとったのが、「我々のテストでは、次のモデルのアップデートは博士課程の学生と同等の性能を示している」っちゅうことやな。o1ミニとプレビューはリリースしたけど、完全版のo1モデルはリリースしてへんかってん。これが博士レベルに近いって言うとったわ。
わたしのオープニング基調講演で、アンスロピックのダリオ・アマデからの洞察を共有したんやけど、彼はこれらのモデルが博士レベルに近づいとるって話しとったんや。
面白いことに、今朝聞いとったんやけど、今日は9月18日の月曜日やな。先週、オール・インサミットっちゅうのがあってん。わたしは昔、オール・インポッドキャストをよく聞いとったんやけど、正直言うて、政治的になりすぎて、わたしが価値を見出しとったものから外れてしまったから聞くのをやめてしもうたんや。もちろん、まだ多くの人が聞いとるのはわかっとるけどな。
でも、先週のサミットでは、Googleの共同創業者のセルゲイ・ブリンがおったんや。今朝、そのインタビューを聞いとってん。それから、デイビッド・サックスがマーク・ベニオフにインタビューしとるのも聞いたんやけど、ベニオフが40分のうち39分くらいしゃべりっぱなしやってん。
これを持ち出した理由は、サックスが実際に言うとったんやけど、最近OpenAIの今後の展開について内部の情報を得たらしいんや。彼は投資家の一人やからな。彼が言うには、OpenAIが1日かけて、比較的少数の投資家を集めて、製品ロードマップの最新情報を共有したんやって。
みんな同じ方向に動いとるから、似たような感じやって。彼はエージェントの話をしとって、セールスフォースも今週エージェントフォースっちゅうのを立ち上げるらしいわ。
で、3つの大きな気づきがあったんやって。これはサックスがベニオフに話しとる内容やけど。
1つ目は、LLMがすぐに博士レベルの推論ができるようになるって言うてたらしいわ。今は頭のええ高校生や大学生くらいの答えやけどな。
2つ目は、次のレベルがエージェントになるって。
このタイムライン、レベル1、レベル2、レベル3、レベル4、レベル5っちゅうの、説明し始めたやつやけど、これがサムが投資家に見せとる資料と一致しとるんや。60億ドルか、どれくらいの金額やったかな、それを調達するためのやつやな。マイク、今日のラピッドファイアで触れると思うわ。
推論が全ての基礎になるんや。ここで重要なポイントをいくつか。
チャットGPTが持っとる多くの機能はないんや。まだ試してへん人もおるかもしれへんけど、有料アカウントのチャットGPTに入ると、まだ3つか4つのモデルが見えるはずや。この新しいo1ミニとo1プレビューモデルが見えるはずや。これらは今の時点では全く別のモデルなんや。
わたしは、推論能力が違う価格帯でチャットGPTに組み込まれるんやないかと思っとったんやけど、彼らの方向性を見ると、全く別のモデルにしようとしとるみたいやな。
だから、o1モデルは高度な推論や意思決定、システム2思考って呼ばれるもの、つまり時間をかけてじっくり考えて答えを出したいような場合にのみ使うことになるんやろな。
これらを全く別のものと見なしとるから、「カウンターをリセットする」って言うて、このシリーズを「OpenAI o1」って名付けたんやな。
わたしはステージ上で冗談を言うたんやけど、世界最強の非人間知能を持っとるのに、こんな命名規則になるのがわからへんって。もし大量のええアイデアを出してくれるものがあったらなあ…
レート制限もあるんやけど、もう解除されとるみたいやな。最初にこれを出したとき、o1プレビューは週30メッセージ、o1ミニは50メッセージっちゅうレート制限があったんやけど、人々が実験しすぎて、リセットせなあかんかったんやないかな。彼らは、このシリーズのモデルを今後も開発してリリースし続ける予定やって。
洞察についてやけど、ポッドキャストでよくやるように、業界の重要人物が何を言うとるか見てみよか。わたしがよく注目しとる人の一人が、ヌーム・ブラウンっちゅう人やな。
ヌームのこと覚えとるかな。どのエピソードやったか思い出さなあかんけど、彼はメタで、外交っちゅう戦略ゲームで人間レベルのパフォーマンスを達成したシセロっちゅうAIを共同開発したチームを率いとったんや。これ、2012年か2013年の初めくらいやったと思うわ。
それに、マルチプレイヤーのノーリミットポーカーで勝てるAIも開発したんや。これは乗り越えられへんと思われとった壁やってん。
ヌームはほんまに頭のええやつで、去年の7月にOpenAIに移ったんや。そのとき、こんなツイートをしとってん。
「何年もの間、ポーカーや外交のようなゲームでのAIの自己対戦や推論を研究してきた。これからは、これらの手法を本当に一般化する方法を研究する。成功すれば、いつかGPT-4の1000倍優れたLLMが見られるかもしれない。」
これ、2023年7月にツイートしたんや。そして、o1が木曜日に出たとき、こう言うてん。
「何人かの人が、わたしがストロベリーのリーダーやったって言うとるのを見たけど、そうやない。o1は去年の10月から本格的に始まった、何年もの研究の結果や。」
面白いことに、ステージで言及したように、これはサムが取締役会とトラブルになった時期と一致するんや。
このツイートから推測できるのは、サムがCEOを一時的に解任されたのは、常にQARに関係があるって噂されとったけど、QARっちゅうのはストロベリーの前のコードネームやな。サムが去年の10月にこの能力の構築を承認したんやないかって。
イリヤ・スツケヴァーが推論能力を率いとったけど、彼はそれに同意せんかったんやないかな。そして、너무早く進んでるって取締役会に注意を促したんやないかな。これがヌームのツイートから推測できる一つの可能性やな。
彼は「これは新しいスケーリングのパラダイムや。まだ始まったばかりや」って言うとるわ。
多くのタスクには推論は必要ないから、GPT-4は40はまだ多くの用途で好まれるやろうって言うとるな。でも、人々はこれを応用する方法を見つけるやろな。
これはプレビューで、まだ初期段階やって。間違いも起こるし、うまくいかない例をツイートする人もおるやろうし、「画期的じゃなかった」みたいなことを言う人もおるやろうけど、実際には、これらのものが何時間も、何日も、場合によっては何週間も考え続けるのを見ることができるんやって。
推論のコストっちゅう考え方があって、推論に時間をかければかけるほど、答えがよくなるんやって。
わたしは笑うてしもうたんやけど、『銀河ヒッチハイク・ガイド』みたいやな。あれで「宇宙の秘密はこれや」って言うて、コンピューターが「答えを出すのに750万年かかる」って言うやつあるやろ。まさにそんな感じで、コンピューターがじっくり考えて、それで答えを出すっちゅう考え方が現実になりつつあるんや。
彼らがどうやってやったかっちゅうと、強化学習のアプローチについて、たくさんの素晴らしい研究を共有しとるわ。数学、化学、物理、生物学でのベンチマークについても言及したな。
でも、ここで重要なのは、ポッドキャストで何度も話してきたように、考える時間をかけるっちゅうことなんや。何十、何百ものステップを踏んで処理できるんや。これはほんの始まりに過ぎへんのやろな。
多分、これが一番重要なポイントやと思うわ。今見えとるものが何であれ、これは推論モデルにとってのGPT-1の瞬間みたいなもんやな。今、これらのものが実際に推論できるっちゅう、ごく初期の段階におるわけや。
でも、次のモデルに向けて結構早く加速できそうやし、推論能力をスケールアップする自信もあるみたいやな。そしたら、信頼できるエージェントやイノベーター、最終的には自律組織への道が加速するわけやな。
今日試してみても、GPT-4.0でええやんって思うかもしれへん。そんなに良くなっとるようには見えへんかもしれへんな。でも、これはほんの始まりやっちゅうことを理解するのが大事やと思うわ。これらはどんどん賢くなっていくし、それも恐らくめっちゃ早く起こるやろな。
この議論をまとめる前に、今言うたことについてもう少し触れたいんやけど、イーサン・モリックっちゅう人も1ヶ月間o1にアクセスできて、最近その印象について書いとってん。彼も君が今言うたみたいに、このモデルの出力を評価するのは難しいって言うとるわ。特に、何に使うべきかとか、何を探しとるのかがわからん場合はな。
わたしが普通のビジネスのマーケティングリーダーやとしたら、これを試すのに何か役立つヒントとか、GPT-4に入れる普通のクエリーやプロンプトと比べて、何か見つけたことってあるか?
そうやな、やっぱり複数のステップが必要なもんやと思うわ。113回目のエピソードで話したと思うけど、ネット上には主に人間の知識のアウトプットしかないんやな。最終的な成果物はあるけど、人間の頭の中で10とか15とか20のステップを踏んで、その最終的な成果物を作るプロセスがないんや。
だから、わたしはそういう風に考えとるんや。わたしが試してみたいと思っとるのは、わたしたちのビジネスの2025年以降のことを考えるときやな。いくつかの課題や解決すべき問題、評価すべき機会があるんや。
だからわたしは、このモデルを使って、わたしたちのビジネスの未来を評価するための思考の連鎖を一緒に考えてもらおうと思っとるんや。正確にどんなプロンプトを使うかはまだわからへんけど、普段そういうことをするときは、メモ帳かGoogleドキュメントを開いて、決定に至るまでに考えることのリストを作るんや。
例えば、来年イギリスでカンファレンスを開催すべきかどうか決めたいとするやろ。アウトプットとしては、GPT-4.0に聞いてもすぐに「ここを考慮せなあかんで」みたいな答えは返ってくるやろな。それはシステム1の思考やな。
でも、o1を使うと、その決定に至るまでにたくさんのステップを踏んでくれるんやないかな。時間をかけて考えてくれると思うんや。
それがわたしが必要としとるもんなんや。普通やったら、コンサルタントに頼むようなことやな。マイクとわたしが座って、飲みながらブレインストーミングするみたいなもんや。そうするときは、頭の中でいろんな変数を考えとるわけやろ。
だから、本当の意味での戦略アシスタントや仲間として使えるんやないかってワクワクしとるんや。複雑なアイデアについて話して、たくさんの思考が必要なことを、一緒に考えてもらえるんやないかな。そうすれば、わたしがそういうアイデアを考えるプロセスを加速できるんやないかな。
もしかしたら、わたしが思いつかへんかったようなステップも示してくれるかもしれへんな。まだ試してへん人もおるかもしれへんけど、リスナーの皆さんに言うとくと、これは自分がやってるステップを教えてくれるんや。
「来年に向けてこれを評価したいんやけど、会社の成長のためにいろんな選択肢を考えたい」って言うたら、「わかりました。まずこれを考えましょう。次にこれを考える必要がありますね」って言うてくれるかもしれへん。質問してくれるかもしれへんし、もっと深く掘り下げるのを手伝ってくれるかもしれへんな。
わたしはそんな風に考えとるんや。イーサン・Mも良い例を挙げとったな。クロスワードパズルや数独みたいな、ステップを踏む必要があるものや。普通はアウトプットしか見えへんけどな。
次の大きなトピックに移ろうか。今週は、ちょっと注目されてへんけど面白いAI製品のアップデートがあってん。NotebookLMに関することなんやけど、これはGoogleのGemini 1.5モデルを使った、個人用のAIリサーチアシスタントなんや。
NotebookLMを使うと、仮想のノートブックを作って、文書やスライド、PDF、研究、ウェブサイトなど、あらゆるものをアップロードして整理して参照できるんや。Googleによると、1つのソースにつき50万語まで対応してるらしいわ。
ソースをアップロードしたら、NotebookLMはGemini 1.5 Proを使って、全てのソースの情報を分析して要約して、つながりを見つけてくれるんや。これは何かの研究タスクのためにいろんなソースを集めたときに使えるわけや。
で、Googleが新しく追加した機能がすごいんや。「音声概要」っちゅう機能なんやけど、名前は地味やけど、結果はちょっとクレイジーなんや。
NotebookLMの中のどんな資料でも、AIが生成した2人のラジオやポッドキャストのホストみたいな感じで、深掘りした音声会話をシミュレーションしてくれるんや。本当に、2人のリアルなホストが話してるみたいな感じで資料について話してくれるんや。
例えば、今日の収録前に、マーケティングAIカンファレンスのウェブサイトを入れてみたんや。今は2025年の日程を宣伝しとるやつやな。それを入れたら、数分で2人のAIホストが5分くらい会話するのを生成してくれてん。正直、本物の人間と聞き分けられへんくらいやってん。すごい自然な会話の流れとかキャデンスがあって、ほんまにすごかったわ。
ポール、君もこれにめっちゃ感動しとったよな。試してみたい人は、notebooklm.googleにアクセスして、ノートブックを作って、ソースを入れて、音声概要を生成してみてや。
今日は、まずこの音声概要機能についての君の印象を聞きたいな。それから、NotebookLMはその影響力からすると、あんまり注目されてへん隠れた優れたツールなんやないかって思うんやけど、どう思う?
そうやな、これは9月11日に出たんや。カンファレンスのちょうど真ん中やってん。でも、カンファレンス中もわたしはいつも習慣的にTwitterをチェックしとって、アップデートがないか見とったんや。これを見つけたときは、すぐにポッドキャストの今週の話題用のサンドボックスに入れて、自分にタスクを作ったわ。これをテストせなあかんって。
NotebookLMは去年の7月にGoogleラボの実験として出たんや。そのときに試してみて、これめっちゃ面白そうやなって思ったんやけど、もっと深く掘り下げんとなって思ってん。それで、過去6ヶ月くらい、NotebookLMをもっと試すっちゅうタスクがあったんや。可能性がたくさんありそうやったからな。
でも、この機能が出るまでは本気で使ってみようと思わんかってん。今日の話題リストに入れとったんやけど、今朝実際に試してみたんや。最初にやったのは、OpenAIのo1の安全性カード、つまりシステムカードを入れてみたんや。どんな感じか見てみようと思ってな。
これ、48ページのPDFなんやけど、入れて30秒後には、突然いろんなことができるようになったんや。FAQを作ったり、文書内にタイムラインがあればそれを抽出したり、学習ガイドを作ったり、ブリーフィング文書を書いたりできるんや。
提案された質問も出てくるし、チャットGPTみたいに会話もできるんや。検索拡張生成、つまりRAGモデルみたいな感じで、文書と会話できるんやけど、全てが引用付きで、実際にソースを分割画面で表示して、引用がどこから来たかハイライトしてくれるんや。事実を確認できるわけや。
でも、君も言うたように、本当にすごいのは、最初に音声概要を作ったときなんや。再生し始めると、男性と女性の声で話し始めるんやけど、めちゃくちゃ会話らしいんや。
明らかに、中学生か高校生くらいのレベルに合わせて調整されとるんやけど、複雑なトピックを取り上げて、アナロジーを使ったり、つなぎ言葉を使ったりして、本当に実際の会話みたいに聞こえるんや。めっちゃ価値があると思ったわ。
最初のを聞いたとたん、「うわ、すごい」って思ってん。それで、うちのAIマーケティングの現状レポートを入れてみたんや。これはわたしがよく知っとるもんやからな。新しいノートブックを作って、チャットで会話して、音声を作ってみたんや。
正直、これは今まで試したAI製品の中で最も印象的なもんの一つやわ。デモですらないんや。これは本物の製品なんや。Googleはまだ実験的って言うとるけどな。
LinkedInで少し触れたんやけど、2年前に誰かがこの製品を作ってたら、シードラウンドで1億ドル集められたんやないかな。それくらい変革をもたらす可能性のある製品やと思うわ。
大げさに言いたくないんやけど、これは本当に変革をもたらす可能性のあるツールやと思うわ。すぐに思ったのは、君とわたしはいつも決算発表を見とるやろ。会社のCEOとして、財務レポートや分析レポートを見るし、週に3〜5本の研究論文を見るし、ポッドキャストの書き起こしも見る。
ポッドキャストをやったり、ビジネスを運営したり、仕事をしたりするのに、いろんなことをしとるわけや。君はチーフコンテンツオフィサーやし、わたしはCEOやけど、正直言うて、これからはこのツールを使わずにこれらのことをすることは想像できへんわ。
すぐに思ったのは、「うわ、なんでもっと早くこれをやらんかったんやろ」ってことや。音声のやつはめっちゃすごいけど、それはおまけみたいなもんで、全体的にすごいんや。
娘と最近、チャットGPTの使い方を教えとってん。12歳の子が能力を高められるような、機能的で補助的な使い方をな。これは即座に個別学習ツールになると思ったわ。
これからは、子供たちが何かを学ぼうとして苦戦しとるとき、あるいはわたしが何かの概念を説明しようとしてるとき、「ソースを探して、ここに入れて、話してみよう」って感じでできるんや。複雑なトピックについて、一緒に10分のポッドキャストを聞くこともできるし。めちゃくちゃすごいわ。
まだ試してへん人は、自分で見てみんとわからんと思うわ。繰り返すけど、大げさに言いたくないんやけど、これに月20ドル払ってもええと思うわ。
今はGeminiの一部やけど、使い方が明確になったら、つまり、多くのAI企業が苦労してる部分やけど、月20〜30ドル払う価値のある、めちゃくちゃ価値のある3〜5個の使い方が見つかったら、わたしは1ヶ月以内にこれをワークフローに組み込むと思うわ。
perplexityやチャットGPT、Google Geminiがもう組み込まれとるのと同じようにな。これはめちゃくちゃワクワクするわ。わたしたちはよく難しい技術的な情報を分析して、理解しようとするやろ。これはそういう作業の重要な部分になると思うわ。
マイク、君も今朝試してみたよな。どう思った?
そうやな、最近はそうそう驚くことないんやけど、この音声が内容をカバーしてるのを聞いたときは、正直言うて驚いたわ。特に、細かいところがすごかったな。2人のホストがうちのイベントについて話して、スピーカーの経歴に触れたり、「このイベントに参加してる企業の多様性を見てみ」みたいなことを言うてたり。これはウェブサイトには書いてへんことやで。もう一人が「ほんまやな、わたしも見たわ」みたいに応答するんや。めっちゃすごいわ。
それに気づいたのは、今はアクセスできへんけど、音声機能がどれだけ進んでるかってことやな。それがずっと頭に残ってたわ。AIの高度な音声モードがそのうち来るって知っとるやろ。Googleは明らかに高度な音声機能を持っとる。
これらの研究所が、わたしたちが今アクセスできるものよりどれだけ先を行ってるか、ほんまによくわかるわ。今週のMAICONでのインタビューでも聞いたやろ。アンディ・サックとアダム・ブロットマンが、GPT-4の存在が知られる何ヶ月も前に、リード・ホフマンと会ったときの話をしとったな。
ビル・ゲイツも同じ話をしてたし、Dscriptのアンドリュー・メイソンも同じ話をしてた。彼とサムは友達やから、チャットGPTが出ることすら誰も知らんかった頃に、サムがGPT-4へのアクセスを与えたって。
これは、これらの研究所に6〜12ヶ月先の高度な機能が存在してるってことを再確認させるわ。わたしたちはまだ見てへんけどな。でも、この音声概要を聞くと、未来を垣間見てるような感じがするわ。
それが応用されたら…わたしが何度も思い返したのは、子供たちのための個別学習や、本当にどんな学生にとっても、プロの環境でも、複雑なトピックを10分で分かりやすくまとめたものをすぐに手に入れられるってことや。これはほんまにすごいことやと思うわ。その影響力は計り知れへんな。
そうやな、ほんまにすごいわ。今週のポッドキャストから一つだけ持ち帰るものがあるとしたら、これを試してみることやな。
よし、最後の大きなトピックは、もう何回か触れたけど、マーケティングAIカンファレンス、MAICON 2024が終わったってことや。先週、オハイオ州クリーブランドで開催されて、これまでで最大かつ最高のカンファレンスやったわ。参加してくれた皆さん、本当にありがとうございました。
ポール、このイベントの重要性、参加者数、観客の反応、君が感じたことについて、少し話してくれへんか?それから、締めくくりの基調講演で、君とわたしがAIを使って、セッションや基調講演の内容をまとめて、観客が自分たちのAIアクションに活かせるような重要なポイントを見つけ出したやつについて、簡単にまとめてみようと思うんやけど、どうやろ?
そうやな、113回目のエピソードの冒頭を聞いた人は、MAICONの背景を聞いたと思うわ。聞いてへん人は、そこに戻ってMAICONの起源についての話を聞いてみてや。
先週のイベントで、多くの人が近づいてきて、そのエピソードがどれだけ意味があったかを教えてくれたことにめっちゃ感謝しとるわ。特に多くの起業家が、クリーブランドに1100人近くを集めるイベントに至るまでの、直線的やない道のりの内側を見れたことに感謝してくれたわ。
113回目で言うたように、起業は大変やし、すぐにはうまくいかへんのや。
わたしたちにとって、素晴らしい講演者やボランティアの集まりやったわ。ケリー・ウェッツェルっちゅう素晴らしいイベントパートナーがおって、運営を実現して、世界クラスの体験を作り出してくれたんや。
でも、マイク、君も同じように感じたと思うんやけど、何度も心に響いたのは、形成されたコミュニティと、みんながどれだけ協力的で競争的やないかってことやな。みんながお互いを助け合っとるんや。
みんなが信じられないほど温かく、支援的で、耳を傾けてくれたわ。多くの人から、AIの旅路のどの段階にいるかっちゅう話を聞けて良かったわ。
集まった観客がすごかったわ。わたしはイベントを運営しながら、5つのセッションをこなさなあかんかったから、全体を見渡すのは難しかったんやけど、できるだけ多くの機会に立ち止まって、全体を見渡そうとしたわ。
こういうものを作り上げてきた旅路を振り返って、それが少し独り歩きし始めるのを見るのは、すごく感慨深いもんやった。多くの素晴らしい講演者を見て、セッションの評価も非常に高くて、異なるセッションが人々に与えた影響についての comments はほんまに素晴らしかったわ。
マイクが言うたように、締めくくりの基調講演のアイデアは、この「AIの実践」っちゅうまとめをすることやってん。50人以上の講演者からの洞察と、様々な参加者から学んだことを集めて、AIの技術を使って整理しようと思ってん。
計画を立てて実行したんやけど、ストロベリーが出てきて少し予定が狂うてしもうてん。でも、なんとかやり遂げたわ。マイク、君がこのイベントのビジョンを作り上げた後、本当に頑張ってくれたな。どんな風にAIが役立ったか、そして主な洞察について少し話してくれへんか?
もちろんや。AIがめっちゃ役立ったんやけど、ほとんどリアルタイムでやったんや。スライドを作るのに少し時間がかかったけどな。
Goldcastっちゅう素晴らしいパートナーがおって、彼らのイベント運営用のAI機能がめっちゃ役に立ったわ。その一つが、リアルタイムの文字起こしと要約機能やってん。メインセッションごとに、いい感じにまとめられた3ページくらいの要約をもらえたんや。
それらを全部取って、全ての書き起こしをGemini 1.5 Proに入れたんや。でも、ただ「はい、Gemini、仕事してください」って言うんやなくて、「ポールの開会の基調講演で、マーケティングの未来に関連する10の質問をしたんやけど、これらの質問について、イベントの文脈や我々が達成しようとしてることを踏まえて、どう答えられるか教えてくれ」みたいな感じで聞いたんや。
もちろん、締めくくりの基調講演は45分くらいやったから、ここで全部は話せへんけど、いくつかのポイントを簡単に紹介したいと思うわ。
最初の、そして最も重要な質問は、ポールが投げかけた「次世代のAIモデルは、あなたやあなたのチーム、あなたの会社にどんな影響を与えるか」っちゅうものやってん。ポールの基調講演でのこの引用が紹介する価値があると思うわ。「LLMは、これから来るものの基盤に過ぎない」って。
これは明らかに、カンファレス全体のテーマの一つやったな。チャットGPTから始まったテキスト入力テキスト出力モデルは、マルチモーダルや推論能力、エージェント能力の基礎になるだけやなくて、本当の意味での汎用人工知能(AGI)の追求の基礎にもなるんやっちゅうことやな。これがポールの講演の焦点やったし、議題の多くの部分がこれらのモデルがどこに向かっているかっちゅう話をするのに役立ったわ。
もう一つの大きな質問は、「AIはマーケティング戦略と予算にどんな影響を与えるか」やってん。ポール、ステージで話したと思うんやけど、みんながもっと少ないリソースでもっと多くのことができるし、そうすることが期待されるようになるっちゅう考えやな。
ポール、君が基調講演か、パネルディスカッションのどっちかで少し触れたと思うんやけど、近いうちに、もしかしたらすぐにでも、1人で10億ドル規模のビジネスを始める人が出てくるかもしれへんって話やったな。それを聞いた後、何人もの人が近づいてきて「それ、わたしもやってみたいわ」って言うてたで。
そうやな。また予算の季節が近づいてきとるからな。これを聞いとる人で、組織内で予算やP&Lを管理しとる人は、来年の予算をどこに使うか、どんな戦略を採用するか、それに関連してHRやorg chartをどうするかって考えとると思うわ。
この数日間、そういう話がたくさん出てたな。わたしたちは非常にダイナミックな局面に入っとると思うわ。少ないリソースでもっと多くのことができるようになるし、うちのSmarterXについても、そうやな。AIリサーチ&コンサルティング会社の立ち上げを発表したときに、リサーチ会社のあり方を再考したいって思ったんや。
今日話したNotebookLMのことを考えてみ。AIネイティブなリサーチ会社の一部としてな。これらは、人々が年間何十万ドルも払ってる仕事やで。トップレベルの研究者は安くないからな。
戦略や予算について考えるとき、マーケティングの観点だけやなくて、ビジネスの観点から考えて、今どんな技術が使えるかを考えると、可能性を再考できるんや。これも繰り返しのテーマやったな。すでにあるものを壊すんやなくて、ゼロから効率的でクリエイティブなものを作り上げるっちゅう考え方や。
だから、少ないリソースでもっと多くのことをするっちゅうのは、AIが何ができるかを本当に理解して、適切に応用すれば、ほとんどの組織が来年実行できることやと思うわ。
最後に、「マーケティングの仕事はどう変わるか」っちゅう質問があってん。ポール、君の基調講演でAGIへの道のタイムラインを示したよな。そこでの一つのマイルストーンが、2025年から2027年の間に「知識労働の混乱が、より具体的で測定可能になり始める」っちゅうものやってん。
これは、このトピックをまとめるのにぴったりやと思うわ。なぜこのイベントが重要なのか、なぜコミュニティが重要なのかを本当によく表してるわ。これらの技術は加速しとって、人々に影響を与え始めるところにめっちゃ早く到達しそうやな。
わたしの理論では、本当の意味でのエージェント、真のエージェントが…面白いのは、ベニオフがエージェントフォースって呼んでるものが、わたしたちが考えるようなエージェントかどうかわからへんのや。
MAICONのエピソードで言うたと思うんやけど、これらのルールベースのエージェントがエージェントと見なされとるけど、わたしが考える本当の意味でのエージェントは、推論や思考の連鎖を経て行動を起こせるようなものやと思うんや。
今年見るのは、たくさんの実験や、エージェントについての話やと思うわ。でも、本当に人間と同じかそれ以上の信頼性と正確性を持つようになるのは、1〜2年先やと思うわ。
エージェントが本当にビジネスやワークフローの不可欠な部分として機能し始めたとき、労働力に本当の混乱が起き始めると思うわ。だからこそ、Jobs GPTを作ったんや。覚えとるかな?数エピソード前の話やけど。
エクスポージャーキーを取って、1〜2年後にこれらのものが推論能力や説得力を持つようになって、最初からマルチモーダルになるって考えると、本当の意味での自動化や混乱にさらされる仕事が出てくるわけや。
だから、まだ少し時間はあると思うわ。でも、来年からエージェントが仕事を混乱させ始めるのは、かなり早く進むと思うわ。
よし、残り時間でいくつかのトピックをめっちゃ早く見ていこうか。
まず、Bloombergによると、OpenAIが65億ドルの株式資金調達の交渉をしとるらしいわ。企業価値の評価額が1500億ドルやって。この評価額は、現在の評価額860億ドルよりもかなり高いな。
株式資金調達に加えて、OpenAIは50億ドルの負債ファイナンスの交渉もしとるらしいわ。
ポール、前の週にOpenAIの資金調達の噂について話したよな。前回話したときは1000億ドルの評価額やったと思うわ。君は、次世代のフロンティアモデルを作るのに必要な巨額の投資のために、十分な資金を確保せなあかんって言うてたよな。
もしこの数字が正確なら、Bloombergの早期レポートやけど、65億ドルの株式と50億ドルの負債を合わせて、これで十分やと思う?
1、2エピソード前に言うたと思うんやけど、当時噂されとった1000億ドルでも、50億ドルでも、まだ低すぎるように思えるわ。
これが最終的な数字になるかもしれへんけど、レポートが出るたびに少しずつ高くなっとるな。もしこれが実際の数字になって、株式で65億ドル、負債で50億ドル、合計115億ドルで、企業価値が1500億ドルになるとしても、どこかにもっと話があるはずや。
わたしの意見では、これらの数字はまだ小さすぎるわ。特に調達額がな。115億ドルじゃ何もできへんで。100億ドルではGPT-5.5の学習もできへんやろ。
だから、この話にはもっと裏があると思うわ。どんなもんかは待って見んとわからへんけどな。
次は、前に話したことがある会社やけど、Hume AIっちゅう会社が、EV2っちゅう新しい音声対AIモデルを発表したんや。EVIは「Empathic Voice Interface」(共感的音声インターフェース)の略やな。
EV2は感情的知性に焦点を当ててて、サブ秒の応答時間で流暢な音声会話ができるんや。また、様々な声のトーンや個性、アクセントを理解して生成できるし、会話の相手の話す速度に合わせることもできるんや。
つまり、これは単に人間のような自然言語で話すだけやなくて、相手の感情的な好みを予測して適応することを目指してるんや。
EV2は現在ベータ版として、アプリとAPIの両方で利用可能やって。今回のリリースは「EV2 small」って呼ばれとって、新しいバージョンの「EV2 large」は開発中で、将来発表される予定やって。
ポール、「感情的に知的な」AIってどれくらい重要やと思う?わたしは、Humeの話を自分のトークの中で例として挙げたんやけど、人の感情状態をそこそこ上手に理解して、それに応じて反応できるAIっていうのは、ビジネスでの応用がたくさんありそうやけど、悪用される可能性もあるよな。
そうやな、わたしの基調講演で「人間にしかできないものは何か」っちゅうスライドがあってん。重要な問いは、「AIが人間と同等かそれ以上のレベルで達成したり、シミュレートしたりできないものは何か」っちゅうことやな。
ここで「シミュレート」が本当に重要なキーワードなんや。感情についてやけど、AIには感情はないやろ。人間のような感情を持つAIへの道筋は今のところ見えへんわ。
でも、感情をシミュレートしたり理解したりすることはできるんや。これが重要なポイントで、実際に感情を持つ必要はなくて、感情を「理解」してシミュレートできればええんや。
これは、わたしが完全に予想してたことの一つやな。このモデルだけやなくて、他のフロンティアモデル企業も、この感情的知能をモデルに組み込むやろうって。
これは非常に微妙な問題やな。素晴らしいものになる可能性もあるし、ビジネスでは非常に役立つかもしれへん。でも、倫理的な境界線をすぐに越えてしまう可能性もあるわ。
でも、これはもう元に戻せへんと思うわ。人々や企業がこれをやり始めるやろうしな。
だから、これを強く支持してるわけやないし、めっちゃワクワクしてるわけでもないんやけど、これがAIモデルの一部になって、社会の一部になることは現実的に考えんとあかんと思うわ。
NotebookLMの話に関連して興味深いのは、これはそういう機能はないけど、あの音声の中に感情的知性のレベルや豊かさ、ニュアンスがあって、OpenAIの音声と話すのとは全然違う感じがするってことやな。これがどんな風に聞こえるか、ちょっと不気味な感じがするかもしれへんな。
ところで、1、2個前のトピックに戻るけど、OpenAIの次のモデルは「Orion」って噂されとるんや。この名前は先週の記事の一つに出てきてん。
サム・アルトマンのことやから、9月13日、つまりカンファレンスの翌日の金曜日やったと思うんやけど、彼はセントルイスの母校で何かの講演をしてて、こんなツイートをしてん。
「ミッドウェストに帰ってくるの大好きや。夜空がほんまに美しいわ。冬の星座が昇ってくるのが楽しみやな。ほんまにすごいで。」
サムらしい感じで、オリオンがもうすぐ来るっていう意味やな。たぶんGPT-5の新しい名前やと思うわ。少なくともコードネームはオリオンやと思うわ。本当にそう呼ぶかどうかはわからへんけどな。
他にも面白いのがあってん。すぐには見つけられへんかもしれへんけど、サムに関連した話題の間に…ああ、見つけた。誰かが「o1をリリースしたのはええけど、高度な音声モードはいつ出るんや」みたいなこと言うてて、サムがこう返事したんや。
「数週間くらい、空から降ってきた驚異的な知能に感謝してから、また新しいおもちゃが欲しいって言えよ」みたいな。
「空からの魔法の知能に2週間くらい感謝してから、また新しいおもちゃをねだってもええで」っちゅうのが正確な言葉やな。めっちゃ面白いわ。
もしかしたら、わたしたちが言葉尻を捉えすぎとると思うかもしれへんけど、今年の早い時点で、庭でイチゴを育てとる写真を投稿して、「今年の収穫が楽しみや」みたいなことを言うとったんや。
そうやな、彼らが何か持っとるのは間違いないわ。彼は…
よし、次に行こうか。Hey Genっちゅう会社、何回か話したことある有名なAIビデオ生成会社やけど、Avatar 3.0をリリースしたんや。これは彼らのAIアバターの最新バージョンや。
これらは完全にAIで生成された、めっちゃリアルに見える個人が、ビデオやライブストリームでナレーションするんや。創業者のジョシュア・シューがXで投稿したところによると、「わたしたちのアバターは、単なる口の動きの同期を超えて、初めて全身のダイナミックな動きを特徴としています。アバターの表情や声のトーンは、スクリプトに完璧に合わせて動的に生成されます。」
つまり、これらはかなり進化したアバターで、ビデオのナレーションができて、言葉のニュアンスを理解して、表情を使ったりできるんや。
Hey Genによると、これの使用例としては、AIのSDR(営業開発担当者)、AIアバターを使った企業研修のスケールアップ、カスタマーサポートの拡大、AIチューターの作成なんかがあるらしいわ。
これは、こういうコンセプトやHey Genについて初めて話すわけやないけど、ポール、ビジネスの文脈でAIアバターが本当に普及してるのを見たことあるか?きっと使われとると思うけど、わたし自身はそれに触れたことがないわ。セールスメッセージをそれから受け取ったりしてへんし。
そうやな、よく話題になるけど、実際にどう使われとるのか、Hey Genがどれくらい採用されとるのかはわからへんな。
メディアの注目を集めて、Twitterでも話題になって、それでたくさんの資金を調達するんやろうけど、結局は収益モデルが見つからんくて、買収されるんやないかな。
Hey Genや会社、あるいは彼らの方向性に対して何も言うつもりはないけど、エンタープライズソフトウェア市場でこれの需要がどこにあるのかわからへんのや。
オンラインのインフルエンサーとか、TikTokやYouTubeでフォロワーを何百万人も集める方法を見つけた人には使えるかもしれへんけど、ビジネスの環境では3ヶ月くらいは面白がられるかもしれへんけど、その後は「そのバカみたいなアバター送ってくんなよ。電話して直接話せよ」ってなるんやないかな。
人間味のある方が、最終的にはこの方向性を時代遅れにするんやないかな。完全に間違っとるかもしれへんけど、個人的には、アバターにセールスされたり、アバターに育成されたりするのに全く興味がないわ。そんなの絶対うまくいかへんで。
そうやな、Zoomの AI ミーティングの話をしたときみたいに、電話に出られへんなら、わざわざアバター使う意味あるんかって感じやな。
次に、Gleanっちゅう AI スタートアップが、シリーズEで2億6000万ドルの資金調達をしたんや。企業価値が46億ドルになったらしいわ。彼らは「仕事のためのGoogle」って呼んでる生成AIを使ったものを作っとるんや。
Gleanは基本的に、企業向けのAIパワード検索プラットフォームや。従業員がアプリ、文書、メール、その他の企業の知識をまたいで情報を見つけたり発見したりするのを助けるんや。
チャットベースの検索ができて、個々の顧客向けに訓練された小規模言語モデルを活用して、企業特有のコンテキストや知識を本当に理解できるんや。
この企業向けっちゅうのが彼らの強みみたいやな。企業特有のセキュリティやガバナンス機能があるからな。
Fortuneによると、この新しい資金調達で、会社の価値が6ヶ月前の2倍になったらしいわ。
ポール、Gleanはこの企業向けAI検索市場でめっちゃ大きなプレイヤーみたいやな。既存の顧客もたくさんおるし、勢いもあるみたいや。この問題ってどれくらい大きいんやろ?なんでAIでこれを解決せなあかんの?
この会社の創業者の一人は、2014年か2015年より前にGoogleで働いとったんやないかな。
正直言うて、この会社については表面的にしか見てへんのや。先週サンドボックスに入れたけど、わたし自身はまだ詳しく調べてへんわ。
かなりの金額やな。この評価額を正当化するほど、まだ解決されてへん問題があるとは思えへんのやけどな。
でも、わからへんわ。「仕事のためのGoogle」?Geminiがワークスペース向けに出とるのに、これって必要なんかな?もしGoogleのアプリを使っとるんやったら、それで十分やないんかって。
チャットベースで小規模言語モデルを使うっちゅうのは…まあ、彼らがやっとるのは、小規模モデルアプローチを取って、それを企業のデータで調整してるんやろうな。そういう市場はかなり大きいかもしれへん。Googleが参入したくない市場なんかもしれへんし。
そやな、2億6000万ドルのシリーズEっちゅうことは、資金調達の面ではかなり進んでるってことやな。何か確実な成果があるんやろう。ちょっと注目しとかなあかんな。
次は、World Labsっちゅう新しいAI企業があって、空間知能に焦点を当てとるんや。かなり重要なAI関係者が後ろについとるから、注目に値するわ。
World Labsの中心的な使命は、「大規模世界モデル」(LWM)っちゅうものを開発することなんや。これは3D世界を知覚し、生成し、相互作用するように設計されたAIシステムや。
この会社は、空間知能、つまり3次元の空間と時間における物体、場所、相互作用を理解し、推論する能力が、AIの発展における次の重要なステップやと考えとるんや。
これが重要な理由は、この会社を率いとるのがFei-Fei Liやからや。彼女は先見の明のあるAIのパイオニアで、コンピュータービジョンの分野で革新的な仕事をたくさんしてきたんや。
他にも、コンピュータービジョンやグラフィックスの有名な専門家たちが加わっとって、2億3000万ドル以上の資金を集めとるんや。Jeff HintonやAndrej Karpathyみたいな、わたしたちがよく耳にするAIの声も投資しとるらしいわ。
ポール、この会社やアプローチが重要な理由を説明してくれへんか?
Fei-Fei Liを知らん人もおるかもしれへんな。彼女は一般的に「AIのゴッドマザー」って呼ばれとるんや。
ちょっと彼女のプロフィールを読んでみるわ。スタンフォード大学のコンピューターサイエンス学部の教授で、スタンフォードの人間中心AI研究所の共同ディレクターや。2013年から2018年までスタンフォードのAI研究所の所長を務めてた。休暇中にGoogleに行って、Google CloudのAI/MLの副社長兼チーフサイエンティストをしてたんや。
300以上の科学論文を発表しとるんやけど、AIの歴史の中で最も重要なのは、ImageNetっちゅうものと、ImageNetチャレンジを発明したことやな。
ImageNetは、AI アルゴリズムのトレーニングのための、1400万以上の手動でアノテーションされた画像の重要な大規模データセットとベンチマーキングの取り組みで、今日のディープラーニングの動きに貢献したんや。
2009年、2010年くらいに戻ってみると、コンピュータービジョンは今のレベルには全然近くなかったんや。物体を明確に認識することができへんかってん。彼女が率いて作ったこの手動でアノテーションされた画像のトレーニングセットのおかげで、コンピューターが物体を学習し始めることができたんや。
この1400万の画像は、物体、動物、シーン、その他のカテゴリーを含む2万のクラスに分類されとるんや。今日では、iPhoneで「木」や「犬」を検索したら自動的に写真の中からそれらを認識するのが当たり前になっとるけど、13年前にはそれは不可能やったんや。
2012年のImageNet コンペティションが転換点やってん。ここでディープラーニングが飛躍的に進歩したんや。AlexNetっちゅう深層畳み込みニューラルネットワークが作られて、他のすべてを圧倒的に上回るパフォーマンスを示したんや。
AlexNetはAlex KrizhevskyとIlya Sutskeverが作ったんや。そう、あのIlyaやな。それにJeff Hintonもおったな。この話を聞きたかったら、めっちゃ面白いから、Cade MetzのGenius Makersっちゅう本を読んでみ。プロローグからこの話から始まっとるんや。
ちょっと抜粋して読んでみるわ。
「Hintonは新しい会社を作った。彼の研究室にいた若い大学院生2人も含まれとった。この会社は製品を作らず、製品を作る計画もなく、ウェブサイトには名前以外何もなかった。DNN Researchっちゅう名前で、ウェブサイトよりもさらに魅力的じゃなかったな。
2ヶ月前、HintonとPその学生たちは、機械が世界を見る方法を変えたんや。彼らは、脳内のニューロンのネットワークをモデルにした数学的なシステム、ニューラルネットワークを構築して、花や犬、車などの一般的な物体を、それまで不可能だと思われていた精度で識別できるようにしたんや。
Hintonと彼の学生たちが示したように、ニューラルネットワークは大量のデータを分析することで、この非常に人間的なスキルを学習できたんや。彼はこれをディープラーニングと呼んだ。その可能性は膨大やった。コンピュータービジョンだけでなく、会話型デジタルアシスタントから自動運転車、薬の発見まで、あらゆるものを変革する可能性があったんや。
ニューラルネットのアイデアは1950年代にさかのぼるんやけど、初期のパイオニアたちは期待したほど上手く機能させることができへんかってん。新千年紀までに、ほとんどの研究者はこのアイデアを諦めてしもうてん。技術の行き詰まりやと確信して、これらの数学的システムが何らかの形で人間の脳を模倣しているという50年前の考えに困惑してたんや。」
マイク、わたしたちがいつも言うてるように、AIは1950年代からあるんや。これは新しいもんやないんや。でも、ディープラーニング、つまり機械に人間のような能力、理解、視覚、言語の能力を与える能力、これは新しいんや。
続けて読むと、
「Hintonは、ニューラルネットが最終的にはその約束を果たすと信じ続けた数少ない人の一人やってん。物体を認識するだけでなく、話し言葉を識別し、自然言語を理解し、会話を行い、さらには人間が解決できない問題を解決する機械を実現すると信じとったんや。生物学、医学、地質学、その他の科学の謎を探求する新しくてより洞察力のある方法を提供するかもしれへんって。今日の状況にめっちゃ関係あるよな。」
そして最後にこう書いてあるわ。
「2012年の春と夏、HintonとPその2人の学生は大きな飛躍をしたんや。ニューラルネットワークが一般的な物体を他のどんな技術よりも高い精度で認識できることを示したんや。その秋に発表した9ページの論文で、彼らはこのアイデアがHintonが長年主張してきたほど強力であることを世界に知らせたんや。」
それから、彼はその会社をGoogleに4400万ドルで売ったんや。Ilya SutskeverとJeff Hintonはそれからグーグルで働き始めたんや。そしてそれが最終的に、Ilyaがグーグルを離れてサムとイーロン・マスクと一緒にOpenAIを設立するきっかけになったんや。Jeff Hintonは去年までグーグルにおったけど、モデルが今や社会にとって脅威になったと考えて、自分の人生の仕事を後悔して辞めたんや。
時々面白いのは、なぜこれが重要なのかっちゅうことや。それはFei-Fei Liがこれら全てのど真ん中におったからや。今、彼女は空間知能のために同じことをしようとしとるんや。彼女が画像とコンピュータービジョンに対してやったことを。
もし彼女がこれを成功させて、彼らはもう進展を見せとるんやけど、10年後にはこの瞬間を振り返って、「ああ、彼女がこれを始めたときに、全てが始まったんや」って言うことになるかもしれへんな。
Fei-Fei Liがこのレベルの何かをするとき、歴史を見ると、注目せざるを得へんのや。たくさんの歴史がここにあるわ。
よし、次に行こう。Salesforceが新しいリソースをリリースしたんや。AI Use Case Libraryっちゅうんやけど、これはSalesforceの顧客が特定の業界向けのすぐに使える使用例のコレクションを素早く学んで、自分のSalesforceインスタンスでどうやって有効にするかの説明にアクセスできるもんや。
このAI Use Case Libraryページの任意のカードをクリックすると、Salesforceインスタンスを使ってその使用例を有効にする方法を正確に見ることができるんや。
例えば、「セールスピッチの生成」みたいなものをクリックすると、Salesforce内のアクションやプロンプトテンプレートを使って、まさにそれをどうやるかの詳細が全部表示されるんや。
ポール、わたしだけかもしれへんけど、これはかなり価値のあるアプローチやと思うわ。デモ動画やオンボーディング教育だけでは十分やないって感じることがあるんや。使用例を通して人々の手を引っ張るっちゅうのは、わたしたちが話す多くの人に響くみたいやな。どう思う?
そうやな、わたしたちがいつも企業に言うとるのは、ただツールをオンにするんやなくて、その人に高度にパーソナライズされた3〜5個の使用例を与えて、言語モデルの可能性の海を与える前に、まずそれらをマスターさせるってことやな。
だからこのアプローチは好きやわ。来週はもっとSalesforceについて話すことになるかもしれへんな。今週Dreamforceが開催されとって、Agent Forceが全開やからな。たくさんのForceやな。
次のトピックに行こうか。Googleが「Data Gemma」っちゅうものを発表したんや。これは、生成AIの最も差し迫った課題の一つ、つまり幻覚(自信を持って不正確な情報を提示すること)に取り組むように設計された画期的なAIモデルや。
Data Gemmaは、LLMを実世界の統計データに基づかせることで、この問題を減らすことを目指しとるんや。その中心にあるのがGoogleのData Commonsっちゅうもので、これは2400億以上のデータポイントを持つ公共情報の巨大なリポジトリなんや。
これは知識グラフで、国連やWHO、様々な国勢調査局など、信頼できる広範なデータセットからデータを取得しとるんや。
基本的に彼らがやろうとしとるのは、RIG(Retrieval Interleaved Generation)っちゅうものを使うんや。これは積極的に信頼できるソースに問い合わせて情報をファクトチェックするんや。それと、RAG(Retrieval Augmented Generation)っちゅうもの、これはわたしたちが前に話したことあるやつやな。
これを使うと、数値的な事実を扱うときに言語モデルの正確性を大幅に向上させることができるんや。Googleは既にいくつかの励みになる予備結果を報告しとるらしいわ。
これは全て、GoogleのGemmaファミリーの軽量なオープンソースモデルの上に構築されとって、Data Gemma自体もオープンモデルなんや。
ポール、この研究は非常に重要なポイントを強調してると思うんやけど、幻覚は大きな問題やけど、解決できへんとか、採用や信頼の永続的な障壁になるって言う人もおるんや。これを見ると、そうやないかもしれへんって感じがするな。どう思う?
そうやな、思い出したんやけど、サンダー・ピチャイが今年の春の60 Minutesの特別番組で幻覚について聞かれたとき、たしかこんな風に言うてたと思うわ。彼らはこれを解決可能な問題として追跡しとるって。
ほとんどすべての研究者から聞いとるのは、彼らは幻覚を人間のレベルをはるかに超えて克服する可能性が高いってことや。人間だってよく間違えるし、嘘をつくし、人を説得するためにフィクションを作り出すこともあるからな。
わたしの予想では、2年以内にこれらのモデルは平均的に人間よりもずっと信頼できるようになるんやないかな。分布で言えば、基本的にそういうことやと思うわ。
だから、驚いてはいないわ。今後12ヶ月の間に、幻覚を排除するか劇的に減らすことに関して、もっと多くの研究論文が出てくると思うわ。
よし、今日の最後のトピックや。スタンフォード大学の研究者たちから新しい論文が出たんやけど、大規模言語モデルが専門家レベルの斬新な研究アイデアを生成できるかどうかを調査したんや。
著者たちは100人以上の研究者を巻き込んで大規模な研究を行って、LLMが生成した研究アイデアと人間の専門家が提案したものを比較したんや。
この研究は特にNLP(自然言語処理)研究に焦点を当てたんやけど、この特別に設計された実験では、AIが生成したアイデアが人間の専門家のアイデアよりも著しく斬新だと判断されたんや。これは複数の統計的検定や評価方法を通じて一貫して見られたんや。
研究ではまた、AIのアイデアは実現可能性の面で人間のアイデアよりもわずかに低く評価されたんやけど、この差は統計的に有意ではなかったんや。
ポール、これは一つの研究で、特定の分野の話やけど、OpenAI o1のようなシステムの影響を完全に示してるように思うわ。十分に進化したAIシステムがAI研究を加速させる可能性があるってことやな。どう思う?
全然驚かへんわ。AIが独創的なアイデアを生み出せるとか、少なくとも人間が苦労するようなアイデア間のつながりを見つけられるっちゅうことを裏付ける研究が、これからもどんどん出てくると思うわ。
だから、この研究結果に全然驚いてへんわ。もっと出てくると思うで。
ここでランダムに言うておくけど、GoogleがポッドキャストのGoogleドキュメントを使っとる最中に突然ログアウトされて、パスワードを必死で探して流れを保とうとするっちゅう問題を解決してくれることを願うわ。まったく。
AIが「使用中にログアウトしないで」っちゅう機能を解決してくれたらええのにな。スライドを使っとるときにログアウトされるのも…
驚いてへんわ。もっと見ることになると思うし、もう一つ急いでラピッドファイアのトピックを追加しとくわ。
昨日、20 Minute VCポッドキャストのハリー・ステビングスがこんなツイートをしてん。
「以前は当たり前やったGoogleで検索する行動が、perplexityにこんなに早く取って代わられるなんて、本当に驚いたわ。こんなに自然で、ずっと良くなってる」
そして、アービンっちゅうCOOで創業者をタグ付けしてた。
わたしは返信したんやけど、面白いことに、その日の早い時刻に、友人のマーク・シェーファーがベネチアにおって、ベネチアがどれだけ素晴らしいかって言うてたんや。わたしは今年の夏そこに行ってたから、なぜ聖マルコがベネチアの守護聖人になったかっちゅう面白い話を学んだんやけど(今はその話はせえへんけど)、マークに「Googleで調べてみ」とか「perplexityで調べてみ」とか言いたかってん。
で、「perplexityで調べる」の動詞って何やろって思って。だからハリーのツイートを見たとき、9月15日の午後5時半ごろに返信したんや。時間が重要やからな。
「これの動詞が必要やな。plexとかplexingとか、なんて呼んだらええんやろ」って。誰も何も言うてるのを見たことなかったからな。
そしたら、アービンがそのツイートでタグ付けされとって、6時間後にアービンが「Just Plex it」ってツイートしたんや。
わたしがperplexityの動詞を作ったって言うてるわけやないけど、タイミングがめっちゃ面白いよな。
これから「plex it」って言うことになるかもしれへんな。perplexityのことをそう呼ぶんや。アービンに名付けの credit を与えよう。
でも、このポッドキャストを聞いとる人には、もしかしたら偶然の一致かもしれへんけど、そういうことやってことを知っといてな。これからは何かを「plex」できるようになったわ。
ええやん、わたしもどんどん使おうと思っとったところやわ。これで説明する方法ができたな。
ポール、今週も複雑で面白いAIの世界を解説してくれてありがとう。
最後に2つだけ事務連絡や。まだレビューを書いてくれてへん人がおったら、ぜひお願いします。ポッドキャストをより良くするのに役立つんや。
それから、ニュースレターもチェックしてな。marketingaiinstitute.com/newsletterや。これは「今週のAI」みたいなもんで、毎週一回、今日話したことを含めて、AIで知っておくべきニュースの要約を送ってくれるんや。今日カバーできへんかった話もたくさんあるからな。
ポール、ありがとう。
よし、マイク。普通の週に戻ったな。MAICONを終えて、また日常に戻るわ。
皆さん、ありがとうございました。来週また話しましょう。
AIショーを聞いてくれてありがとう。marketingaiinstitute.comに行って、AIの学習を続けてな。6万人以上のプロフェッショナルやビジネスリーダーが、週刊ニュースレターを購読したり、AIのブループリントをダウンロードしたり、バーチャルや対面のイベントに参加したり、オンラインAIコースを受講したり、Slackコミュニティに参加したりしとるんや。次回まで、好奇心を持ち続けて、AIを探求し続けてな。

コメント

タイトルとURLをコピーしました