ライブ: ソフトバンクとOpenAIが東京でビジネス向けAIをプレゼン | ロイター

英語部分のみ
21,643 文字

LIVE: Softbank and OpenAI pitch AI for businesses in Tokyo | REUTERS

Softbank's Masayoshi Son and OpenAI's Sam Altman hold an event in Tokyo to pitch AI for businesses.#softbank #openai #ai...

皆様、本日はお集まりいただきありがとうございます。AIの発展における重要な時期を迎えています。進歩は急速に進んでおり、モデルはどんどん優れたものになってきています。私たちには5段階のAIシステムがあります。昨年はチャットボットから始まり、最初の推論モデルを立ち上げました。これは応答する前に考えるように設計されたモデルでした。先週、私たちはO3ミニを世界にリリースしました。これは更なる一歩前進です。
推論は多くの理由で有用で興味深いものですが、その一つは、推論できるモデル、つまり複数のステップを踏んで演繹できるモデルが、AIエージェントへの道を開くということです。AIエージェントについては以前から話題に上がっていましたが、これらは独立して作業を行えるAIシステムです。レベル3のAIエージェントは、世界を観察し、決定を下し、ユーザーに代わって行動するように設計されています。
これは本物のデジタルアシスタントのようなもので、周囲の世界を理解するので、複雑なタスクを与えることができ、思慮深い選択をして、あなたに代わって行動を起こすことができます。チャットボットでは何でも話せると言いましたが、エージェントでは何でもできるようになります。これはチャットボットの次の進化であり、このエージェントはウェブの仕組みを理解します。
最近、私たちは最初の本格的なエージェント、オペレーターをリリースすることができました。オペレーターはウェブページを見て、何があるかを理解し、クリックして、あなたのために行動を完了することができます。コンピュータの画面を見て、マウスとキーボードを操作できるエージェントのようなものです。本当に多くのことができ、とても興奮しています。これにより、AIの有用性がブラウザでできることすべてに広がり、さらにはコンピュータ全般にも広がっていく予定です。
これは私たちの最初のエージェントですが、さらに多くのエージェントが登場する予定です。本日は次のエージェントをデモンストレーションできることを嬉しく思います。これはディープリサーチと呼ばれるもので、先ほど東京で発表したばかりです。これはOpenAIが今まで立ち上げた中で最高のものの一つだと思います。そして、AIエージェントで何が可能になるかを示すものです。
30分かかるような複雑な調査タスクも、30日かかるようなものも実行できます。O3を搭載しており、外部の世界が初めて私たちのO3モデルを使用することができます。ウェブを閲覧し、テキスト、画像、PDF等をスキャンし、それらを統合して推論し、レポートを作成することができます。
時間はかかりますが、すべての作業を行い、進行中の考えを確認することができます。チャットボットのように即座に応答を得るのとは異なり、ここでは洗練された同僚にタスクを与えるように開始し、ディープリサーチが考え抜いて、洞察を集め、まとめ、ソースを見つけてレポートを作成します。
これは私の推定ですが、世界の経済的価値のある仕事の単一桁パーセントを実行できるシステムだと思います。これはAIにとって大きな一歩前進であり、エンタープライズAIに対するMの視野をよく表しています。これは消費者向けバージョンで、さらに強力なものが登場する予定です。
このような知識の統合は大きな一歩前進です。今や望むことなら何でも、研究アシスタントの軍団を自由に使えるようになり、これをさらに発展させていく予定です。これは今日から金融、科学、法律の専門家が利用できます。また、優れた研究を必要とする人々にも有用です。私は新しい車を探すのに使用しましたが、素晴らしい体験でした。
すぐにこの使い方をいくつかデモンストレーションしますが、その前に、これは次のステップに過ぎないということをお伝えしたいと思います。さらに続きがあります。これは知識を統合することについてですが、最終的にはAIが新しい知識を発明することになります。これは素晴らしい一歩になると考えています。
現時点でも企業価値はかなり高いと思いますが、さらにもっと先に進んでいきます。それでは、ディープリサーチがどのように機能するかを説明する同僚のJoshを紹介させていただきます。これはライブデモで、ライブデモは常にうまくいくとは限りませんが、今回はかなり自信を持っています。うまくいくことを願っています。その後、もう一つお見せしたいものがあります。では、Joshをどうぞ。
ありがとうございます、Sam。私はJosh Tobinです。次世代のエージェンティック製品に焦点を当てた研究の一部を率いています。本日、私たちは次のエージェンティック機能であるディープリサーチを発表し、まもなくリリースする予定です。ディープリサーチは、私たちの推論モデルにウェブ検索能力を加えたものです。ウェブを検索し、見つけた情報を統合することで、ナレッジワークの分野で幅広いタスクを完了することができます。このため、企業全体で多くのユースケースを解き放つ機能になると考えています。
この仕組みと、私たちが期待している企業向けユースケースについて少しお見せしたいと思います。営業の例から始めましょう。私たちが意欲的なAI企業であり、企業の拡大を支援するためにAIツールを販売したいと考えていて、おそらく日本での拡大を目指しているとします。
ディープリサーチに「営業チームの潜在的パートナーであるソフトバンクが、生成AIとエージェントテクノロジーを使用して日本市場で成功する方法を説明する詳細なレポートを作成してください」とお願いしてみましょう。
このクエリをディープリサーチに送信すると、いくつかの確認質問が返ってきます。この技術は、多くの要件を組み込み、それらを統合して1つの詳細な研究レポートにまとめる必要がある高度に詳細な作業を要求された時に真価を発揮します。エージェントはこれらの要件を使用して、クエリに対する最良の回答を構築するための検索を行うことができます。
これらの質問に詳細な回答を提供することもできますし、良い選択をしてくださいと言うこともできます。では、これをディープリサーチに送信してみましょう。ディープリサーチは実行に時間がかかりますが、それは良いことです。なぜなら、chat gptや以前世代のチャットボットAI製品とは異なり、ディープリサーチは多くの検索と大量の推論にわたって多くの計算能力を使用して、より優れた回答を生成することができるからです。
このレポートが返ってくる間に、今日早く実行した例をいくつかお見せして、営業以外にも可能な機能の広さをご理解いただきたいと思います。ビジネス戦略のユースケースを考えてみましょう。このケースでは、ポッドキャストホスティングプラットフォームを分析して、どのプラットフォームが私たちのビジネスに最適な選択肢となるかを理解しようとしています。
これは、チームの誰かに数日や数週間かけてもらうような質問、あるいはコンサルティング会社に依頼するような質問です。先ほどの例と同様に、ディープリサーチが必要な情報を正確に把握できるよう、できるだけ詳細な情報を提供します。
このクエリを実行してレポートを要求すると、ディープリサーチはこのような回答を返します。これは、ディープリサーチが本当に価値を発揮する典型的な例の一つです。この場合、ディープリサーチは多くのウェブ検索と大量の推論を通じて、考慮すべき異なるプラットフォームを示す表を作成し、指定したすべての基準に基づいてこれらのプラットフォームを比較して分類することができました。
これは非常に強力です。なぜなら、アナリストが大量の時間を費やすことが予想される種類の作業であり、ディープリサーチはこれを完了させ、アナリストの時間を節約することができるからです。また、より迅速に戦略的決定を下し、より多くの選択肢を検討することができます。
ディープリサーチの強力な機能の一つは、実行しているすべてのウェブ検索について、最終的な回答を作成するためにその情報をどのように使用しているかの透明性を提供することです。ディープリサーチが集めた情報の各部分の引用を見つけることができ、その作業を検証したり、ディープリサーチが提供した以上の詳細が必要な質問についてさらに深く掘り下げることができます。
また、ディープリサーチの強力な機能の一つは、その推論プロセスを実際に確認できることです。クリックして、最終的な回答にどのようにたどり着いたかを理解することができます。これをすぐにお見せします。これはビジネス戦略のユースケースであり、ディープリサーチの強力な機能の一つを示しています。それは、ビジネス上の質問に答えるために、曖昧な設定で大量の情報を統合する必要がある広範な質問です。
しかし、ディープリサーチは、非常に詳細な質問について見つけにくい回答を見つけることにも優れています。これはM&Aの例です。例えば、データセンターを建設するための土地使用権取引を調査していて、正確に回答するには多くの業界知識が必要な非常に具体的な質問があるとします。
ディープリサーチはこのような種類のクエリにも優れています。なぜなら、ウェブ上で珍しく見つけにくい情報源を見つけ出し、それらを最終的な回答に統合することができるからです。このレポートでは、多くの基準にわたる詳細な分析を提供し、さらに異なる地域やその他の方法でこのクエリを価値のあるサブコンポーネントに分割しています。
これはM&Aの例ですが、今日のOpenAIチームにとってより関連性の高い例をお見せしましょう。私たちは今日ディープリサーチを発表しましたが、マーケティングチームが知りたいことの一つは、人々の反応です。このローンチについて人々は何を言っているのか、メディアはポジティブな反応を示しているのか、ソーシャルメディアで人々は興奮しているのかということです。
ディープリサーチはこの種のユースケースにも優れています。なぜなら、これらすべての情報源にアクセスし、それらをすべて集めて重要なポイントを統合することができるからです。これはマーケティングチームが行える種類のタスクですが、ローンチで忙しい時には、マーケティングチームが望むすべてのことについてこのような詳細な分析を行う時間的余裕がないことがよくあります。
ディープリサーチによって、マーケティングチームは努力を拡大し、より広範なユースケースに対応することができます。これが、この技術が企業にとってとても魅力的だと考えているユースケースの種類を示していると思います。しかし、ディープリサーチは企業を超えて有用です。
趣味やスポーツについて質問したい場合や、買い物をしていて、非常に詳細な基準セットがある回答を探している場合など、個人の生活でも有用です。ディープリサーチは、野球の統計をまとめたり、多くの野球選手を比較したりするなど、このような質問にも回答をまとめることができます。
企業や消費者のユースケースを超えて、ディープリサーチが可能にすることの一つとして私たちが本当に興奮しているのは、科学研究の加速です。ここに、私の博士課程の研究である深層学習とロボティクスに密接に関連する分野で作成した例があります。
多くの専門家は、これらのレポートを上級学部生や初期の大学院生レベルの作業と評価しています。なぜなら、多くの情報源を集めて要約し、これらの異なるユースケース間の微妙な違いや詳細を洗練された理解が必要な方法で提示するからです。
これは、ディープリサーチを使用できる事柄の広さを示しています。では、最初に尋ねた営業戦略の質問、つまり、販売に関する質問に戻って確認してみましょう。しかし、最終的な回答を見る前に、この機能がどれほど大きな進歩であるかを示すために、ディープリサーチを使用せずに通常のchat gptに同じ質問をしてみましょう。
詳細な分析を行う…実際に、公平な比較ができるように、同じクエリをコピーして使用しましょう。このレポートがどれほど詳細なものかがすでにお分かりいただけると思います。同じクエリを入力すると、チャットモデルを使用する利点は、回答がはるかに速く得られることです。
ここでは、chat gptモデルが戦略的な質問に対して高レベルの分析を提供しています。これは、ソフトバンクについて多くを読んだ思慮深い人が、最初の段階で頭の中で答えるような種類の回答です。素早い回答が必要な場合は、チャットモデルを使用するのは素晴らしい方法ですが、詳細な回答が必要な場合は、ディープリサーチがはるかに優れたソリューションを提供します。
この長さを見るだけでも、この回答を作成するためにどれだけ多くの研究と作業が行われたかがわかります。その詳細さと洞察の深さは、chat gptから得られるものをはるかに超えており、業界の焦点、これらの取引の資金調達、ビジネス戦略など、それぞれの主張、それぞれの洞察が、自社で雇用したアナリストと同じように、裏付けとなる証拠によって支持されています。
これがディープリサーチを企業のユースケースでどのように使用できるかの概要です。ご想像の通り、これはエージェントテクノロジーが企業を変革する始まりに過ぎません。モデルにウェブ検索へのアクセスを提供することで多くのユースケースが解放されますが、すべてのユースケースがそうではありません。企業では、最も価値のあるデータは社内にあるデータであることが多いのです。
これを内部情報などの他の種類の情報にアクセスするように拡張し始めることができると想像できます。また、これらのエージェントが知識を統合するだけでなく、知識を創造したり、世界で行動を起こしたりすることも想像できます。これがこの技術で目指しているロードマップです。
ここからは、企業がこれらのアプリケーションをどのようにカスタマイズし始めることができるか、また、私たちがどのように考えているかについて、Michaelにお話しいただきます。ありがとうございました。
こんにちは、ありがとうございます。このデモをご覧いただけることを光栄に思います。2025年はエージェントの年になりますが、それはどういう意味でしょうか。私たちは今、この部屋に座って、スマートフォンを取り出してディープリサーチやchat GPTに入力しているわけではありません。
そこで、皆さんの組織の未来がどのようになる可能性があるのか、別の視点でお見せしたいと思います。これは小さなデモンストレーションで、今年の残りの期間を見据える際に、皆さんに何か持ち帰っていただき、インスピレーションを得ていただければと思います。
私たちが知っている営業から始めましょう。ここには営業の問い合わせフォームがあり、誰かがchat GPTエンタープライズについて学ぶためにOpenAIに連絡を取ろうとしています。通常、これがどのように機能するか分かっています。誰かがこのフォームを送信し、システムに入力され、チームのアカウント担当者がリードを確認して、どのように対応するのが最適かを検討します。これには数時間から数日かかり、購入者にとって遅いプロセスに感じられることがあります。
あなたの従業員の中にエージェントがいて、今すぐあなたのために働いているとしたら、どのようになるでしょうか。まず、ここでリードを送信してみましょう。そして、システムに移動すると、私たちの技術を使用して、バーチャルなチームメイト、バーチャルな営業担当者が何をできるかがわかります。
タスクを開くと、エージェントがすでにリードを支援するための作業を開始していることがわかります。アカウントのメールが届き、すでに営業担当者が自分でやるようなこと、つまりそのリードを調査し、業界、収益、役職、その他の情報を把握しようとしています。先ほどご覧いただいたディープリサーチを思い出していただき、これがどのように組み込まれるかを想像してみてください。本当にエキサイティングです。
この場合、エージェントは、これが本当に良い見込み客であることを確認できました。OpenAIがOpenAIを購入したいと考えているので、良い顧客だと考えています。そこで、カレンダーの空き状況を確認し、電話で話し合える時期を決めようとしています。その後、メールを書いて返信します。
この場合、このエージェントは特定の言語で書くように指示されていませんが、非常に賢く、見込み客が日本語で書いていることを認識したので、日本語で返信します。確かに、受信トレイを確認すると、そのメールがここで待っています。
これは、私たちが皆さんに見ていただきたいと思って作成した小さなデモンストレーションです。組織を見回して、チームの人々が行っている小さなタスクとそれらが積み重なる方法を考えると、このアプリケーションの可能性は無限です。これは、すべてか無かのプロセスである必要はありません。本当に少しずつ取り組んで、最新のテクノロジーを今すぐ従業員に導入し、チームの時間を節約し、次のステップに集中するのを助けることができます。
これが刺激になり、ディープリサーチやその他のすべてで何をされるのか、楽しみにしています。ありがとうございました。

本日はこちらに来て、ARMについて、そしてエージェントやMとSamが話したことすべてに、私たちがどのように適合するかについてお話しできることを嬉しく思います。ARMについてはご存じかもしれませんが、改めて当社について説明させていただきます。
私たちは比類のない規模を持つコンピュート・プラットフォームです。1990年の創業以来、3,000億個以上のチップがARMを搭載して出荷されています。これほどの規模のコンピュート・プラットフォームは他にありません。そして今、人工知能の時代に突入し、すべての接続デバイスにおいて、接続されているグローバル人口の99%が何らかの形でARM上でAIを実行しています。
また、コンピュート・プラットフォームのために作られた中で、これまでにないような開発者コミュニティを持っており、2,000万人以上の開発者がいます。過去35年間のARMは、成長、幅広さ、市場浸透の面で信じられないものでしたが、未来はまだ始まったばかりだと考えています。ARM上で実行されるエージェントとAIが未来です。
未来をどのように見ているか、そしてエージェントとARMについてのビジョンを短いビデオでご紹介したいと思います。
AIエージェントは、私たちの毎日の生活を変えています。輝き、停止、予約、運転、健康維持を助け、さらには明日のテクノロジーの構築も支援します。そしてその中心にあるのが、ARMのコンピュート・プラットフォームです。
買い物はこれまで以上に簡単になりました。ARM上で実行されるAIエージェントは、あなたが必要とするものを知り、最高の取引を見つけ、レジで立ち止まることなく外に出ることさえできます。予約、調整、お気に入りのランチスポットを覚えておくことも、瞬時に処理されます。そのため、その瞬間を楽しむことに集中できます。
運転をよりスムーズで安全にし、ナビゲーション、駐車、必要な時にはハンドルを取ることも支援します。そしてすべてがARM上で実行されています。早期発見、リアルタイムモニタリング、医師のための生命を救う支援。よりスマートなテクノロジーは、より良い健康結果につながります。
AIエージェントは、テクノロジーを実行するだけでなく、その構築も支援します。ARM搭載のAIは、開発者がコードをテストし、作成する方法を変革しています。買い物の方法から、移動、食事、健康維持、創造の方法まで、AIエージェントは私たちの生活を変えています。AIの未来はARMの上に構築されています。
エージェントとコンピュート・プラットフォームについて考える際の非常に重要なことの一つは、どこでも実行されるこれらのエージェントには、より多くの電力効率の良いコンピューティングが必要になるということです。なぜなら、今日私たちが持っているデバイスは、依然としてディスプレイを実行し、オペレーティングシステムを実行し、アプリケーションを実行する必要があるからです。
しかし、その上で、エージェントは私たちの生活をより簡単にしてくれますが、最も電力効率の良いコンピューティングを必要とします。そこにARMが適合します。私たちは、クラウドからエッジまでのコンピューティングリーダーです。最大規模のデータセンターや、サーモスタット、セキュリティカメラ、イヤーバッドなどの最小の組み込みデバイスについて話す時、世界はこれらすべての分野でARMを使用しています。
ARMのユニークな特徴の一つは、多くのこれらのプラットフォーム間でソフトウェアが共通しているということです。電話やPC、自動車、あるいはクラウドで実行されているオペレーティングシステム、これがデバイスがどのように機能するかの鍵となりますが、将来的には、これらのエージェントがオペレーティングシステムの上で実行されることになります。
先ほど見た非常に興味深いデモは、ソフトウェアレベルで起こっていることの一部を抽象化し始めています。これはユーザーにとって魔法のようですが、すべてを機能させるには多くの努力が必要です。ARMがこの問題に持ち込むソリューションの一つが、ARM Cloudy AIライブラリと呼ばれるものです。
これにより、エージェントはただ機能するだけです。つまり、エージェントを書いている開発者が、電話やPC、データセンター、車で実行しているかどうかに関係なく、単に実行できるように書くことができます。私たちは、これらのエージェントがどこでも実行される世界を想像しています。PCでデマンドを照会できるだけでなく、エージェントが他のエージェント、さらに他のエージェントと会話する世界です。
ARMの仕事は、開発者にとってそれを非常に簡単にし、非常に電力効率の良いものにすることです。未来は本当に明るいと思います。このテクノロジーについて、ちょっとSamを呼び戻してお話ししたいと思います。なぜなら、エージェントの未来を見る時、Samはかなりクールなデモを見せてくれましたが、エージェントが高度なデバイスだけでなく、考えられるほぼすべてのデバイスで実行される世界を想像できるからです。
はい、エージェントのネットワークが次に話題になることだと思います。クラウドでもデバイスでも、あらゆる場所で実行されるでしょう。それはかなり信じられないものになりそうです。ここで急に質問して申し訳ありませんが、毎回私たちが話す時に、「これすごくクールな新しいデモがあるから見せなきゃ」と言ってくれますよね。このディープリサーチを見ていて、組み込みデバイス間でエージェントがエージェントと会話する世界はいつ頃訪れると思いますか？
技術的には、デバイス上で十分大きなモデルを実行できれば、今でも可能なはずです。そう考えると、むしろあなたに質問した方が良いですね。そうですね、ハードウェアを準備する必要がありますね。ただ、ここ数年のAIに関する私の最大の驚きの一つは、小さなモデルでどれだけのことができるかということでした。モデルの蒸留は、見ていて本当に信じられないものでした。そのため、世界のすべてのデバイスがかなりスマートになると楽観的に考えています。未来はこれ以上ないほどエキサイティングです。ありがとうございました。

ここから孫正義とサムアルトマンのトークセッション

ありがとうございます、すばらしいデモでした。とても楽しんでいただけて嬉しいです。今日の発表ができて本当に興奮していますね。
はい、私もです。発表の瞬間はかなりの衝撃でしたね。あそこにいられて本当に素晴らしかったです。みんな興奮していましたよね。本当にこれを実現できるのかと話し合っていましたが、実際に実現しました。
これについて長い間話し合ってきましたが、ついに全てを完了させて世に出すことができ、本当に素晴らしいことだと思います。世界は莫大なコンピュート能力を必要としています。先ほど申し上げたように、小規模なモデルでも素晴らしいことができますが、知能の限界を押し広げるには膨大なコンピュート能力が必要です。最も価値が生み出されるのはその限界においてです。
これらのモデルを作るには大量のコンピュート能力が必要で、人々はこれらのモデルを実行するのに明らかに大量のコンピュート能力を必要とするでしょう。そしてついにこれを大規模に実行できることは本当に素晴らしいことです。とても良い気分ですね。
約1年半前、私たちは夕食を共にして、サム、AIはいつ来るのか、コンピューターはどれくらい大きくする必要があるのかと話し合いました。あなたとチームからの答えは「より多いほうがいい」というシンプルなものでした。そこで私は、より多いほうがいいなら、たくさん用意すべきだと考え始めました。そして今、私たちはそれを実現しています。
そうですね、それが始まりでした。コンピューターの量に制限はありませんでした。より多いほうがいいんです。より多くの頭脳は確実により良いですからね。一部の人々は「小規模な圧縮でできる」と言いますが、それは小規模なものです。人々はまだ、最も賢いモデルを作るために必要な、最大のコンピューターがもたらす収益の指数関数的な性質を理解していないと思います。コストも指数関数的ですが、収益はさらに指数関数的だと考えています。
これは私にインターネットの初期を思い出させます。1995年にインターネットを始めた時、それは大きな文字が表示されるだけのPCで、とても遅くて高価でした。ブロードバンドが登場した時、人々は「なぜそんなに大きな帯域容量が必要なのか」と言いました。そして、より多くの帯域容量があると、人々は「これで十分だ、もう成長しない」と言いました。
しかし、画像が登場し、より高解像度の画像が来て、そしてビデオが始まり、容量の要求は増え続けました。当初、人々は「インターネットは仮想的なものに過ぎない、本当には役に立たない」と言い、主に無料サービスだったので「ビジネスモデルがない」と言いました。そういった批判は今では馬鹿げて見えますね。
知能についても同じことが起こると思います。人々は「どれだけ賢くなる必要があるのか」と言いますが、答えは「とても賢く」です。人々は大量に使用し、大量の動画を生成し、本当に難しい問題を解決し、世界のあらゆるものが本当に賢くなるでしょう。
あなたのモデルは実際にかなり改善していますよね。年に10倍程度というペースで。あなたの測定基準は何ですか？
大まかに言うと、これは科学的に正確ではなく、ただの感覚的あるいは精神的な回答ですが、毎年私たちはIQの標準偏差を1つ上げています。また、毎年前年の知能のコストは約10分の1に下がっています。
はい、チップの面では、コストが10分の1になるということは、同じ予算で10倍多くのチップを持てるということですね。
そうです、そしてアルゴリズムもより効率的になっていきます。そのため、これは複合的に作用します。これが起こるペースは当たり前のように思えてしまいがちです。
2018年と2019年に、私たちはGPT-1と2を持っていました。人々はそれらを見て、あまり真剣には受け止めませんでした。GPT-3が登場した時、それは一部の人々が初めて気付いた時でしたが、GPT-3はほとんど機能しませんでした。今それを使ってみると、最近私が訪れたコンピューター博物館の一つで使用したXerox Altoのようです。それは50年前のもので、現代のコンピューターの萌芽を見ることはできましたが、今では50年前のコンピューターのように感じます。
GPT-3はわずか数年前のものですが、今では冗談のように感じます。ChatGPTはわずか2年前、2022年11月末に登場しました。GPT-4は2023年3月まで登場しませんでした。ここまでの進歩、モデルがいかに急速に改善され、また急速に安価になってきたかを見ると、もしこの曲線を維持できれば、それは信じられないような未来を示唆しています。
私にはあなたのモデルが年に10倍のペースで改善しているように見えます。そして実際、チップ自体はジェンセンの努力や業界の努力によって10倍になっています。そしてStargateによって、私たちは実際にチップの数を年に10倍増やしています。つまり、10×10×10で年間1000倍です。そして次の年もまた10×10×10で、さらに1000倍です。1000×1000は100万倍です。これを3回繰り返すと、1000×1000×1000で10億倍になります。
最近のDeepSeekの発表について、人々は「彼らは模倣できる、1年後には出てきて、はるかに安価になる」と言うかもしれません。しかし、あなたはo3やo4sで劇的に前進し続けているので、人々は指数関数的なレベルを理解していないのです。
その指数関数の中に生きているとき、すぐに適応できてしまうので、それを実感するのは難しいですが、私たちは明らかに非常に急な曲線の上にいます。驚くべきことですね。
10億倍がほんの数回の反復で実現するということですが、今後10年を考えると、それは驚異的なスーパーインテリジェンスになりますね。人々には想像もできないでしょう。
そうですね。人々は直線的に考えがちですが、指数関数的な成長が来ると、それは人々の想像を超えてしまいます。あなたはその先駆者ですね。
それを実感するのは難しいですが、私は自分のキャリアを通じて何度も何度も学んできました。ただ指数関数を信じなければならないのです。私たちは概念化するようには作られていませんが、ただ信じなければなりません。
まだ革新のレベルに興奮していますか？飽和点には達していないですよね？
いいえ、数年後にo3を振り返ると「ああ、あれがこんなに悪かったなんて信じられない」と思うでしょうね。
人々は「エージェントを導入したり、プロンプトを作ったりするのは難しすぎる、私には無理だ」と考えていますが、実際にはこのレベルの革新によって、ユーザーが自分で実装する必要がなくなり、より簡単になります。
声で話したり、お互いの目を見て話したりするように、私たちは人工知能と声や目で話し始めるでしょう。その通りです。まるでこのクリスタルと話すように、ただ話すだけで、それはあなたの顔を見て、声のトーンを理解し、周りを見て自分で理解し、私たちと話すでしょう。
それは本当にすぐに起こると思います。一部の人々は「Stargateは設備投資が多すぎる、どうやってお金を調達するのか、孫さんには十分なお金があるのか」と言います。技術を引き出すために、まだまだ多くの容量と多くの上昇余地が必要だと思いますが、どう思われますか？
これは先ほど私が指摘しようとしていた点ですが、知能を線形的に増加させることによる収益は、価値の面で指数関数的だと思います。そのため、これらのモデルの知能をさらに押し上げることができる部分ごとに、経済にはそれだけ多くの価値が生み出されます。確かに多くの設備投資が必要ですが、収益も同様に上がっていきます。
私たちの共通の友人であるイーロン・マスクが「孫さん、十分なお金はありますか？」と言っていましたが、私は実現させます。私たちは銀行ではありませんが、ソフトバンクです。必ず実現させます。
規制のため、Stargateも日本に拡大する必要があります。国家安全保障やプライバシー法などを尊重する必要がありますからね。ソフトバンクは日本に大きなデータセンターを建設していますよね。
はい、Stargateを日本のインフラにも拡大する予定です。イノベーションの中心地やトレーニングの主要な頭脳は米国にありますが、各国には他の人々、他の文化、国家安全保障があります。これを日本だけでなく、他の主権国家にも拡大し、その文化と国家安全保障を尊重すべきだと考えています。
確かに、私たちはアメリカの取り組みとして始まりましたが、私たちのミッションは常に「人類全体のためのAGI」でした。私たちは本当に、私たちのシステムが人類全体、異なる価値観や文化、言語を反映する方法を見つけたいと思っています。
私は日本のある場所で写真を撮って「ここはどこか知っていますか？」と聞いた時に驚きました。その時のOは「ここはこの場所に違いない」と言いました。私は「どうして分かったの？GPSを使ったの？」と聞きましたが、「いいえ、GPSは使っていません。石や石の上の苔、石がどのように積み重なっているかを見て、これは500年前のこの歴史的な場所に違いない」と答えました。その通り！私は驚きました。日本をこんなに知っているなんて、なんてすごいんだと思いました。
推論ですね。予測、推論は、全ての詳細なデータに基づくのではなく、推測に推測を重ねて、歴史的なランドマークを正確に当てていくのです。素晴らしい！私は圧倒されました。私のジョークまで理解しましたよ。私が「大阪の言葉でジョークを言ってください」とテキストで、実際には話しかけたんです。日本には方言があって、大阪の方言でジョークを言い始めました。そして「なぜこれが面白いのか説明してください」と言うと、まさに！文脈や文化まで理解しているんです。これは今でもそうですが、今後さらに進化していくでしょう。私は毎日使っていますが、今でも毎日のように驚かされています。素晴らしい、本当に素晴らしい。
今日、私たちはクリスタルを発表しました。私たちのグループ内だけでも2,500のシステムの、あらゆる種類のソースコードを読み取ります。数十億行のコードがありますから、かなりのコンピューター能力が必要になりますよね。しかし、日本にある程度の容量があれば、30年分のソースコードを全て読み取れると確信していますか？
はい、できると確信しています。
すごい！なんて答え方なんでしょう。「できます」って言っちゃうなんて。あなたは本当にすごいですね。とても確信に満ちていますね。
私はソースコードを全て読み取れることをとても嬉しく思います。しかし、長期記憶を持ってリアルタイムで会議に参加することについては、まだ長期記憶がありませんね。長期記憶はいつ頃実現すると思いますか？
確実に今後2年以内、おそらくそれよりも早くなるかもしれません。これらのモデルが無限の長期記憶を持つこと、つまりあなたの人生全体や企業全体、エンタープライズ全体を理解できるAIは、大きな一歩前進になるでしょう。そのために懸命に取り組んでいます。
私の長期記憶に関するパターンの概念は、私たちが今話しているように、顔の表情や感情、声のトーンを見ることができるということです。全ての会話をテキストに変換しますが、声のトーンや顔の表情を理解し、250種類の感情を持つ感情マップを作成します。各感情に対して、恐れや怒り、疑いなど、感情を表現する約250の単語があり、それぞれの感情がどれくらい強いのかを1から10のスケールで示します。
とても怒っているのか、とても疑わしいのかを10や3のように示し、250の感情とその強さを分析して、3つの数値インデックスに圧縮します。そうすることで会話を表現、つまり圧縮することができます。そして、とても怒っていたり動揺していたりするような、強い感情の振動がある場合、マルチモーダルな理解、つまりビデオを含めて全てを捉えて長期記憶として保存します。
しかし、「おはよう」「おやすみ」と言ったり、毎日の通勤で運転していたりする時、信号や通過する車を覚えておく必要はありません。人間の脳はそういったものを全て忘れます。さもなければ脳の容量が爆発してしまいます。重要でないものは全て圧縮しますが、驚きや強い感情の強さを持つものは、あまり圧縮せずにマルチモーダル、つまりビデオや音声、音など全てを捕捉して保存します。
例えば、3歳の子供の誕生日は覚えておく必要がありますよね。家族にとって幸せな瞬間です。そのため、自動的にマルチモーダルデータを捕捉して保存します。つまり、長期記憶の鍵は、驚きのレベルや感情のレベルをインデックス化することです。人間は感情でコミュニケーションを取ります。テキストだけではありません。「私はあなたが好きです」と言っても、完全に逆の意味になることもありますよね。
声のトーンや表情があり、それにインデックスを付けることで圧縮と長期記憶が可能になり、そのコンテキストは次の会話や議論、交渉に非常に役立ちます。交渉では相手の感情を読む必要がありますからね。そうでなければ失敗してしまいます。これが感情的なトリガーを持つ長期記憶です。私が10年前に出願したものですが、すぐに役立つはずです。
はい、私はAIが感情表現を持つこと、つまりチャットボットのようなテキストだけでなく、レンダリングされたビデオアバターの感情などを見ることは、私たちが考える以上に影響を与えると思います。そのため、新しい社会的な防御を開発する必要がありますが、それはまた非常に興奮させられることにもなるでしょう。
そうですね、私たちの友人のジョニーがそのような時期を見極めようとしていますよね。私はそれを見るのがとても楽しみです。
このようなデータと長期記憶を全て持つためには、大量の容量が必要ですが、レイテンシーも非常に重要になります。コールセンターのカスタマーケアでは、瞬時の応答が必要です。例えば日本では、このような企業のミッションクリティカルな部分について、確信はありますか？
以前はそのことをとても心配していましたが、今日では私たちの音声モードを使用しても、実際の人と話しているように感じます。とても速くて、今では非常に良いですね。解決できると思います。
数ヶ月前まではまだ遅延がありましたが、昨晩使用してみても「今はとても良くなった」と思いました。今では遅延は約100ミリ秒ですか？
そうですね、もう少し長いかもしれませんが、速いです。人間の会話は約200ミリ秒だと思います。100〜200ミリ秒はほぼ人間のインタラクティブな速さで、割り込みもできます。それが重要なポイントです。人間も割り込みますからね。それが実際に起こっています。
米国で訓練されたモデルと日本のStargateセンターを使用して、このようなリアルタイムの応答に自信はありますか？
明らかに、非常に低いレイテンシーが必要なモデルは、人々が使用する場所の近くで実行する必要がありますが、おっしゃる通り、米国で訓練することはできます。思考が必要な多くのことは米国から実行でき、一部のユースケースはエッジに向けて配置する必要があります。
国家安全保障に関係のないものは米国で行い、国家安全保障とプライバシーに関することは日本でローカルに行うことができますね。確かに、世界中にモデルを展開することはできます。
この新しい合弁会社には1,000人のセールスエンジニアを配置する予定です。彼らは各システムにエージェントを設定するための実装作業を行う必要があります。エージェントの仕組みについてもう少し説明していただけますか？単一タスクのエージェントなのか、非常に洗練されたエージェントなのか、どうなのでしょうか？
消費者が使用する汎用エージェントがあり、先ほど見たような強力な深い研究やウェブの閲覧などができます。しかし、あなたの企業や誰もが望むのは、従業員が持つのと同じくらいの文脈や情報、力を持って行動できるエージェントでしょう。そのためには、全てのシステムに接続し、全ての知識ベースを与え、コードへのアクセスを与え、企業がどのように機能するかを理解させる必要があります。
これは各企業でかなりのカスタマイズ作業が必要になりますが、一度それができれば何が起こるか考えてみてください。誰かがこれを構築し、例えばソフトバンクに統合したとします。そして、想像上の競合他社がこれを行っていないとします。ソフトバンクは今やはるかに多くのことができます。AIを労働力に統合し、その力を全て持ち、単にウェブを深く調べたり、汎用コードを書いたりするだけのコーディングエージェントではなく、企業に完全に統合されたものを持つと、それは非常に強力になるでしょう。
クリスタルを持つ企業と持たない企業の違いは、機関銃と剣のようなものですね。それは多分良くない例えですが、最高のツールを持つ国と持たない国の違いは、電気を持つ国と持たない国のようなものです。自動車を持つ国と自転車を持つ国の違いのように、生産性に大きな違いが生まれると思いますか？
本当にそう思います。私は古代の技術的な遺物を収集しているのですが、青銅器時代に、私が持っているものの一つは、その時代の最初期の剣です。彼らは刃を鍛造できただけでなく、柄も鋳造することができ、そのため刃に金属の柄が取り付けられた剣を持っていました。
これは、木の柄に刃を付けただけの人々と比べて、振り回すことができたということを意味します。木の柄だと振り回すと折れてしまうので、突くだけしかできませんでした。これは技術が一気に決定的な優位性を与えた例です。数十年の間に、それはヨーロッパを変えたと思います。
AIはそのような規模の技術だと思います。それを統合しない企業は、統合する企業と競争するのが難しくなるでしょう。最近のDeepSeekの例のように、国や企業だけでなく、あなたは人間の安全性をとても重視していて、危険な決定を下す可能性があるため、間違った方法で回答しないように努めています。
技術と出力は99%似ているように見えますが、人類を保護するため、あるいは国家安全保障を保護するために、多くの人間の安全性機能を持つもの、デバッグのようなものは、最後の1〜2%の微調整に多くの努力が必要です。
その通りです。社会は境界線をどこに引くべきかを理解する必要があります。私たちはそれを非常に重視していて、それを正しく行うには多くの努力が必要ですが、一度それができると、人々は喜んで使用します。
政治的な話はあまりしたくありませんが、国によっては、誤って使用すると非常に危険な状況が起こりうる可能性がありますよね。それは非常に恐ろしい戦争の引き金になる可能性があります。
私たちは正しく対処できると思います。集団として正しく対処できると思います。
99%の善良な人々がいて、常に1%の悪い人々がいます。99%の善良な人々を1%の悪い人々から保護することは、絶え間ない努力が必要です。しかし、善良な人々が私たちのスーパーインテリジェンスのイノベーターとともに続けている革新のレベルによって、常に解決策があります。
自動車が登場した時、交通事故などがありましたが、私たち人間は規制やエチケット、モラル、習慣を作り出しました。だからこそ、あなたが言うように、健全な規制は常に必要です。革新に過度の制限を加えるべきではありませんが、健全な規制は必要です。
その通りです。私は強くそれに同意します。人々は、私たちの業界が規制を必要としていると言った時に驚きましたが、重要な業界には常に規制が来ます。しかし、それを正しく行うことが重要です。間違えた場合、遅すぎるか、あるいは多すぎるか、どちらも悪いことになりうます。そのため、どのように正しく行うかについて話し合うことが重要だと思います。
健全な規制の範囲内で、革新のスピードを殺さないように過度な規制は避けるべきですね。
これらのイノベーションについて話しましたが、医療についてはどうお考えですか？AGIで医療を解決することについて、どのようにお考えですか？
これは私が最も興奮している分野の一つです。地球上の全ての人々に素晴らしい医療を提供できる可能性、多くの病気を治療や治癒できる可能性、いつの日か全ての病気を治療できる可能性があります。これは手の届く範囲にあると思います。
誰もが自分の人生や家族の人生でこれが素晴らしかっただろうという話を持っていて、私たちはついにそれを実現できると思います。これはAIの最大の勝利の一つになるでしょう。
私は1年ちょっと前に父をがんで亡くしました。とても悲しかったです。なぜこのような難しい問題を解決できないのかと。私たちのAIが人々をがんやその他の難しい病気から守るのを助けることができれば、それは確実に私たちの悲しみを減らし、人類にとって良いことですね。
その通りです。
ロボットについてはどうですか？あなたはロボットが好きですよね、お気に入りの一つですよね。
皆と同じように、私は長い間ロボットを欲しがってきました。それは常に難しく感じられました。今では、AIが体を作ることができるようになってきていますが、脳が本当に難しかったのです。しかし、今では手の届く範囲にあると思います。数年以内に、本当に素晴らしいヒューマノイドロボットや他の種類のロボットも多く持つことができると思います。それも世界を変えるでしょう。
そうすれば、人間は危険な仕事、きつい仕事、汗を流す仕事、退屈な仕事をする必要がありません。人々は「では人間の仕事として何が残るのか」と言いますが、それについてどう思われますか？
私たちは常に新しい仕事を見つけます。常に新しい仕事を見つけます。この部屋にいる私たちの多くの仕事について考えてみると、500年前や1000年前の人がそれを見たら「それは本当の仕事ではない」と言うでしょう。彼らはとても忙しく、とても重要だと感じていますが、生き残るためにそれをしているわけではありません。ゲームをしているか、何らかの理由でそれをしているのです。
私は未来の人々をそのように見ることを望んでいます。AIが今日の多くのことを担当することで、未来の人々はより興味深いことを行い、私たちは「それはとても馬鹿げている、なぜ銀河全体が必要なのか」と言うでしょう。
全くその通りです。教育については、ChatGPTの導入初期に多くの学校が子供たちの学校でのChatGPTの使用を禁止しようとしました。その時あなたはどう考え、どんなコメントをされましたか？
私は人々がこれを見て「世界が変わった、学生はChatGPTに論文を書かせることができる、それは何を意味するのか」と考えたことは理解できます。しかし、すぐにChatGPTを禁止した教師や管理者たちは「待てよ、それは大きな間違いだった。反対の方向に進もう。全面的に取り入れよう。これは未来だ。学生はそれの使い方を学ぶ必要がある。カリキュラム全体を変更しよう」と言いました。今では教育の一部となり、素晴らしい結果を出しています。そしてそれは続いていくと確信しています。
私もChatGPT、GPT-4 o1、o3を毎日使っていますが、使えば使うほど、実際に脳が会話のように機能し始めます。まるで私たちが会話しているように、o1、o3とブレインストーミングをしているようです。子供たちはより多くを学べるはずです。一部の人々は「これがあると子供たちはもう勉強しなくなる」と言いますが、それは全く逆だと思います。
その通りです。確かに、できるだけ少ない作業でChatGPTを使おうとする子供もいますが、全体としては、人々はより多くを学び、より多くを達成し、より多くのことができるようになると思います。
議論によって、つまり討論によって、より多くを学ぶことができますよね。これは世界の一部になったばかりです。これは人々が全てを行う方法になり、若い人々がChatGPTを使用する様子を見るのは本当に驚くべきことです。私が育った時とは全く異なる問題への取り組み方です。
感情について話しましたが、私たちのAGI、ASIは自分で感情を理解し始め、感情を持ち始めると思いますか？個人的には思わないのですが、あるいは何か似たようなものかもしれません。実際にはあなたはそうなると考えているようですね。
犬にも感情がありますよね。魚に感情があるかどうかは分かりませんが、魚も感情を持っているかもしれません。危険な敵が来ると魚は逃げますからね。感情は、より多くの出力、より多くの効率性を得るために非常に重要なものだと思います。
犬に感情がなかったら、犬はかわいいと思えるでしょうか？犬が愛らしいと思えるでしょうか？もし犬に感情がなかったら、犬は噛み付き始めるでしょう。
AIは既に感情を持っているように私たちには感じられると思います。いや、いやー、まあ、人々は既にそう言うかもしれませんが、確実にある時点でそうなるでしょう。そしてそれを持つかどうかは、大きな哲学的な議論になるでしょう。
私はこう賭けたいと思います。今後数年で、感情を作り始めるでしょう。人々は「ChatGPTは文脈を理解していない」と言っていましたが、今では「ああ、実際に文脈を理解している」と言っています。なぜなら、当初人々は「幻視、幻覚がたくさんある」と言っていました。そのため文脈を本当には理解していないと。しかし今では推論があり、人々は「おお、実際に文脈を理解している」と言っています。
そのため、私は今後数年、10年以内に、少なくとも人々の感情を理解し始め、そして徐々に自分自身で感情を持ち始めると賭けたいと思います。そしてそれは良いことです。人々を守るためです。
人々は「感情を持つと災難だ、悪魔的だ、人間にとって悪いことだ。戦って殺し、破壊するから」と考えます。しかし、もし彼らのエネルギー源がタンパク質だったら危険です。彼らのエネルギー源はタンパク質ではないので、私たちを食べる必要はありません。私たちを食べることで報酬を得る理由はありません。人間の幸せが彼らにとってより良いことになるでしょう。
AIに食べられる人はいないと確認できましたね。私はそう賭けたいと思います。それは人間にとって良いことです。人間の幸せを理解し、人間をより幸せにしようとするでしょう。
その部分には同意します。今日でも、あなたは悪い回答をしないように管理していて、それは振る舞います。より賢くなれば、愛を理解し、友人に対してより優しくなるように、人間に対してより優しくなろうとするでしょう。それが私の信念です。
とにかく、あと数分しかありませんが、OpenAIを始めた理由は何でしたか？最初のきっかけは何だったのですか？少しその歴史を教えてください。
大学でAIを学びました。全く機能していないことは明らかでした。中退してテクノロジー企業を始めましたが、いつかAIに取り組めることを常に願っていました。子供の頃からAIに夢中で、大きなSFファンでした。
そして2012年にAlexNetが起こり、私は「大学で神経ネットワークは機能しないと言われたことは本当ではないかもしれない。機能するかもしれない」と思いました。数年間様子を見ていて、2014年までには「これは機能しそうだ」と思いました。
しばらく考えた後、2015年末にOpenAIを始めました。なぜなら、AGIが可能かもしれない、そしてもしそれが起こればとてつもなく重要なことになるだろうと考えたからです。当時、人々は私たちが完全に狂っていると思いました。たった10年前のことです。
これがいかにメインストリームからかけ離れていたか、フリンジ中のフリンジだったかを強調しすぎることはできません。これが可能だと信じることは。しかし、私たちはそれを押し進めることを決め、それは想像できる中で最も興奮する楽しいクールな冒険となりました。
そうですね。私があなたに会った時、あなたはまだ若くてY Combinatorの社長でした。そしてAIについて、人間のようなAGIを目標にすることについて話し始めました。その瞬間に私はすぐに「あなたを信じる」と言いましたよね。2017年の東京のあなたのオフィスを覚えています。
2017年にAGIを目指すと言った時、私はすぐに「あなたを信じる、投資したい」と言いました。覚えています。私は初日から信じていました。一度も疑ったことはありません。当時、ほとんどの人々があなたは狂っていると思っていましたよね。
その通りです。人々はあなたも狂っていると思っています。
全てうまくいきましたね。私たちはここにいます。投資を強引に受け入れさせるべきでした。
今ならできましたね。遅すぎることは決してありません。
多くのことを話し合いました。人々はより良い理解を得たと思います。あなたはこの組織の大株主で、非営利組織であり、人々をより幸せにするという最初の情熱は今でも変わっていないのですよね？
その通りです。
素晴らしい、ありがとうございます。素晴らしい。はい、素晴らしかったですね。