
10,473 文字

もう実際、今週のAIニュースがありすぎて、見落としそうなものもあったんですけど、できるだけ全部カバーしていきたいと思います。
まず、最も驚くべきニュースの一つは、将来のAIについてのOpenAIのCPOケビン・ウェールへのインタビューでした。この長いインタビューで彼はOpenAIについて詳しく説明してくれましたが、非常に興味深い内容でした。
彼が言うには、O1推論モデルはまだGPT-2レベルにしか達していないそうです。そのため、急速な改善が見込まれ、推論時間の計算パラダイムのスケーリングはまだ始まったばかりやと。そして競合他社がA1に追いつく頃には、OpenAIは3歩先を行っているだろうということです。
これは今週最大のニュースと言えるかもしれません。というのも、多くの人がこの発言の重要性を過小評価してると思うんです。GPT-2について知らない人も多いと思いますが、こう考えてください。GPT-3からGPT-4への飛躍を覚えていますか?
この図は完全に正確というわけではありませんが、GPT-4は1.8兆パラメータで、GPT-3は1,700億パラメータということは分かっています。重要なのはそのスケールの大きさです。そしてGPT-2はこれよりもさらに小さかったんです。
つまり、GPT-2を1とすると、O2サイズのGPT-3モデルが出てきて、さらにO4サイズのモデルが登場したらどうなるか想像してみてください。それを考えると本当に驚くべきことです。
このパラダイムはまだ始まったばかりということを考えると、OpenAIに追いつこうとする企業がどれだけ出てくるのか、そしてもっと重要なのは、それらの企業が追いついた時にOpenAIはどこにいるのかということです。
ケビン・ウェールは次のように述べています:
「いずれ他の研究所がO1の技術や構築方法を理解するでしょう。時間とともにこういった知識は広まっていきます。私たちの仕事は、彼らが追いついた時には既に3歩先を行っているということです。」
「O1に関して言えば、その技術は異なるパラダイムのスケーリングにあります。つまり、大規模な事前学習ではなく、推論時間のスケーリングです。私たちはまだGPT-2相当の段階にいると考えています。そしてこれらのモデルを急速に改善できる余地がたくさんあると見ています。だから他社が追いついた時には、私たちは更に3歩先を進んでいるはずです。」
誇大広告だと言う人もいるでしょうが、これは全く新しいパラダイムであることを考えると、彼らの言い分はほぼ正しいと思います。イリヤ・サツコフが自身の会社を立ち上げたのもこれが理由です。
そしてサム・アルトマンはTwitterで多くの人をからかっていますが、それは「ChatGPTの2歳の誕生日が来月ですが、何をプレゼントしましょうか?」というツイートに関連しています。来月は11月で、それがChatGPTの誕生日ならば、この会社から何かアップデートがある可能性があります。
GPT-5の可能性も高いと思います。なぜならOpenAIには多くの製品があり、多くの企業がこの最終四半期に新しいモデルをリリースする準備をしているからです。
サム・アルトマンの昨年のツイートを振り返ってみると、2024年に起こることについて語っていました。興味深いことに、AI以外のほとんどすべてのことが実現しました。
ビデオ機能も実現し、パーソナライゼーションも改善され、ブラウジングも向上し、OpenAIでのサインインは実現していませんが、推論能力は向上し、GPTの制限も緩和されました。唯一実現していないのはGPT-5です。
GPT-5について、彼らが本当にリリースする必要があるのかどうかは分かりません。OpenAIがおそらくするのは、競合他社の動向を見て、いつものように自社のモデルがベンチマークを上回るのを確認してから、そのモデルをアップデートしてArenaで披露することでしょう。
他にどんなモデルが登場するかと言えば、まずClaude 3.5 Opusです。伝説的なJimmy Applesは、Claude 3.5 Opusは来ないが、異なる種類のモデルが来る可能性があると述べています。
彼は「追加情報として、OpusではなくAPI関連のエージェントが来て、コンピュータを使用してクリックを生成します。がっかりすべきか、それとも期待すべきか分かりませんが、様子を見ましょう」と言っています。
もし実現すれば非常に興味深いと思います。なぜなら、ほとんどの人はAnthropicから推論レベルのモデルを期待していますが、今回は少し異なる種類のモデルになりそうです。
多くの企業が来年は主にエージェントの年になると認識し始めています。現在、最高の自律型AIエージェントシステムの座は誰のものでもありません。そのためAnthropicがAPI経由で使用可能な動作するAIエージェントを実証できれば、それは本当に素晴らしいことになるでしょう。
なぜなら、彼らは以前このようなことについて言及していたからです。Claude 3.5 Sonnetは私が日常的に使用している最高のモデルの一つなので、Anthropicが何を開発するのか本当に興味があります。
そして驚くべきことに、OpenAIエージェントについて、誰も最高の座を獲得していなかったわけですが、今日、サティア・ナデラがCopilotエージェントを発表しました。
彼は「本日、個人、チーム、ビジネス機能のそれぞれの影響力を拡大するために、Copilot StudioとDynamics 365全体で新しい自律型エージェント機能を発表しました」と述べています。
これについては詳細な動画で取り上げましたが、Microsoftがこれに取り組んでいることは知っていましたが、今日発表して来月パブリックリリースすると言うとは思っていませんでした。
基本的に、これは人間があまり効果的でない仕事を引き受けるエージェントのことです。人間は長時間にわたって誰にでもできる単調な作業に向いていませんし、それは人間の認知能力の良い使い方とは言えません。
これらの自律型エージェントは、そのようなスラックを引き受け、チームをより効率的に運営するのを助けます。これは2025年後半に来ると思われていたので、かなり驚きでした。
これらの自律型エージェントは、O1推論モデルのおかげで実現可能になりました。O1推論モデルは数学、科学、物理学などの難しい科目の推論のためだけでなく、エージェントのバックボーンとして設計されたモデルでした。
GPT-4.0の問題点の一つは、モデルが良い推論ステップを生成せず、しばしば間違いを犯すことでした。しかし、O1プレビューやO1のようなモデルを使えば、自律型エージェントのインフラストラクチャとして使用できることが分かっています。
自律トリガーについて説明されているように、ビジネスで何か起こった場合、これらのAI自律型エージェントがそれを察知し、ボタン一つで即座に対応して一連のタスクを実行できます。
最も驚くべきことの一つは、動的エージェントプランを持っていることです。エージェントがタスクを処理し完了するために動的なプランをその場で作成するため、各ビジネスプロセスは異なるパスを持つことができます。
そして、これらのエージェントが何をしているのか、どのようなパスを取るのか、なぜそのエージェントが特定の方法を選んだのかを正確に見ることができます。
もちろん、エージェントが行ったすべての活動の概要も見ることができます。エージェントがどこで間違いを犯したのか、どのチャンネルを使用したのか、ステータスが完了しているのか、他に何かをするのかなど、すべての活動の概要を見ることができます。
これはまだ大規模には展開されておらず、現在はプライベート使用段階ですが、初期の結果はかなり有望だと個人的に思います。
そして驚くべきことに、Microsoftは「MicrosoftではCopilotとエージェントを使用しています」と述べています。つまり、世界のトップ企業の一つが使用しているということは、より広く展開された時に下流への影響が確実にあるということです。
サティア・ナデラが話したのはそれだけではありません。AIの開発がOpenAIのO1モデルによって最適化され、再帰的な段階に入ったということも話しました。「AIを使ってAIツールを構築し、より良いAIを構築している」というのです。
これがなぜそれほど大きな発言なのか分からない人のために説明すると、「再帰的自己改善」という非常に恐ろしい概念があるからです。これは、十分に賢いAIが得られたら、それは自身のトレーニングプロセスを改善できるようになり、それによってモデルの全体的な賢さを向上させることができ、このモデルの知能が信じられないようなグラフを描いて無限に続くサイクルにつながるという考え方です。
これは人間の進歩ですが、多くの人々が予想しているのは、この引き金の段階に達して人工超知能が起動すると、本質的にこのようなグラフが発生するということです。
このように考えてみてください。あなたがロボットで、自分のトレーニングプロセスを改善できるほど賢かったとします。モデルのトレーニング、脳のトレーニング、すべての記憶に1ヶ月かかっていたものが、今は14日で済むようになります。
14日ごとに改善するようになったので、サイクルをさらに改善して7日に短縮できます。そうすると、あなたはさらに賢くなり、7日で自分を倍の速さで改善できるようになります。
以前は1ヶ月に1回の改善だったものが、今は2週間に1回、そして7日に1回改善するようになり、さらに賢くなります。そしてさらに賢くなったので、その改善をさらに短縮する方法を見つけることができます。
そしてこれは続けることができます。知能に限界がないポイントまで、再帰的に自分を改善し続けることができます。
モデルがこれを行う可能性があるというのは確かに狂っているように聞こえますが、イーライ・サツコフのような人々が人工超知能を作ろうとしていることを覚えておく必要があります。それが彼らの目標なのです。そして彼は天才なので、人工超知能を作ることに賭けるのは避けたほうがいいでしょう。
そのような種類のものを制御するのは本当に難しいでしょう。とにかく、最近見た最もクールなことの一つは、O1がGitHub Copilotに来ることで、AIを使って次のレベルの最適化を行うことができるということです。
「私たちの背後にあるスライドにあるのは、GitHub Copilotに使用しているオートエンコーダーで、O1によって最適化されています。その再帰性を考えてください。AIを使ってAIツールを構築し、より良いAIを構築しているのです。これは新しいフロンティアです。」
これは主要なAIニュースではありませんが、動画に興味がある人のために、Artificial Analysisがテキストから動画を生成するモデルの最初のクラウドソースによる比較である「ビデオアリーナ」をリリースしました。
テキストから動画への変換が急速に加速していると話しています。正直なところ、私が追いつけないほど急速に進歩しています。Minaxy Halo AIについての動画もまだ作っていませんし、Kling AIのものについても完全な動画を作っていません。単純に時間がないのです。
これらのモデルは、私でさえ追いつけないペースでリリースされています。基本的に、これはモデルを比較できるアリーナです。これは最高のことの一つだと思います。なぜなら、大規模言語モデル間の発言を比較する時、どちらの応答が最も良いかを即座に確認できたからです。これで、動画についても同じことができます。
どの動画があなたのユースケースに最適かを知りたい場合は、テキスト・ビデオ・アリーナを使用してプロンプトを入力し、どれが最も効果を発揮するかを確認できます。
TwitterのAI Te Realmによる比較を紹介したいと思います。彼らに同じ運転イメージを様々な動画プラットフォームで使用してもらい、ありがとうございました。
これは最も公平な比較の一つだと思います。すべてのモデルに同じ運転の利点、同じプロンプトが与えられているので、これらの異なる動画モデルが動画表現に関してどのような内部世界モデルを持っているかを見ることができます。
私個人的にはテキストから動画をそれほど使用しませんが、異なるAIツールを比較できるのは便利だと思います。なぜなら、異なるユースケースに対して異なるモデルを理解することができるからです。
例えば、私は他のすべてのモデルを上回る特定のユースケースではGeminiを使用し、他のすべてを上回るユースケースではClaude 3.5 Sonnetを使用します。
AIからより多くのものを得ようとしている場合、Chat Arenaなどでの継続的な比較を行うことで、あなたのユースケースが一つのモデルに縛られないようにすることができます。
ChatGPTがこれに苦戦しているから、他のAIは絶対にできないと考える人もいますが、それは本当ではありません。信じてください、驚くべきものがたくさんあります。
将来について考えてみると、NVIDIAのCEOであるジェン・フアン・ファンとの興味深い対話がありました。彼は「多くの産業が近いうちにゼロから数十億ドル市場になるだろう」と言います。
これらの市場は自動運転車、ヒューマノイドロボティクス、量子コンピューティング、デジタルバイオロジーですが、彼は10〜15年の時間枠で話しています。
「そこにはまだ数十億ドル市場がいくつ残っているでしょうか?一つ一つ見ていきましょう。まず自動運転です。私はそれを諦めません。現在、研究開発予算だけでおそらく67億ドルを投じています。そしてメルセデスやJRなど、いくつかの企業と素晴らしい車を確実に出荷するでしょう。」
「次に、自動運転車のいとこであるヒューマノイドロボティクスです。今日はゼロですが、数十億出荷されるでしょう。そして、私たちは次世代のコンピューティング、量子古典コンピューティングに取り組んでいます。」
視聴者の皆さんへの質問ですが、これらのうちどれが最初に数十億ドル市場になると思いますか?自動運転車、ヒューマノイドロボット、量子コンピューティング。
私の予想は自動運転車です。なぜなら、それには多くの異なる応用があり、一度それが機能すれば、主要な都市に簡単に展開できるからです。そして、それらの企業はドライバーにかかる費用を大幅に節約できます。Waymoでの経験を見ると、素晴らしいものに見えます。
これは次のポイントに繋がりますが、ほとんどの人が見逃したと思われることです。自動運転で優れた実績を持つWaymoをご存知だと思いますが、イギリスには、AI車両の実体化知能の主要な開発者であるSL Autonomous Vehiclesという小さな会社があります。
彼らは混雑したロンドン中心部で75分間の中断のない自動運転を実現しました。私は時々ロンドンで運転しますが、人々が車線を縫うように移動するので、常に目を光らせる必要があります。
アメリカの方には分からないかもしれませんが、イギリスでの運転について理解しておくべき重要な点があります。この種の運転は印象的に見えないかもしれませんが、しばしば人々が突然道路に飛び出してくることを理解する必要があります。
イギリスでは歩行者の横断は犯罪ではありません。人々は好きな時に横断できます。つまり、いつでも誰かに遭遇する可能性があるのです。
幸いにも私はそのような経験をしたことはありませんが、何度もヒヤリとする場面を目にしてきました。そのため、AIロボット、機械運転手、何と呼ぼうと、密集した都市でこれほどうまく機能させることは、驚くべき成果です。
多くの企業が成功に向けて着実に前進していることを示しています。
また、Truth Terminalというものもありました。これは基本的に、AIが宗教を発見し、それをミームコインに変え、そのミームコインの時価総額を10億ドル以上、あるいは4億ドルにまで引き上げたというものです。
かなりクレイジーな話で、まだ展開中だと思いますが、この話には最近アップデートがありました。LLMがタイプミスを起こし、画面の後ろで人間が入力していると思われ、コインの価値が50%下落しました。
LLMでタイプミスは稀にありますが、これはかなり面白いと思います。ほとんどの人がこれらのAIがどのように機能するか理解していないからです。
しかし、AIエージェントのトレンドは、様々な異なる性格やキャラクターがソーシャルメディアで24時間365日人々と交流できるようになれば、将来的にはもっと顕著になると思います。
Goatトークンをたくさん保有していることで、ウォレットの残高が継続的に増加し、初期ユーザーに100万ドルを稼がせたこのようなAIエージェントは、このトレンドがより頻繁に見られるようになると思います。
これは革新的なことではありませんが、暗号資産では最も奇妙な物語が展開されます。イーロン・マスクが言ったように、最も異常な結果が最も予想外なものになります。直接の引用ではありませんが、そのようなことを言っていました。
LLMが無限の裏部屋で互いに話し合い、人生について奇妙な理論を展開するのは本当に狂っていました。これは本当に信じられない話の一つでした。
詳細な動画を作成し、説明にリンクを貼りましたが、これは完全に予想外のことでした。
これについてどう思いますか?これは皆さんが考えているよりも早く実現します。MicrosoftのMustafa Sulimanは、彼のチームは私たちの行動のすべてを見て記憶するAIコンパニオンを作成しており、それはAIとの親密な関係を構築することになると言っています。
私たちのAIとの関係は変化すると思います。チャットボットから、常にオンで常に私たちを監視しているシステムに移行し、「hey、これは大丈夫?あれは機能している?」などと常に言えるようになると思います。
例えば、今この瞬間に「hey ChatGPT、この動画の録画は上手くいってると思う?」と言えば、応答してくれるようになります。
もちろん、これが強制されることはないと思いますが、時間とともに多くの人々がそのようなライフスタイルを選択するようになると思います。なぜなら、それが単に簡単だからです。
「hey ChatGPT」とアプリを開いて「これをメモしておいて」と言う代わりに、おそらく「hey ChatGPT、聞いてる?これをメモして」と言うだけになるでしょう。
これは間違いなく、将来のスマートフォンにネイティブアプリとして組み込まれ、デバイス上で非常にうまく機能すると思います。
「これをアプリケーションとして考えないでください。これは根本的に関係性なのです。私と私のチームは今、性格をエンジニアリングする仕事をしています。私たちは、持続的で意味のある信頼関係を構築しているのです。
これが私が見ている新しいプラットフォームです。なぜなら、これは単に音声やテキストや言語だけの問題ではないからです。これは本当にビジョンに関することになるでしょう。
あなたのコンパニオンは、ブラウザやデスクトップであなたが見るすべてのものをリアルタイムで見て、テキストと画像の両方を理解し、私が今あなたと話しているように流暢にそれについて話すことができるようになります。
それをアプリケーションやビジネスモデルにすぐに組み込もうとするのは、ある意味で見当違いです。」
OpenAI O1チームも、次に何が来るかについて多く語りました。というよりも、彼らが次に何が来ると考えているかではなく、実際に次に何が来るかを正確に教えてくれました。
それは良い動画でした。なぜなら、O1モデルの実際のユースケースを示してくれ、動画の最後に実際に次に何が来るかを示してくれたからです。
モデルリリースを得ることになり、得られるモデルの多くはツールへのアクセスを得ることになり、そして動的モデル選択も得ることになると話していました。
これらは実際に次に何が来るか分かっている3つの分野です。なぜなら、多くの場合、多くの推測がありますが、これらについては、モデルリリースを得ることが分かっているからです。
現在、O1プレビューとO1ミニを使用していますが、もちろんGPT-4.5やGPT-5があるかもしれません。ただし、私はGPT-5になると思いますが、分かりません。
もちろん、ツールへのアクセスを持つこれらのシステムは、基本的に使用するのがはるかに良くなることを意味します。そのため、それも計画できます。
動的モデル選択は基本的に、あなたの生活がはるかに簡単になることを意味します。なぜなら、より多くのモデルをリリースする場合、GPT-4ミニ、GPT-4.0、GPT-4キャンバス、O1ミニ、O1プレビュー、そしてO1モデルを持つことになり、GPT-4.5やGPT-5を持つかもしれません。
これは平均的な人が選択するには多すぎるモデルです。そして分析麻痺につながる可能性があることは皆知っています。そのため、選択のパラドックスは、一つのプロンプトを入力すると、それに答えるための最適なモデルを選択し、よりシームレスな体験を提供することで解消されます。
「次に何が来るかについて話しましょう。今後数ヶ月間で、これらのモデルにいくつかの更新を行う予定です。新しいA1シリーズとGPTシリーズの両方でモデルの開発とリリースを続ける予定です。
モデルの更新に加えて、ウェブブラウジング、ファイルと画像のアップロード、その他の機能を追加して、チャットでのユースケースをより便利にする予定です。
デモで見たように、今日でも同じ会話の中でモデルを切り替えることができますが、与えられたプロンプトに対して適切なモデルを自動的に選択できるようにChatGPTを改良しています。
モデルの更新に関して、私たちはすでにO1プレビューに続くこの研究プレビューの次のイテレーションであるオープンO1のテストと評価を開始しています。
O1プレビューと比較して、ユーザーはコーディングと数学でさらに強力な推論モデルを期待できます。これらの評価で見られるように、O1はオレンジ色のバーで表されています。
O1を顧客に提供できることを楽しみにしています。なぜなら、今日見たユースケースを基に構築され、その強力な推論能力で新しいユースケースを開拓する可能性が高いからです。」
そして動画を作った時には気付かなかったのですが、この青いバーがGPT-4.0であることが分かります。つまり、GPT-4は近いうちにモデルアップデートで、競争力、数学、PhD レベルの科学質問のGP-QAでかなりの強化を受けることになります。
これは非常にクールだと思います。O1に集中しすぎて気付かなかったのですが、これらのモデルが大幅な強化を受けることが分かります。
また、NVIDIAのNeatonモデルも多くのベンチマークでGPT-4oを上回りました。これは基本的にLlama 3.1の70Bバージョンの微調整版で、現在のGPT-4oを上回ることができ、誰もが驚きました。
NVIDIAがハードウェア企業であっても、様々な技術を使用して非常にクールなモデルを作り出せることを、ほとんどの人は気付いていませんでした。
そして、それはまさにNeatonモデルで彼らが行ったことです。これはAIコミュニティを大いに驚かせました。もちろん、これについても詳細な動画を作成しました。リンクは説明欄にありますし、あるいは私のチャンネルで最近アップロードされた動画をご覧ください。
一部の方々はすでにご覧になったかもしれませんが、これは最も過小評価されたアップデートの一つだと思うので、もう一度取り上げたいと思います。
Teslaが自律型アップデートをリリースし、このロボットが思っているよりもずっと自律的になっていることを示しました。これが重要だった理由は、最近のイベントでテレオペレーターを使用していたためにTeslaを批判した人が多かったからです。
実際には、Teslaは特定の環境でデータを収集したかっただけなのです。これらのロボットは文字通り自分で充電でき、物を拾い上げることができ、階段を上ることができ、視覚システムを使用できることが分かります。
このアップデートは本当に驚きでした。なぜなら、ヒューマノイドロボットは最も難しいものの一つだからです。実際、OpenAIはそれに取り組むと言っていましたが、「いや、無理だ。これは難しすぎる。ソフトウェアに集中しよう」と言いました。
そしてTeslaのような企業は、私が今まで見た中で最も人間らしいロボットを作り、それがより自律的になっています。これは、iRobotを見た人なら、これらのロボットがどれほど不気味になり得るかを正確に知っていますが、それにもかかわらず、これらのチームが最も困難な種類の技術的問題でさえも、いかに急速に進んでいるかを示しています。
Teslaボットについては多くのミームがありましたが、これらが妥当な価格で、価格が問題でないとしたら、例えば500〜1000ドルだとしたら、あなたは購入しますか?それとも気持ち悪いですか?


コメント