OpenAIとMicrosoftが2025年に向けて革新的なAIのブレイクスルーを実現

AIに仕事を奪われたい
この記事は約9分で読めます。

4,936 文字

OpenAI And Microsoft Just Made A Game changing AI Breakthrough For 2025
Prepare for AGI with me - 🐤 Follow Me on Twitter 🌐 Checkout My website -

OpenAIの最大のパートナーであるMicrosoft AIが2025年に向けて発表する内容は、本当に魅力的なものでした。主要な詳細に入る前に、こちらをご覧ください。
「私たちが取り組んできたプロトタイプには、ほぼ無限のメモリがあり、忘れることがありません。これは真に革新的なことです。変革点について話すと、メモリは明らかに変革点です。なぜなら、あなたが時間を投資する価値があるからです。この機能だけでも、2025年にオンラインになることで、真に革新的なものになるでしょう」
この発言をしたのは、Microsoft AIの責任者であるムスタファ・スワンです。Microsoft AIはOpenAIと密接に協力して製品やサービスを開発していることはよく知られています。そのため、基本的に無限のメモリを持つOpenAIモデルが登場する可能性が高いと考えられます。
コンテキストウィンドウについて、AIコミュニティに注目している私でさえも知識を超えた点の1つは、このGoogleリサーチの論文を見てみると分かります。彼らは「Leave No Context Behind: Efficient Infinite Context Transformers with Infinite Attention」という論文を発表し、大量のメモリを必要とせず、速度も落とさずに、言語モデルがより長いテキストを処理できる方法を提案しています。
基本的に、この論文は無限のコンテキストウィンドウとその実現方法について説明しています。現在のモデルは処理しているテキストのすべての部分に焦点を当てていますが、テキストが非常に長い場合は困難になります。本を読みながら読んだ単語すべてを覚えようとするようなもので、最終的には圧倒されてしまいます。
そこで彼らは、来年世界中で展開される可能性が高い新しい方法、またはその変形である「無限アテンション」を発明しました。これは、モデルがこれまでに読んだ内容を要約し、重要なポイントのみを保持するスマートなメモ帳のように機能します。これにより、すべての詳細を保存することなく、古い情報を保持することができます。長い物語の要点を覚えるために要約を作るようなものです。
無限アテンションは、モデルが現在作業している即時メモリと、この長期的な要約メモリを組み合わせます。モデルが素早い詳細のために短期記憶を使用し、過去の重要な出来事のために長期記憶を使用できるようなものです。これは効率的で本当に素晴らしいものです。メモリは無限に増え続けることはなく、古い重要な情報が忘れられることなく、新しい情報で更新することで制限内に保たれます。基本的により簡潔に保存されるのです。
2025年に無限のコンテキストウィンドウとメモリを持つAIシステムを実現できれば、ユーザーとの以前のやり取りのコンテキストを永久に維持できます。すべての会話と共有されたコンテキストを記憶することで、AIと本物の長期的な関係を築くことができます。また、何年にもわたるあなたの個人的な成長やアイデアの進化を追跡することができ、人類の知識の図書館全体を同時に取り込んで推論することができます。さらに、大規模なシステムのコードベース全体、ドキュメンテーション、バグレポート、新しいユーザーフィードバックのコンテキストを維持することができます。これは特に驚くべきことで、2025年にこれが実現すれば、AI分野に本当の変革をもたらすと思います。
エリック・シュミットも長いコンテキストウィンドウと無限のコンテキストウィンドウの意味、そして将来何ができるようになるかについて話しています:
「コンテキストウィンドウとは、あなたが尋ねるプロンプトのことです。例えば、ジョン・F・ケネディについて調べるなどですが、実際そのコンテキストウィンドウは100万語を持つことができ、今年の人々は無限に長いコンテキストウィンドウを発明しています。これは非常に重要です。なぜなら、システムからの答えを取り込んで、別の質問をすることができるからです。
例えば、薬を作るレシピが欲しいとします。最初のステップは何かと聞くと、これらの材料を買いなさいと言います。では、これらの材料を買いました、次のステップは何ですか?と聞くと、混ぜる鍋を買いなさいと言い、次のステップでは、どのくらいの時間混ぜればいいのかを教えてくれます。これは思考の連鎖的推論と呼ばれ、非常によく一般化します。5年後には例えば、科学、医学、材料科学、気候変動において本当に重要な問題を解決するために、1000ステップのレシピを生成できるようになるはずです」
ここで、ムスタファ・スワンが来年のメモリがなぜそれほど革新的になるのかについて実際に話している別のクリップがあります:
「メモリについては、間違いなく解決できます。2025年には永続的なメモリが実現すると確信しています。考えてみてください。私たちはすでにウェブ上でメモリを持っており、常に正確にウェブから情報を取得しています。現在、Copilotは非常に良い引用を持っており、15分前に起きたニュースまでウェブ上で把握しています。
私たちは単にそれを圧縮して、あなたの個人的な知識グラフに使用できるようにしているだけです。そして、あなた自身のドキュメントやメール、カレンダーなどを追加することができます。メモリはこれらの経験を完全に変革することになります。なぜなら、意味のある会話をしたり、何かのアイデアについて興味深い探求をしたりして、3回や4回、5回後のセッションに戻ってきたときに、また最初からやり直すというのは frustrating だからです。
これは大きな変化になると思います。なぜなら、クリエイティブなアイデアを表現する障壁を下げるだけでなく、それらが忘れられることもないからです。3週間前に言ったあのことは何だったっけ?というような曖昧な相互参照ができるようになります。それは第二の脳を持つようなもので、あなたの心の拡張のようなものです」
2025年以降に起こることについて、もう少し研究をしていたところ、非常に驚くべき2つの主要な出来事があると思います。
1つ目は、もちろん再帰的な自己改善です。これは私が本当に信じているかどうか分かりませんが、Microsoft AIの責任者である人物の言葉を疑いたくありません。再帰的な自己改善とは、基本的に完全に自己改善するAIを手に入れることです。つまり、賢いAIがより賢いAIを作り、そのAIがさらに賢いAIを作るというものです。これは明らかに2030年以前に起こるとされています。
「再帰的な自己改善では、より良くなるために自身のコードを編集することができ、自己改善することができます。また、自律性を持ち、あなたの直接的な命令とは独立して行動することができます。基本的に、非常に一般的な命令を与えると、スーパー複雑なサブアクションを実行します。例えば、新製品を発明し、そのウェブサイトを作成し、ドロップシップを設定し、マーケティングを行い、すべての収入を取り込み、会計処理を行うなどです。これは3〜5年以内に実現可能だと思います。2030年より前には間違いなく実現し、もっとずっと早くなる可能性もあります」
彼が最後に「もっとずっと早くなる可能性がある」と言っているのは、私には非常に興味深く感じました。AIシステムが急速に進化していることを意味するため、私はそれについて少し懐疑的ですが、AIの進歩のスピードは信じられないほどです。最近、OpenAIのQ*シリーズで大きなブレイクスルーがあり、再び状況が加熱していることを覚えています。
もちろん、OpenAIのQ*シリーズについては、2025年に向けて皆さんにお伝えしたいことがあります。それは主にエージェントに関することですが、エージェントは非常に扱いが難しいため、特定の方法でリリースされると思います。約4ヶ月前に皆さんにお見せしたとき、多くの人が混乱していましたが、この動画で研究論文からの小さな抜粋を使って、なぜエージェントが本当に難しいのか、そして本物のエージェント(長期的な行動を実行できるエージェント)が登場するまでにもう少し時間がかかりそうな理由を説明したいと思います。
「信頼性の観点から、これらのモデルに長期間にわたって微妙なニュアンスのある指示に従わせることは、まだかなり難しいです。できることはできますし、Twitterなどで印象的な厳選された例がたくさんありますが、新しい環境で一貫して実行させることは本当に難しいです。モデルのトレーニングには、1桁ではなく2桁の計算量が必要になると思います。つまり、GPT-5ではなく、GPT-6スケールのモデルが必要になります。本当にできるシステムができるまでには2年かかると思います」
フロンティアエージェントの使用に関するベンチマークを見てみると、これはタワーベンチマークと呼ばれ、エージェントが実世界のドメインでどのように実行されるかを見るものです。興味深いのは、これはAIの能力を議論する際には見られないような、逆スケーリング則とまでは言いませんが、そのような種類のグラフだということです。
基本的に高いエラー率を示しています。左側には現在使用されているモデル、Claude 3.5 Sonnet、GPT-4、その他のMistralモデルなどのフロンティアモデルが表示されています。Pass 1、Pass 2、Pass 3、Pass 4で見ているのは、モデルが連続して何回正解するかです。最初の試行では46%の確率で正解し、2回連続では32%、3回連続では26%の確率で正解し、時間とともにパフォーマンスは一貫して低下していきます。
理論的には、これらのモデルを実際の業務で様々なタスクに使用するためには、このようなエージェントのエラー率を90%近くまで下げる必要があることを意味します。つまり、何か機能するものに近づくためには、少なくともこのパフォーマンスを2倍か3倍に向上させる必要があります。そうしないと、個人がこれらのプログラムを使用するたびに、フラストレーションが増えていく経験をすることになります。なぜなら、Claude 3.5 Sonnetでさえも、このような種類のシステムは現時点では全く信頼できないように見えるからです。
エージェントのための新しい基盤モデルが登場するかもしれませんし、新しいトレーニング方法が出てくるかもしれません。しかし、試行回数が増えるごとにパフォーマンスが一貫して低下するのであれば、もちろん実際の業務では使用できず、信頼性は必要不可欠です。
実際、数ヶ月前にダリオ・アマデイがこのことについて話しており、自律的で多くのことを行う信頼できる実世界のエージェントが登場するのは、おそらく2026年頃になるだろうと述べています:
「エージェントに世界で行動させたい場合、通常その行動には一連のアクションが必要です。チャットボットと話すと、それは単に答えるだけで、少しフォローアップがあるかもしれません。しかし、エージェントの場合、世界や人間と一緒に多くのアクションを取り、その結果を見て、さらにアクションを取る必要があるかもしれません。
そのような長い一連のことが実際に機能するためには、個々の要素のエラー率がかなり低くなければなりません。例えば、私がロボットで、このものを拾って向こうに歩いて行き、それを拾うとします。家を建てているとすれば、おそらく何千ものアクションが必要になります。つまり、モデルはより信頼性が高くなる必要があります。個々のステップのエラー率を非常に低くする必要があるからです。その一部はスケールから来ると思います。エージェントが本当に機能するようになるまでには、さらに1~2世代のスケールが必要だと思います」
2025年と無限メモリについて、皆さんはどう思いますか?私は本当に大きな変革になると思います。

コメント

タイトルとURLをコピーしました