
33,786 文字

今月の人工知能の進歩は目覚ましいものでした。OpenAIはGPT-4.5をリリースし、一方でDeepSeekの次期モデルR2は、OpenAIが追いつくのに苦労するほどの効率レベルを実現することを約束しています。一方、テスラのヒューマノイドロボットOptimusとFigureは、機械と生命の境界を曖昧にし、インターネットで大きな反響を呼んでいます。xAIはGrok 3を発表し、これまでで最も強力なAIと噂されています。中国はTu-3やByteaDanceの新モデルで休むことなく進歩し続け、その予想外のインパクトで誰もが驚いています。人工知能競争は加速しており、これまでで最も激しい段階を目の当たりにしています。
DeepSeekのニュースにより、株式市場が急落し、わずか一日で1兆ドル以上の損失が発生しました。現在、バークレー大学の研究者たちがDeepSeek R1の中核技術をわずか30ドルで再現することに成功しました。これが前例のない世界的な金融崩壊を引き起こすのでしょうか?おそらくそうではありませんが、それでも信じられないほど興味深いことです。
よく言われるように、これは強化学習における小さな革命です。バークレー大学の人工知能研究チームは、博士課程のJ・パンが率いて、多くの人が不可能だと思っていたことを達成しました。DeepSeek R1の主要技術を二人分のディナーよりも安い価格で再現したのです。彼らはTwitterに投稿を行い、そこにはGitHubへのリンクが含まれ、すべての実験やその他の情報が認められています。これにより、人々はそれをコピー、ダウンロード、結果を再現し、自分自身で試すことができます。
指摘されているように、あなたは30ドル未満で「アハ体験」を経験することができます。このアハ体験とは、以前のビデオで分析したR1の論文で言及されているものです。これは本当に興味深く驚くべきことです。なぜなら、強化学習を使用して、これらのモデルがほぼ自分自身で学習できることを示しているからです。研究で説明されているように、これは自己主導型の進化であり、モデルは時間の経過とともに、かなり高度な推論能力や明示的に教えられていない戦略を含む新たな能力を発見していくのです。
もちろん、これは何百万ドルもの投資を持つ名高い研究所が組み立てた大規模なモデルですが、これは何を意味するのでしょうか?わずか30ドルで、強化学習における驚異的な自己改善能力を再現できるということでしょうか?これは一見して思われるよりも、はるかに大きな意味を持つかもしれません。まだ確信を持って言うには早すぎますが、この話題を掘り下げてみましょう。あるAIがあなたの仕事を奪うことはないでしょうが、それを使用できる人はそうするかもしれません。
これはXYZ labsからの抜粋で、Xと呼ばれるようになったTwitterに投稿されたものをまとめたSubstackまたは記事です。著者たちのオリジナルのGitHubや公式なX.com投稿を載せていないという批判を受けているので、すべてをリンクして明確にします。実際に全作業を行ったのは彼らであり、この記事はただの要約です。
「すぐにロボットに取って代わられる」と考えすぎないでください。小規模な言語モデルに洗練された推論能力を実装する成功は、AI研究の重要な民主化を示しています。その影響は潜在的にはるかに大きい可能性がありますが、ここでの主な成果を紹介します。
まず第一に、成功した再現が行われました。R1について話していますが、一部の機能を再現しました。注目すべきは、完全なモデルは再現していないことです。これは必要ないかもしれませんが、30ドル未満でこれを行いました。おそらく計算コストを指していますが、この費用は急速に低下しているため、同じ量の処理に対して2〜3年後にはさらに低くなるでしょう。さまざまなアルゴリズムの改善を考慮すると、さらに低くなります。
ダリオ・アモデイの投稿で特に興味深いのは、このようなシステムを実行するコストがいかに急速に低下しているかということです。その低下はハードウェアの改善だけでなく、アルゴリズムの進歩によるものでもあり、それにより同じ計算能力からより多くを引き出すことができます。アルゴリズムの改善だけに焦点を当てると、NVIDIAやその他のコンポーネントの新しいチップは考慮せず、ソフトウェア、そのアーキテクチャ、および実行方法のみを考慮すると、2020年に彼とチームは年間約1.68倍の改善を示唆する論文を発表しました。現在では彼によると、その数字は年間約4倍です。
これを念頭に置いておいてください。30ドルは大きな金額ではありませんが、その費用は時間とともに減少し続けます。最終的には、わずか数セントというほとんど無視できるレベルになるでしょう。これにより、小規模なモデルでも複雑な推論が可能になります。100億パラメータのモデルは実際には非常に小さいものです。通常、小規模モデルと言えば70億程度を指します。中規模モデルは約700億、大規模モデルはMetaのLlamaの場合は4,500億または4,050億のような数字があり、GPT-4は約1.7兆あたりに位置しています。したがって、100億のモデルは私たちが通常小さいと考えるものよりも小さく、実質的には極小モデルです。それでも複雑な推論を発達させ、はるかに堅牢なシステムに匹敵するパフォーマンスを提供します。
要するに、彼らの目標はR1-0を複製することであり、そのためにCountdownゲームをテストベッドとして使用しました。例えば、1、9、3、6、55、7の数字を使って、65になる方程式を作るというものです。アイデアは、これらの数字を基本的な算術演算で組み合わせて、望ましい結果を得ることです。以下に、ステップバイステップの推論が示されており、最終的な解決策が続きます。
研究の著者が指摘しているように、重要な制限の1つは、検証がCountdownタスクのみで行われ、一般的な推論ドメインには拡張されていないことです。現在、私たちは計算能力によって制限されています。この研究者に必要なリソースを提供することが重要です。なぜなら、主な問題は、これらの発見がどれだけ一般化可能かを決定することであり、他のどのような問題に適用できるかということだからです。
この進歩は、モデルがランダムな推測から洗練された検索技術と自己検証に進化できることを示しており、小規模なモデルでも複雑な推論能力を開発できることを示唆しています。主な疑問は、これらの発見をどの程度他の問題や幅広い推論ドメインに適用できるかを決定することです。
モデルに提示された認知タスクの追加例は、数字の掛け算です。この場合、モデルは分配法則を使って問題を分解し、ステップバイステップで解くことを学びました。R1-0の注目すべき点は、明示的に問題解決を教えられなかったことです。適切な強化学習環境が作成され、モデルは自らそれを発見しました。まだ公開されていませんが、記事はこの自己進化が大規模で高価なモデルだけでなく、より小規模で経済的なモデルでも発生する可能性があることを示唆しています。特にNVIDIAのようなメーカーがチップの改良を続ければ、時間が経つにつれてコストはさらに下がり続けるでしょう。
基本的な推測しかできなかった5億パラメータのモデルから100億パラメータのモデルにスケールアップすると、注目すべき問題解決能力が示されることを観察するのは興味深いです。これは、思われていたよりも小さなモデルで新たな能力が現れる可能性があることを示しています。さらに、使用される強化学習アルゴリズムは予想よりも重要ではないことが分かりました。最近の研究は、特定の新たな特性がモデルのサイズに厳密に結びついているわけではなく、単純化されたデータで訓練された小規模なモデルでも示すことができることを示唆しています。
最も魅力的な発見の1つは、モデルがさまざまなタスクに特化した問題解決戦略を開発する方法です。例えば、Countdownゲームでは、検索技術と問題の自己検証を習得します。最近の研究は、言語モデルが人間に似た推論を採用し、複雑なタスクをより管理しやすいサブタスクに分解できることを示しており、問題解決への専門的なアプローチを反映しています。
DeepSeek R1-0に馴染みのない方のために、これはDeepSeekによって開発されたモデルで、強化学習を使用して推論能力を向上させています。このアプローチにより、モデルは人間の介入にあまり頼らずに、自己評価のプロセスを通じて自ら学習し改善することができます。この方法により、モデルは注目すべき新たな推論行動を発達させることができました。
この自己進化プロセスは、強化学習がモデルの推論能力を自律的に向上させる方法の驚くべき実証です。ベースモデルから直接強化学習を適用することで、監督付き微調整の段階の影響なしに、モデルの進行を密接に監視することができます。このアプローチは、特に複雑な推論タスクを処理する能力の点で、時間の経過とともにモデルがどのように進化するかについて明確な視点を提供します。
このモデルは自然に、拡張されたテスト時間の計算を活用して、ますます複雑な推論タスクを解決する能力を身につけます。基本的には、より長く考え、真実と偽りを見極めるためにより長い出力を生成できることに気づき、それによってより高い精度と問題解決能力を得ることができます。さらに、モデルは反省のような洗練された行動の出現を観察しています。ここでモデルは以前のステップを再検討して再評価し、代替的なアプローチを見つけます。これらの自発的な発展は、推論能力を大幅に向上させます。これが「アハ体験」と呼ばれるものです。
興味深いことに、これらの研究にはミーム化したフレーズがあります。「Attention Is All You Need」の論文は独自の道を切り開き、多くの人が「これはあなたが必要とするすべてです」や「それはあなたが必要とするすべてです」といった表現を使うようになりました。「アハ体験」は、私の知る限り初めて聞いたのはこの論文で、これから人々が特定のことを指すために使い始める何かになるようです。
このアハ体験とは、基本的にモデルが自分自身で何かを解決したときのことです。この場合、単に問題により多くの思考時間を割り当てる必要があることを自己反省によって理解しました。発見したものよりも、私たちが方法を教えようとせずに自分で発見したという事実の方が重要かもしれません。
これは、強化学習が予期せぬ洗練された結果につながる可能性を示しており、これらのモデルが自律的に問題を解決するための高度な戦略を開発できることを示しています。このチャンネルの長年の視聴者なら、レオポルド・アッセン・ブレンナーの状況認識について話したことがあるでしょう。彼の研究では、多くの予測を行っており、そのいくつかは今まさに現実になっています。特に、アメリカなどの国家とこれらすべてのAI研究所との関係に関して。
彼の予測の1つはインテリジェンスエクスプロージョンについてで、2026年か2027年頃に起こると予測しています。これはダリオ・アモデイの言うことと似ています。ダリオは、AIがほとんどのタスクで人間を超えるのを目にするのはその時だと述べています。もちろん、人間が行うタスクの1つはAI研究です。では、AIが人間よりもAIを改善するのが上手くなったらどうなるでしょうか?
これが最初に公開されたとき、多くの人々がそれは馬鹿げていて、SF的で起こらないと批判しました。「オンラインで利用可能なすべてのデータであなたのAIをトレーニングしましたが、次はどうするの?どこからより多くのデータを得るのですか?」多くの人が指摘する2つの大きなボトルネックは、まずエネルギー、次にデータです。データに関しては、もちろん大量の合成データが生成されているのを目にしています。モデルが思考や推論を生成する際、それを次世代のモデルを改善するために使用することができます。これは、OpenAIが行っていると考えられています。彼らはO1からO3へと進化しました(O2は他の誰かの登録商標だったため)。最近インタビューを受けた上級リーダーの一人によると、彼らは次の段階、次のモデルを構築しており、すでにV4または何と呼ぶにせよ、O4などのトレーニングを行っています。
もちろん、エネルギーはこれらすべてを制限するもう一つの要素ですが、DeepSeekが起こる前の出来事は、これらのモデルを作成するために必要な計算コストをほぼ50%削減したことでした。では、私たちはアッセン・ブレンナーの世界に住むのか、それともヘルダーの世界に住むのか?私にはわかりません。それを解決するのはあなた方に任せます。しかし、自動化されたAI研究のアイデアは私には馬鹿げたことではありません。
DeepSeekは中国企業であることを忘れないでください。それは非常に異なる文化であり、シリコンバレーの一部ではなく、ベンチャーキャピタルからの資金調達を試みているわけでもありません。彼らには非常に異なる社会力学があり、同様に非常に異なる政府や国家力学を持っています。しかし、彼らもここで何かが現れるのを見ているようです。それはアメリカ側での考え方と似ています。彼らは強化学習と、このアハ体験、自己進化のアイデアについて話しています。
これらは人工システムに新しいレベルのインテリジェンスを解放し、将来的にはより自律的で適応性のあるモデルへの道を開く可能性があります。これはElizerYudkowskyが数年前に述べたことであり、これらのトランスフォーマー、これらのニューラルネットワークは単に学習したいのだと述べました。
この瞬間のAIの進歩は、収穫逓減の上り坂の戦いのように感じますか?つまり、前進するごとにますます難しくなるということですか?実際には、そうは思いません。むしろ逆だと思います。雪だるま効果があり、米国側であれ世界のどこであれ、すべての開発が反映されています。
確かに、この中国企業が提案した進歩は巨大です。人々は彼らが米国企業からコピーした、米国企業からの進歩を蒸留したと言います。賭けるなら、確かにそうしたと思います。しかし、すべての米国企業もお互いに同じことをしたと100%確信しています。おそらくGPT-4から始まり、このAIの波の多くはGoogleがTransformerアーキテクチャに関する「Attention Is All You Need」の論文を発表したときに始まりました。
それが科学のあるべき姿です。皆が情報を出し、皆がそれをコピーし、それに基づいて構築します。DeepSeekが提案したこれらの新しい進歩、ニューラルネットワークを構築するためのより効率的な方法は、OpenAI、Meta、その他すべてがすぐに使用し始めると確信しています。それが進歩の仕方であり、科学の仕方です。
しかし、私が思うに、この研究が示していることは、そしてまだどのような影響があるかを見る必要がありますが、それは巨大かもしれませんが、まず第一に、その自己進化、アハ体験、そしてここで「あなた自身でアハ体験を30ドル未満で体験できる」と言っています。これは単にR1の論文を参照しているだけです。今では現実となっています。しかし、ここでの驚くべき発見は、モデルがどれほど小さいかということです。ニューラルネットワークの脳のサイズの閾値が、これらの洗練された推論能力の開発を始めるために、予想よりもはるかに小さいということです。
この進化、自分自身で問題を解決する能力、私たちが明示的に方法を教えなくても、その暗黙的な学習、暗黙的な理解は、多くの人が予想していたよりもはるかに早く、はるかに小さなモデルで始まります。それは公正に言えると思います。
非常に迅速ですが、GoogleのDeepMindがAlphaシステムを持っていたことを理解することが重要です。彼らはAlphaという接頭辞を持つ注目すべきプロジェクトのシリーズを持っています。例えば、AlphaGoがプロのGoプレイヤーを打ち負かしました。次にAlphaGo Zeroがあります。それはAlphaGoの進化で、人間のデータなしでGoをプレイすることを学び、自律的なプレイのみを通じて、人間を超えるパフォーマンスを達成しました。
次にはAlphaZeroがあり、同じ原則に従いますが、チェス、将棋、Go、何でも構いません。次にAlphaFoldがあり、タンパク質の3D構造を解決します。アミノ酸を取得し、アミノ酸鎖がタンパク質にどのように折りたたまれるかを予測するという、非常に複雑なプロセスを数秒で実行します。タンパク質が折りたたまれると、生命が可能になるために必要なスキルを獲得します。それが折りたたまれる可能性のある変種の数は、既知の宇宙の原子の数よりも大きいです。つまり、天文学的な数字を超えています。AlphaFoldはそれらの設定を予測します。
次にプログラミングのためのAlphaCode、AlphaTensor、AlphaGeometry、AlphaProofがあります。これら最後の2つは、国際数学オリンピックで金メダルを獲得しそうでした。そのパフォーマンスは金メダリストに匹敵します。実際、彼らは金メダルに近づいていました。
なぜすべてがAlphaと呼ばれるのでしょうか?彼らはこれらのモデルを構築するために類似のレシピを使用しており、その多くは強化学習です。強化学習とは、私たちが見たい行動、良い行動に報酬を与え、また見たくない行動にペナルティを与えることができるものです。
要点は、これらの多くのアイデアが特定のことに適用されていることです。コードにそのアイデアを適用できるかどうか見たり、AIがタンパク質の折りたたみを行うためにそのアイデアを使用できるかどうか見たりするなど、チェス、スタークラフト2、Goなどをプレイするために使用したのと同じアイデアを適用しています。
今、私たちは同じアイデアを使用する段階に入っています。つまり、AIが強化学習を通じて自分自身を改善する方法をトレーニングし、これらの大規模言語モデルについてすでに知っていることに追加しています。そして、ここが魔法が起こるように見える場所です。
彼が言っていることは、もしあなたの目標が機械学習とAIでより良いことをすることであれば、オープンソースのために最も重要なことは、言語モデルの認知戦略を生成するのに役立つ多様な強化学習環境を構築することだということです。これはこれらのモデルのためのジムのようなものを作ることです。
これは、強化学習の適切な戦略を発見し、特定のニッチのために、これらの大きな言語モデルに行わせたい特定のタスクのために、世界中の誰もが大きな影響を与える可能性があります。世界中の多くの人々がこれを行い、オープンソースコミュニティに貢献しており、これは本当に巨大なことになる可能性があります。
また、彼は最近これを投稿しました。私たちが話していることを理解するための素晴らしい方法です。彼は、例えば新しいことを学び始めるためにテキストブックを開くと、そのテキストブック内には主に3種類の情報があると言っています。
1つは背景情報、説明、レッスンであり、これはこれらのニューラルネットワーク、これらのAIモデルの事前訓練に似ています。モデルがインターネットを読み、背景知識を蓄積する段階です。これは、あなたが本を読むとき、あなたの脳がこのトピックについて学ぶために事前訓練しているのと同じです。
次に、解答付きの解決済み問題があります。これは監督付き微調整です。これはモデルが、人間によって書かれた理想的なアシスタントの回答で微調整される段階です。あなたの本では、例えば問題とその解決方法があるかもしれません。ちなみに、R1-0モデルの場合、彼らはこの部分をスキップし、代わりにR1-0ニューラルネットワーク、R1-0モデルが自分ですべてを学ぶようにしました。
そして、練習問題があります。これは学生のための問いかけのようなもので、通常解決策はありませんが、常に最終的な答えがあります。通常、各章の終わりにはこれらが多数あり、あなたがどのように物事を行うかを練習することができます。これは強化学習に相当します。
では、これはすべて何を意味するのでしょうか?まず第一に、大規模言語モデルとRLGymとしての強化学習アプローチ、Andrejが表現したように、モデルのためのジムは非常に強力なように見えます。超知能について話す多くの人々は、おそらくこのアプローチが私たちをそこに導くと信じているからそう話しています。
オープンソースエコシステムへの信じられないほどの貢献があり、AndrejKarpathyは人々がニューラルネットワークのためのこれらの強化学習ジムを構築することで、次のステップへと進める方法さえも提案しています。これはすべて今起こっており、私たちが大きな進歩を目にしている理由の一部です。
しかし、次にR1を30ドルで複製したという記事が出てきます。重要なのは、まずこれがR1モデルを完全に複製しているわけではなく、特殊化されたタスクだけであるということです。これはより多くAlphaGo Zeroのようなものです。Goをプレイしますがすべてをするわけではありません。しかし、Goゲームにおいては超人的です。
もしこれが確認されるなら、特定のタスクで優れた、さらには超人的なレベルの小規模モデルをトレーニングできるように見えます。そして、大規模モデルのトレーニングとは異なり、これは非常に経済的に行うことができます。モデルはとても小さいので、特定のタスクのために非常に安価で強力なモデルをトレーニングすることが可能かもしれません(これは私の推測です)。
特定のプロジェクトやビジネスの自動化のためにわずか数ドルで超人的なAIモデルを作成できるようになる想像してみてください。これが意味するのは、非常に特定のユースケースがある場合、そのケースだけのために信じられないほど安価でとても強力なモデルを作成できる可能性があるということです。
例えば、医療トリアージが必要な場合、安価なモデルが誰かが救急治療が必要かどうかを判断するのに役立ち、迅速で正確なスクリーニングツールとして機能し、それが医師の負担を軽減し、医師がレビューするためのより深刻なケースを検出するのに役立つかもしれません。
また、法的文書を正確にレビューしたり、特定の製品やサービスに非常に特化したカスタマーサービスチャットボットを含めたりするのに役立つかもしれません。例えば、あなたがサプリメント会社で、DNAや突然変異に基づいてどのサプリメントを摂取すべきかについてアドバイスを提供できる非常に特定のチャットボットが必要なら、それを持つことができるかもしれません。それは最良のアドバイスを提供し、人間よりもはるかに優れたものになる可能性があります。これはすべて非常に高速、非常に安価で、継続的に学習・改善することができるでしょう。
DeepSeek R1は、人間の介入なしに自分自身で改善し、速度を2倍にすることに成功しました。私たちはAIが自己最適化する時代に入っており、超知能爆発、あるいはより一般的にAGIとして知られるものに到達する直前にいます。
このグラフを覚えていますか?何度か示してきたものですが、AIが博士号レベルの知能に達し、新しい知識を発見できるようになるポイントが、自己再帰的改善のプロセスに入り、知能爆発につながる瞬間です。私たちは今、そのポイントにいます。O1、O3、DeepSeek R1などのモデルはすでに博士号レベルの知能を持ち、自己改善を始めています。
このビデオの最後にお見せする2番目の驚くべき発見は、別のチームからのものであり、DeepSeekの論文の「アハ体験」をわずか3ドルで複製することに成功しました。前回のビデオでは、バークレーの博士課程の学生が同じことを30ドルで達成したと話しました。しかし今では、DeepSeek R1モデルでこの学習の瞬間に達するためのコストを10分の1に削減することに成功しました。
まずは、DeepSeek R1がどのように自分自身のパフォーマンスを改善し、速度を2倍にしたかをお見せしましょう。これはSimon Wilsonのブログで、この改善について話しています。詳細に入る前に、まず知っておいてほしいのは、このPRのコードの99%がDeepSeek R1によって書かれたということです。これを達成した人は単にモデルに指示を与え、このモデルが自分自身のパフォーマンスを最適化する方法を自ら発見しました。ユーザーがしたのは、テストを開発しプロンプトを書くことだけでした。
彼はOpenAIのO1モデルでも同じことを試したと述べていますが、DeepSeek R1の方が良い結果を得たとコメントしています。ここにそれらのプロンプトの一部を示します。実際に起こったことの要約がここにあります。
設定について疑問がある場合、これは単にchat.deepseek.comの無料版です。これらのリンクはすべて私のニュースレターalerta.comにあります。この人によると、各応答は処理して推論するのに3〜5分かかったとのことで、確かに時間がかかりました。
これはDeepSeekと使用した反復ループです。基本的にプロセスは次のようなものでした:
問題とそれが達成したいことを説明する
最新の失敗した試みを示し、それに基づいた改善を求める
モデルが最適化できるように、前の試みで生成されたコードを貼り付ける
最初のプロンプトは「あなたのタスクはARM Neon SIMDを持つC++コードをWASM SIMDに変換することです」。基本的にこれはArmチップアーキテクチャでの並列処理の実行方法を改善します。モデルには大量の既存のコードが提供されており、さらに変換する特定の関数と一緒に、より多くのコードが提供されています。また、応答をどのように始めるべきかも指示されています。
2番目のプロンプトでは、モデル自身のコードがより速く実行されるように最適化を継続して探します。非常に印象的です。本当に驚くべきことです。
今、これらのエージェントが数百または数千個自律的に実行され、物事を改善する方法を継続的に探しているところを想像してみてください。それがAGIへの離陸点でなければ、何がそうなのか教えてください。
このグラフに戻ると、ここにはGPT-4があり、非常に知的な高校生に相当します。我々はすでにそれを超えており、GPT-4o、O1、O3 mini、そして間もなく登場するO3があります。そして新しい知識の発見と合成の分野で多くのPhDを超えるDeep Researchについてはどうでしょうか?我々はちょうどここにいます。この自動化された研究を行う能力を手に入れたら、それは超人工知能に到達する瞬間になるでしょう。そして私たちはそこに到達しようとしているように見えます。
私は少し混乱しています。なぜなら、AI分野で最も賢い人々の中には、この離陸は何か即時のものではなく、より徐々に起こるだろうと言う人もいるからです。しかし同時に、私が示したこのグラフを見ると、我々は単に急速な離陸が起こるバイナリーなポイントに達するように見えます。
これはJan LeKun、MetaにおけるAI研究の責任者です。彼が最近言ったことを見てください:「AGIの出現、あなたの定義が何であれ、単一の出来事ではないでしょう。それは進行的なものです。だからもしあなたがそれを直接見ていると、あなたが期待しているかもしれない大きな記念碑的な飛躍を見ることはないでしょう。しかし、もし一瞬他の方向を見て、それから戻ってきたら、それを見ることができるでしょう。」
彼はまた、「これがどこかで明らかになったら、比較的短い時間で多くの人によって複製されるでしょう」と言っています。もしAIとこれらすべてのイノベーションがOpenAIのようなクローズドコード企業内にあれば、おそらくこれを見ることはないでしょう。しかし、オープンソースによって、すべての人がそれを達成する能力を加速するでしょう。そしてこれが、DeepSeek R1のリリースが非常に重要だった理由です。オープンソースが3〜6ヶ月先行することを可能にしたからです。
サム・アルトマンがDeepSeek R1モデルについてRedditで言ったことを見てください:「それは非常に良いモデルです。私たちはより良いモデルを生産するでしょうが、以前の年よりも小さな優位性を維持するでしょう。」今では、基本的にDeepSeek R1と同じテクニックを使って、はるかに特定のユースケースに適用したAIの自己改善があり、それがわずか30ドルです。そして今、別の非常に似た例が別のチームから明らかになり、わずか3ドルでこの「アハ体験」を再現することに成功しました。そしてこれはすべて1週間以内に起こりました。
Lang Chenという人がここにいて、「R1Vを発表できることを嬉しく思います。このモデルはバークレー博士とDeepSeek R1と全く同じテクニックを使用しています – モデルが一般的なカウンティングスキルを学ぶことを奨励するための、検証可能な報酬を持つ強化学習です。」
これが鍵です – 検証可能な報酬を持つ強化学習。そして非常によく定義された報酬関数がある場合、これは信じられないほどうまく機能します。これは、任意の質問や問題に対して何らかの既知の答えがあるべきだということを意味します。例えば、2+2=4のような場合です。しかし「あなたのお気に入りの色は何ですか?」という質問では、定義された答えはなく、単なる意見なので、この種の質問には強化学習を適用できません。
だからこそこれらのテクニックは、STEM(科学、技術、工学、数学)のような分野でとてもうまく機能します。これら4つのカテゴリすべてに明確な入力と出力、質問と答えがあり、モデルが正しいときと間違っているときを知るようにトレーニングできるからです。これが思考の新たな振る舞いが現れる場所であり、非常に小さなモデルと非常に特定のユースケースでわずか数ドルでこれを行うことができます。そして最高なのは、これが完全にオープンソースであることです。リンクは説明にあります。
これを見てください。20億パラメータのモデルがわずか100のトレーニングステップで720億パラメータのモデルを上回り、コストは3ドル未満です。このプロジェクトは完全にオープンソースになる予定です。
このモデルは特にカウンティングスキルに焦点を当てています。これは非常に基本的なものと思うかもしれませんが、想像してみてください。私たちが向かっている方向は、中央の基本的知能を持つ多くの非常に小さなモデルを持つことであり、最小限は約15億パラメータのようです。その後、すべてが検証可能な報酬を持つこの強化学習を使用して、特定のタスクに良くなるでしょう。
今、プロンプトに基づいて適切なモデルを選択するモデルを想像してみてください。これが我々が向かっている方向かもしれません。巨大で汎用的なモデルだけではなく、あるいはそうかもしれませんが、それだけが達成する唯一の方法ではないでしょう。これは本当に、誰でもオープンソースで作成できるこれらの小さなモデルを取り、それらの上に構築し、特定のユースケースで本当に良くすることについてです。
そしてこれらが結果です。100ステップで、20億パラメータのモデルを、このカウンティング問題での53%の精度から99%、ほぼ完璧なレベルに引き上げ、94%に達した720億パラメータのモデルを上回りました。信じてください、これは非常に印象的です。
これがプロジェクトであり、自分で試すことができます。すでに言いましたが、これはオープンソースです。
ところで、どう思いますか?これらの小さなモデルの1つをトレーニングして、特定のことで本当に良くなるような種類のチュートリアルを作成し、それらが何ができるかを示すべきでしょうか?
ところで、alerta.comの有料ニュースレターであるLa Señal Proで最初のコースを公開していることをお知らせします。これはDeepSeek R1や他のLLMモデルをインストールし、サーバーや他のものに依存せずに完全にプライベートにローカルコンピューターで実行する方法についてのコースです。これは詳細なコースでビデオチュートリアルが付いており、Pro購読者向けにリリースする予定です。ウェブページにアクセスして下にスクロールし、プランを改善して購読するだけで、今後数日以内にこのコースや準備中の他の多くのコースにアクセスできるようになります。
R1Vで彼らが達成しようとしていることがこれです。「私たちはVLMモデルのRLVR(検証可能な報酬を持つ強化学習)のための一般的なフレームワークを構築しています。」これを直接取得し、好きな任意のモデルや選んだ任意のユースケースに適用できることを想像してみてください。検証可能な報酬があるだけです。
だからここにあります。今、オープンソースコミュニティ全体がDeepSeek R1にとって何がうまく機能したかを見て、それを複製し、革新し、拡張することができます。これがオープンソースの可能性です。
中国がDeepSeekの後、AI界に新たな衝撃を与えました。これは今日までで最も衝撃的なニュースの一つかもしれません。ByteDance(TikTokの背後にある企業)によって開発されたOmni Human Oneは、たった1枚の写真から全身ビデオを作成することができるAIで、自然な動き、ジェスチャー、そして音声さえも含みます。信じられないほどリアルで、ディープフェイク技術を完全に新しいレベルに引き上げ、非常に深刻な影響を持つ可能性があります。
Omni Humanは、AIを使用したビデオ生成において完全に革新的なアプローチを表しています。単なる顔の置き換えや口の同期だけでなく、ジェスチャーや動き、楽器演奏などの全身アニメーションを、音声と完全に同期させることができます。
今、これは偽物だと思っているかもしれませんが、これは不可能だと。これまでのディープフェイクツールやアプリは、複数の参照画像やビデオを必要としたり、単に奇妙で人工的な効果を生成していました。しかしOmni Humanは、最小限の入力情報から信じられないほど説得力のあるディープフェイクを生成することができ、これは本当にゲームチェンジャーです。
情報源によって異なりますが、ByteDanceはOmni Humanを18,700〜19,000時間のビデオという膨大なデータセットでトレーニングしたと主張しています。これは莫大な量のコンテンツです。彼らは正確なソースについて多くを明らかにしていませんが、TikTokの膨大なコンテンツライブラリを考えると、人間の動きや話し方のパターンの例に困ることはないでしょう。
Omni Humanに関するこの研究は、研究者たちがAIに人間がどのように動き、話すかを教えるために、テキスト、オーディオ、体のポーズなど複数の条件付け信号をどのように使用したかを説明しています。このアプローチを彼らは「Omni Condition」と呼んでいます。基本的に、AIに異なる種類のデータを供給し、話す、歌う、ジェスチャーを行う、さらには楽器を演奏するなど、幅広い状況でビデオを生成することができます。
ByteDanceによって公開されたいくつかのデモビデオでは、テイラー・スウィフトの架空の再現が見られ、そのリアリズムは驚くべきもので、本物かどうかを確認するために二度見る必要があるほどです。また、アルバート・アインシュタインが現代のHDカメラで撮影されたかのように白黒の講義を行っているクリップもあります。これは本当に印象的でした。ビデオのある時点で、アインシュタインは「感情のない芸術はどうでしょうか?それは空虚でしょう」と言いながら、手でジェスチャーをしています。これはほぼ恐ろしいほどで、本物のアインシュタインが芸術について話しているようです。
別のクリップでは、実際には起こっていないTEDトークのように見えるものを示しています。また別のデモでは、ワイングラスを持っている人のランダムなシーンを示していますが、AIがその特定のポーズに苦労しているかのような奇妙な動きが見られます。だから完璧ではありませんが、以前のディープフェイクモデルからの進歩は巨大です。
また、ビデオフォーマット、体の比率、クリップの長さを調整できるとも述べられています。つまり、例えば友人や有名人の写真が1枚あれば、それを音声とともに入力するだけで、その人が踊ったり、ジェスチャーをしたり、スピーチをしたりする完全なビデオをOmni Humanが生成できるということです。それは古い写真にアニメーションを付けるアプリを思い出させますが、次のレベルに引き上げられています。
しかし、もちろんこの技術が印象的である一方で、暗い側面も持っています。私たちはディープフェイクがすでにソーシャルメディアで広がり始めている時代にあり、いくつかの記事は世界中で複数の事件を指摘しています。
例を挙げると、台湾の選挙日に、共産党と関連するグループがAIで生成された音声を含むクリップを公開し、地元の政治家が実際にはそうではないのに親中国の候補者を支持しているように見せかけました。別の例では、モルドバでマヤ・サンドゥ大統領が辞任を発表しているディープフェイクビデオが流通しましたが、それは実際には起こっていませんでした。南アフリカでは、ラッパーのEminemが選挙運動中に野党を支持しているように見せるディープフェイクが登場しました。
だから、はい、偽情報のリスクは巨大です。そしてこれはすべて政治的領域についてだけ話しています。ディープフェイクは詐欺にも利用されており、詐欺師が偽の投資を宣伝する有名人の偽のビデオを作成しています。この記事によると、AI生成コンテンツは2023年に1,220億ドル以上の詐欺損失に寄与し、米国だけでも2027年までに400億ドルに達すると推定されています。これは完全に驚くべき数字であり、最近の厳しい規制が進められていることは驚くべきことではありません。
米国の10以上の州がAIの偽装に対する法律を可決または提案しています。例えばカリフォルニア州では、裁判官がディープフェイクコンテンツの削除を命じたり、それを公開した人に罰金を科したりすることを可能にする法律が検討されていましたが、法案は行き詰まっているようです。
大きな問題は、特にOmni Humanのような高品質のディープフェイクは検出が非常に難しいということです。ソーシャルメディアや検索エンジンがAIベースの検出ツールやラベリングシステムを実装していると主張しているにもかかわらず、AI生成コンテンツの量は爆発的に増加しています。身元確認会社のJumioが2024年5月に実施した調査では、60%の人々が過去1年間にディープフェイクに遭遇したと述べ、注目すべきことに72%がディープフェイクに騙される恐れがあると述べました。回答者の大多数もこの技術を制御するための新しい法律の実施を支持していました。
ByteDanceがOmni Humanのリリースについてどのような立場を取っているのか疑問に思うかもしれません。これらの記事が書かれた時点では、まだ不明確です。企業はまだモデルを公開していませんが、AIコミュニティで見てきたように、モデルがデモで発表されると、誰かがそれを複製したり逆工学したりするのは時間の問題です。ですので、たとえByteDeanceがそれを保持することを決めたとしても、特にDeepSeekで起こったことを考えると、同様のシステムがすぐに他の研究所や、さらにはオープンソースのイニシアチブから登場する可能性があります。
より前向きな視点から見ると、一部の専門家は可能性のある有益な応用を指摘しています。例えば、Omni Humanを教育分野で使用し、マリリン・モンローのような歴史的人物を再現して授業を行ったり、学生が学習に関与し続けるのを助ける仮想アシスタントを開発したりすることが検討されています。
ByteDanceはTikTokも所有しているので、コンテンツクリエイターが超リアルなアバターを使用したり、休憩を取っている間もAI駆動の代役を使ってビデオを投稿し続けたりする可能性もあります。
南カリフォルニア大学のFreddy Tran Nagerは、この技術によって故人の俳優を新しい映画に再び登場させることができるかもしれないとコメントしています。まだ大画面ではどのように見えるかわかりませんが、モバイルやラップトップでは完全に信じられるものになる可能性があります。
一方、ニューヨーク大学のステインハート・スクールの准教授であるサマンサ・G・ウォルフは、潜在的な否定的な結果について警告しています。彼女は、誰かがCEOや政治指導者の偽のビデオを作成し、人々がそれを本当に信じた場合、企業や政府に大きな混乱を引き起こす可能性があるというリスクを強調しています。要するに、リスクは非常に高い可能性があります。また、AIがより現実的になるにつれて、人々がこの種の欺瞞にひっかかる可能性は劇的に増加すると指摘しています。それが非常に懸念されている理由です。
この会社は、従来の人間のアニメーション技術は一般的なビデオ生成モデルに適用される際にスケールすることが難しかったと説明しています。しかし、Omni Humanはそのトレーニングによってこの障害を克服しました。これは、音声、テキスト、体の動きを単一のトレーニングプロセスで組み合わせることでデータをより効果的に活用したことを意味します。これを達成するために、完全に実在する人々の18,700時間以上のコンテンツを使用し、ニューラルネットワークが話し方と完全に同期する全身のアニメーションを生成できるようにしました。
これは、主に顔のアニメーションや上半身に限定されていた以前の方法からの大きな飛躍です。このAIは、たった1枚の写真や音声のかけらでディープフェイクがどこまで進化したかを示しています。コメント欄であなたの意見をぜひ教えてください。あなたの意見を読むのを楽しみにしています。あなたの返信を待っています。
イーロン・マスクがGrok 3を世界で最も進んだ人工知能だと主張したとき、彼は単にハイプに乗っていただけではないことはかなり明らかです。今日、彼はGrok 3を発表しました。これらのベンチマークによると、現在のところ最も知的なAIとなっています。このビデオでは、Grok 3に関するすべての重要な発表を説明し、なぜそれが現状で最も進んだAIであるかを示します。
多くの人が分析したいと思う最も重要な側面の1つは、もちろんベンチマークです。推論能力を持たないGrok 3モデルを見ると、ベンチマークでの結果はあらゆる面で本当に印象的です。Grok 3とそのミニバージョンの両方が、Gemini 2、DeepSeek V3、Claude 3.5 Sonnet、そして最近更新されたGPT-4oなどの最先端モデルを上回っていることは明らかです。
これは本当に信じられないことであり、一部の人々はベンチマークの関連性に疑問を持つかもしれませんが、後ほどチームは新しいテストを使用し、Grok 3をそれらに提出することを決めた理由を説明します。その中でも再び傑出した結果を得ました。この大規模なトレーニングフェーズがモデルをさらに知的にし、スケーリング法則が非常に効果的であることを証明し続けていることを示しています。
Grok 3チームが素晴らしいのは、モデルをChatbot Arenaにも配置したことです。この平台について馴染みがない場合、これは標準化されたテストではなく、2つのAIモデルが同じ質問に回答し、ユーザーがどちらの回答が良いと思うかを選択するシステムです。興味深いのは、このテストが完全にブラインドであることです。どのモデルがどちらの回答を生成したかはわかりません。単に優れていると思うものを選択するだけです。
時間の経過とともに結果が収集され、どのモデルが最も多くの勝利を積み重ねたかが表示されます。現在、Chatbot ArenaでナンバーワンのモデルはGrok 3です。つまり、モデルの名前に影響されないテストでも、Grok 3は依然として明らかに際立っています。そして、これはまだ推論能力のないバージョンであることを覚えておいてください。
最も興味深い部分は推論モデルです。これらのモデルは即座に回答を生成するのではなく、回答する前により長く情報を処理します。このテクニックに馴染みがない場合、その背後にある理由は、AIがより多く考えることを可能にし、それがより質の高い、より正確な回答につながり、より複雑な問題に対処できるようになるということです。私たちはこの方向に進んでいます。なぜなら、これが有望なアプローチであり、本当に知的なAIへの道筋である可能性が高いからです。
Grok 3の推論能力を分析すると、そのシンキング(思考)モデルも、最近まで世界で最も進んだAIと見なされていたO3 Miniを上回ることに成功しています。しかし、今やそれは2位に降格しています。
私はスペイン語で最大のAIニュースレターを持つことになります。私がどれだけ真剣であるかを示すために、私の旅に関するこのマスタークラスとDeepSeekに関するこのコースなど、すべてのドキュメントと割引をニュースレターの無料ユーザー全員に提供します。説明にあるリンクからメールアドレスで登録するだけです。心配しないでください、広告は送信しません。新しいニュース、調査、新しい仕事、ツールなどに関する週に2回のレポートのみを送信します。alerta.comは、取り残されたくない人のためだけです。
xAIから、La IA Sorprendeと呼ばれる新しいウェブが発表されました。しかし、このビデオを録画している時点では、このページはダウンしています。おそらくハイプがサーバーを過負荷にし、彼らがそんなに多くのトラフィックを期待していなかったのかもしれません。このウェブではSuper Grokも利用可能になる予定で、そこでプラットフォームから直接アプリケーションにアクセスできるようになります。
Microsoftが量子チップを発表し、これが全てを変える可能性があります。100万量子ビットまでスケールするように設計されたプロセッサで、地球上のどのスーパーコンピュータも取り組めない問題を解決できるものです。彼らがこれを実現できれば、量子コンピューティングは近い将来、未来的な理論から現実の世界に影響を与えるものへと変わる可能性があります。
Microsoftが正確に何を発表しているのかを理解するために少し戻りましょう。基本的に、彼らはMajorana 1、または時には世界初のトポロジカル量子ビット駆動の量子処理ユニット(QPU)と呼ばれる、この洗練されたデバイスを発表しました。これはすべて、トポコンダクターとして知られる特殊なタイプの材料に基づいています。これは日常会話ではおそらく聞いたことのない新しい単語です。
トポコンダクターは、マヨラナゼロモード(MZM)と呼ばれるエキゾチックな粒子を作成するのに役立つため重要です。ほぼ一世紀の間、マヨラナ粒子は教科書で予測されるだけの純粋に理論的なものでした。しかし、インジウムとヒ素の半導体とアルミニウムの超伝導体を組み合わせ、絶対零度近くまで冷却し、磁場を適用するというMicrosoftのアプローチによって、その研究が進みました。彼らはこれらのマヨラナゼロモードをナノワイヤ内にオンデマンドで出現させることに成功しました。各ワイヤーの両端にMZMが出現し、それが量子ビットの基礎となります。
なぜこれがそれほど重要なのでしょうか?これらのマヨラナベースの量子ビットは、他のタイプの量子ビットよりもより安定していて、エラーが少ないと言われています。エラー訂正は量子コンピューティングにおいて極めて重要な側面です。数千や数百万の量子ビットを持ち始めると、環境内のすべてのノイズや干渉が計算に深刻な悪影響を与える可能性があるからです。
Microsoftの大きな主張は、トポロジカル量子ビットがエラー保護をハードウェアに直接組み込んでいるということで、これらの量子ビットが迷子の電子、電磁放射線、環境的な干渉のあらゆる種類に耐性を持たせています。
スペイン語で最大のAIニュースレターを持つ予定です。その真剣さを示すために、私の旅に関するこのマスタークラスやDeepSeekに関するこのコースなど、すべてのドキュメントと割引をニュースレターの無料ユーザー全員に提供します。説明にあるリンクからメールアドレスで登録するだけです。心配しないでください、広告は送信しません。新しいニュース、研究、新しい仕事、ツールなどに関する週に2回のレポートのみを送信します。取り残されたくない人のためのalerta.comです。
新しい測定アプローチも非常に革新的です。通常、量子操作を実行するには、アナログ信号をカスタム化して量子ビットを非常に正確な角度で回転させる必要があります。しかし、これらのトポロジカル量子ビットを使用すると、Microsoftはスイッチをオンまたはオフにするように、デジタルパルスを通じて量子状態を測定できます。すべての複雑なアナログ制御を必要とせずに行えます。
彼らがこれを行う方法は、マヨラナナノワイヤの各端を量子ドットに接続することです。これは基本的に小さな半導体デバイスです。量子ドットのキャパシタンスがどのように変化するかを測定することで、これは電子の数が奇数か偶数かによって異なりますが、量子ビットの状態を決定できます。彼らはこの変化を検出するためにマイクロ波を使用し、電荷の差がかなり顕著であるため、これを確実に行うことができます。最初、彼らは測定において約1%のエラー確率を観察しましたが、これを大幅に削減できると確信しています。
もう一つの注目すべき点は、彼らが実際に8つのこれらの量子ビットを単一のMajorana 1チップに配置したことです。100万量子ビットという彼らの目標と比較すると、8は少なく思えるかもしれませんが、Microsoftはこのアプローチを使用して、これらのテトロン(個々の量子ビット単位)を一緒に接続し、最終的に4×2のマトリックス、次に27×13のマトリックスなどと、より大きなマトリックスを構築して、完全に耐障害性のある100万量子ビットを処理できるシステムを達成できると考えています。
Microsoftによると、100万量子ビットのチップを持つと、自己修復材料の設計、有害な汚染物質を分解できる触媒の発見、または農業に利益をもたらす可能性のある新しい酵素の発見など、あらゆる種類の大規模な計算問題を解決できるようになるとのことです。
これは単なるランダムな技術的空想ではありません。Microsoftは国防高等研究計画局(DARPA)がそのアプローチへの強力な支持としてあることを引用しています。DARPAには「大規模量子コンピューティングのための未探索システム」(US2QC)と呼ばれるプログラムがあり、基本的に役立つ実用的な規模に到達できる産業界からの量子ソリューションを探しています。Microsoftはそのプログラムの最終段階に進んだ2社のうちの1社であり、彼らが「障害耐性プロトタイプ」と呼ぶものを構築するためにDARPAと契約を締結しました。これは基本的に完全な商用システムへの最初のステップです。
業界はこれに注目しています。Terra Quantum、Multiverse Computing、SandboxAQ、Omiaの人々はすべて、これが真の突破口であると述べており、企業がセキュリティの観点からも量子コンピューティングに備える重要性を強調しています。
指摘された興味深い点の一つは、もしトポロジカル量子ビットが障害耐性量子コンピューティングのタイムラインを加速できるなら、現在の暗号が危険にさらされる可能性があるタイムラインも加速するということです。ですから、私たちは量子後暗号に備える必要があります。USTのIan Beveridgeのような人々は基本的に「もし量子コンピューティングが予想よりも早く到来するなら、私たちはデータを確保するのに急がなければならない」と言っています。
純粋にビジネスの観点から見ると、専門家たちは多くのNISQ(ノイズのある中規模量子)システムが、もしMicrosoftのハードウェアが障害耐性に向けてより速く進むことができるなら、影を薄くする可能性があると警告しています。そのため、ある意味では、量子コンピューティングの分野で一種の軍拡競争が起きているのです。
より技術的な視点から、SBL0のような人々は、これらのトポロジカル量子ビットは、信号パターンの工学ではなく材料特性に依存しているため独特であると指摘しています。これは、最初から何かを構築しようとしている場合、大きな進歩です。古典的なコンピュータはシリコンチップのトランジスタに依存しており、私たちは適切なドーピング濃度やそれらすべての詳細を発見する必要がありました。同様に、量子コンピューティングも独自のトランジスタの瞬間を必要とする可能性があり、Microsoftはトポコンダクターでその役割を果たそうとしているように見えます。
また、測定ベースの量子コンピューティング(たくさんの回転ゲートを適用する代わりに、計算を推進するために測定を使用する)がスケーラビリティとエラー訂正に関して実際の利点を持っていると言及する価値があります。個々の量子ビットごとにアナログ信号を調整することを考えると、いつか100万量子ビットを持ちたい場合には本当に頭痛の種です。しかし、高速デジタルパルスだけに頼ることができれば、すべてを接続する方法が簡素化される可能性があります。
このドライブを主導するMicrosoftのテクニカルフェローであるChetan Nayakは、基本的に一歩下がって「量子時代のトランジスタに必要な特性は何か」と自問したと述べました。その後、その質問を念頭に置いて、材料からアーキテクチャまですべてを設計しました。
別のMicrosoftのテクニカルフェローであるMatthias Troetは、「これらの量子システムと人工知能を接続して、本質的に自然の言語を話すことができるようにするビジョン」について述べました。つまり、「マイクロプラスチックを無害な副産物に分解する新しい分子が必要です」と言うだけで、量子コンピュータがそのシミュレーションを正確に実行し、人工知能モデルがその結果を解釈し、アプローチを改良するのを助けます。実験室での推測や何十年もの実験、または大量のHPC計算をスキップします。彼は、それがあなたが作りたいものの「レシピ」をすぐに導く可能性があるとさえ述べました。
もちろん、手のひらに収まるチップに詰め込まれた100万量子ビットは信じられないほど未来的に聞こえますが、Microsoftはトポロジカルハードウェアがサイズと制御の最大の問題のいくつかを解決すると考えています。例えば、従来の超伝導量子ビットは、各量子ビットを個別に管理するためのすべてのワイヤーのために、部屋全体のサイズ、またはさらに大きいチップを必要とする可能性があります。Microsoftのトポロジカルアプローチは、彼らによれば、はるかにコンパクトなので、100万量子ビットへの道筋が見えます。
現在、彼らは単一のチップに8量子ビット持っており、より多くのスペースを備えて設計されています。彼らはロードマップも示しています。まず単一量子ビットデバイス、次に2量子ビットデバイス、次に4×2のような小さなマトリックスで、量子ビットでの量子エラー検出を実証し、最終的に完全な量子エラー訂正にスケーリングします。
DARPAの量子ベンチマークイニシアチブとの相乗効果も関連しています。これらのアーキテクチャが実際に古典的なコンピュータができることを超えた結果を生み出すことができることを検証するために、NASA、Oak Ridge、Los Alamosなどの研究所と協力しています。
もし彼らがそれを成功させれば、量子コンピューティングにおける大きな進歩、材料科学、薬物発見、農業、環境、そして基本的に古典的なスーパーコンピュータが処理できない大規模な並列計算を必要とするあらゆるシナリオでゲームチェンジャーとなるでしょう。
第三者の視点から見ると、専門家たちはMicrosoftがこのような大きな課題に取り組むことを称賛している一方で、企業に今すぐ量子列車に飛び乗るよう促しています。暗号移行の計画を立て、量子がHPCワークフローにどのように統合できるかを調査したり、量子がAIの取り組みを強化できる方法を検討したりしています。なぜなら、もし障害耐性量子コンピューティングが本当に予想よりも早く到来したら、古い暗号や量子によって簡単に破られるアルゴリズムで取り残されたくないからです。
Microsoftが他の量子アプローチを脇に置いていないことも指摘する価値があります。彼らは依然として従来の量子ビットを使用する短期的なソリューションのためにAtom ComputingやQunatomなどとのパートナーシップを維持していますが、Majorana 1は彼らの大きな賭けであり、「本当に意味のある産業問題」と呼ぶものを解決できる機械に向けたものです。
要約すると、我々は単なるボートではなく、トポロジカル超伝導性という新しい物質状態を目にしています。これは完全にデジタル制御を可能にする新しい測定方法で活用されています。計画は単一量子ビットデバイスから完全に障害耐性のある機械へとスケールアップすることです。DARPA、様々な量子リーダーのような大きな名前が、これが本物である可能性があると言っています。
考えてみると、これは半導体が真空管に取って代わったときのようなものです。それが起こるまで、誰も完全にすべての影響を把握することはできませんでした。そして突然、コンピュータは部屋全体を占めることから、ポケットに収まるようになりました。もし成功すれば、トポロジカル量子量子ビットにも同様のストーリーが見られるかもしれません。それが次のデジタル革命の波、量子、人工知能、先進的なコンピューティングを融合させる波を引き起こす可能性を持つ触媒となり得るでしょう。
このビデオのこの時点まで視聴していただきありがとうございます。次回にお会いしましょう。
あなたが理解し、あなたが見ているものを見、そして以前に触れたことのないオブジェクトを、トレーニングやプログラミングなしで、純粋な知能だけで操作できるロボット。FigureのHelixはこれを可能にしており、これは歴史上最大のロボット工学の進歩かもしれません。しかし、わずか数週間前、FigureはOpenAIとの提携を終了しました。Figureの創設者Brett Adcockは2月4日にTwitterで、自社がロボット用の完全に統合されたAIで大きな内部的な進歩を達成したため、共同作業が終了したと発表しました。
その大きな内部的な進歩はHelixであることが判明しました。その発表の直後、Figureが巨額の新たな資金調達ラウンドを交渉していることも知られるようになりました。報告によると、これは155億ドル、評価額は395億ドルです。それだけでも投資家が興奮していることを示しており、おそらく彼らは技術のプレビューを見たからでしょう。誰が買い物の袋を片付けることができるロボットに興奮しないでしょうか?
Helixについて、そしてなぜそれが重要なのかについて話しましょう。その名前自体、Vision、Language、Actionが、それが3つの主要コンポーネントを統合していることを示しています。環境を見て(Vision)、指示を理解し(Language)、それに基づいて行動します(Action)。Figureはこれを「ジェネラリストモデル」と呼んでいます。なぜなら、それは単一の特定のタスクのために設計されたものではなく、大量の実証データや各新しいオブジェクトに対する特別なプログラミングなしで、家庭内の何千もの異なるオブジェクトを処理できるとされているからです。
スペイン語で最大のAIニュースレターを持つ予定です。その真剣さを示すために、私の旅に関するこのマスタークラスやDeepSeekに関するこのコースなど、すべてのドキュメントと割引をニュースレターの無料ユーザー全員に提供します。説明にあるリンクからメールアドレスで登録するだけです。心配しないでください、広告は送信しません。新しいニュース、研究、新しい仕事、ツールなどに関する週に2回のレポートのみを送信します。取り残されたくない人のためのalerta.comです。
Figureのデモビデオの1つでは、両方のロボットに買い物の袋を片付けるよう依頼している人がいます。ロボットたちはキッチンをスキャンし、冷蔵庫を開け、アイテムを中に配置し、さらにリンゴをフルーツボウルに入れました。最も印象的なのは、これらのタスクが2つのロボット間の協力を含み、問題なく互いにオブジェクトを渡していることです。
Figureの創設者Brett Adcockは、彼らがHelixを1年以上開発してきたと言い、「一般的なロボット工学を解決する」ことを目指していたと述べています。そして「人間のように」と言うとき、彼は単にHelixが問題について推論できるだけでなく、音声コマンドに応答し、以前に見たことのない新しいものを処理できることを意味しています。
私たちは本当のオブジェクトの一般化について話しています。これは非常に大きなことです。なぜなら、ほとんどの家庭は整然とした組立ラインのようなものではないからです。家庭は散らかっており、物事は変わり、照明条件は変化し、各家庭は基本的に独特です。そのため、ロボットがその環境で本当に快適に感じるためには、歴史的にロボット工学に欠けていた適応性のレベルが必要です。
Helixの最大の利点の1つは、「System 2」(S2)と「System 1」(S1)と呼ばれるものを使用していることです。S2は、インターネットで事前トレーニングされたビジョンと言語モデルのより遅い部分です。これは自然言語コマンドを解釈し、シーンを分析し、一般的な計画を策定できる部分です。一方、S1は高速なビジュアルモーター方針であり、その計画を200Hzでリアルタイムの物理的なアクションに変換します。
S2を、何をすべきかについて後退して推論する脳と考え、S1は素早くモーター制御を実行する神経系だと考えてください。両方のシステムはロボット内の低電力GPUで実行されており、これによりHelixは最初から商業的に実行可能となり、大型の外部コンピュータを必要としません。
Figureによると、このアプローチは古典的なジレンマを解決します。以前は、会話には優れているが制御にはあまりにも遅い大規模言語モデルがありました。また、高速だが非常に限られた範囲を持つより小さな制御方針もありました。HelixをS2(遅い思考用)とS1(速い行動用)に分けることで、両方の世界の最良の部分を実現しています。
彼らはさらに、約500時間の遠隔操作行動のデータセットを作成し、その後自動ラベリングモデルを使用してトレーニング用の自然言語指示を生成しました。これにより、各デモが人間が話すかもしれない方法と相関するようになりました。
しかし、それだけではありません。Helixは彼らが「ロボット工学における一連のファースト」と呼ぶものを導入しています。まず、上半身の完全制御です。私たちは手首、胴体、頭、指など、35の自由度について話しています。これは200Hzで動作します。特に、ロボットが異なる形と重さのオブジェクトを拾う場合や、胴体を回転させて中を見るために冷蔵庫のドアを開ける場合、調整する必要がある関節がたくさんあります。
二つ目の大きな初めては、「左側のロボットに、クッキーの袋を右側のロボットに渡す」といった音声コマンドだけで、製品を互いに渡す、分離された複数のロボットの協力です。両方のロボットが環境を解釈し、オブジェクトの受け渡しを調整します。
次に、あらゆるものを拾う能力があります。これは、Helixが言語の理解とビジュアル処理を統合しているため生まれた新たな特徴です。明らかに、各オブジェクトに対して別々のトレーニングを必要としません。単に音声指示を通じて、システムは家庭内の何千もの新製品を処理できます。「奇妙なプラスチック恐竜を拾う」と言えば、システムはそれを理解できます。たとえそのオブジェクトに以前に遭遇したことがなくても。
もう一つのハイライトは、Helixが異なるタスクのために別々のモジュールを持つのではなく、統一されたニューラルネットワークアプローチを使用していることです。Helixは、S2用の70億パラメータのビジョンと言語モデル、S1用の8000万パラメータのトランスフォーマーを備えた単一のモデルを持っています。この単一の重みセットは、上半身全体を制御し、オブジェクトを拾う、置く、引き出しを開ける、別のロボットにオブジェクトを渡すなどのタスクを実行できます。これは基本的に、あなたのキッチンにある各新しいタスクに対して微調整する必要なく、様々なアクションに対する普遍的なアプローチです。
最後に、Helixは商業化の準備ができていると言われています。これは組み込みGPUで動作するため、大きなクラウドサーバーに接続する必要はありません。これは大きな進歩です。もし家の周りを移動できるロボットを持ちたいなら、大きなケーブルや角にあるハードウェアの塊を心配する必要はありません。また、システムがより高速で安全であることも意味し、インターネットが落ちた場合のレイテンシーの問題が少なくなります。
もちろん、これはすべてまだ初期段階の技術です。Figureが公開したビデオを見ると、すべてがスムーズに見える短いデモがありますが、おそらくこれは舞台裏での大量のテストの結果です。これらのロボットが完全な食事を調理したり、あなたの服をすべて折りたたんだり、人間のように家全体を掃除機をかけたりするのはまだ数年先であると想定するのは合理的です。
しかし、同社はHelixを、BMWなどの自動車会社と協力してきた産業環境から、実際の家庭環境まで拡張できるゲームチェンジャーとして位置づけています。
興味深いことに、Meta(旧Facebook)がAI駆動のヒューマノイドロボット部門を新設していることが報告されており、別のスタートアップAbtranicは最近、GoogleのDeepMindやその他の支援を受けて3億5000万ドルを調達しました。Appleもこのレースに参加するという噂さえあります。基本的に、技術大手間でロボット工学における軍拡競争が進行しており、各社がヒューマノイドロボットの未来をどのように形作るかを望んでいます。
TechCrunchのBrian Heatはヒューマノイドロボット企業の多くが、倉庫での箱の移動など、環境がより構造化されているため、まず産業や物流シナリオに焦点を当てていると指摘しています。しかし、Figureは家庭環境に強く賭けており、それはロボットにとって悪名高い難しいナビゲーション環境です。人々は家具を動かし、液体をこぼし、半分折りたたまれた服を放置し、あらゆる種類のランダムなことをします。だから、それを解決すれば、自動的に一般的なロボット工学の課題の大部分を解決することになります。
もう一つの興味深い点は、Helixが家庭用途への大きな転換を表しているとはいえ、Figureは産業用途を放棄していないということです。むしろ、家庭環境を適応性の究極のテストとして見ているようです。人の家のすべての特異性を扱うことができれば、おそらくほとんどの産業タスクも扱うことができます。工場とリビングルームの間のギャップを埋めることは長い間話題になってきましたが、技術的な課題が非常に異なるため、めったに達成されていません。
Helixのアプローチは、各アクションを綿密にコード化したり、ロボットを何千もの同一のデモでトレーニングしたりする古い方法を多少回避しています。ビジョンと言語モデルを使用することで、Helixは冷蔵庫のドアがどのように開くか、またはリンゴがキッチンでどこに行くかなど、日常的な常識を大量に学習します。その後、S1が細部を扱うので、新しいカップやおもちゃに遭遇するたびに何時間もの再トレーニングを必要としません。
これは、機能において重要な変化をもたらす可能性のあるアプローチです。Adcockの言葉を使うと、「人間のように」というわけです。
明らかに、安全性、信頼性、さらには潜在的なハッキングについての質問があります。あなたは「誰かが私の家庭用ロボットを乗っ取って、奇妙なことをするように指示できるのか?」と疑問に思うかもしれません。これは技術が進むにつれてより多くを知ることになる何かです。現時点では、Figureは中核のAIに焦点を当て、Helixが迅速に一般化し、タスクを即座に処理できることを確認しています。
また、自然言語の音声コマンド、以前に遭遇したことのないオブジェクトを処理できる単一システム、2つ以上のロボットがリアルタイムで協力できる能力など、使いやすい機能への大きな推進力も見られます。
Figureによると、Helixは話を理解し、問題について推論し、要求に応じてオブジェクトを掴むという点で人間のようです。誰もが6桁のヒューマノイドロボットを自宅に招き入れる準備ができているわけではありませんが、大量生産が増え、コストが希望通り下がれば、これらのロボットがより多くの場所で見られるようになるかもしれません。おそらくサービス業、高齢者ケア、あるいは洗練された家庭用コンパニオンとしてでしょう。
あなたの考えを聞かせてください。これらのヒューマノイドの一つがあなたのキッチンを調べることを信頼しますか?それとも、ロボットがグラスを取り出したり全ディナーセットを取り出したりする前に、技術がさらに堅牢で、願わくばより安価になるのを待つべきだと思いますか?
ビデオをご覧いただきありがとうございます。次回にお会いしましょう。
DeepSeekは、OpenAIよりも最大40倍コスト効率が高く、業界全体に衝撃を与えながら、次のAIモデルのリリースを予定よりも早めています。一方、AlibabaのビデオインテリジェンスはすでにOpenAIのSoraを上回り、西洋諸国が恐慌に陥り始める中、OpenAIは新しい研究ツールや音声機能をリリースしています。大きな疑問が残ります:そもそもAIはどの程度説得力を持つべきなのでしょうか?
DeepSeekは目立った見出しを独占してきました。1月にR1モデルをリリースし、基本的に全員を驚かせました。R1は強力な「推論」AIモデルとして発表され、OpenAIなどの大企業が自社モデルに投資していると言われるコストのごく一部でトレーニングされていました。Googleを含む一部の人々はこれらの主張に懐疑的でした。Googleはさらに、DeepSeekの主張を誇張していると呼び、OpenAIはDeepSeekがChatGPTのインフラからの蒸留を使用している可能性があると疑っていました。
しかし、とにかくモデルは利用可能になり、MicrosoftはR1をAuthor A Foundryに、JookもR1を追加し、Amazon Web Servicesもそのモデルカタログに含めました。
大きなニュースは、DeepSeekが後継モデルであるR2を当初計画していたよりも早くリリースしたいということです。彼らは以前、R2が5月初旬にリリースされる可能性があると述べていました。
スペイン語で最大のAIニュースレターを持つ予定です。その真剣さを示すために、私の旅に関するこのマスタークラスやDeepSeekに関するこのコースなど、すべてのドキュメントと割引をニュースレターの無料ユーザー全員に提供します。説明にあるリンクからメールアドレスで登録するだけです。心配しないでください、広告は送信しません。新しいニュース、研究、新しい仕事、ツールなどに関する週に2回のレポートのみを送信します。取り残されたくない人のためのalerta.comです。
しかし、新しいレポートによると、彼らはそれをさらに早くリリースしようとしています。残念ながら正確な日付はありませんが、噂では5月より前のいつでも可能性があるとされています。
次のR2は、コーディング能力の向上と、英語を超えた言語でより効果的に推論する能力を持つと予想されています。これは大きな進歩です。多くの先進的な言語モデルは主に英語に焦点を当てる傾向があるので、複数の言語に対する堅牢なサポートを持つことで、DeepSeekを深刻な国際的な競争相手として位置づける可能性があります。
なぜDeepSeekはこのタイムラインを加速させているのでしょうか?GPT-4.5はまだ数週間先であり、GPT-5は数ヶ月先かもしれません。したがって、R2が早く市場に出れば、DeepSeekはAIエコシステムを再び揺るがす可能性があります。そして彼らはすでに価格面で大幅にOpenAIを上回ることを示しています。
Verstアナリストによると、DeepSeekの価格はOpenAIが同等のパフォーマンスに課す価格よりも20〜40倍安いとされています。このコスト節約の側面により、小規模企業だけでなく、大手プレイヤーもR1を自社のサービスに統合したがっています。
DeepSeekが実際にどのように機能するかを本当に理解するためには、創設者のLiang Wenfengについて少し知る必要があります。彼は非常に内向的で控えめな人物として描写されており、量的ヘッジファンドのHigh Flyerのおかげで億万長者になりました。
Wenfengは従業員に一流の給与を支払っており、上級データサイエンティストの中には年間150万ドルを稼ぐ人もいます。一方、他の競合する量的ファンドは通常約80万ドルに制限しています。また、彼はより平坦な企業構造を持っていることで知られており、「996」(朝9時から夜9時まで週6日)を要求する典型的な中国の大手テック企業モデルとはかなり異なります。代わりに、DeepSeekでは従業員は協力的で実践的な環境で、通常の8時間シフトで働いているとされています。
これすべての背後にあるヘッジファンドであるHigh Flyerは、R1が見出しを飾る前からAI研究に多額の資金を投資していました。彼らは2020年と2021年に、2台のAIスーパーコンピュータに約100億元を費やしました。これらのクラスターの1つ、Firefight 2は、約10,000個のNVIDIA A100チップで構成されています。これは米国がこれらのチップの中国への輸出を禁止する前に起こったので、禁止が実施されたとき、High Flyerはすでに準備ができており、大きな優位性を得ていました。
DeepSeekのコスト効率の鍵は、専門家の混合(Mixture of Experts)やMulti-head Latent Attentionなどの技術の使用にあります。基本的に、モデルを専門のコンポーネントに分割し、各クエリにモデル全体を参照する必要がないようにしています。Multi-head Latent Attentionは同時に最も重要な詳細をより効率的に選択します。その結果、DeepSeekはより大きく、より費用のかかるモデルに匹敵するパフォーマンスを銀行を破ることなく達成できると主張しています。
興味深いことに、中国当局はDeepSeekを全面的に支持しています。市政府、エネルギー企業、Lenovo、Baidu、Tencentなどの大企業がDeepSeekを自社製品に統合しているのを目にしています。政府は国際メディアでの露出を控えるようDeepSeekに伝えているほどです。
一方、韓国やイタリアなどの西洋政府は、プライバシーへの懸念からDeepSeekベースのアプリケーションを制限または削除しています。また、先進的なAIモデルがソーシャルエンジニアリングや偽情報キャンペーンに使用される可能性についての広範な懸念もあります。特定の地域でより精査が強化されているのは驚くことではありません。
しかし、DeepSeekだけが大きな一歩を踏み出しているわけではありません。Alibabaは最近、オープンソースのビデオ基盤モデル「One 2.1」を発表し、特定のベンチマークでOpenAIのSoraモデルを上回っていると報告されています。
Alibabaの新しいオファリングには、テキストからビデオ、画像からビデオ、ビデオ編集、テキスト/画像、さらにはビデオオーディオに最適化されたいくつかのサブモデルが含まれています。彼らはOne 2.1 L2V4Bモデルと、480pと720pの解像度でビデオを生成できるOne 2.1 T2V4Bモデルの他に、RTX 4090などの消費者向けGPUで実行できるより小さなT2V 1.3Bモデルも持っています。
Alibabaによると、One 2.1は複雑な動きやリアルな物理シミュレーションを処理でき、V-benchのランキングでは優れたメトリクスを発表しています。その成功の鍵の一部は、速度向上のための特徴キャッシュメカニズムを持つ新しいCasual 3Dアーキテクチャであり、拡散トランスフォーマーフレームワーク内のフローマッチングフレームワークも含まれています。要するに、彼らはプロセスに多くの高度な技術を取り入れ、約15億のビデオと100億の画像でトレーニングしました。これは膨大な量です。
OpenAIに関して、いくつかの重要なニュースがありました。まず、彼らは先進的な研究ツール「Deep Research」へのアクセスを拡大しました。当初、これは月額200ドルのProサブスクライバーのみが利用できましたが、現在ではTeamとEnterpriseプランに加えて、すべてのChatGPTの有料ユーザーがアクセスできるようになっています。
Plusプランを持っている場合、月に10回のDeep Researchクエリを受け取り、Proユーザーは100から120クエリに増加しています。まだご存じない方のために、Deep Researchは詳細でリソース集約的なレポートを生成するための高度なツールであり、完了までに1クエリあたり5〜30分かかる可能性があります。その推論能力はより遅いですが、より徹底的でもあり、現在は画像やソース引用も含めてより深い分析に対応しています。ただし、無料版のChatGPTユーザーはリソースを大量に消費するためDeep Researchにアクセスできません。
OpenAIからのもう一つの新しい動きは、説得に関連するリスクを中心に展開しています。最近の技術レポートでは、Deep Researchモデルが人々の信念を説得または影響するのに使用される可能性があるかどうかを分析しました。これにより、モデルのAPI版のリリースを遅らせることを決定しました。基本的に、大規模に世論に影響を与えるために、AIが非常にパーソナライズされたコンテンツを生成する可能性を含め、現実世界の状況での説得能力をどのように測定するかを再評価しています。
彼らはまた、Deep ResearchモデルがGPT-4oにお金を払わせたり、キーワードを明かさせたりすることができるかどうかなどのテストを行いました。実際、このモデルはこれらのテストでいくつかのOpenAIの以前のモデルを上回りましたが、キーワードのシナリオではそれほど効果的ではありませんでした。それでも、OpenAIは外部の開発者がこれを利用できるようにする前に慎重に進みたいと考えています。
最後に、OpenAIからの興味深い新機能として、プラットフォームの無料ユーザー向けにChatGPTの高度な音声モードのプレビュー版をリリースしています。これまでPlusサブスクライバーの専用機能だったこの機能は、音声認識と生成のためにGPT-4o miniモデルの変種を使用しています。
高度な音声モードを使用すると、質問を入力する代わりに直接ChatGPTと話すことができます。途中で中断して明確化の質問をしたり、トピックを変更したりすることもできるなど、リアルタイムの会話をより自然に処理できます。使用には毎日の制限がありますが、それでもサブスクリプションがなくても多くの人がこれを試せるのは興味深いことです。これを試すには、ChatGPTアプリで音声アイコンをタップし、マイクへのアクセスを許可するだけです。
このビデオのこの時点まで視聴していただきありがとうございます。いいねを押して購読し、次のビデオでお会いしましょう。


コメント