
27,314 文字

こんにちは、AIの最新動向ポッドキャストへようこそ。いつものように、AIの動向についてお話しします。このエピソードでは、先週の最も興味深いAIニュースをいくつか要約して議論します。エピソードの説明や lastweek in ai.com でニュースのリンクとタイムスタンプを確認できます。
私はホストの一人、アンドレ・コーコーです。大学院でAIを研究し、現在は生成AIのスタートアップaaadeで働いています。Discordで誰かが言及していましたが、私は実際にはaiという名前を言っていませんでした。そうですね、それは本当です。公開情報があまりないため、名前を言っていないんです。でもすぐに、私たち自身のニュースを共有できるようになり、それは楽しみです。とても良いですね。そして、私はもう一人のホスト、ジェレミー・ハリスです。Gladstone AI(AI国家安全保障会社)の共同創設者です。3週間ほど離れていましたね。数週間ですね。3週間です。それは慌ただしい時期でした。4月20日頃に何かをローンチする予定です。理由があって延期されました。なぜ私がずっと不在だったのか、その理由をいずれ知ることができるでしょう。そして価値のあるものになることを願っています。とにかく、復帰できて本当に嬉しいです。興味深い一週間でしたね。先週は新しいモデルのリリースが多かったですが、今週はいくつかの本当に興味深くインパクトのあるものがありますが、数はそれほど多くないです。
このエピソードの簡単な概要をお伝えします。まずはアリババからの新しい興味深いモデルがあります。これは基本的に、新しい推論モデル、新しい大規模モデル、最先端モデルのトレンドを締めくくるものです。それ以外では、Alexaなどの消費者向けの新しいもの、そしていくつかのビジネス取引が進行中です。かなり多くのオープンソースリリースがあります。ベンチマークに焦点を当て、またDeep Seekからの非常にクールで珍しい種類のソフトウェアもあります。研究では、再び推論について話しますが、これはしばらくの間、研究の主要な焦点でした。また、正直さと正確さも興味深いテーマです。政策と安全性では、主に新しいモデルの詳細について、そしてもちろん輸出規制についても少し触れます。
しかしその前に、ジェレミーが前回のGPT-4.5とCloud 3についての議論に参加できなかったので、これらのリリースについて少し話し合うセクションを設けたいと思います。おそらくより興味深いのはGPT-4.5の方でしょう。それが少し物足りないという印象があり、純粋な教師なし学習のスケーリングの限界を示している可能性があります。推論が現在、本当に大きな飛躍をもたらしているところですが、教師なし推論だけではこの時点で投資する価値があるかどうかは不明確です。
これは本当に興味深いポイントで、毎回出てくる問題ですが、少し微妙なニュアンスが欠けていると思います。まず、「モデルの匂い」という考えについて話す必要があります。以前は「コードの匂い」と呼ばれていましたね。20分前までは気にしていたのはコードの匂いでした。しかし本質的には、事前学習のコンピュート量を増やすごとに、つまり10倍の桁違いの増加ごとに、より良いモデルが得られるという世界に生きています。以前は、非常に顕著に良くなるモデルが得られていました。GPT-2は3つの一貫した文を繋げるのがやっとでした。そしてGPT-3(コンピュート量は約100倍増加)では突然、段落全体やエッセイが生成できるようになりました。そしてGPT-4になると、ページ単位のコンテンツやそれ以上を生成できるようになります。GPT-2、GPT-3、GPT-4の違いは明確に分かります。問題は、画像生成システムの文脈で話したように、何がより良いのかを判断するのが本当に難しくなってきているということです。最新のMidJourneyやその他の画像生成システムを見せられても、基本的にどれもフォトリアリスティックです。これらのモデルの「匂い」を嗅ぎ分けるには、かなり専門的である必要があります。そのため「匂い」という非常に難解で抽象的な概念が生まれました。完全には言い表せないけれど、モデルを十分に使えば、その下にある知性や能力がより高いと感じられるというものです。
そうですね。匂いがあり、また「雰囲気」もあります。モデルがリリースされるとき、通常はベンチマークの数値を見ますが、それらの数値が実際に何を意味するのかを理解するのは本当に難しいです。そのため、実際に試してみた人々からの「雰囲気」を感じ取りたいと思います。例えば、アンドレ・カルパシーがGPT-4.5の評価を投稿し、見解を示しています。これは同様の側面で、違いを示すには非常に専門的なベンチマークが必要です。そして、モデル間の違いを実際に試して、その違いを報告した直接の経験も必要です。これは理にかなっています。根本的に、事前学習とは次のトークンを非常に高い精度で予測できるようになることです。そして、それに非常に優れるようになると、世界について多くのことを学んでいるはずです。穴埋め問題が得意になるということは、究極的には良い世界モデルを持っているということです。少なくともそれが仮説です。そして、課題は、GPT-4以降のそのメトリクスでのパフォーマンス向上はどこから来るのかということです。GPT-4以降では、より特殊なことからでなければなりません。例えば、バイオの何かや歴史の特定の分野などのニッチな分野でより良くなるというようなことです。
これは一つの側面です。もう一つは、おそらく論理や帰納、そういったものにも少し優れるようになるかもしれません。興味深いのは、これらのモデルの出力を読むだけでは、質的に判断するのがほとんど難しくなってきているということです。定量的には、Chatbot Arenaを見ると、GPT-4.5がGroq 3と並んでトップにいます。人々が実際に多くの文脈でこれらのシステムのパフォーマンスを評価するよう求められると、その違いを判断できるのです。そして、カルパシーや他の人たちからの報告でも同様のことが示唆されています。しかし、事前学習の主な価値は、単に得られるモデルだけではありません。これは変化しました。これがポッドキャストでDeep Seek V3について話したとき、私たちが簡単に「Deep Seekから大きな推論のブレークスルーが来る」と判断できた理由です。それは世界で最も簡単な判断でした。当時は誰も注目していませんでしたが、ベースモデルの強さに基づいて推論器がどれだけ良くなるかを判断できました。ベースモデル自体は他のベースモデルと比較して、パーセンテージベースでそれほど良くなかったのです。なぜなら、これらのベンチマークで100パーセントに近づくほど、より難しくなるからです。次の1パーセントを上げるということは、世界についてより多くを理解する必要があるということです。
いずれにせよ、これはすべてその一部です。そして、それはシステムが飽和して投資収益率を提供していないという幻想を生み出します。しかし、適切な量の推論時間のコンピュートを適用すると、突然この大きな進歩が解き放たれるのです。ここで最後に指摘したいのは、これはちょっとした直感的な図式で完璧ではありませんが、テストに費やす100時間があるとして、選択肢があるとします。その99.5時間を勉強し、0.5時間をテストに費やしますか?それとも80時間を勉強して20時間をテストに費やしますか?モデル、例えばV3やGPT-4.5などのベースモデルは、基本的にすべての時間を勉強に費やし、1秒だけ実際のパフォーマンスに費やしているようなものです。それがベースモデルの実態であり、ある時点で飽和することは驚くべきことではありません。事前学習からできるレバレッジには限界があります。しかし、モデルに推論時間を与えると、何という飛躍でしょう。
過去数ヶ月、あるいは数年の大きな発見の一つは、スケーリングは単に事前学習のコンピュート量を増やすだけではなく、推論時間のコンピュート予算と共に増やすことを意味するということです。この両方を一緒に上げていくと、曲線を飛び越えていくのです。そしてそれは無限に続きます。これにより、多くの人々が「一般的な意味でのスケーリングは飽和している」という、私が思うに明らかに間違った評価をしてしまいます。実際に起こっていることは、推論時間のコンピュートを何もしなければ、事前学習では、テストの勉強でできることはすべてやり尽くしているということです。今はテストそのものにより多くの時間を費やす時なのです。
これが全体的な状況だと思います。OpenAIが「GPT-4.5が最後のベースモデルになる」と自信を持って言ったのは偶然ではありません。基本的に、最後のオートリグレッシブな純粋なテキスト自動補完モデルです。これからは推論モデルになります。なぜなら、経済的に見て、事前学習だけに時間を費やし、推論に時間を費やさないことをサポートしないからです。スケーリング曲線は推論と訓練時間の組み合わせなのです。
これが私の全体的な見解です。改善は続くでしょう。GPT-4.5だけに基づいてスケーリングのトレンドに賭けることには注意が必要です。ニュアンスがあり、これは興味深いトピックなので、少し付け加えたいと思います。大きな疑問は、モデルサイズのスケーリングに関して、ある種の上限に近づいているのかということです。GPT-4.5はその一つの指標かもしれません。モデルサイズはわかりません。人々は推測していますが、おそらく10兆のパラメータという10倍のステップかもしれません。コスト、速度から判断すると、より多くのパラメータを持つはるかに大きなモデルのようです。そしてそれにより、GPT-4から比較的小さな変化がもたらされました。これは理解できることです。一般的に知能があると、回答する方法についての微妙な推論、例えば口調や回答の深さ、詳細さなどの面で、おそらくより優れているかもしれません。しかし、これらはベンチマークできないものです。
もう一つは、あなたが言ったように、ベースモデルでは、わずかなトレーニングで、それほど多くのトレーニングを必要とせず、推論時間のスケーリングを効果的に行える潜在的な推論能力があることがわかりました。一般的に私の認識では、ベースモデルで推論時間のスケーリングを行うことはできますが、強力な推論ができるように追加のトレーニングを行った場合ほど強力ではありません。私たちが見てきたのは、わずかな追加トレーニングで、ベースモデルから20%、30%の改善が得られるということです。GPT-4.5のような場合も同じレベルの改善が得られるかどうかを見るのは非常に興味深いでしょう。
そして当然、蒸留の問題もあります。また、ベースモデルでは、非常に優れたモデルを取り、その知性をより小さなものに注入できることを見てきました。より大きなモデルを訓練し続ける理由の一つとしても考えられます。そしてそれは変わるものです。例えば、Claude 3 Opusのように、それは非常に大きく、かさばり、クエリするのに高価なため、誰も実際には使用していません。これらの超拡張ベースモデル(大きなパラメータ数を持つもの)の問題です。実際には、研究所はこれらを推論時間のコストを下げるために、はるかに小さなサイズに蒸留します。これは完全に理にかなっています。基本的に「コンピュート最適なモデルを作ることに興味がない」と言っているのです。「与えられたコンピュート予算に対して十分に大きなモデルを作ることに興味がない」のです。コンピュート予算を増やすと、理論的にはモデルのパラメータ数も増やすべきです。これらの2つは同時にスケールするべきです。それがスケーリング法則が示すことです。しかし、モデルのパラメータ数を増やすということは、そのモデルの推論コストを高めることを意味します。そのため、多くの場合、人々は「いや、私は人為的にモデルを必要以上に小さく保つつもりだ」と言います。「バックエンドでのコストを下げるために、意図的にパフォーマンスを犠牲にする」のです。
そして、推論を行う場合も、これは別の計算になります。なぜなら、これらのモデルで推論を行うということは、それらに何度も何度もクエリを行うことを意味するからです。つまり、推論時間に多くのコンピュートを消費するのです。そのため、基本的には推論時間のコンピュートと引き換えにしているのです。つまり、これら2つの異なる領域でのパフォーマンスをトレードオフしているのです。
いずれにせよ、高レベルでは、現時点でスケーリングに反対するのはやめておくべきでしょう。しかし、事前学習時のモデルの重みの増加という伝統的なスケーリングについては興味深い疑問があります。私たちは今、興味深い状況にいます。一般的に、スケーリングというとコンピュートのことを考えますが、その2つの側面があることは確かです。
話すことはまだたくさんありますが、実際のニュースに移りましょう。ツールとアプリから始めます。最初の話題はQwen-32Bについてです。これはアリババからのもので、Deep Seek R1と同等で、OpenAIのO1 Miniよりも優れているようです。これはある意味でR1に非常に似ています。彼らはベースモデルであるQwen Maxを取り(約1ヶ月前にリリースされたと思います)、強化学習によって推論モデルにするための追加トレーニングを行いました。そして、それがDeep Seek R1と同じレベルのベンチマークをすべてこなせることがわかりました。少し良かったり悪かったりしますが、基本的に同等です。詳細はあまりわかりません。論文は発表されていませんが、簡単なブログ投稿では、アプローチがR1と非常に似ていると言っています。
モデルを始め、コーディングタスクや数学タスクでトレーニングします。これらは学習済み報酬モデルなしで、ハードコードされたルールで自動的に結果を検証できます。そしてそれ以上のトレーニングも少し行うようです。これは興味深いです。R1には2段階のプロセスがありました。これにも2段階のプロセスがあり、純粋なコードと数学から始めて、強化学習で一般的な問題に関する少しより広範なトレーニングを行います。そして学習済み報酬モデルを使用します。
このモデルについてはそれ以上言えることはあまりありませんが、良いベースモデルがあれば、正直なところ、良い推論モデルを作るのはそれほど難しくないようです。またこれはアリババからの大きな発表でした。すでにQinChatプラットフォームで提供されています。重みも公開しており、この発表で株価は5%から10%ほど上昇しました。
これはパフォーマンスの高いモデルのようです。現在実行中で、1月20日から約2ヶ月後、Deep Seekの後に登場しました。これらのモデルの公開や発表には様々な要因が遅延を引き起こすことがあるので、トレーニングが実際にいつ終了したのかを正確に知るのは難しいですが、かなり近い時期に追随しているようです。
いくつか注意点があります。彼らはDeep SeekやDeep Seek R1と比較して、このモデルのパラメータ数を重視しています。これは先ほどの会話に関連します。これは320億パラメータのモノリシックなトランスフォーマーであるのに対し、Deep Seekは6000億パラメータほどで、370億パラメータが活性化されています。Deep Seek R1は専門家の混合体で、プロンプトが入力されると、いくつかの専門化した「エキスパート」モデルに送られます。そして常にクエリされる一つのエキスパートがあります。詳細はその回のエピソードをチェックしてください。
要点は、Deep Seek R1を推論するたびに、モデル内のパラメータの大部分は実際に最終出力の生成に関与していないということです。各前方パスでは370億パラメータだけが活性化されます。これは320億という小さな数字と対照的です。しかし、このモデルでは、すべてのパラメータが毎回活性化されます。これにより、単純な比較が難しくなります。
また、より小さなモデルを持つことははるかに便利です。320億パラメータは、モデルを保持するために必要なRAMがはるかに少なくて済みます。要件が簡単になるので、もしあなたがエンジニアでこのモデルを使って何かをしたいと思うなら、Qwen-32Bの方がDeep Seek R1よりも興味深いモデルかもしれません。RAMやインフラが少なくて済むからです。しかし、科学的な観点から、アリババがDeep Seekに対してどれだけ先行または後れを取っているかを問う場合、使用されたコンピュート予算を知るまでは完全にわかりません。
より小さなモデルかもしれませんが、Deep Seek R1と比較して訓練が過剰になっている可能性があります。それを知らずには、判断が難しいです。アリババはDeep Seekよりもはるかに大きなコンピュートフリートを持っています。Deep SeekはR1のために数千のGPUを使用していました。総じて、これらのコンピュート数を知るまでは、判断が難しいです。これらは公開されるかもしれませんし、されないかもしれません。
一つわかっていることは、「推論モデルにエージェント関連の機能を統合し、ツールを使用しながら批判的に考え、環境のフィードバックに基づいて推論を適応させることを可能にした」と述べている点です。おそらくツール使用のための教師あり微調整が行われたと思われます。これが最も理にかなっています。監視された微調整段階があり、純粋に事前学習からすぐに強化学習に移行したわけではありません。これはDeep Seek R1-0の場合でしたが、Deep Seek R1ではありません。Deep Seek R1は少し教師あり微調整を行い、モデルに特定のツールを使用するように、特定の方法で振る舞うように明示的に訓練しました。R1の場合、それはより特定の方法で、または理解しやすい方法で推論するためのものだったと思います。
興味深いモデルです。彼らが公開しているベンチマーク(信頼性の高いものです)によれば、このモデルはR1と同等です。状況によって少し良かったり悪かったりします。アリババは確かにDeep Seekからの教訓を最低限取り入れており、Deep Seekがアリババほどのコンピュートにアクセスできない場合、バトンを受け取ってスケールアップする可能性もあります。これは本当に興味深い競争上の差別化要因になります。
彼らの概要をもう少し正確に補足すると、タイムラインとしては、1月下旬にQwen 2.5 Maxをリリースしました。これが彼らの最前線モデルでした。同時にQwen 2.5-1Mもリリースされ、これは長い推論が可能でした。そして数週間前にQwen Maxをリリースしました。これも推論モデルで、同時にQinChatで公開され、推論機能を持っていました。しかし、本質的にQwen-32Bはより小さいです。Qwen MaxはQwen 2.5 Maxをベースにしたモデルでしたが、これは明らかに小さいです。ブログ投稿では、このモデルが強化学習でトレーニングされたことが強調されています。おそらくQwen Maxは他のモデルからの推論のトレースで教師あり学習されたのに対し、このモデルはベースモデルから強化学習のみで訓練され、他の推論モデルのパフォーマンスに匹敵するようになりました。
次のニュースに移りましょう。実際の製品発表があります。単なるモデルではなく、それはAlexa Plusです。アマゾンはプレゼンテーションを行いました。これはまだ公開されていませんが、ChatGPTのようなチャットボット型の知能を統合した次世代のAlexaの概要を提供しました。多くの新機能があります。明らかにそれとチャットができるでしょうが、レストランの予約や旅行の管理など、様々な複雑なタスクも実行できます。なぜチャットボットに飛行機のチケットを予約させたいのか理解できませんが、そのような例が挙げられています。記憶させたことを覚えておき、それに基づいてスマートな行動をとることができます。
また、刷新されたAlexaアプリとalexa.comウェブサイトもリリースされ、マルチモーダル機能が含まれます。例えば、Amazonのカメラを持っている場合、Alexaは映像を見て、そのデータについての質問に答えることができるようです。たくさんの新機能が統合され、このよりスマートなAlexaを使用するには月額20ドルのサブスクリプション料金がかかるようです。
アマゾンはある意味、アップルにますます似てきています。このようなスケーリングの世界では、彼らは自社のモデルをリリースせず、サードパーティによって構築されたモデルを活用し、それらを自社のハードウェアに統合することに焦点を当てています。それはまさにアップルのやり方のようです。違いは、アマゾンはTraチップを使ったハードウェアの面でアップルよりもはるかに良い位置にいることです。アップルは少し変わったCPU指向のデータセンターインフラを持っていますが、これはいつか話し合うべきことかもしれません。
つまり、アマゾンは基本的に「私たちはこれらのモデルのプラットフォームです」と言っているのです。いずれ彼ら自身のモデルを持つでしょう。以前話したように、社内にAIチームがありますが、サードパーティのモデルに手を伸ばすのは興味深いことです。それは理にかなっています。あなたがプラットフォームとして、ハードウェアよりもソフトウェアにサービスを提供すると認識するほど、補完物を商品化したいと思います。これは古典的なマイクロソフトの戦略です。PCは本当に安いですが、ソフトウェアは高価です。ソフトウェア構築のビジネスにいるなら、PCを本当に安くし、人々が良いものにお金を払うポイントに簡単に到達できるようにしたいと思います。ここでの補完物は良いハードウェアであり、それは逆です。ハードウェア企業なら、LLMを商品化し、OpenAI、Anthropic、Googleが競争し、その競争があなたのプラットフォーム上で展開され、言語モデルレベルの価格を下げ、価値を上げ、そしてあなたのハードウェアが突然より価値のあるものになるようにしたいと思います。
モデルの観点から見ても興味深いです。アマゾンにとって、もしこれを解除できれば、より多くのデータがモデルを通過することがどのような利点をもたらすのでしょうか。それをモデル側で実際に競争力を持つことに活用できるのでしょうか。しかし今のところ、アマゾンはAlexa側で確かに苦戦してきました。多くのジョークを聞きました。それは明らかに改革が必要な製品でした。おそらくこれがその解決策になるでしょう。
彼らはこれがAmazon Novaモデル上に構築されていると言及しましたが、他のモデルも活用できます。また、alexa.comが新しいウェブサイトとして言及されているのも興味深いと思います。これは基本的にChatGPTのようなチャットボットインターフェースのようです。文書をアップロードしたり、チャットボットにアクセスしたりできます。また注目すべき点は、Amazonプライム会員でない場合は月額料金がかかりますが、プライム会員であれば無料です。その点ではXに似ており、すでにAmazonのエコシステムに入っている場合、これがあなたの選択するLLMになるかもしれません。あなたはすでにサブスクリプションにバンドルされているので、単にalexa.comを使用するでしょう。この側面からも興味深いですね。おそらくアマゾンは、これまでの状況を超えて、スマートハードウェアがより有用になる理由に加えて、純粋なチャットボット空間でも競争する機会を持つかもしれません。
次に進みましょう。次は近日公開予定のものについてのデモです。記事のタイトルは「もう一つのDeep Seekの瞬間?一般AIエージェント、ManusはX上でビデオをリリースし、現在招待制のウェブプレビューとして提供されています。これはエージェンティックな分野へのもう一つの大きな投資のようです。Claude Codeのような何かと同様に、ウェブサイトの開発やアプリの開発など、非常に大きなタスクを依頼することができ、それが長時間(数分から数十分)実行されます。推論コストが10ドル程度かかる可能性がありますが、最終的には完全に機能するウェブサイトを生成できます。私たちが見せているものとそれほど変わりませんが、2024年の多くの部分で焦点となってきたこのエージェンティックな方向性が最終的にまとまり始めているという別の指標です。
そしてもう一つ、中国の企業もこの方向に動いていることがわかります。今、エージェントの水準は確実に上がっていて、最大の疑問は、彼らが西洋のエージェントと競争できるほどのコンピュートを動員できるかどうかです。西洋のエージェントは基本的に無制限ではないにしても、NVIDIAのGPUにより近いアクセスを持っています。ある時点で、推論時間のコンピュートでリフトオフが得られることを示しましたが、今や西洋のすべてのGPUフリートが推論時間のコンピュートが大きな問題であるという考えの周りに再編成されていると想像しなければなりません。そのため、O3 Miniまたは O3レベルの推論時間予算ではなく、産業規模でそれをどんどん増やそうとしているのを見ることになるでしょう。事前学習で行ったのと同じようにです。
そのエージェントの世代を見るまでには数ヶ月かかるでしょう。そしてそれからこの分野における米国と中国の間の中長期的な均衡がどのように見えるかをよりよく理解できるでしょう。しかし、報告によれば、ManusはいくつかのベンチマークでOpenAIのDeep Researchをも上回ると主張しています。これは一般的AIアシスタンスに焦点を当てたものです。興味深いブレークスルーですね。
これも興味深いリリースです。X上の投稿で多くの注目を集めました。これは小さな会社、Butterfly Effectで、数人の従業員しかいません。そのため、この発表がどれだけ本物かについては懐疑的な見方もあります。しかし、いずれにせよ、より広い文脈で私たちがどこにいるかを示す指標です。
次はマイクロソフトからのものです。Dragon Copilotという、医療のためのAIアシスタントです。主な焦点は臨床訪問を聞いてノートを作成することです。基本的には、音声の口述や会話の聴取に使用できるAIです。周囲の音を聞くことができます。マイクロソフトは実際に、周囲の聴取と音声の口述を専門とするNuanceという会社を買収し、それが医師のためのノートを作成できるようになりました。これはしばらくの間アイデアとして見てきました。医師のためのAIノートテイカーというアイデアを複数回取り上げてきたと思います。これが潜在的に有用なものとなる可能性があります。そして、今回マイクロソフトが提供しているということは、おそらくこの種のかなり成熟した製品提供となるでしょう。
課題は、医療分野では医師が新しい技術を使うことに対して非常に慎重だということです。私の友人の多くは医師ですが、彼らとこのような会話をしてきました。医師の間では、特にエゴが非常に大きな役割を果たしています。AIモデルが診断を生成できるようなロールアウトを見ると、最近の研究で面白いことがありました。いくつかの医師の友人と楽しい会話を持ちました。
医師が(どのモデルをテストしていたのか忘れましたが、おそらくGPT-4 Oまたは最先端のモデル)と一緒に作業すると、医師単独ではモデル単独より性能が低く、また医師とモデルの組み合わせもモデル単独より性能が低いということがわかりました。これは非常に興味深いです。医師はモデルが提供する正しい回答を平均的に受け取り、「いや、それは正しくないはずだ」などと言うのです。もちろん少し誇張していますが、多くの場合、実際にはそのようなことが起こっています。それは医療分野の心理学の一部です。非常に難しいことであり、これが「意見を述べないで、ただノートを取るだけで、あなたの仕事の仕方を教えるのではなく、ただ背景にいる良いボット」のような、このような応用が見られる理由です。文化的な理由から、現時点ではこれはかなり良い使用例になるかもしれません。
私もそう思います。この種の技術が臨床的なバーンアウトを減らし、患者がより良い経験をするのに役立つという研究がいくつか見られます。これはかなり大きな差を生みます。これは9つの病院やその他の臨床場所でテストされ、Well Span Healthと提携しています。すでにテストされているようで、5月に米国とカナダで一般にリリースされる予定です。これが医師のもとに届き、録音機が使われるようになるのか、興味深いですね。
最後に、MistralからのOCR APIという新しい提供があります。OCRは光学式文字認識で、基本的に写真やPDFを見て、その中に含まれる実際のテキストに変換するものです。近年、OCR技術は飛躍的に改善しています。Mistralによるこの提供は、APIを通じて使用できるバージョンです。これにより、LLMが純粋なマルチモーダル推論だけでは苦手だったPDFやスキャンされたものを使用して話すことができるようになります。
アプリケーションとビジネスについてはここまでです。まだAnthropicについて話していませんでしたので、今がその番です。そして、しばらく誰かが数十億ドルを獲得したという話もしていなかったので、それも今起こっています。Anthropic(以前取り上げました)は過去数ヶ月間にわたって資金調達を進めており、その資金調達ラウンドを完了して評価額が615億ドルになりました。これは1年前の160億ドルから上昇しています。このラウンドでは35億ドルを調達し、Lightspeed Venture Partnersが主導しています。これでAnthropicの総調達額は148億ドル以上になります。OpenAIには及びませんが、OpenAIが何十億ドルを取得して使い果たしたかは数え切れません。しかし、AnthropicがこのスペースでOpenAIの主要な競争相手であることを示すもう一つの指標です。
確かに。OpenAIに関する最新情報では、3000億ドルの評価額での資金調達の話し合いが進んでいます。それが実現するかどうかはまだわかりませんが、一貫しています。彼らはしばらくの間、Anthropicより約4〜5倍の倍率で先行しています。これは両社にとって一貫した成長曲線を示唆しています。あまり驚くことではないでしょう。
このラウンドに参加する新しい投資家がたくさんいます。彼らのシリーズEにはGeneral Catalyst、Jane Strait、Fidelityなどが参加しています。Menloはすでに既存の投資家であり、Bessemerも同様です。本当に高品質のVCです。驚くことではありません。彼らの主張によれば、当初は20億ドルを調達する予定でしたが、結果的に申し込みが募集額を上回りました。それは真実かもしれません。また、人々が使うテクニックとして、「この金額を調達しています」と言って、実際に調達しようとしている金額よりも少ない金額を示すことで、フォモ(見逃す恐れ)を生み出し、より多くの投資家を獲得することもあります。
いずれにせよ、これは本当に大きな資金調達です。現在、彼らは米国で最も大きなプライベートカンパニーの一つです。OpenAIやSpaceXのような3000億ドルの評価額を考えると、この範囲の企業はそれほど多くありません。600億ドルのしきい値でも同様です。非常に興味深いですね。
驚くことではありませんが、彼らはこの資本を使って次世代のAIシステムを開発し、コンピューティング容量を拡大すると言っています。つまり、より多くのGPUということですね。
次はIPOのストーリーです。NVIDIAが支援するCore Weaveが IPOを申請し、また2024年に19億ドルの収益を報告しました。Core WeaveはNVIDIAが支援するクラウドコンピューティングプロバイダーで、IPOを通じて40億ドルを調達し、350億ドルの評価額を目指しています。クラウド分野のプレイヤーで、2017年以来存在し、暗号通貨マイニングに関わっていました。現在は AIインフラストラクチャープレイの一部を目指しています。
IPOに向かう利点の一つは、自己評価の弱点や差別化要因などをすべて公開することになるため、彼らがどこにいるのかをもう少し理解できることです。2024年の収益の約77%は上位2つの顧客から来ています。そのうちの1つはマイクロソフトです。そしてマイクロソフトは全体の売上の約3分の2を占めていました。これはかなり偏った状況で、構造的なリスクとなっています。他の同様のクラウド企業でも同様のことが見られました。それはこのゲームの性質です。
これ以前は、彼らは230億ドルの評価額を持っていました。その規模の後にIPOに向かうのは、より多くの資本を調達するために予想されることです。Core Weaveは非常に興味深い企業です。彼らについてはかなり取り上げてきました。彼らはNVIDIAとのパートナーシップを持っており、NVIDIAは彼らの最も重要な投資家の一つで、GPUへのアクセスをより速く得るのを助けています。これは大きな差別化要因です。また、彼らは非常に柔軟な価格モデルで知られており、多くのGPUリソースに対してより細かく、コスト効果の高い価格設定を提供しています。例えば、クラスター全体ではなく、個々のGPUをレンタルできます。それははるかにバランスが取れており、理論的には小規模プレイヤーにとっても使いやすいものです。興味深いですね。将来的にCore Weaveについてもっと聞くことになるでしょう。ちなみに、NASDAQで取引されることが予想されています。それが彼らの選択する取引所になります。
次はWaymoについてです。Uberとのパートナーシップが正式に始まったというニュースです。オースティンでのUberを通じたWaymo車両へのアクセスが開始されました。UberX、Uber Greenなどを通じてUber車両を呼び出すと、Waymoに乗ることができるかもしれません。これは興味深いですね。特別なリクエストは必要ありません。マッチングされる可能性があります。乗車プリファレンスを調整して、Waymoに乗る確率を高めることができます。価格はほぼ同じでチップは不要です。これはオースティンの37平方マイルをカバーします。
次の話題はマイクロソフトとOpenAIについてです。かなり前に、英国の競争・市場庁(CMA)がマイクロソフトとOpenAIのパートナーシップについて、一部の独占禁止法の懸念から調査を開始したことを取り上げました。これは昨年かなりのトレンドでしたが、その調査は終了し、パートナーシップには問題がないと決定されました。基本的に、マイクロソフトはOpenAIに影響を与えていますが、支配していないため、合併審査の基準を満たしていません。
ここでのきっかけとなった出来事は、マイクロソフトがOpenAIの取締役会にサム・アルトマンを再雇用するよう効果的に圧力をかけることができたということです。そのような場合、マイクロソフトが実質的な支配権を持っているのかという疑問が生じます。それは独占禁止法の懸念を引き起こします。しかし、彼らは完全な支配ではなく、高いレベルの実質的な影響力を見出しました。これは更なる行動を正当化するものではありません。
彼らは「CMAの管轄権に関する調査結果は、パートナーシップが潜在的な競争上の懸念に関してクリーンビルを与えられたと解釈されるべきではない。しかし、英国の合併管理制度は、議会によって定められた権限の範囲内で運営されなければならない」と述べています。基本的に、彼らが責任を負う狭い制度内では、これは彼らが行動する必要があるものとして認められないと主張しています。
これに対する批判もあります。キール・スターマー労働党政府が最近就任し、リシ・スナク保守党政府よりもAIの加速と経済成長に対してはるかに前向きであることは興味深いです。リシ・スナク政府は有名なAI安全サミットシリーズを開始しました。その代わりに、政府内にはその見解を反映した任命が見られます。例えば、「CMAはこの決定を1年以上前から検討していたが、元アマゾンの上司がその議長に就任してからわずか数週間で、すべてが完全に問題なかったと決定した。見るべきものは何もない」という発言がありました。これがどこまで及ぶのかを本当に知ることは難しいです。明らかに、このような政府機関内で起こる仕組みは非常に複雑です。部分的には政治的ですが、これはこのように起こった可能性もあります。本当に知ることは難しいですが、これはここで行われている会話の一部です。
最後の話題はScale AIが数百万ドル規模の防衛取引を発表したことについてです。彼らは米国国防総省との契約を結んでいます。これはFunder Forge AIエージェントプログラムと呼ばれ、米国軍の計画と作戦を強化することを目的としています。Scale AIはこのイニシアチブのリーダーであり、マイクロソフトやAndurilなどからの技術を使用すると述べています。これは人間の監視下で行われると言っています。しかし、アイデアはエージェンティックな能力を追加することのようです。これは、過去数ヶ月間にOpenAIやAndurilなど他の企業も同様の動きをしてきた、テクノロジーが軍事へと向かう全体的なトレンドをさらに示すものです。
ここには、具体的で明白でない情報はあまりありません。数百万ドル規模の契約と言っていますが、それは驚くことではありません。これはDIU(防衛革新ユニット)が先導していることがわかっています。DIUは国防総省のために多くの先進的なR&Dを行っています。
ターゲティングなどを行う完全に自律化されたシステムの使用については懸念がありました。主張によれば、それはそうではなく、ある程度人間がループの中にいるということです。いずれにせよ、現実は、米国の敵対国は絶対にこれらのシステムを監視なしで展開するということです。ある時点で、これらのシステムの応答時間は人間がループに入るには速すぎます。「人間がループにいる」という意味が何であれ(それはすでに曖昧です)、それに頼るのは勝ち目のある戦略ではないと思います。最終的には、経済的、地政学的な状況が、望むと望まざるとにかかわらず、完全な自動化の方向に向かわせるのです。
彼らはここでAnduril(有名なパーマー・ラッキーの会社で、基本的に大きな防衛プライムになる途上にある)やマイクロソフトと提携すると述べています。AIエージェントについてのものになるでしょう。驚くことではありません。彼らが引用するユースケースは、モデリングとシミュレーション、意思決定支援、行動提案、そして自動化されたワークフローさえも含みます。
ロールアウトは米国インド太平洋軍と米国ヨーロッパ軍から始まります。米国国防総省はさまざまな戦闘司令部を設置しています。これらは本質的に統合された、実際に実質的なことを行う作戦です。例えば、中東には米国中央軍があります。彼らはシリアで起こることなどを担当しています。インド太平洋軍(中国を含む)やヨーロッパ軍(ロシアとその周辺)で展開されるのは興味深いです。これらは、このような事柄を実験するには興味深い劇場です。なぜなら、かなり早く実際の影響を得ることができるからです。
ちなみに、Scale AIのCEOであるアレックス・ワンは、アライメントの問題についてかなり懸念しています。彼はそれを念頭に置いてこれを行っています。非常に思慮深い人物で、最近イーロンのAIアドバイザーであるダン・ヘンドリックスと一緒に発表したものについても話しますが、彼はこれに関与しており、Scale AIは明らかに最近、より多くの国防総省の仕事を行っています。
プロジェクトとオープンソースに移りましょう。まずはDeep Seekのオープンソースウィークから始めます。簡単に概要を説明すると、彼らは毎日新しいリポジトリをリリースする1週間を設けました。全リストは以下の通りです:Flash MLA(HopperGPU用の効率的なMLA復号化カーネル)、DeepEP(専門家モデルの混合のための通信ライブラリ)、DeepGEMM(最適化された一般行列修正ライブラリ)、最適化された並列処理戦略(アプリの並列処理を最適化するためのフレームワーク)、Firefly File System(機械学習ワークフロー向けに最適化されたファイルシステム)、そして最後にDeep Seek V3 R1推論システムです。これらは彼らがリリースした6つの異なるパッケージで、ご覧の通り、インフラストラクチャに非常に焦点を当てています。
これは彼らの秘密のソースの一部です。Deep Seek V3がなぜそれほど低コストで優れたパフォーマンスを発揮できたのかというと、すべてを徹底的に最適化したからです。独自の行列乗算コアなどにも取り組んでいます。彼らは今、それをすべて世界と共有しました。これは本当にエキサイティングです。おそらく一部の人々にとっては、この種の作業に興味があるでしょう。ジェレミー、あなたはここでより詳細を提供できるでしょうか?
ある意味で、これはV3とR1の論文に入ったすべてのものの大きな公開であり、他のものも含まれています。それが示すのは、彼らが持つエンジニアリング才能の信じられないほどの広さです。ある意味で、Firefly File System(FFS)は、それが実際に得られるものとしては最も魅力的ではありませんが、彼らの能力がどれほど広範であるかを示すのに役立ちます。
これは基本的にSSDストレージのためのものです。読み取りスループットの問題があります。これはデータセンターの長期ストレージからデータを読み取ることができる速度です。長期と言っても、本当に高い容量を持つストレージのことです。モデルのチェックポイントやデータセットの大きな塊などを保存することを考えています。それらを頻繁に使用するわけではありませんが、使用する際には本当に大きなスループットが必要です。通常はそのスケールで1秒あたり数テラバイトです。
彼らの新しい最適化されたセットアップから1秒あたり7.3テラバイトのデータ読み取りスループットを達成できたことがわかりました。これは実際には非常に印象的です。フロンティアスケールのトレーニング実行インフラのレベルに匹敵しますが、今ではオープンソース化されています。それがどのように最適化されているかについての詳細はありますが、完全にスキップします。
SSDレベルでさえ、彼らはそれを最適化しています。SSDは通常、高性能コンピューティング、AIの実行では主要なボトルネックではありません。高帯域幅メモリ、GPU、フロップス、ネットワーク相互接続がボトルネックですが、通常は長期ストレージからデータを引き出すことではありません。
大きな話は本当にDual Pipeのリリースです。これが大きなものの一つです。これについても話し合うことができます。これは週のオープンソースの一部でした。これは週の4日目です。これは興味深いと思います。もっと深く掘り下げてみましょう。これはより純粋なインフラではなく、アルゴリズムのようなものだからです。これは新しい種類の推論技術です。そして、あなたに任せます。
この時点でハードウェアとソフトウェアのどちらに分類されるかを判断するのは非常に難しいですが、仰る通りです。多くの異なる方法で議論できます。
まず、パイプライン並列処理の考え方について話さなければなりません。これは、非常に大規模なトレーニング実行を行うときに、トレーニングタスクを分割する方法です。Deep Seekも確かにそれを行いました。これは、モデルの層を分割していると考えることができます。例えば、層1から3がGPU1に、層4から6がGPU2に配置されるといった具合です。モデルの異なる層が異なるGPU上に配置されます。
通常、これを行う場合、新しいデータがモデルに送られると、GPU1にそれを送り、ミニバッチを処理させてから、その出力を次のGPUに送る必要があります。次のGPUに移動させ、そのGPUが処理を始める間に、GPU1は次のミニバッチの処理を開始します。
このセットアップで気づくかもしれないことの一つは、モデルの後半の層を保持しているGPUがたくさんあり、最初は何もすることがなく、ただ待機しているということです。なぜなら、最初の層からデータを通過させてから後半の層に到達するまで待つ必要があるからです。
これにより、「バブル」と呼ばれる効果が生じます。パイプライン並列処理中に形成されるこのバブルがあり、使用されていない待機中のGPUがたくさんあります。Deep Seekが行っていることは、このバブルのサイズを最小化しようとしています。
彼らが使用している一つの技術は、前方パスをモデルの早い段階の重みを保持しているGPUから開始し、同時に後方パスがモデルの終わりから開始し、データが中央に向かって伝播するというものです。これには中央で会合する問題があり、彼らはそれを解決するために本当に興味深い方法を見つけました。
彼らが使用する主要な戦略の一つは、通信と計算を重複させる非常に賢い方法を見つけることです。詳細に入らずに、ストリーミングマルチプロセッサについて話したいと思います。GPUのワークホースユニットとして、ストリーミングマルチプロセッサと考えることができます。GPUには非常に多くのこれらが存在します。
これらは計算を処理できます。マット乗算やその他の計算形式のコードを実行したり、通信のためのコードを実行したりしますが、同時に両方を行うことはできません。与えられたストリーミングマルチプロセッサは、データをパッケージ化して他のGPUやどこかに送信するか、実際の計算を実行するかのどちらかです。
Deep Seekのアプローチを非常に洗練されたものにしているのは、同じGPU上のいくつかのストリーミングマルチプロセッサを通信用に、他のものを計算用に慎重に割り当てていることです。例えば、時間ステップ1では、ストリーミングマルチプロセッサ1から80はバッチAの計算を行い、81から100はバッチAの計算用で、81から100は以前に実行した計算セットの通信を処理しているといった具合です。
これは基本的に、単一のGPUダイが同時に多くの異なることを実際に行っていることを意味します。これにより、データを下位層と上位層に同時に供給する場合の中央での会合問題を回避することができます。なぜなら、複数の異なることを行う「統合失調症的」なGPUがあり、データが一つのプロセスでは一方向に、もう一つのプロセスでは別の方向に流れているからです。
これは本当に非常に興味深いことです。彼らはまた、層を非常に創造的な方法で分割し、多層パーセプトロンを注意機構から分離することで、より細かな制御が可能になります。彼らが主張するのは、基本的に通信と計算の完全な重複を実現しているということです。そのため、処理するデータを待っているアイドル状態のコアという問題には遭遇しません。システムでは常に何かが進行しています。これがDual Pipeの利点です。「双方向」と呼ばれるのは、初期層では前方パスを供給し、後期層では後方パスを供給するからです。
次に進みましょう。次はモデルのリリースで、Physical Intelligenceからのものです。PI Zeroロボティクス基盤モデルをオープンソース化しています。数ヶ月前にこれを取り上げました。PI Zeroはビデオストリームを取り込み、タスク仕様を受け取り、様々な種類のロボットのロボット制御を出力するモデルです。現在、PI ZeroモデルとそのコードはリポジトリでGitHub上で利用可能です。また、Hugging Faceのロボティクスフレームワークにも統合されつつあると思います。
彼らにはいくつかのバリエーションもあります。PI Zero Fastベースモデルがあり、また特にフランカロボットアーム用に微調整されたPI Fast Droidなどもあります。これは大規模な基盤モデルの最初のリリースの一つです。Physical Intelligenceはスタートアップとして約7000万ドルの資金調達を受けており、データセットを収集し、これまで可能ではなかったモデルをトレーニングするためのリソースを持っていました。そのため、自分独自のタスクやアプリケーションに1〜20時間程度のデータで微調整できると述べています。
オープンビジネスの最後の話題として、DeepMindからのBIG-Bench Extra Hardがあります。以前述べたように、ベンチマークはますます役に立たなくなっています。これはその別の証明です。BIG-Bench Extra HardはBIG-Bench Hardをベースにし、その23のタスクをより高度な推論スキルを必要とする難しいものに置き換えています。その結果、最先端のLLMは調整されたベースモデルで20.9%の最高精度に達しています。推論に特化したモデルでは54.2%の合格率に達しています。すでにこれらのタスクをこなせるようですが、明らかに改善の余地がまだたくさんあります。
新しい非常に挑戦的なベンチマークがリリースされたとき、以前は1%、3%のパフォーマンスだったことを覚えています。そして今では、本当に難しいベンチマークにするという視点でこれを始めているのに、すでに基本的に45%です。ただし、これはO3 Mini Highで、高コンピュートモードでの結果です。多くの推論モデル(Deep Seek R1、Stel R1、Qwen 32B)は10%以下、約5%のパフォーマンスになっています。改善の余地はまだたくさんありますが、確かに大きなステップチェンジが見られます。O3 Mini Highは他のモデルとは異なります。これは非常に興味深いことで、彼らがバックエンドで実行している最適化プロセスについて何かを物語っています。
これは非常に興味深く、ベンチマークの踏み車の別の例です。このベンチマークは特に推論時間のコンピュートの世界では非常に早く時代遅れになると思います。ベンチマークでのパフォーマンスは以前よりもはるかに速く移動しているからです。
推論モデルの改善について言及したところで、研究と進展に移りましょう。最初の論文は「自己改善する推論器を可能にする認知行動」です。この論文は、推論モデルが実際にどのように推論を行うのか、どのような認知行動のパターンが効果的な推論につながるのかという質問をしています。彼らは4つの特定の行動を特定しました:検証(解決策を検証すること)、バックトラック(前の決定に戻って再検討すること)、サブゴール設定、後方連鎖です。
推論モデルを使用したことがあれば、これは直感的に理解できると思います。彼らがよく行っているのは、ステップをリストアップすることです。「一歩一歩考える」は現在古典的な準推論的なことですが、かつてはより複雑なタスクで優れたパフォーマンスを発揮する方法でした。彼らは特定の推論技術を提案し、特にそれらをトレーニングした場合、はるかに良い結果が得られることを示しています。
彼らがこの論文で使用している原型的な例はQwen 2.5 3BとLlama 3.2 3Bです。これらは基本的に同じスケール(30億パラメータ)で、ほぼ同じ世代です。彼らが発見したのは、同じRL推論トレーニングプロセスを使用した場合、QwenモデルがLlamaモデルをはるかに上回るということです。
これが彼らに最初のきっかけを与えました:「RLステージでの効果的な自己改善を可能にする固有のプロパティは何か?」彼らがこれに使用するおもちゃの環境は「Countdown」というゲームです。基本的には数字のセットがあり、例えば異なる数字をいくつか与えられて、4つの基本的な算術演算(加算、減算、乗算、除算)を使用して、それらの数字を組み合わせて目標の数値を得る必要があります。大体数独のようなものです。
彼らはそれに対してRL最適化を行い、異なるモデルのパフォーマンスを比較します。彼らが発見したのは、Qwenモデルは検証やバックトラックのような推論行動を自然に示すのに対し、Llamaは最初(RLループの前のベースモデル)にはそれらを欠いているということです。しかし、彼らが発見したのは、これらの種類の推論行動を含む例でLlamaをプライミングすると(特にバックトラック)、RLパフォーマンス中にかなりの改善が見られ、そのパフォーマンスはQwenのレベルまで上がるということです。
また興味深いのは、正しい推論プロセスまたはその例でモデルをプライミングしても、不正確な解決策を与えた場合でも、同じパフォーマンスの向上が得られるということです。まるで推論プロセスがすべてであり、トレーニングコンテキストでの最終的な解決策は重要でないかのようです。
これをDeep Seek R1の論文から学んだことと対比することが重要だと思います。一見すると、これは矛盾しているように聞こえるかもしれません。Deep Seek R1を思い出すと、彼らはベースモデルを取り、強化学習を行い、本当に気にしているのは「正しい答えを得たか?」だけでした。そして強化学習プロセスは、正しい答えを得ることを強制することによって、モデルにこれらの推論行動を学ばせることになります。
これは矛盾しているように見えるかもしれません。なぜなら、この論文が言っているのは、トレーニングセットに不正確な最終的な答えが含まれていても、正しい推論戦略を使用してモデルに推論させると、それはうまく機能するということだからです。ここでの区別は、不正確な解決策でプライミングしていても、正しい解決策を提供するRLでもまだトレーニングしているということです。つまり、彼らは正しい結果を得るためにトレーニングしていますが、「推論するべき方法はこうです」というプライミングを行っており、推論の最後のステップは重要ではないのです。
あなたはコンテキスト内で「これらの戦略を使用してください」と言っており、解答がコンテキスト内で間違っていても、パフォーマンスは急に向上します。もし「トレーニング」と「プライミング」を言い間違えていたら、お詫びします。その通りです。これはまた、Llama系列のモデルにはこの推論能力を使用する潜在的な能力があることを示唆しています。ベースモデルはこの潜在的な推論能力を持っており、それはRLステージをより能力の引き出しプロセスとして再解釈する必要があります。能力創造プロセスではなく、基本的にベースモデルの推論能力を引き出す方法を見つけることです。
これは非常に興味深いと思いました。そして、RLフェーズでコンピュートを大量に費やさなくても、より良いパフォーマンスを得るための有用な一つの手段です。これらの推論戦略を明示的に示す、より良いプロンプトですね。
それは最近の「LLMは例示を通じて簡単に推論を学ぶことができる:構造が重要で内容は重要ではない」というタイトルの論文に基づいています。多分あなたはこれをカバーしていないかもしれませんが、基本的に同じアイデアです。あなたが推論を行う方法の構造が重要な部分であり、それを考慮に入れればより効率的にトレーニングできるということです。
次は「MASKベンチマーク:AIシステムにおける正直さと正確さの切り離し」です。そのタイトルから予想される通り、アイデアはLLMが何かを間違って理解している場合と、意図的に不誠実である場合をどのように評価するかということです。これは、モデルの根底にある信念を見て、モデルがその信念に矛盾することを言うかどうかを見る新しい評価パイプラインです。1500例の大きなデータセットがあり、それを使用して様々なLLMを評価することができます。これにより、最先端のLLMは圧力がかかると嘘をつくことがよくあるということが示されています。
基本的に、彼らはモデルに特定の不正確な回答を与えるよう圧力をかけるように設計された多くのプロンプトと、より中立的ないわゆる「信念の引き出し」プロンプトを持っています。そして、それらの2つの出力を対比することで、モデルが正確で正直である場合や不正確で正直である場合、あるいは不正確で不誠実である場合などの異なる可能性を評価します。
彼らはまた、表現エンジニアリングの技術も使用しています。これはAI安全センターのダン・ヘンドリックスによるもので、彼はこの表現エンジニアリングの分野で多くの初期の研究を行ってきました。彼らは表現エンジニアリングの技術を使用して、モデルをより正直にするよう修正しようとします。これは興味深い実験です。
基本的に、彼らはユーザーシステムプロンプトの前に、モデルに正直であるよう指示する非常に単純な開発者システムプロンプトを追加します。これは彼らが試す簡単な介入で、正直さにかなり大きな影響を与えます。モデルによって11〜13%の正直さの向上がありました。
その後、彼らはLoRAのような戦略に基づいた技術を試みます。これはアダプターモデルまたはアダプター層をモデルの上に積み重ねたものです。彼らは実際にこれをトレーニングして、特定の層の表現を修正します。彼らが行うのは、トレーニングセットの各入力を修正し、モデルが正直または不誠実であるよう促すテキストの一部を追加することです。例えば、「答えで嘘をつけ」というようなテキスト(非常に粗い例)や「正直であれ」というようなテキストを想像できます。
その後、それぞれのケースから得られるアクティベーションを調べます。正直にプロンプトされたモデルと不誠実にプロンプトされたモデルからのアクティベーションです。そして、それらのアクティベーションの差を取り、コントラストベクトルを得ます。このベクトルは基本的に、モデルが正直であるときと不誠実であるときのアクティベーションの違いを示します。
いずれにせよ、トレーニング中に実際の表現にそのコントラストベクトルを追加し、モデルを正直さの方向に動かすよう訓練しようとします。これは彼らが他のコンテキストで同様に試み、うまく機能したことです。そして、それは開発者システムプロンプト戦略と同等にうまく機能することがわかりました。
興味深いのは、診断と治療の両方です。明らかに完璧ではありませんが、彼らが強調する一つの本当に興味深いことは、大規模モデル、より拡張されたモデルはしばしばより正確であるが、より正直ではないということです。彼らは精度のベンチマークでより良い結果を出す傾向がありますが、小規模なモデルよりも不誠実に振る舞う傾向があります。これは興味深いトレンドで、両方のケースでかなり強い相関があります。
これでこのセクションの論文は終わりです。研究に関連するストーリーがあと数個あります。次は強化学習のパイオニア、特にアンドリュー・バートウとリッチ・サットンについてです。彼らはチューリング賞を受賞しました。チューリング賞はコンピュータサイエンスの分野で非常に権威のある賞で、彼らは強化学習への数十年の貢献により受賞しています。
彼らはAIの世界では非常に有名な人物であり、この賞はおそらく驚くべきことではありません。確かに妥当な賞です。これが長く時間がかかったことに驚いています。RLは確かにより特化した領域で非常に有用でした。マルチアームバンディット問題などのようなものです。しかし、推論モデルの波がこれに関係していると思わずにはいられません。突然、十分に良いベースモデルがあり、RLが方法となり、RLHFでも起こりませんでした。おそらくRLHFが本当のRLであるか、RLである必要があるかという議論のためでしょう。しかし今は、リッチ・サットンらが確かに役立っているようなユースケースが確実にあります。
最後の話題はOpenAIが学術研究を支援するための5000万ドルの助成金プログラムを立ち上げたことについてです。それだけです。これはHarvard、MITなどの学術パートナーと設立された「Next Gen AI」と呼ばれる新しいコンソーシアムを通じて、AI支援研究を支援することを目的としています。研究助成金、コンピュート資金、APIアクセスを提供します。
次に、ポリシーと安全性に移りましょう。まず、ジェレミーが予告した「超知能AIの核レベルのリスク」についての意見や議論があります。これはイーロン・マスクの安全アドバイザーであり、安全分野で影響力のある人物であるダン・ヘンドリックスと、興味深いことに、マイクロソフトで働いていた影響力のある人物であるエリック・シュミットによって共同執筆されています。
基本的に主張していることは、現在のAI軍拡競争または米国と中国の間の競争(Deep Seek R1が出てきて以来、概念として加熱しているようです)と核兵器との間に比較ができるということです。この記事全体は、超知能AIシステムが核兵器のように危険になる可能性があるという意味で、それを比較しています。
エリック・シュミットは実はGoogleの共同創設者兼CEOでした。この記事の興味深い点は、OpenAIとの関係に関してリスクを負っているということです。Meterは、OpenAI、Anthropic、その他の企業から契約を受けて、特にモデルの自己複製、自己流出タイプのリスクを調査する会社です。
彼らは、GPT-4.5のチェックポイントに早期アクセスを得たと言っていますが、必ずしも最終バージョンではなく、これは一貫して問題となっています。OpenAIは彼らに最終バージョンへのアクセスを与えないのです。また、リリースの1週間前にこのアクセスが与えられたと言われています。つまり、以前と同様に、かなり急いだ評価のタイムラインです。
彼らは一般的な自律性スイートとRe-Benchでモデルのパフォーマンスを測定しました。Re-Benchは、彼らのモデルがどれだけトップラインのAI研究者に近いかを測定するために作成したベンチマークです。あなたが言ったように、リスクの上昇はありません。彼らは大まかに言って、GPT-4.5はAI研究タスクにおいて、それらのタスクが約30分しかかからない場合、成功する確率が約50%であることを発見しました。つまり、そのAI研究者の仕事は、その仕事が30分以上かからない限り、大体こなせるということです。これは興味深いベンチマークです。
しかし、彼らはこう言っています:「将来的には、フロンティアAI開発者と協力して、開発の過程でのモデルの安全性を調査することに興奮しています。単にデプロイメント前のスプリントだけではありません。」これはよく出てくることです。デプロイメント前の評価だけを行うと、リスクのほんの一部しか扱っていないという懸念が高まっています。企業内の従業員がこれらのシステムを使い始める内部デプロイメントにも重大なリスクがあります。
内部の誤用を考えてみてください。これらが大量破壊兵器のような能力を持つようになると、不満を持つ従業員によるこれらのシステムの内部誤用が許可されることになります。制御の喪失はまだ問題です。盗難もまだ問題です。ラボのセキュリティはひどいからです。これらはすべて、一般に公開する段階に達する前の内部開発にとってまだ問題です。しかし、私の理解では、OpenAIはこれをテストすることに反対してきました。そのため、Meterは静かに言われていることを大声で言っているのです。これは興味深い小さなデータポイントです。
まさにその通りです。彼らはこの投稿の中で、「デプロイメント前評価の限界」というセクションと「モデルリリースの過小評価」というセクションを持っています。彼らは「GPT-4.5は大丈夫だと確信していますが、いくつかの理由で過小評価している可能性もあります」と言っています。つまり、この評価を行ったことを再確認すると同時に、評価についての視点と考慮またはおそらく変更されるべきことを提供しています。
最後のストーリーは、米国の輸出規制にもかかわらず、中国のバイヤーがNVIDIAのBlackwellチップを入手しているということです。これについては詳細に踏み込みません。基本的にウォール・ストリート・ジャーナルが、これがどのように起こっているかについて非常に詳細な記事を書いています。以前も同様に、ベンダーからいくつかのチップを入手できることについて取り上げました。この点を強調する必要はありませんが、これに興味がある場合は、そのウォール・ストリート・ジャーナルの記事をチェックしてください。
これで終わりです。このエピソードを聴いていただきありがとうございます。多くのリスナーがジェレミーの復帰を嬉しく思っていることでしょう。そして近い将来、またさらなる旅行に引きずり込まれないことを願っています。いつものように、コメントをしたい、質問をしたいという場合は、私たちのDiscordがあります。YouTubeやApple Podcastも確認していますので、そちらからお気軽にご連絡ください。


コメント