オープンAIの「ステルス」モデルが明らかに（AIの安全性懸念？）

6,020 文字

OpenAI's "STEALTH" Models Revealed (AI Safety Concern?)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

AIの動画がとんでもないことになっています。この生き生きとしたリアルな映像を見てください。あ、ちょっと待ってください。今報告が入ってきました。速報です。これはAI動画ではありません。これはユニトリーロボットが人間の相手と対決している様子です。そして、なかなかうまくやっています。100ポンド（約45kg）ほどの重さのものとしては、間違いなく「自分の体重以上の力を発揮している」と言えるでしょう。
あ、早合点でした。これは本物で、もうすぐあなたのライブストリーミングモニターでご覧いただけます。私は絶対に見逃しません。見ない可能性はゼロです。もしかしたらライブストリームを設定して一緒に見ることもできるかもしれません。
しかし、取り上げるべきAIニュースがたくさんあります。それでは、これ以上の素晴らしいロボットの暴力シーンなしで本題に入りましょう。でもまず、これを少しだけ見てみましょう。
バケットリストという考え方があります。死ぬ前にやりたいことのリストです。まだ地球上にいる間に経験したいことのリストです。私はこれまでそういう考え方をあまり持っていませんでしたが、今変わったような気がします。これをやってみたいです。これは終わりなく楽しそうです。
ユニトリーは中国の企業で、ロボット技術の進歩において非常に印象的な成果を上げています。最近知った興味深いことは、彼らが多くの技術、少なくともその一部をオープンソース化していることです。彼らは一種のオープン開発者エコシステムを持ちたいと考えており、人々が参加して、おそらくロボットに新しいスキルを教えたり、様々な…彼らはNVIDIA Isaac Gymを使用していると思いますが、それを使ってシミュレーションで特定のスキルを訓練できます。私個人的にはとても興味があります。
また、もしあなたがあまり馴染みのない会社から、あるいはあなたの国とは異なる国からロボットを入手する場合、例えばアメリカ合衆国では規則や規制などをある程度知っていますが、中国で製造されたロボットを家に置くことに躊躇する人もいるでしょう。アメリカと中国の関係が最良とは言えないことは明らかです。ですから、そういった技術の一部をオープンソース化することで、そのような懸念を和らげることができると思います。あなたはどう思いますか？
彼らは約1ヶ月後、つまり1ヶ月以内にこの対決をライブストリーミングする予定です。日程が決まり次第、必ず視聴します。皆さんと一緒に見られるようにライブストリームを設定するよう最善を尽くします。
彼らがロボットを蹴ったり押したりして、安定性や素早く立ち上がる能力、回復する能力などを実証するのを見ると、いつも申し訳ない気持ちになります。しかしこのような文脈では、かなり問題ないように感じます。彼は装備を身につけ、グローブをはめ、パッドやヘッドギア、ヘッド保護具を装着しているので、全く問題ありません。また、あのキックは素晴らしいですね。そして相手のキックからの回復も素晴らしい。この映像には本当に楽しめる要素がたくさんあります。
とにかく、次に進みましょう。最近大きな関心を集めたのは、Open Routerに登場した2つの「ステルス」モデルです。最初に現れたのはQuazarというモデルでした。ステルスモデルとは、多くのこれらのラボ、AIラボが、まだ発表されていないモデルを様々なプラットフォームでテストできるようにして、人々がそれを試すことができるようにしているものですが、誰がそのモデルを作ったのか、モデルの実際の名前や詳細などは分かりません。
これはもちろん、企業にとっては基本的なユーザーテストを行い、実世界で多くのフィードバックを得ることができるので素晴らしいことです。最初に登場したのはQuazarモデルで、その直後にOptimus Alphaが登場しました。ちなみに、TwitterのTesting Catalogさんにこの情報を指摘してくれたことに感謝します。
まず第一に、両方とも同じ会社からのものだと私たちは想定していますが、それが誰なのかについては後ほど説明します。Optimus Alphaは、多くの人が言っているように、コーディングが特に優れているようです。また、100万のコンテキストウィンドウを備えています。
こちらがOptimus Alphaです。100万トークンのコンテキスト長を持ち、ステルス期間中は無料で利用できます。これはおそらく企業にとってAPIクレジットとコンピューティングで数百万ドルのコストがかかりますが、それは小売価格であり、彼らにとってはもっと安いでしょう。しかし、これは彼らが実際の環境で製品をテストし、私たちが近い将来にリリースされる予定のものを垣間見るための優れた方法です。
非常に高速で、100万のコンテキストウィンドウを持ち、コーディングに優れているようです。ただし、これは推論モデルではありません。興味深いことに、サム・アルトマンは間もなく発表される新機能にとても興奮していると話していました。それらについては後ほど詳しく説明します。
サム・アルトマンは「クエーザーは非常に明るいものだ」と言及しました。まず、私はこの言葉遊びが大好きです。クエーザーは非常に明るい一種の銀河系の天体で、非常に発光体として知られています。多くの光を放出しますが、「ブライト（明るい）」というのは、賢いモデル、明るいモデルという意味でもあります。これは私にとって、OpenAIがそのステルスモデルQuazarの背後にいることを確認するものです。
では、Optimus Alphaもその一部なのでしょうか？前回彼らが同時に2つのモデルをテストした時は、「good-little-chatbot」や「little-good-chatbot」といった奇妙な名前だったと思います。彼らがそれらを並行してテストしている可能性は十分あり、これは私たちがすぐにそれらを見ることになる可能性があることを意味します。それらはO4 MiniとO4 Mini Highである可能性があるのでしょうか。これらの多くは噂や推測です。おそらく非常に近い将来に確実に分かるでしょう。
何か洞察があれば教えてください。私はOptimus Alphaを少し試してみましたが、推論モデルではないようです。出力はほぼ即座に得られ、非常に高速です。何のプリアンブルもなく、考える様子もありません。トラブルシューティングはかなり上手くこなすように見えますが、別の動画でもっと詳しく取り上げるかもしれません。
OpenAIは最大3つの新しいAIモデルの発表を準備しているようです。O4 mini、O4 mini high、そしてO3です。GPT-4o（非推論）、GPT-4.5（非推論だが創造性と自然言語に優れている）があります。4.5は、あの小さなメタフィクションの短編小説を書いたもので、私たちは皆それについて意見が分かれていると思います。私は個人的にそれを気に入っていました。間違いなく何らかの感情を呼び起こしました。多くの人はそれを嫌っていましたが、それはAIが生成したという事実に対する反応だったと思います。もし「ねえ、これは私が書いた短編小説だけど、どう思う？」と言えば、「素晴らしいね」と言われたかもしれません。それは私の見解ですが。
要するに、私たちにはそれらの非推論モデルと3つの推論モデル（O1、O3 Mini、O3 Mini High）があります。GPT-4は廃止される予定で、これはある意味で時代の終わりを意味します。しかし、彼らはある時点でGPT-4をGPT-4 Turboにアップグレードしたと思うので、元のGPT-4はもうしばらく前から消えていると思います。
しかし、これはO4 Mini、O4 Mini High、そしてO3を手に入れることを示唆しています。サム・アルトマンはO3は単独ではリリースされないと言ったと思いますが、それについては意見が分かれていたので、変更されたのかもしれません。
マット・バーマンがTwitterでこう報告しています：「Quazar Alphaは謎の100万トークンコンテキストモデルで、Claude 3.7 Sonnetをベンチマークで上回りながら4倍速く実行されるが、どのラボが作ったのかは誰も知らない」。私は最初、誰がこの投稿をしたのか混乱しました。彼は全く違って見えます。髪型を変えたのでしょうか？何が起こっているのでしょう？そして、大物たちが彼をフォローしています。
何が言いたいのかよく分かりません。最初は少し混乱しましたが、これが彼の本名だと思います。ということで、AIの世界にもう一人のマットを迎えましょう。ご存じない方のために、YouTubeでAIについて取り上げている5人ほどの人がマットやマシューという名前です。ここにもう一人のマットが登場し、次のレベルに進んでいます。
しかし、次に進みましょう。O3の話題に戻ると、いくつかの記事やOpenAIの内部関係者によると、これらのモデルの安全性テストの優先順位が少し下がっているようです。情報源によると、以前はより徹底的な安全性テストが行われていましたが、現在はそれに対する需要が増え、サム・アルトマンはより早くリリースしたいと考えているとのことです。この話を確認することはできません。
ここではダニエル・ココタロを参照しているようです。彼の最近のブログ投稿「AI Takeover by 2027」を別の動画で取り上げましたが、詳細には触れませんでした。彼らの技術進歩の予測やタイムラインは優れていると思いますが、社会がどのように影響を受け、社会がどう反応するか、様々な地政学的なことがどのように展開するかという予測については、個人的には正確だとは思いません。これは単なる一人の意見です。
しかし、ダニエルはOpenAIと非難禁止条項に立ち向かったことで多くの敬意を得ていると思います。彼が退社した時、内部告発者や「AIの安全性テストが十分でない」と言う勇気を持った人々のためにより多くの保護を望んでいました。OpenAIには従業員が入社時に署名するある種の条項があり、OpenAIの株式を失うことを恐れて否定的なことを言う能力を抑制する効果があったようです。もちろん、それは莫大な金額です。
ある時点でダニエルは、彼の家族の純資産の80〜90％がOpenAIの株式だったと言っていたと思います。かつて働いていた会社について否定的なことを言い、それを発言する勇気を持つことを想像してみてください。その発言によって、家族の純資産全体の90％が消えてしまう可能性があるにもかかわらず、そうする勇気は確かに大したものです。
これは2ヶ月前に作成した「O3 Mini – 初めての危険な自律性モデル」についての動画です。画面上で前の自分をカバーしています。同時に両方が画面に映ると、何らかの時空のひび割れのようなものが発生する可能性があるので、安全のためです。
ご存知の通り、OpenAI、Anthropic、Googleなどはそれぞれ独自のAI安全性準備プロトコルなどを持っています。彼らがリリースする各新モデルがどれほど危険になる可能性があるかを評価するものです。O3 Miniは、彼らの準備フレームワーク評価におけるモデル自律性で「中程度のリスク」に達した最初のモデルという特徴を持っていました。
以前は「低」でしたが、「中」になりました。「高」はかなり大きな次のステップだと思います。なぜなら「高」では、再帰的な自己改善について話しており、自律的に機械学習研究を行うことができるからです。
こちらがOpenAIの論文です。モデル自律性は、彼らが評価している準備フレームワークの4つのカテゴリの1つです。彼らは「高」を次のように定義しています：「このAIモデルは、モデルの自己改善への重要な道筋において重要なステップを構成する、本番の機械学習コードベース上でオープンエンドの新しい機械学習タスクを実行できる」。
これが懸念される理由は、オープンエンドのタスクを解決することがAI研究の即時的な速度向上をもたらし、長いコンテキスト理解と適応の強いレベルを示すからです。次のステップはその先で、野生での生存と複製の能力です。「高」はまだ完全に怖いポテンシャルな不正AIシナリオではないものの、すでに機械学習などに大きく貢献する可能性があるところです。AIの研究開発にとって大きな速度向上です。
先ほど話したO3 Miniは、モデル自律性で「中程度」の閾値に達した最初のモデルだったことを忘れないでください。O3がどこに位置するにせよ、O3 Miniよりも優れ、より能力があるでしょう。確かに、ここでは加速していると感じます。指摘してくれたNickに感謝します。
最後に、本当に大きなリリースがありました。OpenAIはまだそれらのモデルをリリースしていませんが、無限メモリー、または記憶ChatGPTと呼ばれる中間リリースがありました。あなたの過去のチャットをすべて参照して、よりパーソナライズされた回答を提供します。
人々が言及している興味深いことの一つは、私も経験したことですが、仕事用と個人用のメモリーを2つの異なるバケットに分けるということです。それらを切り離して分離させることで、仕事環境でのみ使用するものと、仕事外で使用するものを分けるという意味です。
イーサン・モリクがここで述べているように：「AIの長期記憶が役立つ理由は完全に理解できますし、テストに基づいて、多くの人々がそれを気に入ると思います。しかし実際、私は仕事に使用するLMが個人的な詳細を挟んだり、過去のやり取りの結果として突然回答を変えたりすることを望みません。境界は重要です」。非常によく言われています。
ノーム・ブラウンが参加しています。OpenAIの研究者のノーム・ブラウン、彼は以前Metaで働き、外交AIのCiceroに取り組んでいました。彼はこう言っています：「おそらく、完全な『セブランス』のようになり、あなたは『イニー・チャドGPT』と『アウディ・チャドGPT』を持つことになるでしょう」。これは素晴らしい、素晴らしいと思いました。
もし「セブランス」というシリーズを見ていない方には、おそらく最後の数分は意味をなさなかったと思いますので、申し訳ありません。良い番組です。私はかなり楽しんでいます。
以上が、今日取り上げたいAIニュースでした。これらのAIニュースは非常に喜ばしいものですが、それぞれを同じように楽しむようにしてください。