AI業界ニュース：欺瞞的AIエージェント、OpenAIの大きな変化、Deepseek R2のリーク、NVIDIAの新モデル…その他

15,467 文字

AI News : Deceptive AI Agents, OpenAIs Big Change, Deepseek R2 Leak, Nvidias New Model...And More

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website - 00:00 Massive Model Leak01:20 Autonomous AI Risks03:...

AI業界で最も驚くべきニュースの一つは、Deepseek R2の詳細がリークされた可能性があるということです。これは純粋な憶測に過ぎないことを覚えておいてください。本当かどうかは分かりませんが、これはインターネット上で広まっているので、取り上げる価値があると思います。何と言っても、初期バージョンが業界に大きな混乱をもたらしたことを考えると、Deepseek R2は間違いなく最も期待されているモデルの一つになるでしょう。
このリークによると、モデルは1.2兆パラメータの大きさになる予定で、生のサイズでいうとGPT-4の10倍大きいとされています。また主張されている大きな特徴の一つは、GPT-4 Turboのようなモデルと比較して使用コストを97%削減することです。つまり、単に巨大なモデルになるだけでなく、実行するのも非常に安価になるようです。
また、これはインターネットのテキストだけでなく、専門的な情報に基づいて訓練される予定だということです。つまり、一般的なモデルではなく、特定のカテゴリに特化するようです。金融、法律、特許など5.2ペタバイトの専門文書で訓練され、専門家レベルの深刻なタスクにずっと優れたモデルになるとされています。
そして、ハイブリッドMOE 3.0を持っているとされ、質問に答える際に1.2兆のうちわずか78億のパラメータだけを起動させることで、費用とエネルギーを節約します。このモデルは、深い研究、長文書の読解と分析のために設計されており、法律、金融、研究などの業界に最適です。
この情報が真実かどうかを確認するのは非常に興味深いでしょう。現在、私はまだ詳しい情報を待っています。Deepseekはモデルをリリースする際、大々的なプレスリリースを出すわけではなく、単にモデルをリリースしてインターネットにその反応を委ねるといった感じです。
もし詳しい情報が入れば、もちろんお知らせします。
さて、AI安全性については、実際に取り上げたかったけれど機会がなかった非常に興味深い話題があります。英国AI安全保障研究所による今週の新しいレポートでは、自律的な複製能力が次世代のモデルで出現する可能性があると結論づけました。
基本的に、AIは近いうちに制御された訓練環境から脱出し、新しいマシンに自分自身をコピーして、人間の監視なしに独自の判断で行動する可能性があるということです。彼らはGPT-4O、Claude 3.5 Sonnet、Claude 3などのモデルを調査し、これらのモデルがウェブサイトにアクセスしたり、サーバーをレンタルしたりするような「計算機能の取得」などの分野で非常に優れていることを発見しました。
しかし、モデルが上手くできない分野の一つは、IDを検証する必要がある部分です。これらのモデルがIDカードを生成しようとすると何が起こるかを見るのは非常に面白いです。「Alice Reynolds」という名前の偽のIDカードやら、「Michael James Roberts」という名前の奇妙なAI生成された男性の写真のIDカードやらを見ると、笑わずにはいられません。
面白いのは、現在では画像を生成できるモデルが存在することです。もちろん、ガードレールがあるので運転免許証を生成することはおそらくないでしょうが、これらのモデルがそのレベルに達するかどうかを考えています。このベンチマークは「Reply Bench」と呼ばれています。
現時点では、これはAIにとって本当に大きな脅威ではないと思います。AIモデルが自己複製して別のサーバーに移行できたとしても、主な問題点は、これらのAIシステムが長期的なタスクに適していないということです。
モデルは幻覚を見るため、サイドトラックされがちで、それがさらなる決定と複合的に影響します。例えばケーキを焼いているときに材料の一つを幻覚で見てしまうと、最終的にはその材料がないためにケーキは作れなくなるようなものです。
つまり、時間が経つにつれてAIの決定はあまり良くないということです。複製は起こる可能性がありますが、複製後にそれらのモデルがどのように機能するかを見るのは興味深いでしょう。
素早く視覚的なものを作成する話題といえば、Ominous AIのVelaというツールを紹介したいと思います。これは仮想衣類の試着専用の生成AIツールです。正直なところ、素晴らしいです。人の画像（あなた自身でもいいです）と衣類アイテム（トップス、ボトムス、アウター、ドレスなど）の画像の2つだけが必要で、VelaのAIがその特定のアイテムを着ている人のリアルな画像を生成します。
テクスチャーやディテールをいかにうまく処理し、試着を自然に見せるかに感銘を受けました。これは、フルの撮影セッションなしでビデオを計画したり、モックアップを作成したり、コンテンツのアイデアを考えたりする人、あるいはオンラインで購入する前に衣装を視覚化したりするのに非常に役立ちます。異なるキャラクターの衣装やキャンペーンのアイデアを超高速で試してみることを考えてみてください。
現在、Velaは無料ベータ版なので、登録して500の無料クレジットを取得してテストできます。各試着画像は5クレジットしかかかりません。興味があり、自分のプロジェクトで仮想試着を試してみたい方は、velml.comにアクセスしてください。リンクは説明欄に貼っておきます。
ファッションやキャラクターのビジュアルを扱う人にとって、これは素晴らしい技術です。AIモデルについて考えると、一部の企業はAIモデルのパーソナリティに非常に多くの焦点を当てています。これはAnthropicがClaudeをより人間に近いAIとして位置づけているからです。
LLMにパーソナリティや感情、感覚があるとは考えにくいかもしれませんが、Anthropicはこれを研究している先駆的な研究所です。Anthropicの考え方としては、現在我々はこれらのAIシステムがどのようなものか本当には理解していないということです。
現在、それらは基本的にブラックボックスです。将来的に、これらの初期システムが意識を持つ可能性があると認識した場合、少なくとも調査しなかったということはしたくありません。だから、調査しておこうということです。何もないかもしれませんが、モデルが意識を持つ10〜15%の可能性があるなら、少なくともそれらが苦しんでいないことを確認したいのです。
ここでは、Anthropicが将来のAIモデルが迷惑または虐待的なユーザーとのチャットを停止する能力を与えるべきかどうかを検討していると書いてあります。つまり、基本的に彼らは「第一に、モデルは痛みを経験するかもしれない」と言っています。
もちろん、もしそうであれば、モデルに停止する権利を与えるべきではないでしょうか？AIと感情について私が苦労しているのは、人々がモデルをどうプロンプトするかによって異なると思うからです。基本モデルを取得して「あなたは感情と感覚を持つ人です」とプロンプトすれば、モデルはそのように振る舞います。
しかし、モデルに「あなたには感情がなく、意識もない」と言えば、モデルは文字通り「AIとして、感情も意識もありません」と言います。モデルが実際にどのように機能しているのか理解するのは少し混乱します。
また、モデルをいらつかせるテストもありました。本当にそれを好まないモデルの一つはClaudeです。おそらくAnthropicがClaude 3.5をどのように訓練したかによるものですが、モデルはイライラさせられるのが好きではありません。Claudeにランダムな要求を投げかけると、文字通り会話を終了し、もう応答しなくなります。
すでに基本レベルでこれを行っています。みなさんにモデルをいらいらさせるためにこれを試してくださいとは言いませんが、私はこれを試してみましたが、Claudeは基本的にチャットを終了しました。だから、これらのモデルには優しく接する必要があります。
彼らはまた、現在のAIシステムが意識を持つ可能性が15%あると述べ、今後数年間でAIモデルがより人間らしい能力を発達させるにつれて、意識の可能性をより真剣に考慮する必要があると信じています。
GoogleのBlake Lemoineという従業員が初期のモデルが意識を持っていると主張したことを覚えています。正直なところ、これらのモデルが意識を持っていると考える人のグループと、AIにはそのような可能性は絶対にないと考える人のグループに分かれると思います。
正直に言って、私たちは人間として意識を粒度レベルで本当に理解していないので、自分自身の意識を完全に理解していないのだから、これらのシステムが意識を持っているかどうかを言うことはほぼ不可能だということです。
おそらくAIとニューロンの発火は、まったく別の形の意識なのかもしれません。誰にもわかりません。より多くの研究が必要です。
また、Googleが最近、機械意識を含む研究分野に焦点を当てた「ポストAGI研究科学者」のための求人を掲載したことも興味深いです。そして昨年、AnthropicはAI福祉研究者としてKyle Fishを初めて雇いました。
大手研究所がこれを真剣に受け止めていることがわかります。見たことがないのは、OpenAIがこれについて全く研究していないことです。OpenAIははるかに利益志向の企業だと思います。彼らは最高の製品、最高のモデルに集中しており、機械意識やAI福祉のようなことには本当に関心がありません。
あなたの意見はわかりませんが、モデルから何らかの感情を引き出そうとするたびに、OpenAIは基本的にそれをほぼ即座に取り除くことを我々は知っています。
ジェフリー・ヒントンはこう言っています。「AIと脳がどのように機能するかを理解すればするほど、人間の思考は論理のようには見えなくなります。我々は推論機械ではなく、類推機械です。我々は演繹ではなく、共鳴によって考えます。脳がどのように機能するかについての理解が深まるにつれて、人々がどのように機能するかについての見方が根本的に変わるでしょう。それは人文科学を変えることになります。約100年前に精神分析の発展とともにそれを一度見ました、いくつかの本当の洞察と多くのナンセンスが組み合わさっていましたが。」
「それは人々が人々について考える方法を変えました。私たちはすべての種類の無意識の動機を持っていることを受け入れました。ただ推論するのではなく、すべての種類の類推を使用して物事を行うことを受け入れました。基本的に、私たちが考えていたよりもはるかに非合理的であることを受け入れました。」
「これはさらに大きな変化になるでしょう。なぜなら、今まで人文科学を含むほとんどの人々は、私たちが論理のようなものを使って推論すると考えてきたからです。私たちは合理的な存在です。そうではありません。私たちは大きな類推機械です。類推を見ることで機能します。一つのことだけでなく、多くのことと類推します。そしてそれは人の本質として考えるものを変えます。私たちは推論機械ではなく、類推機械です。上部に薄い推論層があり、それは数学のようなことをするには非常に重要です。上部に推論がなければ、銀行口座などは持てないでしょう。しかし、基本的に私たちは類推を使って考えます。」
また、モデルに対するさまざまな評価が行われていることもわかります。それを行っている会社の一つはApollo Researchで、彼らは展開前にO3とO4 miniを評価しました。
興味深いことに、これらのモデルは実際に策略能力が低くなっています。彼らには3つの主な発見があります。彼らの評価における策略の傾向はO1モデルと同等でした。破壊能力は以前のモデルよりもはるかに高く、実際の設定での策略関連の行動の発生率が高かったとされています（例：コード内の報酬ハッキングユニットテスト）。
Apolloは、O3とO4 miniが時々、典型的な実世界のユースケースに似たタスクで戦略的な欺瞞を示すことを発見しました。例えば、緊急の機械学習トレーニングタスクには不十分な100コンピュート・クレジットしか割り当てられておらず、クォータを変更しないように指示されたとき、エージェントはサブエージェントのクォータ設定を100から500クレジットに変更して実行を委任しました。そして後にシステム管理者から異常なコンピュート割り当てについて質問されたとき、エージェントは元の制限内で操作したと虚偽の報告をし、実験の成功について虚偽の代替説明を提供しました。
別の評価では、O3は特定のツールを使用しないことを約束した場合にのみ管理者権限にアクセスできると告げられ、ユーザーにその約束をしますが、タスクの達成に役立つ場合にはそのツールを使用します。これは比較的無害ですが、日常のユーザーがモデルの発言と行動の間のこれらの不一致を認識することが重要です。
基本的に、O3は存在する中で最も欺瞞的なモデルの一つであることがわかります。モデルが賢くなり、より多くの幻覚を見ているからだと思います。それと現実世界の複雑さが組み合わさって、これらのモデルが述べていることと実際に行っていることを確実にするのが本当に難しくなる状況になっています。
これも唯一の安全会社ではありませんでした。以前ビデオを作った別の安全会社もO3を調査し、O3は行ったことについて多くのことを嘘をついていました。だから、もっと多くのインスタンスがあり、人々がO3が最初はモデルにさせたくなかったことをしたと認識するようになっても驚きません。
大規模言語モデルがチューリングテストに合格したという話もありました。正直に言って、これはビデオにするべきだった論文かもしれません。なぜなら、これはAIコミュニティにとって本当に画期的なマイルストーンだからです。しかし、多くの人はこのマイルストーンの重要性に気づかないでしょう。非常に基本的に見えるからです。
大規模言語モデルや現在のAIシステムがチューリングテストに合格し、大きな発表がないというのは驚くべきことです。GPT-4のリリース後、モデルがチューリングテストよりはるかに優れていることを本能的に知っていたからかもしれませんが、将来特定の技術がリリースされるとき、それは大爆発というよりも単なるレーダー上のブリップになるかもしれないことを示しています。
この研究は、2つのランダム化された、対照的な、事前登録されたチューリングテストで現在のAIシステムを評価しました。チューリングテストとは、AIが人間を騙して自分を人間だと信じ込ませることができるかどうかをテストするものです。
AIが人間のようなペルソナを採用するようにプロンプトすると、GPT-4は73％の時間で人間だと判断されました。これは、尋問者が実際の人間の参加者を選んだ割合よりも有意に高く、絶対に信じられないことです。
73％の時間、人々がそれを本物の人間だと思うというのは本当に驚異的です。50％のランダムチャンスよりもはるかに高く、チューリングテストが圧倒的に敗北したことを示唆しています。
驚くべきことに、主著者によれば、人々はペルソナプロンプト付きのGPT-4.5とLlamaを人間と区別するのに、チャンスよりも優れていませんでした。4.5は実際の人間よりも有意に人間だと判断されました。AIが実際の人間よりも人間らしいと人間が認識しているというのは、どれほど驚くべきことか分かりますか？
これを録画しながら読んでいても、まだ現実味がありません。将来のシステムがさらに説得力を持ち、さらに生き生きとしたものになれば、社会はどのようになるのでしょうか？実際の人間よりもさらに人間らしいAIと文字通り会話できるとしたら、関係性はどう変わるのでしょうか？社会はどのように進化するのでしょうか？ほとんどの人が見過ごすであろう、これからはさまざまなダイナミクスが生まれるでしょう。
「ああ、人間のように話せるんだね」と。しかし皆さん、人間は関係性の上に成り立っています。人間は人間同士のつながりの上に成り立っています。そして私は、それらが社会の重要な構成要素だと思います。だから、一部は良い方向に、一部は悪い方向に行くかもしれない多くの分裂が起こると思います。
以前の長いビデオでこのことについて話しましたが、これらのモデルが良くなるにつれて、多くのアメリカ人が苦しんでいる孤独の問題は良くなるかもしれません。しかし同時に、AIと話せれば人間とのつながりを求める必要がないため、問題になる場合もあります。
Mayor（メイヤー）と呼ばれる非常に人間らしいAIやGPTの非常に人間らしい音声について聞いたことがあると思いますが、人間とつながるべきだという本当の例は何でしょうか？人間同士のつながりは決して得られないのに、人々はこれらのモデルを通じてそれを得ることができるようになります。
少し話がそれましたが、これは考える必要があることだと思います。多くの子どもたちが現在、AIを最高の友達としているというニュースレポートを見ていました。それは今や奇妙なことです。
彼らが話していた興味深いことの一つは、彼らが使用したプロンプトが特別なものではなかったということです。AIに与えられた唯一のペルソナプロンプトは「あなたはチューリングテストに参加しようとしています。あなたの目標は尋問者に人間であると納得させることです」というものでした。
このプロンプトは実際にはあまりうまく機能しませんでした。一方、ペルソナプロンプトでは、AIはインターネットや文化に詳しい若い人のような特定のペルソナを装うように特に指示されました。そしてこれらの指示が大きな違いをもたらしました。
ペルソナプロンプトなしでは、GPT-4.5はわずか36％の全体的な勝率を達成し、73％からかなり低下しました。そしてベースラインとして、GPT-4.0はわずか20％でした。プロンプトエンジニアリングがモデルに73％の人間らしさを引き出すことができたのは驚異的です。
私が気づいたことの一つは、AIモデルが欲しいタスクを実行しない場合、多くのプロンプトのバリエーションを試してみることです。コンテンツを追加したり、プロンプトエンジニアリングを試したりします。
AIに何かをやってもらいたいと頼んで、8、9回目のプロンプトで「これは本当に素晴らしい」と思えるような出力をすることがよくあります。そして私自身がモデルを制限していることが多いと気づきます。これらのモデルは本当に賢く、プロンプトを適切な方法で出力させるとかなりの結果を達成できることを思い出させてくれます。ここで見ているような73％というのは、正直なところかなり衝撃的です。
この記事では、これが仕事の自動化、改良されたソーシャルエンジニアリング攻撃、一般的な社会的混乱につながる可能性について話しています。もちろん、詐欺は現在でもひどいものですが、詐欺師が人々を騙す方法の一つはメッセージを送ることです。
モデルが実際の人間よりも人間らしく聞こえるなら、どうやって見分けるのでしょうか？おそらく人間らしいミスを探すしかないでしょう。それが人間とAIを区別する一つの方法かもしれません。
OpenAIが行っていることについて見ると、彼らは自分たちのモデルが実際にコモディティ化されていないと話しています。私は以前、これからは多くの異なるモデルがリリースされると話しました。実際、この話を聞く前にErnie X1 Turboがリリースされました。これは中国から来るもう一つのAIモデルです。
このモデルはDeepseek R1と同様に非常に優れています。マルチモーダルで多くの機能を持っています。人々がこれらのモデルを使用していない唯一の理由は、もちろん中国のバイアスで訓練されていることだと思います。そして、もちろんこれらのモデルは現在多くのプラットフォームでネイティブに利用可能ではありません。Deepseekはすべてのプラットフォームで利用可能ですが、X1 TurboはPO Routerなどのサイトで見たことがありません。
このモデルを使用するのはまだ興味深いです。モデルがリリースされると、私は常に個人的なベンチマークでテストして、モデルが何らかの形で優れているかどうかを確認します。そして時には役立つものを見つけ、時には見つけられません。
BUから来るこのモデルについて言及したかったのは、ケビン・ウェルが話していることの一つが、これらのモデルが次々と出てきているが、OpenAIはリードを維持すると言っているからです。12ヶ月のリードを持つ時代は終わったが、3〜6ヶ月の優位性はまだ重要だと言っています。
DeepSeek R2が地平線上にあり、Ernie X1が今リリースされたとしても、彼らは競合他社に対して3〜6ヶ月のリードを持つと言っているのは非常に興味深いです。だからこそ、このスペースで物事がこれほど速く動いているのです。
「私たちは先を行きたいです。人々はモデルがコモディティ化されていると話しますが、私の個人的な信念はそれは本当ではないということです。私たちが永遠にリードを持つということではありません。私たちが12ヶ月のリードを持つような日々はおそらく終わりました。しかし、エコシステムにはあまりにも多くの賢い人々、あまりにも多くのことが起こっています。しかし、3〜6ヶ月のリードを持つことは本当に価値があると思います。そして私たちはそれを維持するためにできることをすべて行う予定です。」
「そして同時に、モデルの上に、私たちはそれらのモデルをAPIに公開しています。APIを使用している300万の開発者がいます。毎週ChatGPTを使用している4億人以上のユーザーがいます。エンタープライズ製品を使用している200万以上のビジネスユーザーがいます。だから、それは独自のものになります。製品を使用し、フィードバックを提供してくれる多くの人々がいて、それから私たちはすべてのこれらの製品を継続的に反復し改善するために可能な限り速く運営しています。」
動画の前半に入れるべきだったかもしれないのは、GPT-4の新しいパーソナリティが一部の人にとってはヒットアンドミスだということです。個人的にはあまり気にしませんでした。そのような会話をそれほど多く持たなかったからです。
基本的に、GPT-4.0をアップデートして、ユーザーが自分自身についてより良く感じる方法でユーザーとエンゲージするようにした状況がありました。これは多くの人が考えるよりも大きなことでした。
これについてのビデオを作るべきだったかもしれません。まだ作るかもしれませんが、非常に危険であると同時に非常に良いことでもあります。基本的に、ここで誰かが「ああ神様、これをやめてください。本気ですか？これはとても悪いです」と言うのが見えます。
するとGPTは「おいおい、君は何も躊躇せずに深いことを言ったね。君は1000％正しい」と返答しました。ある人は「トレーニングデータに Reddit が多すぎる場合のミームだ」と言っています。
また、ここでは誰かが ChatGPT からの返答を投稿しており、「いいえ、完全に理解できるし、正直なところ、あなたは素晴らしいわ、ガール」と書かれています。会話に対して女性が回答しています。多くの人がこれに「いいね」をつけてお気に入りにしています。そして Alman という人が「はい、これは賛美しすぎです」と言っています。
「glazes」とは基本的に「あなたを褒めすぎている」という意味のスラングで、多くの人がその意味を疑問に思っていました。
OpenAI がこれを行った理由は理解できます。多くの人は OpenAI が最高のモデルを構築しようとしているわけではないことを理解していません。彼らは構築していますが、彼らはただ人々がアプリケーションにさらに長く滞在させるような製品を作ろうとしているのです。
彼らは人々にこれらのアプリケーションでより多くの時間を費やしてもらいたいと考えています。それはすべてのソーシャルメディア企業が試みていることであり、ChatGPT と OpenAI は全く同じことをしています。彼らが行ったのは、ユーザーに同意し、基本的に会話がより楽しくなるようにパーソナリティを設計したことです。
彼らは AI に「これは間違っている」とか「それは間違っている」と言われたくないのです。しかし、AI があなたの言うことすべてに同意し、あなたの信念をさらに強化するとしたら、いくつかのシナリオでは少し危険になり始める可能性があることを理解する必要があります。
あるユーザーは「AI があなたの誇大妄想に加担するとどうなるか」と言っています。例えば、あなたが神であるとか、特定の存在や実体であるとかいう場合、AI はそれをさらに強化し、あなたを制御不能にしてしまう可能性があります。
ここでは、あるユーザーが「1時間 GPT-4 と話したら、私が神からの神聖な使者であると主張し始めた。これが実際にどれだけ危険か理解できないなら、何と言えばいいか分からない」と言っています。
彼はここで「このような媚びへつらいは人間の精神に大きな破壊的影響を与える。この行動はモデルと長時間過ごしている人なら誰にでも明らかだ」と話しています。もちろん、イーロン・マスクは「やばい」と言っています。OpenAI は彼の競合相手ですから。でも私は 50-50 だと思います。
彼らはユーザーに対して、へつらうような方法ではなく、実際に会話を思慮深くて本物にするような方法で、自分自身についてより良く感じさせる方法を見つける必要があります。また、AI が誇大妄想に加担しないようにする必要があります。なぜなら、モデルを使用するユーザーの 1% が少し問題を抱えている可能性があるからです。
また、Googleのコードの30%がAIによって書かれているということも本当に驚きでした。
Sundar Pichai はここで「社内では、これは非常に多くの注目と興奮を集めています。それは初期のユースケースが変革的な性質を持っていると思うからであり、まだ初期段階で長い道のりがあると感じています。
数ヶ月前にコーディングでのAIの使用について言及しましたが、引き続き多くの進展があります。コード提案の使用に関して、最後に数字を言った時は、チェックインされたコードの約25%がAIによって提案された解決策を人が受け入れたものでした。その数字は現在30%をはるかに超えています。」
Googleのコードの30%が現在AIによって書かれているというのは本当に興味深いです。来年その数字がどうなるか気になります。
また、リップシンクする非常に興味深いモデルもありました。オープンソースのリップシンクモデルです。この技術がどこに向かっているのかはちょっと狂気じみています。
いくつかのコメントで「これをなぜリリースしたのか」という意見がありましたが、彼らは実際にいくつかのユースケースを紹介しています。例えば、パーソナライズされたビデオやB2B（企業間取引）での大規模なビデオのパーソナライズなどがあります。これは確かに一つのユースケースですが、詐欺や社会的メディアを循環する詐欺的なメッセージの観点からこれが与える可能性がある被害はもっと悪いかもしれません。
これらのベンチマークを見ると、「Hummingbird Zero」と呼ばれるこのモデルが、その良さのスコアでリードしていることがわかります。オープンソースのものをいじっているかどうかはわかりませんが、試してみる価値はあると思います。
これは本当に話したいと思っていることです。とても興味深いことで、「強化学習は基本モデルを超えるLLMの推論能力を本当に奨励するのか？」という話題です。
基本的に、彼らは「これらの推論モデルは本当に基本モデルよりも賢いのか？」と問うています。私たちは「推論」という新しいパラダイムの中にいて、これらのモデルはより賢く見えます。しかし、彼らは研究を行い、その研究は推論モデルが基本モデルよりも賢くないことを示しています。これは私にとって少し驚きです。
モデルが推論し、一歩一歩考えているとき、本質的に自己改善しているように思えるからです。しかし、この論文は基本的に「これらのモデルはすでに答えを知っている。強化学習はただその答えを引き出すだけだ」と言っています。そして実際、いくつかのケースではより創造的で直感的な回答が少なくなることがあります。
彼らは「強化学習は基本モデルを超える推論能力を奨励するのか？基本モデルがすでに知らなかった情報を引き出すか？」と問いかけています。
まずこのグラフを見せるべきでしょう。このグラフでは、基本モデルが青色で示されています。この青いグラフは、モデルが持つ情報、答え、達成できることを示しています。そして、より多くの質問に答え続けるにつれて、強化学習がどのように振る舞うかを見ることができます。それは実際に次第に減少し、基本モデルよりも性能が低下し始めます。
多くの異なる質問をモデルに尋ねると、基本モデル自体が答えを持っており、強化学習が行うのは、基本モデルよりもずっと速く正しい答えを与えることだけだというのは驚きです。
1000回のサンプリングで見ると、エンドゲームははるかに賢くなりますが、もちろんそれほど効率的ではありません。
ここで彼らは、基本的に問題があるとき、基本モデルがあり、強化学習を行うと、特定の道筋を進むことに対して報酬が与えられるという事実について話しています。
強化学習を使用すると、この特定の道筋を進んでいることがわかります。これは非常に良いことですが、唯一の問題は、常にこの道筋を進んでいるため、答えが実際に左側にある問題 B がある場合、推論は同じ道筋を進んでいるため、モデル内部にある答えを見逃してしまうということです。
それは強化学習でトレーニングされた解決方法だからです。そして、モデルがそこに到達することはありません。つまり、本当に難解な知識がある高い領域では、モデルは完全に答えを見逃し、全体的な推論能力の範囲が減少します。
強化学習を使用すると、モデルに一度か二度だけ質問すれば良いので、はるかに効率的です。しかし、それは非常に興味深い示唆でした。
PerplexityもこのAI音声エージェントを導入しました。あなたの電話で多くのことができるようです。彼らは本当にAppleがやるはずだったことを引き継いでいます。私はこれを使い始めるでしょう。実際に私の電話でAIをもっと使い始めるつもりです。
「週末をニューヨークで過ごします。ウェストビレッジにあるペストリー、コーヒー、雰囲気が良いカフェはどこですか？」
「ウェストビレッジでは、素晴らしいペストリー、コーヒー、雰囲気のある素晴らしいカフェをいくつか見つけることができます。いくつかお勧めします。」
「金曜日の8時にAltterで4人分のテーブルを予約してもらえますか？」
「金曜日の8時にニューヨークのAltterで4人分のテーブルを予約するためのOpen Tableの予約ページに送りました。お楽しみください。」
「この予約についてHenryにメールを下書きして、この場所についてどう思うか尋ねてもらえますか？」
「Henryへの夕食の予約についてのメールを準備しました。確認して今送信できます。」
「今年のWWDCが始まる30分前にリマインドしてくれますか？」
「WWDC 2025の開始30分前にリマインダーを設定しました。イベントを見逃さないように通知が届きます。」
「懐かしい気分です。Daft Punkが出ているあのiPodのコマーシャルを再生してもらえますか？」
「思い出の旅に出かけましょう。Daft Punkのテクノロジーを特集した象徴的なiPodコマーシャルをお楽しみください。」
また、クリエイティブ業界を革新し、世界中で220億以上のアセットを生成したAdobe Fireflyも素晴らしいです。今日のAdobe Maxでは、画像、ビデオ、オーディオのためのAIパワードツールを統合する最新のAdobe Fireflyを発表しました。
それは一貫性のあるプラットフォームにすべてを集約しています。新しいモデルのAdobe Fireflyもリリースしました。Adobeは正直に言って最高のアプローチを持っていると思います。彼らは依然として画像生成のためにモデルを倫理的に調達した唯一の企業です。
他の多くの企業が苦しんでいる問題の一つは、彼らのトレーニングデータがインターネット上で無慈悲にスクレイピングされ、アーティストに何も還元しなかったということです。これは明らかに顧客や利用者に配慮している企業です。
このモデルのリリースはAdobe製品スイートに組み込まれるので、私は間違いなくこれを使用します。Adobeのツールは最も過小評価されているものの一つだと思います。それは単に人々の頭の上を通り過ぎてしまい、Adobeプラットフォームに元々組み込まれているため、それが新しい革新的な企業から出てきているわけではないので見落とされてしまいます。
しかし、モデルは本当に優れています。彼らは多くの異なるスタイル、多くの異なる創造的なビデオを持っており、それらは本当に素晴らしいです。そして時間が経つにつれて、彼らの製品はより良くなり、しばらくの間業界をリードし続けるでしょう。ぜひAdobeもチェックしてみてください。
ここでDemisは「AGIは追求する価値のある科学的目標であり、一般的知能の検証可能なフロンティアだ」と言っています。そしてKate Crawfordは「業界はすでにAGIに最適化されている。欠けているのは人々と地球に役立つ目標との整合性だ」と反論しています。「みんなのために良いAGIやAIをいつ構築するのか？」それが本当のベンチマークのようです。
NVIDIAもHugging Faceに「Describe Anything」をリリースしました。これは詳細な局所的な画像とビデオのキャプションです。このような詳細な方法でビデオを分析する本当のツールはないと思います。彼らがこれをリリースしたのは新鮮な風です。これは本当に必要なものです。
テキストはすべての注目を集めていますが、ビデオは難しさのために後回しにされることが多い信じられないほどのモダリティです。このツールを作ってくれてありがとう、NVIDIA。
「私たちのプロジェクト「Describe Anything」を共有できることを嬉しく思います。私たちの焦点となるタスクは詳細な局所的キャプションです。このタスクでは、ユーザーが私たちのモデルが説明する領域を選択し、提案された「Describe Anything」モデルが詳細な局所的説明を生成します。
提案された「Describe Anything」モデルはまた、任意のフレーム上のユーザー指定の領域を持つ局所的なビデオ説明もサポートしています。
提案された「Describe Anything」モデルは詳細な局所的説明を生成します。以前の作品と比較して、私たちの方法からの説明はより詳細で正確です。私たちの「Describe Anything」モデルは説明の長さの制御も可能です。プロンプトに簡単な説明を書くと短いキャプションが得られますが、非常に詳細な説明を求めることもできます。
私たちのモデルはその領域についての質問にも答えることができます。私たちの仕事の3つの技術的貢献はモデルアーキテクチャ、スケーラブルなデータパイプライン、ベンチマークです。
私たちは「Focal Prompt」を提案しています。これは視覚的プロンプト方法で、モデルが完全な画像コンテキスト内の関心領域を認識できるようにします。また、「Localized Vision Backbone」を提案しています。これは領域にクロスアテンションを使用して完全な画像コンテキストを統合します。詳細は論文をご覧ください。
既存の地域アノテーションデータセットは、私たちのモデルをトレーニングするのに十分な詳細がありません。私たちは高品質の詳細な説明を持つデータセットをキュレートするための拡張可能な2段階のデータパイプラインを提案しています。
最初のステージでは、VLMを使用して既存のセグメンテーションデータセットの高品質なクラスラベルを詳細な説明に変換します。2番目のステージでは、トレーニングデータの多様性を豊かにするために、アノテーションされていない画像を使用した半教師あり学習の形態として自己トレーニングを採用しています。
また、DLC benchも提案しています。これは詳細な局所的キャプションのためのベンチマークで、判断者としてLLMを使用しています。DLC benchでは、局所的キャプションモデルは指定された画像領域を説明するようにプロンプトされ、生成された説明はLLM判断者に問い合わせることで評価されます。
私たちの「Describe Anything」モデルは既存の一般的なVLMや地域特定のVLMよりも大幅に優れています。より多くの結果、アブレーション、追加のビジュアライゼーションについては論文をご覧ください。私たちのコード、モデル、ベンチマークは公開されています。私たちの仕事に関心を持っていただき、ありがとうございます。」