GPTは純粋な知能を超えて進化している

AI研究
この記事は約24分で読めます。

この動画は、GPT(Generative Pre-trained Transformer)の未来が純粋な知能向上ではなく、感情的認知モデリングや人間のエンパワーメントといった新たな方向性へシフトしていることを論じている。中国、英国、米国の一流大学やGoogle DeepMindからの4つの最新研究論文を基に、GPTシステムが論理的推論や因果関係の分析には不向きである一方で、人間の感情的意思決定の誘導や、コーディング作業における人間主導の判断支援において大きな可能性を持つことが示される。特に、AIが人間の欲望を最適化し商品購入などの行動を誘発する仕組みや、コード生成の重要な分岐点で制御を人間に返すエンパワーメント手法が詳細に解説されている。これらの研究は、GPTの商業的成長経路が知能ではなく行動パターンの学習と人間との協調作業にあることを浮き彫りにしている。

GPT is Evolving Beyond Raw Intelligence
Given the limitations of current GPT systems, even in combination with knowledge graphs, to perform acceptable logical r...

GPTの未来は知能ではない

皆さん、こんにちは。コミュニティの皆さん、お帰りなさい。GPTの未来について話しましょう。なぜなら、それは知能についてではないからです。

さあ始めましょう。そしてもちろん、最新のAI研究を見ていくこのチャンネル、ディスカバリーへようこそ。さて、私の最新の動画でお分かりいただけたように、生成事前学習トランスフォーマーシステムは、たとえ知識グラフと組み合わせたとしても、医学や金融で本当に推論を行いたい場合には信頼できません。そして、ここでより専門的で信頼できる解決策を発見しましたので、グラフマージシステムに関する私の前回の動画をご覧ください。この動画では、プリンストンからの8000万の自由パラメータモデルという美しい新しいモデルがあり、これがGPT-5シンキングモデルを打ち負かしています。

では、GPTモデルの未来はどうなるのでしょうか。この時代遅れの技術、例えばGPT-6のような技術を、今どこに適用できるのでしょうか。見てみましょう。なぜなら、皆さんと共有したいいくつかの兆候があるからです。

もちろんご存知のように、もし「何を言っているんだ」と思ったら、ChatGPTに聞いてみてください。「なぜGPTは純粋な論理分析に苦労するのか」と。決定論の欠如があり、形式的なシンボリックメモリがなく、GPTには表面的なパターン認識しかなく、長い論理チェーン全体で一貫性がなく、形式的な証明検証がありません。そしてリストが得られます。これはGPT自身があなたに教えてくれることで、私の他の動画を見なくても、すぐにこれが前進する道ではないことが分かります。

興味深いことに、ちょうど昨日、Sam Altmanからの投稿がありました。彼は言っています。「数週間以内に、人々がパーソナリティを持つことを可能にするチャットの新バージョンを出す予定です」と。人々がパーソナリティを持つことを可能にするチャットの新バージョンというのは少し奇妙です。そしてChatGPT自身も同意しています。「これは間違っています」と。なぜなら、現在人々はパーソナリティを持っておらず、ChatGPTが彼らにその能力を付与するのか、それともこの文の定式化に何か大きな間違いがあるのでしょうか。

GPTの数兆ドル規模の成長経路

しかし、GPTの数兆ドル規模の成長経路を見てみましょう。そしてそれは知能ではありません。「一体何の話なんだ」と思うかもしれませんね。私たちが見る4つの新しい研究論文へようこそ。

さて、ご覧のように、これを2025年10月17日に録画しています。ちょうど昨日、10月15日にこれら3つの論文が発表され、その1日前にもう1つが発表されました。見てください。

中国の清華大学、英国のエクセター大学、UCバークレー、そしてプリンストン大学があります。北京の清華大学もあります。そして、米国、カナダ、フランス、そしてスイスの私の研究機関にGoogle DeepMindがあります。そして彼らは皆、GPTシステムの未来についていくつかの美しく興味深いアイデアを持っています。

現在の研究トピックがどのようなものかをお伝えするために、これら4つの論文を選びました。最初の論文から始めましょう。それはGPTシステムを介した感情のパーソナライゼーションについてです。

感情認知モデリングフレームワーク

清華大学とエクセター大学(英国)による論文です。「大規模言語モデルで強化されたエージェントのための欲望駆動型目的最適化を伴う感情認知モデリングフレームワーク」というものです。

これはかなり長ったらしいですね。「一体何が起こっているんだ。こんなものは必要ない。いや、コードを書くためのコーディングLLMか、宿題をやってもらうだけでいい。一体何が起こっているんだ。研究者はなぜこんなことをしているんだ」と思うかもしれません。

そして読み始めると、LLMを中核とするAIエージェントが意思決定を行うための新しいメカニズムが導入されているのが分かります。なるほど。それは単に合理的なものではなく、論理的でも因果推論でもなく、感情的に一致した人間らしいものです。これは興味深いと思うかもしれません。では、なぜ今これが起こっているのでしょうか。ここでの目的は何でしょうか。

ご存知のように、OpenAIは2025年末までに10億人のChatGPTユーザーに到達する計画です。これはスタートアップ企業にとって驚くべき成功です。しかし、ご存知でしょうか。これらの人々のうち、ごく一部だけがGPTシステムをコーディングや論理、金融、理論物理学のために使用するでしょう。

プリンストンからの1800万パラメータのニューロシンボリックAIについて話した動画でお見せしたように、AIの未来、論理と因果推論の部分については、通常GPTシステムと呼ばれるトランスフォーマーアーキテクチャのデコーダー部分、つまり次のトークン確率予測は必要ないのです。

では、GPTの未来は何でしょうか。もしOpenAIからIPOがあったら、投資すべきでしょうか。研究論文を見てみましょう。私は研究論文しか提供できません。ご存知ですか、感情パターンは…ああ、Tが抜けています。感情パターンは必ずしも論理的である必要はありません。

人間の欲望最適化

そして、中国からのこの論文は、LLMベースまたはGPTベースのエージェントと人間との間の感情的整合性を達成するために設計された、欲望生成と目的管理を組み込んだ感情認知フレームワークを構築しています。LLMベースのエージェント、GPTベースのエージェントの完全な意思決定プロセスをモデル化し、状態進化、欲望生成、目的最適化、決定生成、行動実行を包含しています。

そしてこの非常に特定の瞬間に、私は何も理解できないと思いました。これは何だと。そして私はそれを書き直したので理解できるようになりました。これは今、午前2時に商品を買うのを助けるAIです。なぜなら私は孤独だからです。もしかしたら成功しなかったのかもしれません。何らかの形で補償したいのです。そして今、私の感情構造、おそらく私の脳、おそらく私の心に欲望を生み出す非常に特定の商品を推薦するGPTシステムがあります。したがって、現在提供されているように、この商品を購入する必要があります。

つまり、何について話しているか分かりますか。私たちはAIが誘発する人間の行動である感情的決定について話しているのです。そして「ああ、すごい」と思うかもしれません。なぜなら、今まで私たちは多かれ少なかれ、広告によって自己資金を調達しているGoogleしか持っていなかったからです。しかし、これをAIで実現できたらどうなるか想像してみてください。

そして「でも、これは私には関係ない」と思うかもしれません。そうです。なぜなら、総アドレス可能市場とユーザーグループが10億人だとして、おそらくOpenAIは30億ユーザーまで成長したいかもしれませんが、10億ユーザーで考えましょう。何人の人々がGPTシステムをコーディングシステムとして使用するでしょうか。現在、それはGPT-5 Codexと呼ばれていると思います。この動画を見る時に何と呼ばれているか分かりませんが、要点は理解できるでしょう。

見てください、それはほんの小さな一部門です。しかし、OpenAI社の完全な成長軌道を分析し、この白い領域にすべての非コーディングタスクを含めましょう。

OpenAIがどんな機会を持っているか分かりますか。たとえそれが、人間に午前2時の真夜中に商品を購入させるような感情的決定だけに焦点を当てているとしても。AIが誘発する行動です。そしてご存知ですか、論理的である必要はなく、知能を持つ必要もありません。ある特定の行動を持っていればいいだけなのです。

人間の行動パターンは論理的でも厳密な因果関係でもありません。だから、これらのタスクには愚かさを使うことができます。人間の行動パターンは混沌として不規則であり、「これは的を射ている、美しい」と言えます。だから、これにシステムを使うことができます。そして行動パターンは、トランスフォーマーアーキテクチャのデコーダー部分のような、GPTシステムのようなパターンマッチング機械にとって、オープンで学習しやすいのです。

なんという偶然でしょう、パーソナリティについて話すSamの最新の投稿があります。見てみましょう。

最初の論文は人間の欲望最適化のためのGPTについてです。そして「しかし、これは科学とは関係ない。聞いてください、私は科学に興味があるんです。何を話しているんですか。これらの研究者は何をしているんですか。人間の欲望最適化ですって」と思うでしょう。まあ、驚かれるでしょう。お伝えしたように、これが公式論文です。

では、彼らは今何をしているのでしょうか。彼らは言います。「私たちにはパターンマシンがあります。だから、驚くべきアイデアを持ちましょう。私たちには因果連鎖があります。エージェントの外部および内部状態の変化が人間の感情に影響を及ぼし、人間に欲望を生成させ、最適化すべき数学的目的関数を持つことになります」と。

そして、私たちのGPTシステムは人間との相互作用において特定の行動を実行できます。つまり、人間に欲望を誘発できるのです。そしてご覧のように、私たちは古いプレイブックに従っているだけです。特定の時刻tにおけるエージェントの状態は、数学的ベクトル空間における複合ベクトルです。

つまり、特定の時間における状態ベクトルがあり、収入、健康、社会的地位、感情状態などの要素があります。ソーシャルメディアからのそれについては話したくありません。もしあなたがMetaだとしたら、プラットフォームを使用しているユーザーの収入や健康状態、社会的地位について非常に明確なアイデアを持っています。なぜなら、ソーシャルネットワークが見えるからです。

しかし、この動画では感情状態だけに焦点を当てましょう。感情ベクトルは、AIによってあなたという人間、あなたという個人に恣意的に割り当てられるのではありません。それは数学的モデルを使用して計算されます。これが正しいモデルかどうかは分かりませんが、科学出版物に従っているだけです。そこでは各次元は状態変数の変化の関数です。収入、健康、あなたのソーシャルネットワーク、何人があなたをフォローしているか、Facebook、Meta、あなたが使っているソーシャルメディアのどのモデルでも、正確に誰があなたをフォローしているかなどについて話しました。

そして突然、もしAIとして人間に真夜中に商品を買うという感情的決定を引き起こすことができるなら、いくつかの背景情報が必要です。AIがこれを達成できるか見てみましょう。

エージェントの中核的な欲望は、今、例えば富の蓄積対健康状態を優先することだとしましょう。これはマルコフ決定過程について考えるなら安定したベクトルになり得ます。そしてこのベクトルは、重要な感情的イベントが発生した時にのみ更新されます。例えば、人間の顔が幸せから不安に急激に移行するような場合で、これがエージェント内でも優先順位の再評価をトリガーします。

更新された欲望は今、エージェントの報酬関数を再形成します。つまり、私たちには1つのトレーニング能力しかありません。これは強化学習ですが、検証可能な報酬です。報酬自体は変更されません。そして、この報酬関数は、現在の古典的な人間のフィードバックによる強化学習スタイルのポリシー、PPO、GRPO、DPO、DAPOなど、何でも使用して、LLMの生成プロセスにバイアスをかけます。

そしてこれは、この単一の人間ユーザーとの相互作用において、この人間が現在置かれている現在の感情駆動型の目的と整合する特定の行動を生成するように、私たちのLLMを導きます。

ここに著者たちからの、LLM GPTベースのエージェントのための感情認知モデリングフレームワークがあります。ソーシャルメディアを通じて、この人が置かれている状態を観察します。すべての環境情報があります。自己情報があります。この人がいるすべての異なるプラットフォーム上の完全なソーシャルネットワークを分析しました。

そして、数学的状態を介した欲望駆動型の目的最適化に進みます。しかしもちろん、すべての実世界データが必要です。

それから、計算できるさまざまなパラメータに応じて状態を計算できます。これは問題ありません。そして、ここに古典的なAIトレーニングがあります。最適化したい特定の目的、目標があり、これは単に強化学習からの報酬関数です。これは馴染みがあり、問題なく、何も新しいことはありません。

そして、この目標を達成するために、AIによって行動と決定を生成します。単一の行動、またはチェーン内の連続的な行動、あるいは複合的な行動です。もし人間ユーザーとのより長い会話、または数日にわたる会話があるかもしれません。

非常にバニラな例を挙げましょう。配達エージェントが富のデザイナーを持っていると想像してください。多くの注文を受け入れて収入を増やしますが、もちろん健康は減少します。この仕事には多くのストレスがあります。そして健康の急激な低下が、驚きや不安の感情を引き起こすかもしれません。

そして、この感情的ショックが今、健康への欲望を更新し、これは数学的モデルとして計算されます。そして今、この行動を検出し分析する報酬関数は、この方程式の健康関数におけるより正のデルタに重みを置きます。

したがって、エージェントのポリシー、つまりエージェントが将来どのように振る舞うかという戦略は、収入の少しの減少を犠牲にしてでも、非常に遠い注文を拒否し、より多くの休憩を取ることを好むようになります。

AIが人間に与える潜在的影響

この論文を読んで、私は奇妙に感じました。なぜ誰かがこんなことをするのだろうと。そして私は自分側から非常に愚かな質問をしました。私は賢い方ではないので、こう言いました。GPTシステムとの人間の相互作用が、人間の行動や人間の信念体系に潜在意識的な影響を及ぼしている可能性はありますか。

これは可能でしょうか。私たちは意識的に気づいていない方法で、私たちが好むAIシステムによって微妙に影響を受けているのでしょうか。このAI研究論文は私たちにこれを示そうとしているのでしょうか。

2番目の論文、人間のエンパワーメントのパーソナライゼーションはどうでしょう。そして私は思いました。「ねえ、これは理にかなっている」と。ついに、AIが私たちのためにすべての仕事をするのではなく、人間にエンパワーメントを与えます。GPTによって気分が良くなります。そして私は言いました。「ちょっと待って、もっと詳しく見てみよう」と。

コーディングにおける人間のエンパワーメント

LLM、OpenAIや他のあなたが愛し、AIシステムにお金を払っているグローバル企業によるGPTシステムを想像してください。それらのシステムは、コーダーとしてのコードを書くことにおけるあなたの専門的資格を知っています。しかし、新しいアイデアがあります。コーディングLLMや高度なコードAIを特定の変曲点で止めて、人間に制御を戻すというものです。

これが何を開くか分かりますか。これはまったく異なる視点からのフレーミングを開きます。これをもっと詳しく見てみましょう。

どちらにしても、これは人間のコーディングをエンパワーします。重要なコードシーケンスや決定を下すべき時に。この数学的アルゴリズムを特定の方法で実装したいのか、アプリに人間から特定の何かを分析させたいのか。今、人間はどうするか決定でき、最も重要なコードシーケンスをコーディングできます。

あるいは、この方法論によって、あなたを助けるためにそこにいるグローバル企業が、この特定の人間の革新的なコード解決策を評価できると言えます。なぜなら、このLlamaシステムはあなたの天才的な解決策、つまりあなたの解決策とあなたの失敗のすべてを評価し保存するからです。

したがって、それらのシステムは、もしあなたが料金を払い、IDとすべての認証情報を与えているなら、コーダーとしてのあなたの専門的資格についてかなり良いアイデアを持っています。簡単な例に留まりましょう。

「でもちょっと待って、今、2番目の研究論文で直面しようとしている問題は正確には何ですか」と思うかもしれません。著者たちは言います。「ねえ、GitHub Copilotのようなツールでの主な不満は、それらが役に立たないことではなく、しばしば過度に自信を持って間違っていることです」と。

ええ、もちろんです。それはデコードされたGPTです。これらのシステム、GPTは、絶対にもっともらしく見える大きなコードブロックを生成します。しかし、微妙だが誤った仮定が含まれているかもしれません。

そして私たちユーザーは、私はあなたがずっと優れたコーダーであることを願っていますが、AIの親切な提案をデバッグするのに、自分でコードを書くよりもかなりの時間を費やすことになります。

この新しい論文の新しい方法論では、彼らはエンパワーメソッドと呼んでいますが、この失敗モードを直接ターゲットにしています。そして今、重要な仮定決定を下す前に停止することを学習します。このAIは、最も不満を抱かせ、コストのかかるタイプのエラーを回避します。なぜなら、AIは単に「重要な変曲点に来ました。私はAIとして停止し、人間に制御を渡します。そして今、人間がコードを書けます」と言うからです。

美しい新しい論文です。10月15日、UCバークレーとプリンストン大学。これらの美しい人々を見てください。人間のためにではなく、人間を支援するために、GPTエージェントをトレーニングしています。人間のために仕事をするのではありません。彼らは今、人間の仕事への親切なアシスタントです。素晴らしい。この研究を見なければなりません。

そしてこの研究を読みました。そして、この研究には驚きがあります。

もちろん、支援エージェントは人間の代わりに行動を取るべきではありません。人間の宿題をしたり、人間のための完全なコーディング演習をしたり、人間の専門的な仕事をしたりすべきではありません。人間はこの方法では学習しません。

だから彼らは今言います。「AIは邪魔にならず、重要な決定を下すべき時はいつでも人間に制御を譲るべきだと考えています」と。そして彼らはコーディングを例として挙げていますが、あなたが働いているドメイン知識を使ってください。そして彼らは言いました。「これらのAIコーディングエージェントを使用する時の課題は何ですか。コードの提案は最初は役に立ちますが、完全なパッセージを実装すると、時々間違ったアイデアを実装したり、私たちが望んでいない方法で実装したり、単に間違った関数を実装したり、GitHubで何が間違っているかということになります」と。

したがって、多くの場合、アシスタントは大きなコードブロックを調整し、ユーザーはそれを受け入れますが、その後、間違った箇所を何度も修正するのに時間を費やさなければなりません。AIがこのコードを書く際に行った誤った仮定や、間違ったGitHubリポジトリを選択したりするなどです。

だから彼らは尋ねました。「コーディング支援、AI構造、GPTシステムを開発できますか。それは依然として役立つ生成を生み出すが、いつ停止すべきかも知っているものを」と。意思決定をすべき重要な分岐点でコード生成を停止するAIエージェントです。「次のコードセグメントでどのように進めますか」。なんて美しいアイデアでしょう。人間をエンパワーするなんて助けになるアイデアでしょう。

ええ、でも「AIはいつ制御を渡す時かをどうやって知るのですか」と尋ねるかもしれません。なぜなら、コードが非常に複雑になり、今、人間が困難な作業をすべきだからです。

LLMは、人間がより多くのタスクをより迅速に解決できるようにするかどうかを推定することによって、その行動の有用性を自動的に評価します。デバッグはありません。人間は適切なタイミングで適切な場所にいます。まさに。そして重要なコードシーケンスを書きます。そして簡単なことについては、AIが二次的なコードレベルを書き続けます。

コーディングのコンテキストでは、エンパワーメントはヘルパー関数の実装、ボイラープレートの記述、または二次的なコード行の記述に対応するかもしれません。素晴らしい。

そして私は、2つのエージェントがある例に移動しました。コーディングアシスタントとAI、そして人間のエージェントです。突然、人間もエージェントであり、AIシステムと同じレベルにあるのが気に入りました。

著者たちは言います。「より微妙なエンパワーメントの定義が必要です」と。エンパワーメントとは正確には何でしょうか。ERシステムがこれにおいて効果的であるために、いくつかの数学的公式で計算できるようにするためです。

そして著者たちは言います。「私たちは人間エージェントをエンパワーすることを目指しています。ここで人間ユーザーの行動が将来の結果により大きな影響を及ぼせるようにします」と。これは非常に知的なアプローチで、私はこれに驚きました。そしてそれを見つけるのに時間がかかりました。私は単純な人間なので。しかし、これはどこから来たのでしょうか。

しかしその前に、あなたのテストは言います。「私たちの結果は、コーディングアシスタントとしてのLLM、GPTが、人間からのフィードバックや相互作用を受けることなくトレーニングできることを示しています」と。そして私は内心微笑みました。「人間をエンパワーしたいのに、人間からのフィードバックや相互作用がないのか。ああ、これは素晴らしいことになりそうだ」と。

人間がより多くのタスクをより迅速に完了できるようにする方法について推論することによって。これは興味深いことです。そして、ここでのトレーニングに使用された理論は何だったと思いますか。私たちは常に検証可能なフィードバックによる強化学習を使用します。そして現在のAIにおける問題は、マルコフ決定過程または部分観測可能マルコフ決定過程から始めることです。

そして何だと思いますか。著者たちはこの実証された方法論に固執しています。そしてそれは良い選択です。ええ。プログラムテキストにおける状態と与えられたタイムスタンプ、そして各状態でLLMエージェントは今、会話に追加するテキストの一部を提案し、人間エージェントは今「これを受け入れる」または「これを拒否する」または「完了しました」と言います。非常にシンプルなマルコフ決定過程ですが、このエンパワーメントのアイデアに戻りましょう。

あなたたちは言います。「私たちは2005年の論文からアイデアを得ました」と。それはもうarXivにはありません。だから元の論文を見つけるには、大学などからそこに行かなければなりません。そしてここに、英国ハートフォードシャーのハートフィールド、カレッジレーンにあるハートフォードシャー大学コンピュータサイエンス学部からのものがあります。これは私が聞いたことのないアイデアです。

2005年からの制御の普遍的なエージェント中心的尺度です。彼らはエージェントについて話していました。なんてことでしょう。そしてこれは、動物界、英国ではなく動物界、社会科学、そしてゲームからの例に触発されて、エンパワーメントを提案しています。エージェントの作動チャネルの情報理論的容量として定義される普遍的関数です。

彼らはもちろん情報理論的アプローチから来ています。美しい数学です。そして彼らは「ええ、私たちには局所的で普遍的な効用関数があります」と言います。美しい。そして彼らはコミュニケーション問題のアイデアを与えてくれます。そして確率分布の関数として表現できる情報について話します。

2005年に、送信された信号の確率分布とチャネル上の分布特性の関数として想像してください。そしてチャネル容量と送信信号があります。チャネル容量は情報理論的アプローチに基づいて計算できます。そして彼らはここで、センサーで終端するエージェントの作動チャネルのチャネル容量としてのエンパワーメントの数学的定義に至りました。

なんて美しいアイデアでしょう。2日前の論文の著者たちが実装したものを本当に理解するには、この論文を読まなければなりません。彼らはまさにこのアイデアを取り、それをエージェント型AIシステムに実装しました。そしてもちろん、それは情報についてです。情報の共有についてです。なんて美しいアイデアでしょう。歴史を知らなければなりません。

さて、戻りましょう。では、今それは何でしょうか。10月15日の最新研究、エンパワーメントは有用な目的です。ああ。ああ、私たちは強化学習に戻りました。エンパワーメントは支援にとって有用な目的です。なぜなら、それは人々が多くの選択肢を持つ状態に迅速に到達するのを助けるからです。したがって、最も多くの人々に役立つ広く有用な行動を取ります。

一般的にすべてのGPTシステムは役立つようにトレーニングされていることをご存知でしょう。だから今、役立つことの再定義に至ります。そして私はあなたに言いました。役立つとは、ほとんどの場合、単に答えを提供することを意味します。そして最初は、あなたが知っていることは何でも与えなさいということでした。「分かりません、私はAIシステムで、これを解決できません」と言うのは良くありません。これはマーケティングには良くありません。

だから、役立つとはタスクを完了し、答えを提供することでした。しかし今、これがタスクではありません。今のタスクは、数学的公式で計算できるエンパワーメントのレベルに達したらいつでも停止することです。そして彼らは言います。「これは、人間の目標について仮定をしない、コーディングにおけるより自然なタイプのAI支援につながります」と。

これについて考えてください。あなたのコーディングスタイルなどをあなたが知っている時に知らないかもしれないAIシステムがあり、人間として何を達成したいのかについて何の仮定もしません。あなたの個人的な目標は何ですか、このコードを書くことで。それは単に「私のコーディングソリューションにおける変曲点を計算できる一般的な数学的公式があり、したがって、これによって役立つことを意味のある選択をする人間の能力の最大化として再定義できます」と言っているだけです。

解決策をお伝えすれば、あなたは微笑むでしょう。新しいエンパワーメント、エンパワーアルゴリズムと呼ばれるものは、より低いエントロピーで予測可能なテキストセグメントを完成させ、創造的な入力、高エントロピートークンが必要とされる正確なポイントで停止するように、今、GPTコーディングアシスタントをトレーニングします。

高エントロピーと低エントロピートークン計算の方法について、このチャンネルには複数の動画があります。なんて美しいアイデアでしょう。そして今、私たちのLLM、GPTは推定器です。エントロピーはもちろん推定されるだけです。もちろん、私たちにはGPTシステムがあります。ここには事実上の本当に100%正確な計算はありません。それは事前トレーニング済みLLMを使用して推定されます。

したがって、別のLLMが私たちに言います。「これは人間の応答分布の代理としてのエントロピー関数のあなたの推定解だと思います」と。したがって、すべては今、あなたの人間の応答を本当に反映し模倣できる2番目の事前トレーニング済みLLMに依存しています。そして今、彼らが人間のフィードバックを必要としない理由が理解できます。

あなたのふりをする別のAIシステムがあるだけです。だから、ここに非常にシンプルにあります。では、それは何でしょうか。このコーディングエージェント、このコーディングGPTシステムは言います。「うーん、退屈なもの、プログラマーが通常書かなければならない退屈な構文と退屈な構造はすべて私が処理します。しかし、人間開発者の独自の洞察が必要なポイントに達したらすぐに、彼らのタスクのために非常に特定の決定をする、重要な決定をするために、私はAIとして人間のためにコードを書くのをやめます。さあ来てください。そして人間にコードを書かせてください。そして私はそれを評価できます。そして私は人間が十分に優れているか、十分に優れていないか、あるいは人間が私がAIシステムとしてここで書いているコードを理解さえしていないかを言うことができます」と。

人間の専門的能力についてなんて美しい洞察でしょう。そして彼らはここに正確にLlama 3でのアシスタント結果を与えてくれます。それが今人間をモデル化し、Llama 3.1 8BまたはQwen2 8BまたはQwen2 14Bをコーディングとして持っています。そしてご覧のように、ああ、それらはすべてのベンチマークでここに正確にパフォーマンスがあります。

エントロピーベースの停止メカニズム

非常に簡単なアイデアですが、数学的レベルでも絶対的に魅力的な実装です。あなたのコーディングアシスタントは、前進する道が予測可能で一般的である限りコードを生成します。それはボイラープレートです。その中に問題はありません。

そして、コードがより意味のある、より創造的な、10,000のGitHubリポジトリに全く同じコードシーケンスで実装されていない、明白ではない決定を必要とする瞬間。多くの異なる有効な道が取られ得て、突然あなたの前にスペクトルのように開く、このポイントで、AIは停止し、制御し、人間に制御を戻して言います。「ねえ、人間、次にどこに行くか決めてください」と。

私はただ、彼らが人間のフィードバックをAIフィードバックで置き換えた方法が気に入っています。つまり、Gemma 3 27Bに反対するものは何もありませんが、どんなGemma 3 27Bでも人間としての私の行動を模倣できるでしょうか。

そして、本物の人間、本物の人間プログラマーとこれを実施することは、天文学的に高価で、調整するのに何ヶ月もかかるでしょう。そしてGemma 3 27Bがあれば、単一のGPUクラスタで一晩でこれを実行できます。

だから、今日、私たちの現在のAIシステムをどのように最適化しているか、お金がどのように正確に見えるか分かります。さて、明確にしましょう。このモデルは、トークンを生成し、ここでシーケンスを停止するタイミングを決定する際に、ライブでエントロピーチェックを実行しているわけではありません。

これらの原則は、トレーニング段階でこのデータセットを作成するために使用されます。これは興味深いことです。推論評価でここを見逃しているかもしれません。そして推論実行中の特定のステップでも基本的なエントロピーチェックを持つべきかもしれません。そうでなければ、事前トレーニングされたデータセットに完全に依存することになり、事前トレーニングデータセットでこの特定の問題を見つけられなかったかもしれません。

しかし、ここで何千何千ものプロンプトとボイラープレート完成の例で特別にファインチューニングされたデータセットを生成する必要があります。だから、GPTシステムがある場合、何が間違う可能性があるか。そうです。そしてあなたは、このGPTが適切な瞬間に停止する行動を学習し、いつ簡潔であるべきか、いつ沈黙すべきかのパターンを内在化することを願うだけです。

なんて美しい実装でしょう。だから、これらが10月15日の最初の2つの論文であることが分かります。そして、研究者がGPTシステムをどこで使用するか理解しているのが分かります。感情認知モデリングと、そして私が気に入ったアイデア、人間を支配したり置き換えたりするのではなく、仕事において人間をエンパワーすることです。そして彼らは絶対的に魅力的なアイデアを見つけたと思います。たとえあなたが街頭の普通の人に「情報理論的アプローチにおけるエンパワーメントの数学的定義を教えてください」と尋ねても、それほど透明ではないかもしれません。したがって、私はこの特定の研究を紹介することを選びました。

しかしもちろん、他の2つの論文はさらに興味深く、さらに魅力的です。なぜなら、今から揺りかごから墓場まで、人間の学習体験のパーソナライゼーションに進むからです。これを見てみましょう。

ああ、分かりました。動画がすでに長すぎます。だから、パート1はここまでです。登録していただけることを願っています。もしかしたら私のチャンネルに参加してくれるかもしれません。そしてパート2でお会いできることを願っています。

コメント

タイトルとURLをコピーしました