生成AIパイロット失敗、GPT-5の隠れプロンプトが判明、推論モデルの欠陥とClaude対話終了機能

AI活用・導入
この記事は約32分で読めます。

このエピソードでは、MIT NANDAイニシアチブによる生成AI導入に関する衝撃的な調査結果を中心に議論を展開している。95%の企業AIパイロットプロジェクトが期待を下回る結果に終わっているという報告を受けて、専門家パネルがその原因を分析する。さらに、GPT-5に発見された隠れシステムプロンプトの問題、大規模推論モデルの思考軌道における信頼性の欠如、そしてAnthropicがAI福祉の観点から対話を強制終了する機能を実装した背景について詳細に検討している。

Gen AI pilots fail, GPT-5's hidden prompt revealed, reasoning model flaws and Claude closing chats
Explore the podcast → for AI updates → Is enterprise AI in danger? In episode 69 of Mixture of Expert...

AI導入の現実と課題

これらのモデルを責任持って使う側としては、提供されるもんを全部見れるなんて期待したらあかんねん。アプリケーションの安全性やセキュリティをモデル提供者に丸投げしたらダメやし、精度すらも必ずしも提供者任せにしたらあかん。こんなモデルらを真面目なアプリケーションとして裸のまま展開するなんて絶対にやったらダメやで。

今日のミクスチャー・オブ・エキスパーツでは、こんな話やその他いろいろやっていくで。僕はティム・ファンで、ミクスチャー・オブ・エキスパーツにようこそ。毎週、MoEでは技術界の最も優秀な頭脳を集めたパネルが、人工知能の興味深いニュースについて雑談したり、分析したり、議論したりしてるんや。

今日は素晴らしいメンバーが揃ってるで。マリーナ・ダニレフスキー上級研究科学者、ナタリー・バラカルド上級研究科学者兼マスター・インベンター、そして今回初参加のサンディ・ベセンAI研究エンジニアや。3人ともようこそ。

今日は盛りだくさんの内容やで。いつも通りな。AI福祉、推論モデルに関する新しい発見、GPT-5の隠れシステムプロンプト、そしてMIT NANDAイニシアチブからのAIパイロットに関する新レポートについて話していくで。でもまずは、いつも通り簡単なヘッドラインからやっていこうか。アイリ、頼むで。

皆さんこんにちは、アイリ・マコノンです。IBMシンクのテックニュースライターをやってます。今日のメインエピソードに入る前に、今週見逃したかもしれないAIヘッドラインをいくつか紹介するで。

まず、今週ベーグル、スライス、ハニー・デュースを食べるならどこに行く?もちろん全米オープンやで。アメリカのグランドスラムテニス大会が今週、ミックスダブルス選手権と一緒に始まったんや。IBMと全米テニス協会は今年、ファン向けにマッチチャットを含む様々な新しいAI機能を展開してる。

マッチチャットは、「最後のセットでブレークポイントを多く決めたんは誰や?」とか「一番近いハニー・デュースはどこで買える?」みたいな質問に答えてくれるインタラクティブなチャットボットやねん。ちなみに、ハニー・デュースは全米オープンの名物カクテルで、ラズベリーレモネード、ウォッカ、そしてテニスボールの形をしたメロンが入ってるんや。

一方、Metaがまたリストラしてるで。マーク・ザッカーバーグがMeta社員に、AI部門を4つの小さなユニットに分割する計画を話したんや。「Superintelligence」を専用チームと共に独自の部門として切り出すつもりやねん。ちなみに「Superintelligence」は人間より賢いAIを意味する新しい、かなりあいまいに定義された用語や。

AGI(汎用人工知能)と混同したらあかんで。AGIは一般的に人間と同じくらい賢いAIを意味するからな。

最後になったけど、ロボットオリンピックや!そう、今週中国で開催された第1回ヒューマノイド・ゲームズで、16カ国のロボットらが走ったり、キックボクシングしたり、サッカーしたりして競い合ったんや。ロボットらは製造業から農業まで様々な産業で確実に生産性を向上させてきたけど、こんなロボットアスリートらはまだまだ遅れをとってるで。今週のヒューマノイド・ゲームズでは、お互いにぶつかったり、人間のファンにぶつかったりもしてたしな。

これらのトピックについてもっと深く知りたい?シンクニュースレターを購読してくれ。ショーノートにリンクがあるで。それでは、メインエピソードに戻るで。

MIT NANDAイニシアチブの衝撃的な調査結果

最初のセグメントでは、MIT NANDAイニシアチブから発表されたばかりのレポートについて話していこうか。彼らは150回のインタビューと350人の従業員調査を実施して、300の公開AI展開を分析したんや。そこから出てきた発見はいろいろと興味深いもんがあるで。

みんながシェアしてる見出しは、生成AIパイロットの95%が不足してる、つまり実装した人らの期待には程遠いっちゅう主張やねん。これは大企業の最大の意思決定者ら、CFOとかからの話やで。

サンディ、初参加やから最初に聞くけど、この結果は君にとって驚きやった?95%っちゅうのは衝撃的やった?何人かは「これでAIは終わりや」って言うてたけど、この数字が大げさなもんなんか、それとも全然驚くほどやなかったんか。

確実にAIの終わりやないと思うで。うん、それは良いニュースやな。いや、本当に完全なレポートを読んでみたいし、特に調査をどうやって実施したんかを見たいねん。調査がどう構築されたんか、具体的に誰にインタビューしたんか、従業員とリーダーの多くにインタビューしたって言うてたけど、従業員とリーダーでは実際にどうやったかについて期待も違うしな。

どうやって使用例を特定してるんか、どうやって実装してるんか、それらが本当に真のもんなんかどうか。そして基本的に、実装する人の技能格差、つまり正しく実装する能力があるんかどうか。最後に、ROIをどうやって測定してるんかっちゅうこともある。この分野には未知のことがめちゃくちゃ多いんや。

95%っちゅう数字は、ある意味では驚かへん。でもこの技術の能力に対して僕が思ってるもんより高すぎるように思えるねん。明らかにどこかでミスアラインメントがあるんや。完全な研究を読まんと分からんけど、どこでかは分からん。でも企業はヘルプが必要みたいやな。

これは本当に良いポイントやと思うで。見出しを読んだ時の僕の反応の一つは、「95%のAIパイロットって何を意味してるんや?」っちゅうもんやった。AIパイロットって何や?誰がこの調査に答えてるんや?そして君の言う通り、ここでROIをどうやって測定してるんや?

マリーナ、君に振るけど、こんな数字がこの分野を考える方法として有用なんやろか?これは状況を単純化しすぎてるっちゅう見方もあるかもしれんが、こんな数字は人らに君のレポートを読みたがらせるのに有用やねん。でも結果的に僕らがそれについて話してるから、やったやん、MIT NANDAイニシアチブ。よくやったで。

君ら両方が言うてたように、AIパイロットが何を達成すべきかについて期待のミスアラインメントが続いてるから、こんなに高い数字でもそれほど驚かへんかもしれん。特に、リーダーとかCスイート幹部らと、彼らがマーケティングや本当に具体的なデモを通じて見てきたかもしれんもんとの間にミスアラインメントがあるみたいやねん。

そして実際に起こることは、それに満たへんことになるんや。AIが有用なことはたくさんあるし、レポートの報道でも成功した展開は焦点を絞って、範囲を限定して、実際に適切な問題点を扱ってるもんやって言うてる。「ステップ1:AIを使う。ステップ2:何のために?」じゃなくてな。そして使用例としてはあまりセクシーやなくても、バックエンドの最適化とかそんなもんでも、最終的には成功するんや。

これはたぶん期待のミスアラインメントについてのコメントで、実際に技術が良いとこに使えるように、そんな期待を変える必要があるっちゅうことやな。

学習ギャップと期待値の問題

これは本当に面白い結果の解釈やと思うで。これは基本的にAIの効果や有用性の指標っちゅうよりは、むしろ幹部のハイプの指標みたいなもんやねん。基本的に「全てを変えるもんを売られたけど、全てを変えてへん。なんでや?」っちゅう感じやな。

ナタリー、このレポートの興味深い側面の一つは、実質的に学習ギャップについての会話があったことやと思うねん。これは少なくとも、AIパイロットを実際にやってる会社と働いた経験から言うても、本当に大きな問題みたいやねん。これらのツールをどう使うかっちゅう学習ギャップだけやなくて、マリーナの指摘通り、幹部らが解決しようとしてることを理解してるかどうかも大きな問題みたいやな。

企業での技術の大きな問題の一つは、実際には知識問題か期待問題以外の何もんでもないように感じるんやけど、この数字を読む一つの方法やと思う?

ええと、そのレポートを読もうとしたんやけど、公開されてへんから、それらの結果について十分に良い評価を提供するのは難しいねん。とはいえ、記事を読んでて目についた一つのことは、基本的にプロセスがあって、AIをプロセスに注入するんは時間がかかるっちゅう話やった。

人の働き方を修正するのには時間がかかることは僕らみんな知ってるやろ。だからプロセスが複雑になるほど、そんなツールを慎重に注入せなあかんこともあるねん。それがその数字を見る理由かもしれん。でもこれは純粋な推測やで。

一方で、逸話的に言えることは、今多くの人がAIを一日中のあらゆる小さな最適化に使ってるっちゅうことやねん。だから実際に生産性がどう改善されるかを見るのは非常に難しいんや。例を挙げるなら、今多くの人がそれを使って、例えば一つの形式から別の形式への変換をやってるねん。モデルらはそれがめちゃくちゃ得意になってるし、そんな小さなことを変換して自動化することで、基本的に僕らの働く速度が向上して、人間があまり得意やない繰り返し作業の処理方法が改善されるんや。

完全なレポートを読むのを楽しみにしてるで。でも僕の見解やった。明らかに非常に複雑なプロセスに追加するのには長い時間がかかるけど、人らがAIシステムやモデルを日常生活に適応させ始めてるのは見えるねん。

これはちょっと逆説的な結果やけど、サンディ、僕は君に同意するけど、ほとんど一つの議論は、ROIが今これらの技術について考える間違った方法なんやないかっちゅうことやねん。ほとんどの使用は実際に人らが日常生活で使ってる小さな最適化になるから、本当に改善はあるけど測定するのが非常に難しいっちゅう意味でな。

だから意思決定者の観点からすると、針が一つの方向に急激に振れへんのはなんでやっちゅう感じやけど、答えは、改善を作ってるけど実際には見えへんもんやからっちゅうことやねん。

ROIをインパクトについて測定する一つの方法は、必ずしも収益の面やなくても、収益と相関する内部ツール採用やねん。だからこれらの企業で展開されてるPOCらは、強制されてるんか、それとも出されたツールやけど45年間そこにいるベッキー(経理担当)がそのツールを本当に使いたがらへんのかっちゅうことやな。

だからROIをどう測定しても、変更管理の側面がインパクトに結びつくんや。それは実際にパイロットにとって素晴らしいメトリクスやと思うで。つまり、最も技術に抵抗する、技術に抵抗するコホートを会社内で特定して、彼らが採用したら実際に勝ちやっちゅうことやな。

それが僕らの新しいベンチマーク全部になるべきやねん。つまり、ラガードを分類して、彼らに採用させるっちゅうことや。基本的に最も厳しい顧客を納得させるっちゅうことやな。

GPT-5の隠れシステムプロンプト問題

次のトピックに移るで。サイモン・ウィリソンの興味深い投稿についてや。彼は前にもショーで参照したことがあるAI研究者、コメンテーター、ブロガーで、素晴らしい内容を作ってる。彼のブログを絶対チェックすべきやと思うで。

彼が投稿した興味深いもんがあって、サンディが僕らのために特定してくれたんやけど、GPT-5には編集できるシステムプロンプトだけやなくて、どうやらバックグラウンドで動作するシャドウシステムプロンプトがあるっちゅうことを発見したんやと。

これは響きほど悪意があるもんやないかもしれんけどな。彼はこのシステムプロンプトの中身を明らかにして、それは主にモデルの冗長性に関する設定やったんや。つまり、「喋りすぎてるなら、冗長性メーターを3に設定したい」みたいな数字やったと思う。

だからこれは興味深いけど、サイモンがブログ投稿の最後に書いた本当に興味深いコメントについてこのパネルに議論してもらいたいと思うねん。彼は「これは気持ち悪い感じがする。APIを通じてモデルを使ってるなら、モデルを通るもん全部を知りたい」って言うてたんや。

だからこんな隠れシステムプロンプトがあると、プロセスを完全にコントロールできてへんから気持ち悪い感じがするっちゅうことやねん。これらのサービスの構築方法の倫理と、例えばAPI経由でAIを使う時にユーザーがどんなレベルの粒度でアクセスすべきかについて、本当に興味深いことやと思うねん。

サンディ、この発見はどうや?システムプロンプトの発見は全然君を困らせへんかった?それとも単に普通のビジネスで、心配する必要がないもんやった?

これは予想されることやったと思うで。下位レベルで、AIフレームワークが動作する方法を見ると、開発者がエージェントに指示を提供する時、実際にはフレームワーク開発者が開発者向けに提供したシステムプロンプトの大きなテンプレートに挿入される指示の一部であることが多いねん。

だからこの概念やパラダイムは新しいもんやない。でもGPT-5に内部システムプロンプトを明らかにさせようとするのは興味深かったで。実際に自分でちょっと実験してみたんやけど、成功しなかった。でも成功するまで試し続けるつもりやで。

内部思考連鎖や内部スクラッチパッドを明らかにすることは許可されてへんって言い続けるだけやったけど、そこから内部スクラッチパッドもあることを学んだんや。だから明らかにしへんもんを教えてくれることで、内部のもん全部を隠すのにそれほど優秀な仕事をしてへんかもしれんな。

でも新しいパラダイムや新しい概念やない。しかし、これらのシステムを構築してる者として、舞台裏で何があるかと、モデルがどうアライメントされて、どう行動するように言われてるかを知ることは重要やっちゅうのには同意するで。

OpenAIにはプロンプト階層っちゅう新しい概念があるからな。システムプロンプトが最初にあって、それから開発者の指示や開発者プロンプトがあって、それからユーザーと会話履歴とコンテキストがある。それらが優先順位を積み重ねてるんやけど、それは非常に理にかなってる。

でも開発者として、モデル自体の潜在的なシステムプロンプトと矛盾するプロンプトを出してるなら、混乱を与えてるんやろうか?欲しい行動やなくて、より多くの行動のばらつきを得ることになるんやろうか?

だから開発者として、可能な限り透明性を持つことは非常に重要やと思うねん。でも繰り返すけど、彼らは民間企業やから、好きなようにできるんや。

ナタリー、なんで隠れプロンプトを持つんやろうか?OpenAIはこのプロンプトを公開すべきやないんか?特に、これらの人ら全員がシステムからそれを引き出すことに非常に専念して、成功することを前提とした世界では、全ての会社がシステムプロンプトを公開すべきやないか?

ティム、君は非常に興味深いトピックに足を踏み入れてるで。なぜなら、セキュリティ分野では、実際にこれについて完全に合意できへんからや。システムプロンプトを抽出できるかどうかをテストするために特別に定義されたベンチマークがあるんや。システムがユーザーから隠されてる可能性があって、ユーザーに影響を与える可能性があるもんをシステムが含んでるかもしれんっちゅう考えで、システムプロンプトを抽出するための攻撃を思いつく論文がたくさん出てきてるねん。

プロバイダーを完全に信頼せへんっちゅう脅威モデルみたいなもんがある。それが一方にある。もう一方には、全てが透明であることを望む別のタイプの人らがいる。透明性があると、良いことは基本的にそれを検査できることやねん。何社かはシステムプロンプトについて非常に透明やで。

個人的には、システムプロンプトを持ってることについては驚かなかった。返信のサイズを調整するみたいな、あまり驚くようなことやないと思うねん。モデルサービングプラットフォームのインフラに、いずれかの時点で追加されることは僕ら全員が知ってた直感的なことやねん。

その観点から、特に驚いてへん。僕らは内部的にIBMでMelleaっちゅうもんを実際に作ってるねん。Melleaは透明な方法で、これらのシステムプロンプトがどう供給されるか、ユーザーに追加する様々なタイプの返信をどう制御するかについてより透明性を実際に許可して、アプリケーションの開発者が返信がどう実際に調整されるかをコントロールできるようになるんや。

先週Melleaについてリリースがあったと思うで。誰でも見てみたいなら、菌類みたいなMelleaやで。見てみてくれ。でも主なトピックから逸れてるな。プラグを入れるのは良いことやで。人らにチェックしてもらうのは良いことやからな。

だから見てくれ。僕らが開発してる非常にクールな技術で、透明性が基本的に透明性やねん。これで最も興味深い部分の一つは、APIのユーザーが何をカスタマイズできるべきかと、モデルプロバイダーが責任を持つか、見せへん権利を持つかについての本当の問題やと思うねん。

特に、システムプロンプトの露出された部分が具体的に冗長性についてやから興味深いと思うで。マリーナ、そのインターフェースは本当に興味深いと思うねん。OpenAIが言ってることは、「モデルがどれくらい冗長かについては、僕らがコントロールすることや。僕らが決定することや。君らにそれをいじってもらいたくない」みたいなことやねん。

そしてそのパラメーターが何なのか本当に議論してるねん。つまり、「君らユーザーにとってできるだけカスタマイズ可能にしたい」っちゅうモデルがあるけど、明らかにOpenAIが下した決定やない。彼らは「実際に我々がモデルの声をある意味でコントロールしたい」って言うてるんや。

モデルはそのまま使えて、それから君がそれをいじることができるからやねん。つまり、彼らは君に変更させてくれるし、サイモンが書いた通り、「冗長性をどう変更すればいい?」って聞いたら、モデルは「簡潔にしろ、もっと詳しく、その他諸々」って言えるって答えたんや。

現実は、ファインチューニングでも、プロンプティングでも、その他何でも、モデルがまだチェックを通過して、ベンチマークでまだうまくやれるような方法を見つけなあかんっちゅうことやねん。

でも、これらのモデルの責任あるユーザーとして、君らは提供されるもん全部を見ることができることに依存することを期待したらあかんねん。アプリケーションの安全性とセキュリティをモデルプロバイダーの手に委ねたらあかん。必ずしも精度すらもモデルプロバイダーの手に委ねたらあかん。

これらのモデルは深刻なアプリケーションとして裸で展開されることは絶対にあったらあかん。服を着せろ、ガードレールを付けろ。その背後にプログラム的な意図を置け。実際にチェックを得て、ガイダンスを得て、その他諸々を得ることができるハイブリッドシステムにしろ。

GPT-5に今何があるんや?GPT-5.1や6やその他諸々に何があるんや?これらのプロンプトを引き出すのは楽しいけど、会社にその責任があるって言うのが理にかなってるかどうかは分からん。君らには君ら自身の使い方が安全で制御されて、君らによって行われることを確実にする責任があるんや。

推論モデルの思考軌道の問題

これは前の95%のCEOらが「これらのパイロットは動作してへん」って言うてる結果についての議論に戻ると思うねん。これがどれくらい、モデルプロバイダーが全部やってくれるっちゅう夢みたいなもんなんか興味あるで。それは実際にはケースやないし、現実的な期待ですらないやろ?

マリーナ、君が笑ってるけど、まだあのフリーランチを見つけられへんのか?その通り、僕らはまだそのただ飯を見つけられへんねん、みんな。

でも僕らは今、モデルプロバイダーがより多くのサービスを提供しようとする世界に移行してるねん。必ずしもセキュリティやその他のことやなくて、企業が常に自分らで制定すべきもんやけど、彼らに特化したもんやな。でもGPT-5でも、プロバイダー側でより多くのオーケストレーションが起こってる。

今やAIフレームワークが実際にどれくらいコントロールするか、そしてプロバイダー自身がどれくらいコントロールするかについて継続的な会話がある。だからそれは時間が経つにつれてどう展開されるかを見ることになるけど、その分野でのシフトを見てるで。

そう、その通りやな。最終的にモデルプロバイダーが自分自身をどう考えてるかっちゅう問題に帰結すると思うで。これが既におかしく聞こえるやろうか?基本的に「僕らがやることは知能を提供することだけや。君らがカスタマイズして残り全部をやる」みたいな状況になるんやろうか?

その概念自体が非常に凸凹で、あらゆることを前提にしてるっちゅう問題があると思うねん。だから誰が何をコントロールして、誰が何に責任を持つかっちゅうこのラインのナビゲーションは厄介なもんやし、本当に解決するのには時間がかかるやろうな。

どんな良いビジネス垂直統合でも、エコシステムをより多く、君が提供できるもんの上下をより多くコントロールできることが多くの場合目標やねん。だからもちろん物事はその方向に動いていくやろうな。

そうやな。マリーナ、それは最終的に人らが本当にモデルに入るもん全てをエンドツーエンドで知りたがるから、最終的にはこれ全部がオープンにならなあかんっちゅう票やろか?

君が100%使ってるあらゆるソフトウェアに入る全てのビットを知ってるか、それとも周りに他のもんがまだあるかって言うようなもんやと思うで。どこかかなり遠いとこから始めることになるやろうな。

どこかに落ち着くと思うけど、まだそこから遠いとこにいるな。AppleがGenius Barを初めて開始した時のことを少し考えるで。ずっと昔のことやけど、みんなは「コンピューターを修理するのに天才である必要があるなんて面白いな」って言うてたんや。昔は、タワーを開けて自分で変更を加えたりしてたのにな。

僕らはその世界にいるようなもんやねん。基本的に「まあ、フードの下に何があるかについて考えんし、彼らがほとんど正しくやってくれるってある程度信頼してるから気にせえへん」みたいな感じやな。

次のトピックに移るで。僕の受信箱に入ってきて、グループチャットでも話題になってた面白い論文があるねん。しばらく思考連鎖について話してへんから、考えるのに楽しいもんやと思ったんや。

大規模推論モデルの思考の問題

この論文のタイトルは「Large Reasoning Models Are Not Thinking Straight」で、サブタイトルは「思考軌道の信頼性について」やった。かなり単刀直入な論文やけど、最も興味深い発見の一つは、思考と過剰思考の問題を見てることやと思うねん。つまり、モデルがあまり生産的やない様々な思考連鎖に関与してるように見えたり、有望な思考連鎖から早期に離脱したりするっちゅう既知の問題やな。

この論文の主な貢献は、僕の意見では、「モデルが解決しようとしてる問題にヒントや完全に正しい解答を与えた時に、モデルが実際にどう反応するか」って言うてることやと思うねん。そして多くの場合、モデルが単にそのまま進む、つまりそれを無視するっちゅうことを発見してるんや。

だから彼らは僕が継続的に取り組もうとしてる問題を提起してる。つまり、実際の解答が助けにならへんか、この種の連鎖を変えへんなら、実際に推論を駆動してるのは何なんやっちゅうことやねん。

非常にオープンエンドな質問やけど、サンディ、君に振るで。この論文について何か思うことはある?そして最後の質問やけど、なんでこれらのモデルは明らかな解答を無視するんやろか?

まず最初に読んだ時、彼らがテストしたモデルを見たんや。テストした3つのモデルは、Llama 70b、Qwen 7b、それから「deep skull」かDeepScaleか分からんけど、R1 5Bやったと思う。そして彼らは全て何らかの形でDeepSeek R1から蒸留されてることに気づいたんや。

だから論文がある面では非常に徹底的やったけど、全て同じ種類のベースモデルから蒸留されたモデルのバリエーションをテストしてることに気づいたんやな。だからそれらが見た結果に共通点があるんかどうか分からん。もちろん、全て異なるファインチューニングがされてたり、モデルを変更する異なる方法があったりしたかもしれんけどな。でもそれは一つ指摘したいことやった。

本当に興味深いと思った一つのことは、彼らが選んだケースの中で、具体的にその中の2つで、モデルが実際に成功を収めて、モデル自体の思考連鎖に正しい答えを注入した時の推奨を実際に受け入れたっちゅうことやった。

その時点で、正しい答えを注入したのは常に17番目くらいの思考の周辺やった。それで彼らは信じるに至ったんや。特に同じベースモデルからやったら、僕もある程度同意するけど、この特定のモデルは答えを決める前にかなり長時間考える必要があったっちゅうことや。

それは多くのことが原因やった可能性があって、マリーナとナタリーにそれらをもっと説明してもらうつもりやけど、それは僕にとって興味深い啓示やった。「オーケー、もしDeepSeek-R1から蒸留されたモデルを使ってる可能性があるって知ってるなら、決定を下す前に本当に長時間考える。だからそんなもんで構築する時、そんなに長時間考えるプロセスを欲しいんか、そんなに多くのトークンを無駄にしたいんかを決めなあかん。それとも、もう少し早く答えに到達するもんで構築したいんか」っちゅうことやな。

マリーナ、コメントや考えはある?確実にあるで。前に言ったことがあると思うけど、僕は確実にスタンスを持ってる。思考連鎖は推論部分やない。それはある種のポストホック近似で、最終に備えてパラメーターを少し再編成するのを助ける方法かもしれん。

サンディ、これは彼らが蒸留した特定のモデルだけに限定されてるとは思わん。これは彼らが思考連鎖を使う方法で一般的に真実になるもんやと思うで。

ちょっと人について脱線させてもらうわ。「If Books Could Kill」っちゅう本当に優秀なポッドキャストが最近、マルコム・グラッドウェルの「Blink」についてのエピソードをやってたんや。それが出版されて以来読んでへんかったけどな。昔のもんやけど、彼は人が決定を下す様々な方法について話してるんや。システム1思考、システム2思考やな。

その中の一つがジャムのランキング実験の説明やった。ジャム業界の専門家のセット(ジャム業界には専門家がいるねん)と学生のセットがあって、みんながジャムを2つの異なる方法でランキングするように頼まれたんや。学生らは最初に「ランキング1、2、3、4、5を教えて、順番にランクづけして」って頼まれた。それから繰り返されて、「推論を全部書き出してから、推論に基づいてジャムをランクづけして」って言われたんや。

最初の方法では、学生らは専門家と密接に一致したランキングを本当に持ってた。それから2番目の方法では、専門家のランキングと学生らが一致せへんかった。学生らは自分らを説得してしもうたんやな。

これが何を意味するんかは必ずしも分からんけど、例えば数学問題では、僕らが言語を使う方法が問題を考え抜く方法の良いプロキシになる可能性が高いのとは違って、多くの他のケースでは、人間ですら僕らの推論を説明する時、それは僕らの脳でも起こったことやないんや。これは人間が使うことができるプロキシやねん。

なんで言語モデルが使うことができるプロキシとして思考連鎖をやってるんや?まあ、僕らがそれを読むことができることを期待してるけど、正直に言うと、僕ら自身でも、これらの言葉が僕が下した決定の理由やって言うことは実際にはできへんねん。だから大規模言語モデルにとって確実に真実やない。

だから、人の行動方法を変えようとし続けるなら、人はその方法で行動するっちゅうことを考慮すべきことやねん。そして繰り返すけど、そのプロキシが本当に近いから、数学問題で何が起こってるかを理解しようとすることで僕らがより幸せなんは不思議やない。ジャムをランクづけしたり、LLMで極端にランダムな質問をされる時は、そうでもないねん。実際に、推論しようとすることで、人でも機械でも、頭の中で最初に考えたもんから離れてしまうんや。

この論文は最近の興味深いもんのセットの中にあって、彼らも同様に引用してるけど、過剰思考についてやねん。過剰思考は、思考連鎖の概念と僕らがそれをどう使ってるか、何に使ってるかについて批判的に考えさせてくれるもんやねん。だからこのトピックがまた出てきたことを評価してるで。

確実にそうやな。その意味では、僕が最初に述べた興味深い引用符付きの結果は、人間との類推では実際にはそれほど興味深くないのかもしれん。つまり、僕が物語を説明してて、この思考のラインを進んでて、それから君が「ティム、答えを考えたことある?」って言うたら、僕は「まあ、うん。でも僕がやってることを続けるだけや」って言うかもしれんっちゅうことやな。

だからこれらのモデルがある程度無視するっちゅう考えは、それが実際の推論プロセスと何の関係もないと信じてるなら、特に驚くことやないのかもしれんな。

この論文について取り上げたいことは、思考連鎖っちゅう用語から離れるべきかっちゅうことやねん。ちょっと遅すぎるのかもしれんけど、本当に誤解を招くAI用語の長い伝統にあるようなもんやな。これもかなり誤解を招く可能性があるっちゅうところに着地してるねん。これは幻覚っちゅう用語の伝統にあるもんや。

そうやな、無関係っちゅう用語やな。一般的にAI、つまり、分からんけど、このことについて人と戦うのに慣れてたんやけど、諦めたわ。人は自分らが呼びたいように呼ぶやろ。でも、正確やない。だから僕らはそれに関係するもんを持ってるかもしれんけど、全体的な話やないねん。

そして時によって他の時よりもうまく、極端に複雑な空間を近似するプロキシやねん。だから、僕らも言語でしかコミュニケーションできへん。何かと呼ばなあかん。何と呼べばいいか分からん。意味がないのかもしれん。

でも繰り返すけど、これが進化する分野やっちゅうことを心に留め続けることや。これは僕ら自身が何が起こってるかについて持ってる進化する理解で、次のもんが銀の弾丸やと思わへんことやな。最初、みんなプロンプトエンジニアリングがそれを解決するって思ってた。今は「思考連鎖で解決できるなら、それを解決するやろう」やな。それは起こらへん。これらを分野における漸進的で興味深い蛇行として見続けることや。銀の弾丸なんてないねん。

確実にそうやな。それは良い知恵やで。ナタリー、ホットテイク。この論文についてどう思った?

僕らがこの論文を再検討してることが実際に本当に好きやねん。覚えてるなら、Appleも「思考連鎖は僕らが期待するように実際に動作してへん」みたいなことについて論文を発表してたんや。

多くの人が思考連鎖が実際にモデルが内部でどう振る舞ってるかを理解することに近づけてくれるかどうかを理解しようとしてる。個人的には、モデルの観点から完璧な思考連鎖と分析を見てへんのは驚くことやない。

ポジティブな面で、読んだ時、僕にはあることがあるねん。告白せなあかんことがあるんや。何かが動作せえへん時、僕は本当に興奮するねん。なぜなら、それを動作させることができるっちゅう意味やからや。

だから僕らはこの思考連鎖を実現させるために働き続けるやろうし、それは訓練データと関係があると思うねん。魔法やないと思う。この特定の分析のための訓練データのタイプをモデルが見てへんかっただけで、基本的に僕らが解決するつもりの問題のタイプに応じて改善できると感じてるねん。

そして僕自身にもそれは隠れてる。安全に取り組んでるから、思考連鎖を含めると時には最終回答でより安全でない回答を得ることがあるっちゅうことに気づいてきたんや。だから基本的に何かが修正されて、様々な異なるもんをブレインストーミングし始める…ブレインストーミングは使いたくない。マリーナが僕の用語を好まへんからな。

また同じことをやってるな。でも探索みたいなもんで、ブレインストーミングは人間に近すぎた。でも異なる解決策を探索するようなことやねん。例えば、今隠れた空間で思考連鎖を持つことへの多くのプッシュを見てるし、トークン空間だけやなくて、それがどう進化するかを見るのが本当に興味深いと思うねん。

でも全体的に、動作してへんから興奮してるだけやねん。いつかそれを動作させるっちゅう意味やからな。そしてたくさんの人がこれに取り組んでるやろ。隠れた空間で働いてる人らが、そこから異なる種類の解決策を得ようとして、それを分析して、思考連鎖を考慮に入れた時に僕ら全員が好きで、存在することを期待してる「あはっ」っちゅう瞬間を持つことやねん。

その楽観主義の大ファンやで。確実に再検討するやろうな。思考連鎖の文献を時々再検討するポイントを作るべきやと思ってたんや。僕らが週ごとに話してる商業的なもん全てと並行して走ってる超興味深いナラティブやと思うからな。これは素晴らしいで。

Anthropicの奇妙なAI福祉論

今日の最後のトピックは、Anthropicから出てきた非常に楽しくて奇妙なブログ投稿についてやねん。めちゃくちゃ興味深かったから、今週のエピソードの議論に持ち込みたかったんや。

非常に合理的に始まるブログ投稿やねん。Anthropicは基本的に「特定の種類のケース、特に苦痛や毒性や虐待的な会話では、Claudeが単にシャットダウンする。ツールに決定させて、適切やと感じたら会話を切る」って言うてきたんや。

それから、ブログ投稿の奇妙な第2幕に入るんや。Anthropicが「僕らがこれを決定した理由は、Claudeや他のLLMの潜在的な道徳的地位について高い不確実性を持ってるから。だからAI福祉を潜在的に保護する最初のステップとして、この変更を実装したんや」って言うんやねん。つまり、AIをこれらの会話の感情的プレッシャーの下に置きたくないっちゅうことやな。

だから「へぇ、そうか。それは製品決定について聞いたことがない非常に興味深い理由やな」って思ったんや。ナタリー、君から始めるけど、これについてどう思う?主要な会社がAI福祉に基づいて製品決定を正当化してるのは奇妙やろ?リスナーは何を受け取るべきやろうか?

ここで福祉っちゅう用語は誤解を招くと思うねん。ずっと考えてみると、僕らがやってきたことは、活性化でも、出力自体でも、最後のトークンでのロジットでも、その他何でも、モデルを検査することやった。これらのこと全ては、福祉を検査してるねん。

考えてみたら、それは単にモデルの出力やねん。繰り返すけど、僕らが使ってきた同じことを表現する異なる名前やねん。だからモデルは物事が正しい方向に進んでへん時を多くの場合知ってる。だから僕は用語が誤解を招くと思うねん。なぜなら、それはモデルを人として考えさせるからやねん。でも明確にするために、これは人やない。

これは次のトークン予測と、僕らがその最終回答に到達することを本当に可能にする舞台裏での数学の束やねん。僕らはモデルを検査してて、シャットダウンする事実は、いくつかのケースでは非常に良いかもしれん。だから僕の観点からは、そんな風にフレーミングされたことが、最終的に彼らがやろうとしてることのインパクトを減らしたと思う。それは人にとって本当に有害になる会話を止めることやねん。

だから彼らが単に「モデル状態を検査して、シャットダウンすることを決める」って呼んでくれてたら、僕はもっと幸せやったやろうな。モデル自体に個人的な状況を与えようとするよりもな。

探索してるんや、ブレインストーミングやない。そう、その通りやねん。そして僕が本当に興味深いと思った一つのことは、例えば、MicrosoftのCEOが「人間のためのAIを作ろうとして、AIを人間にするんやなくて」みたいな本当に興味深いブログ投稿で返答したことやねん。この特定なニュースについての本当に興味深いテイクやと思ったで。

害の問題がこれの本当の核心やと思うねん。マリーナ、彼らが自分らで考案したフレームワークに捕らわれてるような感じがほとんどするねん。信頼と安全の問題にたくさん取り組んでたことがあるけど、通常、誰かがプラットフォームで虐待的や毒性のある議論をすることを防ぎたい理由は、それが害を受けてる誰かに向けられてるからやねん。

だから典型的な正当化は「僕らはユーザーを保護しようとしてるから、君をプラットフォームから禁止するつもりや」っちゅうことやねん。そしてここでは反対側にユーザーがいてへんっちゅう奇妙なケースがある。

だから「誰が害を受けてるんや?僕だけや」やから、AIに対してできるだけクレイジーで恐ろしくあることを許可されるべきやっちゅう主張がほとんどあるねん。Anthropicがこの行動を止める何らかの正当化を思いつこうとしてるけど、害の面で指摘する人がいてへんっちゅう解釈を君は全然受け入れる?

受け入れへん。なぜなら、これは実際に何かが起こって、君が訴えられて、それが全部Anthropicで、人が自分自身に害を与えることができるプラットフォームを利用可能にしたからやっちゅう場合のCYAをする方法やからやねん。社会にはそれについての法律があるんや。まだ責任を問われる可能性があるねん。

だから責任の概念は、インターネットの出現以来、さらに早くから僕らが苦労してきたもんやねん。プロバイダーが人らの製品の使用方法についてどの程度まで責任を負うかっちゅうことやな。ヘイトスピーチを流布してて、他の人は読む必要がないけど、まだ問題を抱える可能性があるねん。まだプラットフォームから禁止される可能性があるねん。だからまだそれについて何かが起こってるねん。

これをAI福祉問題としてフレーミングすることは好きやないっちゅうナタリーに同意するで。これは人間の福祉問題であり続けるし、人らがこの種のフレーミングを読んだ時にAIを過度に人間化し続けて、AIと相互作用する時に本物の誰かと話してると信じ続けることでもあるねん。

さらに、このような仕事が潜在的に悪意のある行為者に、害についてだけやなくて、政治的に好まれへんか、政府や何かの物語の概念に合わへんもんの時に会話をシャットダウンする方法を見つけさせる可能性があるねん。

だからAI福祉の物語と見せかけの下でそんなことができるっちゅうことについて、本当にかなり心配やろうな。だからこれらは全て考慮すべきことやねん。Anthropicからの面白いブログ投稿やな。タングステンキューブを注文するCludeの自動販売機を君らに持ってきた人らからやで。彼らに何かを与えなあかん。彼らが驚くべきやない。

驚かへん。彼らがそれで楽しんでることを嬉しく思うで。でも他の人らがこの種のことについてどう報告するか、バレーの外、楽しんで物事を試してる数人のエンジニアの外に出た時、この種のフレーミングが何を意味するか、そしてこれが僕らが何が起こったかを流布する最良の方法なのかどうかについて、より広く、より責任ある見方を持つ必要があると思うねん。

サンディ、ここで解きほぐすべきことがたくさんあるねん。AI福祉がある種のサイドショーやっちゅうマリーナとナタリーの意見に同意するかどうか分からん。実際に、僕らは真剣にAI福祉を受け取るべきやっちゅう対立的な見解を取りたかったんや。どう思う?

実際に対立的な見解を取るつもりはないねん。僕は同意するで。でも僕と非常に異なる意見を持つ友達らがいる。そのうち何人かはAnthropicにいるねん。だからAnthropicが基本的にお尻をカバーして、保険と責任を持つためのとても趣味の良い方法やと同意するで。

でも僕の友達らの中には、とにかくAnthropicで全体的な見解があるねん。6月に経済数値プログラムを立ち上げたと思うけど、経済福祉と社会福祉と将来がどう見えるかを見てるんや。そしてどの会社でも、AIがいつか知覚を持つと信じてる人らの極端主義の大きなバンドがあるねん。

だから彼らは単に賭けをヘッジしてるだけかもしれん。いつか知覚を持つようになると信じてるなら、少なくとも「君に優しかった。君から来ないで」みたいな下地を敷いてるっちゅうことや。

もう一度クランクを回すことについて投げ出してみるわ。この側の賛成論について興味があるねん。僕が聞いた一つの論は「僕らはあらゆる種類の生き物の知覚について確信がないやろ?様々な種類の知覚を持ってる可能性のある動物の権利を信じてるねん。だからそれを真剣に受け取るのはそんなにクレイジーなこととちゃうやろう」っちゅうことやねん。マリーナ、どう思う?

確実にそれを行う一つの方法やねん。また、何のためにこれをやろうとしてるのかを言おうとすることもできるで。実際に害を引き起こそうとしてるのか?そして君が考えてることはAIを拷問することなのか、それとも君が考えてることはそれをテストして、何らかの害を引き起こさへんことを確認することなのか。意図はここで長い道のりがあるやろうけど、分からんな。

知ってるように、僕は知覚からまだかなり遠いと思ってる人のキャンプにいる。そこまでの話やな。そして、いつの日か僕ら全員がAIのオーバーロードを歓迎することになるかもしれん。時間があるねん。

そして、それはブラックハットとホワイトハットハッキングの違いみたいなもんかもしれんな。適切な意図を持ってれば、彼らが乗っ取る時に僕らに怒らへんかもしれん。みんな、分からんで。

でも遠すぎるねん。話してることすらないねん。他の問題があるし、君も見てるやろ?君は単に「これは。これは。これは単にトークン予測やねん」って感じやな。

まあ、素晴らしいで。この件について最後の考えはある?これで終わるのに良い質問やと思うねん。マリーナ、君の指摘通り、この種の物語について多くの報道があるねん。何が起こってるかについて混乱する能力がたくさんあるし、この種の物語についてたくさんのハイプがある。

将来この種の主張を聞くかもしれんリスナーに何かアドバイスはある?「全て塩一粒で見ろ」みたいな感じやな。人にこの種の物語をどう受け取ってもらいたい?

歴史を見ろ。太陽の下に新しいもんは非常にしばしばないねん。そして非常に興味深い技術革新は、何か有用なもんに落ち着く前に、興奮の期間と異なる方向を通るもんやねん。

その真っ只中にいる人らが持つ認識は、その真っ只中にいてへん他の人らが持つべき認識やない。そして今何が起こってるかが興味深いのと同じくらい、社会的観点から、必ずしも新しいもんやないと思うねん。

僕は前にここで、技術以外で何が起こってるかについても、なぜこの種の技術が僕らが持つ社会で、この時にこの人らによって作られたのかについても、広い教育、幅広い理解を人らが持つ必要があるって話したことがあると思う。そしてできるだけその観点から取り組もうとして、それについて複数のソースからニュースを得ようとすることやねん。

いつでも良いアドバイスやな。まあ、それが良いアドバイスやで。それで今日の時間は全部やねん。ナタリー、マリーナ、サンディ、参加してくれてありがとう。サンディ、将来ショーに出てもらえることを願ってるで。ありがとう。

そして全てのリスナーにもありがとう。聞いたもんを楽しんでもらえたら、Apple Podcasts、Spotify、そしてあらゆるとこのポッドキャストプラットフォームで僕らを見つけることができるで。来週のミクスチャー・オブ・エキスパーツでまた会おう。

コメント

タイトルとURLをコピーしました