AIニュース&ノート：9月8日の週

この動画では、AI業界における今週の重要なニュースを詳細に解説している。Oracle とOpenAIの史上最大規模となる3000億ドルのクラウド契約、Claudeのエンタープライズメモリ機能の革新的展開、FTCによるAI安全性への取り締まり強化、GoogleのAIモード多言語展開、急成長するAIエージェント市場の動向、そしてOpenAIが発表したハルシネーション問題の根本原因に関する研究まで、AI業界の戦略的変化と技術的進展を包括的に分析している。

AI News & Notes: Week of Sep 8

Perfect — here’s a richer, juicier version that still reads clean and numbered:⸻Welcome to the first edition of AI News ...

AI業界今週の重要ニュース
OracleとOpenAIの歴史的な3000億ドルクラウド契約
Claudeのエンタープライズメモリ革命
FTCがAI安全性の取り締まりを開始
Google AI mode
AIエージェント市場

AI業界今週の重要ニュース

今週AIで最も重要だったことは何でしょうか。これから、かなりカジュアルに進めていきたいと思います。私が最も重要だと思うニュース記事を順番に見ていき、それらがなぜ重要だと思うのか、戦略的にどこに向かっているのかについてコメントを加えていきます。

一度に一つのニュース記事を取り上げていきましょう。

OracleとOpenAIの歴史的な3000億ドルクラウド契約

一つ目は、OracleとOpenAIの歴史的な3000億ドルクラウド契約です。基本的に何が起こったかというと、Oracleが決算発表の際に、OpenAIと5年間で3000億ドルのクラウドコンピューティング契約に署名したと発表しました。この契約は今年でも来年でもなく、2027年に開始される予定で、テック業界史上最大級の契約の一つとなります。

これによりOracleは、Azure と並んでOpenAIの主要クラウドプロバイダーとしての地位を確立し、OpenAIのパートナーシップダイナミクスをマイクロソフト優先の姿勢からマルチクラウドの姿勢へとさらに転換させることになります。Oracleはこの件で満足していることでしょう。ラリー（・エリソン）は銀行まで口笛を吹きながら歩いていったに違いありません。なぜなら、Oracle株は一時40%も急騰したからです。

そういえば、彼は現在世界一の富豪ですね。しかし、Oracleビジネスの単位経済学を実際に見てみると、急騰後の評価額を維持するのは難しいでしょう。私はこれを機会に、Claudeがモデルを作成してExcelに書き込むという後で触れる話をチェックしてみました。そして、agentとoperatorでもテストしてみました。

ChatGPTのagentモデルとClaudeのモデル、両方とも一様に、3000億ドルのクラウド契約を考慮してもOracleは正味現在価値ベースで大幅に過大評価されていると結論づけていました。もちろん、これは投資アドバイスではありませんし、市場は物事に合理的に反応しないことも皆さんご存知の通りです。ですから、この市場がどこに向かうのかは分かりません。

この契約から私が得た教訓は一つ目に、市場がつるはしとシャベルのラインの継続を非常に渇望しているということです。これは2024年のAshan Brenerのメモに遡ります。AIで金を稼ぐ方法は、データセンターの持分、GPUの持分、新しいゴールドラッシュのつるはしとシャベルを持つことだという考えです。それがOracleが市場に対して行っているプレーです。

それが市場が買った物語です。Mary Mer について、私は数ヶ月前に大きなビデオサマリーを作成しましたが、彼女のデッキはつるはしとシャベルに重点を置いていました。これがAIでお金を稼ぐ方法についてのウォール街の物語です。ラリーはそれを知るのに十分賢く、それを利用しているのです。

一方、OpenAIについては、先ほど言ったように、彼らはマイクロソフトとソフト離婚の状態にあり、マルチクラウドオプションを持つことは本当に役立ちます。このような大きな契約を発表できることで、今月今週の物語で前進することができます。サム（・アルトマン）はニュースに載ることを愛しています。OpenAIを市場リーダーとしてポジショニングすることを愛しています。確実に、史上最大のクラウド契約を結ぶことは市場リーダーになることに該当します。

これらすべては実際に、ChatGPT-7や8に到達する頃には現実に展開されることになります。コンピュート契約の開始があと1年半後なので、現在世代のモデルでは感じることのない何かです。ですから、このような契約を見たときに注意したいのは、何が重要で、なぜそうなのかを理解するために、タイムラインを十分に見ることです。

次の記事に進む前の最後の教訓は、双方がこれほど遠い開始日でこの規模の契約を結ぶのに良い気分を感じたという事実は、私にとって、AIハイプサイクルのピークにいると主張する破滅論者たちはおそらく間違っているということを示しています。それほど先の契約を結ぶ意思があるということは、それに備える必要があるコンピュート予算にコミットしているということです。

なぜなら、開始日をそこまで先にしなければならない理由の一部は、彼らがそうしたかったからではないからです。実際にその規模でコンピュートを運用できるように、すべてを準備する必要があるからです。これは大きな契約です。これはOracleもOpenAIと共に関与しているStargateプランにも関連しています。そして、OpenAIは大規模な需要を計画しています。

これは実際に、今週更新されたキャッシュフロー燃焼率にも関連しており、この話のパートBのようなものです。彼らは更新したと思いますが、予想している新しい燃焼率は900億ドル近くになります。興味深いことに、彼らは予測している、または少なくとも書面上では、少なくとも一部の投資家にとって、2030年に収益性への道筋があります。

そして、少なくとも書面上では、OpenAIがここで売っているアイデアは、大規模な需要を見ており、その需要が今後5年間で大幅にスケールすると見ているということです。そして彼らの期待は、そのスケールに関連する単位経済学から収益性を達成するということです。見てみましょう。これは今後数週間、今後のニュース記事で戻ってくる可能性があるものです。

私の疑念は、私の懸念は、AIの単位経済学を解決しなければならず、2つか3つの順列があり、どれが機能するかは明確ではないということです。質問として残しておきますが、例えば、収益性をモデルごとに測定するのが正しいかどうかは明確ではありません。そうすると、後続のモデルは異なる収益性番号を持つことになります。

データセンターごとに測定するのが実際に最も正確かどうかも明確ではありません。つまり、データセンターの単位経済学を見るのですが、その混乱は、そして多分それはGAPですよね、それが3番目のもので、従来のように、収益を得て、コストを得て、持ち込んだものを見て、コストを見て、顧客あたりの収益と顧客あたりの燃焼を見るというものです。

しかし、それが何であれ、この時点で投資家のお金を燃やしているにもかかわらず、人々がそれに投資することを止めていません。燃焼率を更新して「ところで、燃焼に900億ドルを追加します」と言うとき、それは燃焼率のかなり重要な更新ですよね。些細なことではありません。それが現在の状況です。需要が急増している、史上最大のクラウド契約、単位経済学はまだ不確実です。

Claudeのエンタープライズメモリ革命

2番目の記事です。これは私が思うほど報道されませんでした。Claudeのエンタープライズメモリ革命です。Anthropicは9月9日から11日頃にClaudeのチームメモリを企業向けにローンチしました。これは企業やチームアカウント用です。ChatGPTの企業向けメモリと考えないでください。

実際にはAIコラボレーションに関する異なる哲学で、それを皆さんにお話ししたいと思います。Claudeのアプローチがユニークなのは、Claudeにはプロジェクト分離メモリがあることです。つまり、企業アカウントのすべてのClaudeプロジェクトは、別々のメモリコンテキストとコンテキストウィンドウを持つことになり、機密のクライアント作業を一般的な運営作業や他のクライアントの作業と混在させることなく行えるようになります。

また、はるかに透明性の高いツール呼び出しもあり、Claudeを使ったことがあれば皆さんもおそらくすでに見ているでしょう。何を呼び出すかについて非常にオープンなので、Claudeのメモリは会話検索や最近のチャットなど、非常に見えやすい関数呼び出しを通じて動作します。何が起こっているかを見て理解できるので、企業の監査可能性と透明性が向上します。

最後に、ここで話したい本当に興味深い「仕事重視のコンテキスト」というものがあります。チームワークフロー、クライアント要件、プロジェクト仕様の永続的なプロファイルを自動的に構築します。つまり、時間をかけて皆さんの仕事をよりよく知るようになるということです。

ビルダーにとっての実際的な含意は、もしClaudeラッパーや企業向けのAIラッパーを構築していて、簡単なメモリが画期的な機能だったとしたら、今夜は汗をかいているでしょう。これは私に、AI構築の全体的なペースで見られることの一つが、仕事のためのプリミティブへのこの焦点だということを再び思い出させます。

つまり、最近のAI採用のペースとトレンドを見ると、平日のスタック内での時間として数えられるものすべてに傾倒していることが分かります。チームとして作業するときにClaudeエコシステムに留まらせるClaudeプロジェクトとClaudeのメモリの種類でこれを見ることができます。

Excel、Word、PDF、PowerPointでこれを見ることができます。これらはすべてClaudeが追加したコネクタです。今週、モバイルでClaudeが個人アシスタントになることでも見ることができます。実際に、ClaudeのモバイルアプリでカレンダーとGmailに接続でき、Claudeは事実上個人アシスタントのように機能します。

Claudeの中にいれば、カレンダーを検索し、時間の推奨事項を持って戻ってくることができます。以前は人間を使っていたであろうかなり洗練されたことができます。そして彼らは、プリミティブを構築することで、仕事のスタックに留まらせようとしています。そしてChatGPTも同じことをしています。だからこそ、Claude Codeの競合としてCodexに大きく傾倒しているのです。ちなみに皆さん、CodexがClaude市場シェアを食い始めるにつれて、ClaudeがClaude Codeを超えてここで行っている動きは、多様化を図ろうとしていることを示しています。

それが私の推測です。とにかく、コードのためのプリミティブ、Claude Code、Codex、これらはすべて同じ動きの一部です。そして率直に言って、実装の品質に満足していないかもしれませんが、ChatGPTもコネクタに傾倒してきました。Excel、エージェントモードでPowerPointなどに傾倒しています。

誰もが皆さんを仕事のスタックに留まらせたがっています。ですから、ビルダーなら、これが意味することは、プリミティブで競争しようとすべきではないということです。より専門化されたツールで競争しようとすべきです。オフィス向けのExcelを構築しようとしないでください。非常に非常に潤沢な資金がない限り、誰かがそのプリミティブを掴むことに賭けてください。

シリーズBを越えて牽引力を持っているなら、それは別の話ですよね。ビジネスに不可能な賭けがあるということではありません。より困難な賭けがあるということです。そして現在、仕事のプリミティブで競争することは、非常に非常に潤沢な資金を持つモデルメーカーと競争することです。

皆さんがどこにポジションするかを超えた実際的な含意があります。このような機能のおかげで、企業でエージェントオーケストレーションワークフローを構築することが容易になります。このような機能のおかげで、コーディングセッション全体でコンテキストを維持することが容易になります。営業チームが取引全体でコンテキストを維持し、製品チームが仕様を維持することが容易になります。

これは例えばLinearが少し熱を感じるところです。Jiraもそうですよね。なぜなら、彼らは行われている仕事を記録する場所であることに慣れているからです。モデルメーカーがチケットシステムを展開した時点にはまだ到達していません。しかし、エンジニアリング作業の非常にプリミティブなものであり、これらのモデルメーカーが追求しているものがチケットシステムを機能させるものでもあるため、彼らがそれに近づいても私は驚かないでしょう。

コンテキストのようなもの、テキストを定式化して仕様全体に分解できるようなもの、技術要件開発などを処理できるようなもの。最後に指摘したいのは、Anthropicが透明性とプライバシーに関する一貫した視点を維持しており、それが企業で彼らによく役立つということです。彼らは初日からそれについて本当に固執してきました。

これはブランドです。利用規約の話をしているのではありません。これは彼らが市場で維持しているブランドであり、これを展開することを選んだ方法がそのブランドを強化しています。だから、これがどのように展開されるかを見るのが楽しみです。ここには競合するAIビジョンがあるようです。

ChatGPTは消費者を含む現在のユーザーベースに大きく傾倒しているようです。彼らはコード側にも傾倒しています。彼らはまた、部屋の中の大きなヘビー級としてのブランドで企業取引に傾倒しています。Claudeはツール呼び出しを本当に強力に推し進め、協力的な同僚であることについて多く語っています。そして、そのツール呼び出しラインは理にかなっています。

ちなみに、誰も話していないGPUへの含意がここにあります。人々はこれを知りませんが、技術的に言えば、OpusとSonic、Claudeのモデルは推論モデルではありません。私が思う理由の一部は、Claudeが現在重い推論モデルを提供するGPUを持っていないということです。彼らは歴史を通じてOpenAIよりもGPU制約が大きかったのです。

良いことに、彼らは代わりに大きなモデルを使っています。Opusのパラメータ化を見ると、それは非常に非常に非常に大きなモデルです。そして彼らが焦点を当てているのは、合理的なツール呼び出しのための大きなモデルによって駆動される知能です。そしてそれは比較的良い賭けであることが判明しました。

彼らはツール呼び出しを透明にしています。Opusをプランナーにして、推論を通じてではなくツールを通じて困難な問題を解決する能力を駆動しています。これは、制約がある場合、やや GPU効率的な方法です。そして、Claudeでさえ依然としてGPUブラウンアウト、GPU制約に苦しんでいることを私たち全員知っています。

東京やストックホルムで働く人々は、アメリカ以外の時間にClaudeがよりうまく動作すると言っています。彼らはそれで問題を抱えており、だから彼らがツールに傾倒していると思います。そして、コンピュート予算で十分に快適に感じて推論モデルを展開するときを見なければならないと思います。

しかし、興味深いのは、もし彼らがそれを行うなら、推論モデルをオンデマンドでClaude Opusが必要時に推論モデルを呼び出すようなツールのようなアプローチにすることを選ぶかもしれないということです。なぜなら、彼らがここで行っていることの大部分は、推論を通じてではなくツール呼び出しを通じて平日の多くを拾い上げ、処理しているからです。そしてそれはかなり効率的ですよね。それは多くの意味を成します。

私たちはすでにこのClaudeストーリーでファイル作成機能について話しており、今週それについて全投稿を行いました。それは非常に非常に大きな問題です。品質の高いExcel、品質の高いPowerPoint、品質の高いPDF、品質の高いWordドキュメント、平日の重要な部分を取得し、引き渡します。

これを受け取って、完璧にやっているという意味だと思ってほしくありません。これらのAI会話をするとき、二進法に捉われることがよくあるような気がします。オフかオンかのようです。ひどかったが今は素晴らしい。正しい質問は、Claudeが行っている作業が、その結果として私がはるかに速く移動できるほど有用かということです。

そして、Claudeはそのバーを満たし、簡単にそのバーを満たす作業成果物を生産した最初のモデルです。完璧だとは言いません。完璧だと偽って言うつもりもありません。そして興味深いのは、人々が「ああ、それはハルシネーションがあるということですね」と言うことです。実際に、それが問題だとは分かりませんでした。

問題はむしろ、通常非常にハイレベルなFortune 100プレゼンテーションに伴うフィット感と仕上がり、そして洗練さでした。Claudeは洗練さとデザインの面ではそこまで到達していません。実際に、FigmaがAI搭載デザインツールに傾倒していない理由を疑問に思いました。Figmaが「デザインの腕前が欲しいですか？こちらがMCPサーバーです。請求します」と言うのは本当に簡単だと感じるからです。

あるいは何でもいいのです。月額一定額でMCPでFigmaを利用でき、デザインの洗練を皆さんのものに呼び込むことができるのです。しかし、それは私たちが生きている世界ではありませんよね。それは別の世界です。そしてFigmaはその方向に動いていません。その間に、私たちにはAIでの実際のデザインギャップがあります。

もう一つ指摘したいのは、職場でこの移行をどのように行うかを私たちは本当に知らないということです。そしてそれは非常にTBDです。ドキュメントは本当に簡単に作成できますが、明日のチーム、月曜日のチームにとって、これを採用したいかどうかを把握し、トリアージする必要があります。

どのドキュメントを投入して編集するか？どのExcelを投入して編集し、Claudeを通じて移動し始めるか、対Claudeで新しく構築し、それはなぜか？そして私はすでにチームとそのような会話をしました。それはすでに起こっています。

よし、次の記事に行きましょう。Claudeを離れましょう。

FTCがAI安全性の取り締まりを開始

連邦取引委員会は、7つの主要AI企業、すべての大手企業をターゲットにしたAIチャットボット調査を開始しており、特に安全性について業界を規制する方法を見つけようとしています。

7つの企業について詳しく説明すると、OpenAI、Meta、Google、Snap（これは興味深い）、Character.ai、xAIです。企業は詳細な安全性指標と監視プロトコルの提供を求められることになります。彼らは潜在的に有害なAIインタラクションから子どもを守ることに焦点を当てたいと考えています。

そして、業界全体で新しいFTCのコンプライアンス要件と安全基準の展開がある可能性があります。これは、チャットボット、十代のメンタルヘルス問題に関する最近の訴訟に続くものです。そして基本的に、FTCは赤い線が子どもの安全を確保することであり、その地域で十分にやっていないと彼らが認識する企業、または少なくともその地域で規制したい企業、またはそのような子どもの体験への露出がある企業を追及するというシグナルを送っています。

これがどこに向かうか見てみましょう。今のところ、私の期待、私のベースケースの期待は、業界が協力したいと思うということです。業界は自己規制したいと思い、未成年者を保護するための基準がこれらだと言う何らかの自己規制的なFTC監督体制がおそらくあるでしょう。

それは良いことだと思います。これを実際のビジネス、実際の業界として正常化し、誰もが同意する適切な安全手順を持つ必要がある実際の産業への一歩前進であり、現在誰もが同意する実際の基本ルールはありません。

Google AI mode

次の記事、Google AI mode です。GoogleはAI mode、検索のAI fancy検索を英語を超えて拡張しました。現在、ヒンディー語、インドネシア語、日本語、韓国語、ポルトガル語を含むGoogleの他の主要市場をサポートしています。

これはChatGPTのような検索体験です。強化されたショッピング機能があります。今年のQ4にそれらを見ているに違いありません。チャット内チェックアウトがあります。おそらく新しいNano Bananaによって動力を得られるビジュアル試着機能があります。

私はこれをチャット駆動コマースの方向への実際の一歩として見ています。FidgetがOpenAIに入ったことで、私は今年のQ4に、広告駆動のチェックアウト体験またはChatGPTでよりユビキタスなチェックアウト体験のために、ChatGPTによってより多くの仕事が行われるだろうというアイデアを本当に注目してきました。

現在、製品をブラウズできますが、チェックアウトを完了することは事実上しません。しかし、コードにいくつかのシグナルがあります。彼らはそれについて考えています。商取引がAmazonのようなプラットフォームからチャット体験に移り始めるのを見始めることになり、私のベースケースの期待は、それが試されることになる最初の大きなシーズンが今年のQ4だということです。

そして、複数の主要モデルメーカーがそれに向かうのを見なければ少し驚くでしょう。ブランディングを考えると、Anthropicは今のところそれを行わないと推測しています。しかし、GoogleとChatGPTは両方ともそれを行うと予想しています。見てみましょう。時が教えてくれるでしょう。良いニュースは、すでに9月なので、それがどうなるかを次の1、2ヶ月で見つけることです。

AIエージェント市場

AIエージェント市場が次のものです。実際に、ここでの話の一部は、人々がこの市場がどれほど大きいかを理解していることです。AIエージェント市場は現在、4年半で約10倍に急成長すると予測されています。今年は約50億ドルとしましょう。2030年までにこの成長率でいけば、誰が知っているかですが、400億から500億ドルの間になると予想されています。おそらく今後数ヶ月で再び修正されるでしょう。

注目すべきは、AIエージェント展開の成功率が2年前と比較して2025年に上昇していることです。ビルダーとして働いているなら、これは驚くべきことではないでしょう。私は現在、去年や一昨年よりもはるかに多くの成功したAIエージェントプロジェクトを見ています。

しかし、ヘッドラインだけを読んでいるなら、MITの95％AI失敗研究を読んでいるなら、「ああ、だめだ、つまりそれは役に立たない。ひどい。きっとすべて失敗する」と思うでしょう。それは真実ではありません。ビルダーが実際に見ているものではありません。

私は金曜日にこの件について全記事を書きました。ビルダーがAIで本当に何が起こっているかを知っているというアイデアについて話しました。そして、私たちがそれを見る方法の一部は、AIエージェント展開が実際に以前よりもうまく機能しているという現場でのこの現実です。

それと並んで、全く新しいエージェント発表がたくさんあります。興味深いものの一つは、AI分野でAmazonについて話すことはありませんが、彼らは継続的に少しずつ進歩しています。そして彼らは豊富な資金を持っており、どこに行き着くか見てみましょう。Amazonは今週、Quick Suiteを導入しました。これは、自然言語自動化のための事前構築されたワークフローとAWS製品を統合します。

基本的に、既存のAWS製品にエージェントモードを追加しようとしており、それがどうなるか見てみましょう。別の興味深いものがあります。これらのいくつかがあります。私は全部を取得することはありません。これらは新しい種類の発表です。Deepell Agentをローンチしました。これは金融、営業、マーケティング全体のナレッジワーカータスクのための自律AI システムです。

現実で見始めることができるまで、私は常にこれらを大きな塩の塊と一緒に受け取ります。見てみましょう。しかし彼らは発表しました。そして今後、このような積極的な発表がもっと見られることを期待すべきです。同じ流れで、Genesisという会社がA2A エージェント間コラボレーションを発表しました。これは人間の介入なしにエージェントが協力して作業できるようにするシステムです。

これは2026年の本当にホットな分野の一つになるでしょう。人々が「エージェントがあり、それらにワークフローを自己構成してほしい。それらのためにワークフローをスクリプトする必要がないようにしたい」と言い始めるでしょう。今のところ、それは非常に最先端のものであり続けており、新年にそれが動き始めるのを見始めると思います。

他に何が起こったでしょうか？大きな一連のヘッドラインがありました。再び、OpenAIはヘッドラインが大好きです。OpenAIがAIハルシネーションの核心的原因を特定する研究を発表しました。OpenAIはそれらを真実性よりも単語予測を優先する事前訓練プロセスに起因するとしています。これはヘッドラインで新しいものとして、画期的なものとして提示され、OpenAIがハルシネーションを解消する道筋を見ることができると言うOpenAIソートリーダーシップとして提示されました。

私は本当に大幅に年を取っているようです。私が長い間書いてきたことの一つで、私だけがそうだと偽るつもりはありません。多くの人が長い間話してきたことは、モデルがテキストを生成しなければならず、役に立つと示されなければならず、詳細な情報を生成しなければならず、積極的でなければならない単一ターン応答を訓練で優先するとき、今日見るものを正確に得るということです。

単一ターンに最適化されたモデルが見えます。答えを知っているかどうかに関係なく、応答を提供するように最適化されたモデルが見えます。そしてこれはハルシネーションにつながります。大きな驚きです。なぜこれが新しいとみなされたのかわかりません。

もしモデルが真実を告げること（「わからない」）と、数字と詳細がたくさんある本当にうまく作られた、良いPR価値のある、プロフェッショナルに聞こえるメールを告げることの選択肢があって、モデルが前者ではなく後者に対して訓練で報酬を与えられるなら、それが数字をハルシネーションするのを好むことに本当に驚きますか？それが正確に起こっていることです。

そしてOpenAIはそれがニュースであるかのように提示しています。ニュースじゃありません、皆さん。これが長い間モデルを訓練してきた方法です。その理由の一部は、10億人のためのモデルを構築している場合、エンゲージメント率について真剣に考える必要があるからです。

モデルが「わからない」「いいえ」「これは正しくない」と言い始めるなら、チャットを続けさせないそのようなモデルは、ある時点でOpenAIのビジネスにとって重要になります。エンゲージメント率のためにOpenAIがハルシネーション問題を修正することを望まないと言っているのではありません。

そんなことが起こっているという証拠はありません。しかし、効果は現実的だと言いたいのです。そしてハルシネーションの根本原因は描かれているようにそれほど神秘的ではないと言いたいのです。そして実際に、ハルシネーションを技術的ツールレベルでもシステムレベルでも対処できる一連の異なる望ましくない行動のクラスとして考えることがより有用だということです。

しかし、私たちは本当にそのように話していません。皮肉なことに、組織とリーダーシップのための展開レベルでそれに対処しようとしているなら、それがおそらく話すべきことです。それが話すべき方法です。その話題についてもっと書く予定です。今週末遅くに書くと思います。

組織的問題としてハルシネーションに対処することについて、十分に言われ、考えられていないことがあります。今のところ、そのようなヘッドラインを見るときは、聞くことすべてを信じないでください。ハルシネーション原因はよく知られており、現在の訓練体制の利益のために訓練体制に大幅な変更があるのを見たら少し驚くでしょう。

利益とエンゲージメント、率直に言って私たちが望む一部のものの利益です。詳細で完全な回答をくれるモデルが欲しいのです。もしハルシネーションを削減することが、モデルに必要な情報を与えたときに完全で詳細な答えを与えるペースまたはコストでもたらされるなら、そのトレードオフを受け入れるでしょうか？

これは、Andre Carpathyが LLM訓練の根本的弱点として指摘したことに関わります。そして、ここで哲学的な注釈で終わるかもしれませんが、Andreが指摘したことの一つで、私が正しいと思うことは、訓練は鈍い報酬シグナルだということです。

はいかいいえと言うなら、できることはそれらの応答の一つを報酬することだけです。それは本当に鈍い報酬シグナルです。モデルが「わからない」と戻ってくるなら、それが良い答えか悪い答えかを言う必要があります。間はありません。ニュアンスはありません。理由を言うことはできません。

同様に、完全にハルシネーションした答えでよくフォーマットされ、完璧に見える詳細がたくさんある答えを持って戻ってくるなら、それが良いか悪いかしか言えません。そこにニュアンスを与えることはできません。そしてそれが、ハルシネーションを排除することがネガティブな下流の結果を持つ可能性があると言う理由の一部です。

エンゲージメントケースだけでなく、モデルに積極的、詳細、情報の完全な部分を記入してもらいたい状況でもです。そして、訓練のための効果的に鈍い道具で作業しているので、Andreが指摘したように、モデルが学習することを助ける柔軟性が限られています。

モデル学習は実際にAIの大きな未解決の質問の一つです。モデルが学習することをどのように助けるか？リリース後にどのように学習するか？しかし、訓練でもっとニュアンスでどのように学習するか？その質問を残しておきます。

ニュースの分析を楽しんでいただけたでしょうか。