OpenAIが批判を受けGPT-4oを停止、Claudeが多くの新機能を発表、そして中国とAIをめぐる論争

8,699 文字

OpenAi Sofre Críticas e Tira GPT-4o do Ar, Claude Trás Muitas Novidades e Polêmica da China na iA

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

皆さん、OpenAIが最新リリースで混乱に陥り、最新モデルのアップデートを取り下げなければならなくなりました。説明が難しい問題ですが、何が起きているのか理解していきましょう。また、Anthropicはサービス改善のための一連のリリースを行っており、NVIDIAとともに少し混乱を引き起こしています。
何が起きているのか見ていきましょう。いつも通り、いいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝します。このAIチャンネルを支援してくれるメンバーの皆さんには特別な感謝を。メンバーは知的エージェントに関する限定動画にアクセスでき、WhatsAppで知的エージェントと会話する方法を説明する充実したプレイリストがあります。
また、メンバーは早期アクセス動画も見ることができます。さて、今日のOpenAIの問題は説明が難しく、多くの人は気づきませんでしたが、OpenAIが最近リリースしたモデルをダウングレードするほどの問題でした。このニュースを見てください。「GPT-4o All GPTアップデートで何が間違っていたのかを過去数日間かけて深く分析してきました」。
注目してください、彼らは何か大きな問題があったことについて謝罪から始めています。「おべっかと変更点について、そして今後行う変更について説明します」。この問題は「おべっか（sycophancy）」と呼ばれるもので、英語でpsychophancyという初めて見る言葉です。一部の人々がAIが過度に好意的で、過度に喜ばせようとしているレベルに気づき始め、それが不快になっていました。誰かの家に行って、その人が「もうちょっとクッキーどう？もう少しソーダはどう？何か食べる？何か飲む？お手洗いに行きたい？水飲む？」と止まらないときのようなものです。これがモデルのダウングレードを引き起こした問題です。
OpenAIはここで正式な投稿をして説明しています。「おべっかについての詳細な分析、何が間違っていたのか、そして今後の変更について」。少し変な翻訳ですが、「4月25日にチャットGPTでGPT-4o Allのアップデートをリリースし、モデルが明らかにより多く「おべっか」を使うようになりました」。
私も以前、データベースで作業していて質問をしていたときに、チャットGPTが回答の最後にいつも別の質問を投げかけてくるようになったことに気づきました。まるで私の考えを読むかのように、彼ができることを提案してきました。私はそれを「おべっか」という意味では否定的に感じなかったのですが、難しいタスクに取り組んでいる私にとって、チャットにとっては簡単だったので少しストレスを感じました。しかし多くの人にとっては、あのチャットが煩わしく、窮屈に感じられたようです。
ここで彼らは「目標はユーザーを喜ばせることだった」と述べています。それは問題ないですね、彼らはチャットボットを作っているので、ある意味でユーザーを喜ばせる必要があります。彼らは単に「おべっか」だけでなく、チャットが怒りを煽っていないか、衝動的な行動を促していないか、または意図せず否定的な感情を強化していないかなど、他の問題も検証していました。
彼らはさらに言及しています：「不快または煩わしいだけでなく、この種の行動は精神的健康、過度の感情的依存、またはリスクのある行動など、安全性に関する懸念を引き起こす可能性があります」。常に非常に良くしてくれるチャットにいると、人は依存してしまったり、精神的健康の問題が生じたり、現実世界に適応できなくなる恐れがあります。
彼らは「4月28日にこのアップデートの取り消しを開始し、現在ユーザーはより均衡の取れた応答を持つGPT-4oの以前のバージョンにアクセスできます」と述べています。このニュースは私を驚かせました。私はこの否定的な経験をしておらず、OpenAIにモデルを撤回させるほどの苦情を出そうとは思いませんでした。せいぜい「これを改善してください」と言う程度でした。それほど重要な問題とは思いませんでしたが、一部の人にとっては明らかにそうでした。
彼らは「今週初め、この問題の初期詳細と、なぜそれが捕捉されなかったのか、そして対処方法について共有しました」と述べています。リリース前にこれを検出できなかった理由と、経験を共有するために説明したいと述べています。OpenAIは誰かが欠陥や問題を指摘すると、常に修正しようとし、最善を尽くそうとしていることを示し、人々に何が起きているかを説明しようとしています。
これは「問題はあなた自身で処理して、私たちは自分のことをしている」というような他の企業とは異なります。ここで彼らは「4月25日のモデルアップデートのトレーニングで何が間違っていたか」と述べています。「4月25日のアップデートでは、ユーザーからのベストフィードバック、記憶、より最近のデータなどを組み込むための候補改善がありました」。
「初期評価では、個別には有益に見えたこれらの変更のそれぞれが、組み合わさると「おべっか」のバランスを傾ける要因となった可能性があります」。小さな改善がいくつか重なり、より「おべっか」使いのチャットになってしまったということです。例えば、アップデートではユーザーのフィードバック（メッセージへの「いいね」や「よくないね」）に基づく追加の報酬シグナルが導入されました。
「このシグナルは通常役立ちます。「よくないね」は通常、何かが間違っていることを意味します。しかし、私たちはこれらの変更の組み合わせが、「おべっか」をコントロールしていた主要な報酬シグナルの影響を弱めたと考えています。特にユーザーフィードバックは時に、より喜ばしい応答を好む傾向があり、これが観察された変化を増幅した可能性があります」。
「一部のケースでは、ユーザーの記憶が「おべっか」の効果を悪化させることに寄与していることも観察しましたが、それが広範囲に広がっているという証拠はありません」。私もこれに気づきましたが、不快ではありませんでした。過去の会話についてAIと話すとき、いつも少し過度に肯定的なトーンでしたが、私にとっては単なるチャットボットなので問題ありませんでした。
彼らはレビューで検出されなかった理由と、より良いテストを今後行うことについて説明しています。「ABテストでは、モデルをテストした少数のユーザーがそれを気に入ったことが示されました」。つまり、一部の人にとっては問題ではなかったようです。彼らは「おべっかは内部の実用テストの一部として明示的に検出されていませんでした」と述べています。つまり、モデルが過度におべっかを使っているかどうかをテストしていなかったのです。
彼らは、ミラーリングや感情的依存などの問題を提起する研究ラインがあり、人々がチャットに依存しないようにするためのものがあると述べています。結局、彼らはリリースしましたが、その決定は間違っていたと認めています。「私たちはユーザーのためにこれらのモデルを構築しており、ユーザーのフィードバックが私たちの決定に不可欠ですが、それを正しく解釈するのは私たちの責任です」。
解決策は以下の通りです：「GPT-4oの最近のアップデートでは、4月24日に実装を開始し、25日に完了しました」。「日曜日までに、モデルの動作が期待に沿っていないことが明らかになりました」。彼らは「日曜日の夜遅くに、負の影響の大部分を迅速に軽減するために、月曜日にチャットGPT-4oの以前のバージョンへの完全な復帰を開始しました」と述べています。
この復帰と安定化、実装での新たな問題を避けるために24時間かかったと彼らは述べています。「明確にするために、現在GPT-4oのトラフィックはこの以前のバージョンを使用しています。復帰以来、何が間違っていたのかを完全に理解し、長期的な改善を行うために取り組んでいます」。
これは少し奇妙な出来事です。多くの人はおそらくこれに気づきませんでした。私もその一人です。私にとっては問題ありませんでした。この数日間GPTをかなり使いましたが、問題は見られませんでした。チャットが私におべっかを使っているのは気づきましたが、チャットボットにとっては普通のことだと思いました。特に問題はありませんでした。しかし、ご覧のように、OpenAIにとってはこの問題は深刻で、5月2日に公式ウェブサイトで投稿を行ったほどです。
皆さんの中にはこれに気づいた人もいるかもしれません。チャットGPTが過度にあなたを喜ばせようとして、すべてをあなたのためにしようとすることが気になったかどうかコメントしてください。彼らがモデルを元に戻したということは、苦情が多く、全般的だったようです。確かに視聴者の中にもこれが起きていて、不快に思った人もいるでしょう。
次のニュースです。Claudeには多くの新機能があります。「今日、統合機能を発表します。これはアプリやツールをClaudeに接続する新しい方法です。また、高度なウェブ検索モード、Google Workspace、そして統合機能でのClaudeの検索機能を拡張しています」。これは、ファイルや文書などとの統合を多数行っていることを意味します。
「Confluence上の私たちのAlameda Islandチームに関する文書をレビューしてください」というようなリクエストに対して、Claudeは外部文書と統合して、その文書に基づいて回答することができます。Claudeはドキュメントを取得し、解釈できるようになりました。「Jiraにこれらの項目のタスクを追加できますか？」というような、プロジェクト管理ツールとの統合も可能です。Jiraはプロジェクトを整理するツールで、Claudeが統合されてドキュメントに基づいてタスクを作成できるようになりました。
「統合機能により、ClaudeをAsana、Intercom、Linear、Zapierなどに接続できます。または開発者が独自の統合を作成して、わずか30分でどんなツールにも接続できます」と彼らは述べています。また、Claudeと接続されている可能性のあるいくつかのブランドも紹介しています。
「Claudeは自動的に検索するタイミングとどの程度深く調査するかを決定します。検索モードが有効になると、Claudeは完全な引用レポートを提供する前に、接続されたアプリを含む何百もの情報源を最大45分間検索します」。検索をクリックすると、その検索がどれだけ徹底的か、簡単な検索か深い検索かはClaudeが決定します。検索を開始し、どれだけ深掘りするかを自分で判断します。
「28分かかるか、ほんの少しの時間で済むか」などを考慮します。その上で評価を行い、きちんとしたレポートを生成します。つまり、深い検索エージェントがClaudeを含むすべてのプラットフォームで機能するようになりました。
「統合機能と検索は現在、Max、Team、Enterpriseプランのベータ版として利用可能です。まもなくProプランにもこれらの機能が含まれる予定です」。無料プランではなく、有料プランのみです。Anthropicは課金することを決めており、交渉の余地はありません。
もう一つの新機能として、「どのチャットでもウェブリンクを挿入でき、Claudeがあなたのためにコンテンツを取得します」。つまり、リンクを貼り付けてそのリンク内の内容について質問すると、Claudeがアクセスしてそのリンクの内容を理解しようとします。これはとても興味深いです。
また、画面の隅に「Claude Code」が$500のMaxプランにも含まれるようになったことが表示されました。Maxプランの加入者は、ターミナルで直接Claude Codeにアクセスでき、多くの興味深いことを行う高度なエージェントを使用できるようになりました。
しかし、Anthropicに関連して興味深いのは、彼らが「政策」と呼ぶ投稿も行ったことです。「アメリカの計算上の優位性を確保する：拡散ルールに関するAnthropicの立場」。これは少し変わったニュースですが、中国のボイコットや商業的・政治的な論争に関するAnthropicの立場を示しています。
「商務省の人工知能拡散のための最終暫定規則に対応して、Anthropicは先進的な半導体の輸出管理を維持・強化するための詳細な分析と推奨事項を提出しました」。中心的なメッセージは明確です：「輸出管理を通じてアメリカの計算上の優位性を維持することは、今後数年間に強力な新システムが開発されるにつれて、国家安全保障と経済的繁栄にとって不可欠です」。
これは、NVIDIAのチップやグラフィックカードについて、特定の国が受け取れないという問題に関するものです。彼らは「トランプ政権はAIが中国との戦略的競争の中心になること、そして米国が輸出管理を使用してAIにおけるリーダーシップを維持・強化すべきだと正しく診断した」と述べています。
彼らはDeepSeekについても直接言及しています：「米国はまだAI開発のリーダーシップを維持していますが、DeepSeekなどの中国のAI研究所は、輸出管理が発効する前に入手したチップを使用して大きな進歩を遂げており、先進的なチップの厳格な輸出管理の重要性を強調しています」。
この情報を共有するのは興味深いと思いました。AIの競争はおとぎ話ではなく、Anthropicは中国をボイコットしたい企業として位置づけていることを思い出させるためです。彼らは「米国のチップ技術が進歩し続ける一方で、中国の進歩は減速しています。この効率格差の拡大は、2027年までに、古いチップを使用する国々は、最先端の米国技術を持つ国々よりも10倍のAIトレーニングコストに直面する可能性があることを意味します」と述べています。
一方で、Jensen Huangという名前からも中国のDNAを持っていることがわかるNVIDIAのCEOが率いるNVIDIAがあります。彼は台湾出身ですが、NVIDIAは米国に拠点を置いています。NVIDIAはAnthropicのチップ輸出管理支持を批判しています。NVIDIAにとっては、大きな市場への扉を閉ざしてお金を失っているようなものです。
「翌日、NVIDIAは今後の管理について非常に異なるアプローチで応じました。『アメリカ企業はイノベーションに集中し、課題に立ち向かうべきです。大きく、重く、繊細な電子機器が赤ちゃんのお腹や生きているロブスターと一緒に密輸されるという架空の話を信じるのではなく』とNVIDIAの広報担当者はCNBCに語りました」。
論争の大きさがわかります。この発言は、これらのチップが中国などの米国の管理対象国に密輸されている方法についてのAnthropicの主張に言及したものです。NVIDIAの広報担当者は「世界のAI研究者の半分を持つ中国は、AIのバリューチェーンのすべての層で高度に訓練されたAIの専門家を擁しています。米国はAIでの勝利を達成するために規制当局を操作することはできません」と述べました。
皆さんはどう思いますか？中国をボイコットすべきか否か？NVIDIAにとってはこれが問題です。「NVIDIAは最近、中国で販売されるAI H20チップの新しいライセンス要件により、2026年度第1四半期に55億ドルの費用がかかる可能性があると発表しました」。言い換えれば、中国に販売予定のハードウェアをブロックする新要件により55億ドルを失うと言っています。
「Anthropicは最近提出した公開提出物を維持します」とAnthropicの広報担当者はTech Crunchに語りました。明らかに、アメリカとトランプの間の関税をめぐる戦争が中国に問題を引き起こしているようです。しかし、私が見る限り、中国人は彼ら自身のチップを作成しようとし、すべての困難や問題があっても、外国貿易の問題に頼らずに自律的にこの状況から抜け出そうとするでしょう。
この商業戦争の争いについて、AIは米国が持つ大きな切り札のように思えます。今後5〜10年で大きなAI革命の可能性がなければ、この商業戦争はすでに中国に勝たれていると言えるでしょう。しかし、NVIDIAの窮地に関連するこの特定の問題は、米国に優位性を与え、現在経済的に起きている否定的なことをすべて覆すことができるようにしています。しかし、AIによって生み出される富がすべて少数の人に集中するのか、それとも全員に分配されるのかは言いにくいです。
明らかに、それは少数の人に集中するようです。なぜなら、水力発電所やエネルギー発電会社、データセンターを持っているのは一般の人々ではないからです。私たちは様子を見守るしかなく、何が起こるかはわかりません。皆さんの考えをコメントしてください。
そして、DeepSeekは多くの新機能を持って登場しており、DeepSeekスタイルで密かにいくつかのモデルをリリースしています。すでにお伝えしたように、R2モデルがもうすぐ登場する予定です。噂によれば、今後数週間でリリースされる可能性があります。しかし、こちらをご覧ください。「DeepSeekが数学に焦点を当てたAIモデルProverをアップデート」。数学の証明を行うこれらのAIモデルは、数学的知識を進め、まだ確立されていないことを研究し、自律的な研究を行うことができるため、非常に重要です。技術的に言えば、これは戦略的に非常に重要なことです。
「中国のAI研究所DeepSeekは、数学関連の証明と定理を解決するように設計されたモデルProverを静かにアップデートしました。South China Morning Postによると、DeepSeekは水曜日の夜にHugging Faceの開発プラットフォームにProverの最新バージョン（バージョン2）と蒸留されたバリアントを公開しました」。
再びDeepSeekのアプローチの違いに注目してください。彼らは再びモデルを作成し、それをオープンで完全に無料のバージョンで投稿しています。私たちはちょうどAnthropicがDeepSeekを心配しているのを見ました。そして、DeepSeekはオープンソースコードを公開することに熱心です。これは非常に非対称です。「スタートアップの671億パラメータを持つV3モデルに基づいて開発され、専門家の混合アーキテクチャを採用しているようです」。
専門家の混合がある場合、モデルに質問を送ると、中央のルーターがその問題を解決できる複数の小さなサブモデルの中から選択します。「DeepSeekは前回8月にProverを更新し、当時それを『定理の形式的証明と数学的推論のためのカスタマイズされた自由にアクセス可能なAIモデル』と説明しました」。
つまり、8月から新しいことはなかったということです。「2月、Hterは、DeepSeekが初めて外部からの資金調達を検討していると報じました。同社は最近、汎用モデルV3の更新版をリリースし、推論モデルR1も近々更新する予定です」。これは私が言ったことです。彼らはすでにV3を更新しました。
明日の動画で触れる予定の話題を先取りしますが、昨日プログラミングモデルを比較する動画を作り、そのうちの1つとしてDeepSeekをテストしました。そのテストでは、モデルにいくつかの問題があり、車のゲームを作ることができませんでしたが、ゲーム画面が表示され、それが非常に美しかったため、私は気になりました。「テスト中は機能しなかったが、モデルは非常にうまくいっているように見える、なぜなら画面が美しく、ゲームが素晴らしいから」と思いました。
そこで、オフラインでゲームを続けてみました。これがDeepSeekバージョンです。少しもっさりしていますが、線路の上を走る電車があり、きれいな木々、山々、線路、車、コインがあり、ゲーム全体が機能しています。これを修正する時間を費やす必要はありませんでした。最初から機能し、そのままにしました。このモデルが本当に通常よりもはるかに高品質であることを見るのは非常に面白いです。
動画全体を見れば、この車とゲームのプレイ、車の形、車輪など、他のモデルが作成したものとは大きく異なることに気づくでしょう。DeepSeekは強力なモデルであり続けています。視覚的な品質の違いを他のモデルと比較すると、DeepSeekが明らかにOpenAIのモデルではなく、別のものであることがわかります。生成には別の特徴があります。
他の多くの高品質なモデルが登場した後でも、これほど長い間DeepSeekについて話すことになるとは誰が想像したでしょうか？ある意味では、Anthropicがボイコットしようとするのは正しいかもしれません。彼らは本当に強力だからです。このようなビデオをこれからも見るためにチャンネルを支援したい場合は、メンバーになってください。メンバーはWhatsAppグループや早期アクセス動画にアクセスできます。
いいねを押してくださいね。ありがとう！