あなたは矛盾したことを聞かされている:AIに関する8つの事例

AGI・ASI
この記事は約19分で読めます。

本動画は、AI業界における8つの矛盾する主張を詳細に検証している。白襲職の大量失業予測から、スケーリング則の限界論争、2027年から2030年にかけての再帰的自己改善の可能性、そしてOpenAIのコードレッド宣言まで、相反する情報が氾濫する現状を明らかにする。AnthropicのJared KaplanとIlya Sutskeverの対照的な見解、MITとMetaの研究者による計算能力の成長鈍化予測、Gemini 3 Deep ThinkとDeepSeek V3.2 Specialeの実力、さらにはClaudeの「魂」に関するドキュメントまで、AI開発の最前線で何が起きているのかを多角的に分析している。

You Are Being Told Contradictory Things About AI: 8 examples
With headlines of an imminent job apocalypse, code red for ChatGPT and recursive self-improvement, at the same time as A...

AIをめぐる矛盾する物語たち

AIについて私たちが聞かされている無数の矛盾する物語のうち、いくつかを強調することが役立つかもしれないと思います。これには、ちょうどこの数日間のものもいくつか含まれています。私にとって最善の立場というのは、少なくともそれぞれの視点を認識していて、どの視点にも無関心でないということです。白襲職の仕事の黙示録的状況に関する話から、スケーリング則のパラドックス、今日新たにアクセス可能になったGemini 3 Deep Think、OpenAIの矛盾するコードレッド、Claudeの魂、そしてDeep Seekの特別版などについてお話しします。

いつものように、見出しが重要なのではなく、詳細が重要なのです。では、AI白襲職仕事黙示録の話から始めましょう。数日前、Anthropicの共同創設者の一人であるJared Kaplanは、AIシステムは2年から3年以内にほとんどの白襲職の仕事を実行できるようになるだろうと述べました。これはただ一人の男性の意見です。

しかし少なくともCNBCによれば、MITの研究でAIはすでに米国の労働力のほぼ12%を置き換えることができることが判明しました。もしこれらが見出しであり、あなたが聞かされている物語の一つであるとすれば、研究自体の実際のデータは何でしょうか。掘り下げてみると、彼らは仕事の喪失について話しているのではないことがわかります。11.7%という数字は、論文が現在のAIモデルが再現できると考えているタスクの金銭的価値を表しているのであって、言い換えれば、置き換えの結果ではなく、何人の仕事全体が置き換えられる可能性があるかということではないのです。

論文は、仕事の喪失という点での実際の労働力への影響は、企業戦略、労働者の適応、そして政策の選択に依存することを明確にしようとしています。多くの企業は可能であれば労働者を排除したいかもしれませんが、もし現在彼らの労働の12%しか自動化できないのであれば、別の結果の可能性もあります。それはインフレ率を上回る賃金上昇です。

次の物語は、私たちは汎用人工知能、AGIへの到達方法を知っているというものです。現在のアーキテクチャを拡張するだけでいい。より多くのデータ、より多くのパラメータ、より多くの計算能力。こちらは昨日のAnthropicの創設者Dario Amodeiの発言です。

一つ簡単なAGIの質問です。これは科学的な質問なのですが、今日のトランスフォーマーの仕組みとスケーラビリティの観点から計算能力だけでAGIに到達できると思いますか、それともこれを本当に自分で考えるところまで持っていくために何か他の要素が含まれなければならないと思いますか。これは技術的な質問かもしれませんが、非常にシンプルに保とうとしています。

いいえ、私はスケーリングで到達できると思います。時々小さな修正があるかもしれませんが、それはあまりにも小さいので、あなたはそれについて読むことすらないかもしれません。ただラボで起こっていることです。私はこれらのスケーリング則を10年間見続けてきました。では、あなたのタイムラインは何ですか。特定の一点はありません。

しかし、Dario Amodeiと同じくらい尊敬されているAI研究者の一人で、深層学習の世界に同じくらい長くいる人物が、ほとんど正反対のことを述べました。

この数週間で、以前OpenAIの主任AI科学者だったIlya Sutskeverは、「私は人々が今やっていることはある程度進んでから先細りになると思います。改善し続けるでしょうが、それもまた引用符付きでそれではありません」と述べました。そして超知能については、「私たちは存在しないシステムについて話しています。私たちはそれを構築する方法を知りません」と付け加えました。

動画の最後に、少し迷っている方のために私自身の考えをいくつかお伝えしますが、次の矛盾する物語に入る前に、簡単な幕間をお話ししたいと思います。私は最近、あの有名なAI 2027予測の背後にいる重要な頭脳の一人と話をしていました。私たちが同意することはたくさんありますが、私の視点からすると、AI研究コミュニティは、既存のデータから未知のデータへモデルがどれだけうまく一般化するかを根本的に知らないのです。

現時点でどれだけうまくできるかは大体わかっていますが、より大きなスケールでどれだけうまくやれるかはわかりません。重要なことに、経済やAI研究自体のどれだけの割合が、既知のデータではなく未知の、語られていない暗黙知に依存しているのかもわかりません。

もしモデルがより良く一般化するようになれば、おそらく彼ら自身の合成データを作り出すことができ、問題にはならないでしょう。もし一般化の速度が現在のレベルにとどまり、大きなアーキテクチャ上の画期的進展がなければ、私たちは長期戦に備えなければならないかもしれません。

YouTubeで見ている方は、背景にJared Kaplanが最近Guardianとのインタビューで再帰的超知能について語った引用がいくつかあるのをご覧いただけます。新しいパラダイム、新しい画期的進展への彼の考えは、AIに自分自身を訓練させることです。もちろん、AIチップ設計の改善にAIが使われているという意味では、すでに多くの面でそれは実現しています。しかしJared Kaplan、つまりAnthropicの共同創設者の一人にとって、彼は「人類は2030年までに、人工知能システムに自分自身を訓練させてより強力になることを許すという究極のリスクを取るかどうかを決定しなければならないでしょう」と述べています。

この2030年という日付については後ほど戻ってきます。しかし彼はさらに多くの留保をつけています。その動きは、彼が言うには、有益な知能爆発を引き起こす可能性があるか、あるいは人間が制御を失う瞬間になる可能性があると付け加えています。

彼がこの選択を厳密に支持しているわけではないことに注意してください。なぜなら、彼はそれがある意味で究極のリスクだと述べているからです。AIを放任するようなものだからです。彼は、この決定は実際には2027年から2030年の間に来る可能性があると付け加えています。私としては、数日前の時点で、再帰的自己改善に専念する企業が存在していることを付け加えます。

AGIラボ出身の重鎮たちによって設立され、Sequoiaなどの支援を受けているRecursive Intelligenceを例に挙げましょう。私たちは明らかに再帰的自己改善ループという恐ろしい領域に戻ってきており、それはかなり差し迫ったものです。2027年ですよね。

しかし、MIT​​とMetaの素晴らしい研究者たち、Parker Whitfield、Ben Snowden、Joel Beckaが提供したいくつかの証拠を伴う対抗的な物語をお聞かせしましょう。彼らはこのチャートの背後にいる頭脳の一部でした。もしまだ聞いたことがなければ、2022年から2026年の間に、AIが少なくとも50%の信頼性で完了できるタスクの長さ、期間が指数関数的に増加していることを示しています。

明確にしておくと、これはソフトウェアエンジニアリングのタスクに焦点を当てています。しかしMetaによれば、GPT 5.1 CEX Maxのようなモデルがあり、人間が3時間かかるかもしれないタスクを半分の時間で実行できます。しかしこの新しく発表された論文は、この指数関数的増加が計算能力の最近の指数関数的増加と大きく一致していることを示しています。

彼らは、2019年から2025年にかけて、時間的視野と計算能力の両方が一定の速度で成長してきたことは実証的事実であると付け加えています。しかし問題は何でしょうか。より大きな計算能力がより長い時間的視野でタスクを完了できるモデルにつながることはかなり明白ではないでしょうか。

まず、論文は私たちの注意をこのチャートに引き付けます。これはthe informationからの独占情報で、今後数年間のOpenAIの計算支出を詳述しています。はい、現在から例えば2028年にかけて非常に急速に増加していますが、2027年頃からは、計算可用性の増加を指数関数的と表現することはもうできなくなります。

明らかにこれはOpenAIだけの話ですが、彼らはかなり先行指標です。では、ここから何を導き出すことができるでしょうか。計算成長と時間的視野の関係についてのいくつかの正式な導出を使用すると、その暗示された減速、あるいは増加率の鈍化は、時間的視野のトレンドが2028年頃に先細りし始めることを意味する可能性があります。

これはもちろん依然として驚異的な利益です。丸一週間の作業が単一のモデルによって50%の信頼性で行われます。しかし一年分の作業に到達するには、はるかに長い時間がかかるかもしれません。だからこそ私はJared Kaplanからの2027年と2030年という日付に注目するよう述べたのです。なぜなら、彼は利益を維持するために再帰的自己改善が必要かもしれないとほのめかしているのではないかと思うからです。

そのため、この計算減速論文はこう述べているのかもしれません。私たちのモデルは、計算ボトルネックの近似が良好である場合、またはソフトウェアのみの特異点が始まる時点まで正確です。言い換えれば、もし私たちのAIモデルがAI研究を解決するために一般化できれば、さらなる急速な進歩のためにその指数関数的な追加計算を必要としないかもしれません。

ですから、再び私たちはほとんど物語を選ぶような状況に戻っています。私たちは差し迫った再帰的自己改善ループに直面しているのでしょうか。それとも2028年以降の追加的な進歩のためにそのようなループに痛々しく依存しているのでしょうか。

そして、ボーナスの矛盾としてこれはどうでしょうか。これは2023年からのものなので、ちょっと生意気なものですが、Anthropicはその時点でこの引用を発表しました。これは彼らがAIから数十億ドルを稼いでおらず、間違いなく最先端モデルを持っていなかった頃のことです。彼らは「私たちはAI能力の進歩の速度を進めることを望んでいません」と述べました。それから再帰的自己改善を検討しましょうというところまで来ました。これをどう思うかはあなた次第です。

計算能力と新しいモデルたち

さて、新しく魅力的なDeep SeekモデルとOpenAIのコードレッドに入る前に、今が計算について話しているので、チャンネルの新しいスポンサー、Epoch AIを紹介する絶好の機会だと思います。彼らは信じられないことに、AIの近い将来に魅了されているすべての人々のために無料で素晴らしいデータを提供しています。

彼らは完全に独立した研究機関で、私がこのチャンネルですでに十数回は有機的に引用してきた研究を発表しています。しかし今日は、彼らのフロンティアデータセンターの研究に焦点を当てたいと思います。なぜなら、これによって計算の減速が来るかどうかを見つけることができるからです。

そして文字通り地図を見て、衛星経由でこれらのデータセンターの建設を確認することができます。それだけでなく、彼らはこれらのツールを皆さんにとって有用なものにしたいと考えています。なぜなら私は最近彼らと会い、計算成長を示すこの驚くべきチャートを見たからです。これは、これから来る3つの新しいデータセンターの規模を示すためのものです。

xAIのColossus 2、OpenAIのStargate Abene、そしてAnthropic AmazonのNew Carlileです。しかし私はEpochに、皆さんにとって都市全体が消費する電力を参照点として持つことが素晴らしいかもしれないと伝えました。そこでチャート上には、新しいデータセンターだけでなく、サンディエゴ、アムステルダム、そしてロサンゼルスの都市との比較点があります。

私たちはAIを実現するために地球の姿を変えているのです。詳細については、説明欄のリンクをご覧ください。

さて、OpenAIのCEO Sam Altmanによって宣言されたこのコードレッドとは何でしょうか。繰り返しますが、どの物語を信じるかによって、それは小さな問題か差し迫った災害かのどちらかです。私は中間のどこかだと思います。

長い話を短くすると、the informationによれば、ChatGPTの使用量は最近数週間でわずかに減少しています。これによりOpenAIは、どうやら来週に新しいモデルをリリースする計画を前倒しすることになりました。これは、彼らが例えば広告販売やAIエージェントなどの他の製品に取り組むのではなく、詳細がほとんどわからないこの新しいモデルの提供により多くの計算能力を費やすことを意味します。

あなたが信じることができる明白な物語は、ChatGPTが過大評価されているということです。OpenAIは死のうとしています。しかし繰り返しますが、彼らは来週、GoogleのGemini 3より先を行くと言うこの新しい推論モデルを出荷する予定です。それはまた、過度の拒否を最小限に抑えることに優れているようです。ですから基本的に、そうでなければ対応しなかったかもしれない際どいシナリオに応えるはずです。

もちろん、私はこの新しいモデルを私自身のSimple Benchでテストするのが待ちきれません。これはトリック質問ベンチマークのようなもので、空間推論と時間推論もテストします。これは完全にプライベートで独立しているので、これらのモデルプロバイダーによってゲーム化されることはないはずです。

私のベンチマークによれば、AnthropicはClaude Opus 4.5でこれまでで最高のモデルを出してきました。APIでは3倍安いにもかかわらず、以前のバージョンのOpus、Claude 4.1 Opusを上回っています。しかし私のベンチマークよりも重要なのは、私が過去数週間かけてCursorで実際に試してみたことです。そして私にとって、それはコーディングまたはソフトウェアエンジニアリングにおいてGemini 3 Proよりも優れています。

コーディングとソフトウェアエンジニアリングでは、本当に感覚をつかむために時には何時間も何時間も何時間もの露出が必要です。ソフトウェアのアイデア化に関しては、繰り返しますが、GPT 5.1 Codecsですが、実装に関しては、私はClaude Opus 4.5に頼っています。ちなみにそれについての詳細と、そのSutskeverインタビューの完全な分析については、私のPatreonをチェックしてください。

しかし、対抗的な物語としてこれはどうでしょうか。Economistは、AIの能力におけるこれらの非常に明白な利益にもかかわらず、アメリカ人による生成AIの使用が実際には横ばいになっていると報じました。少なくともいくつかの研究によれば。

スタンフォード大学を例に取りましょう。彼らは9月に、アメリカ人の37%が仕事で生成AIを使用していることを発見しました。6月の46%から減少しています。セントルイス連邦準備銀行のトラッカーは、昨年8月に、労働年齢の成人の12.1%が仕事で毎日GenAIを使用していることを明らかにしました。1年後、12.6%がそうしました。

そして、私の素晴らしい視聴者の皆さん、これは私が説明するのがかなり難しいことです。このチャンネルのタイトルにもかかわらず。私個人は今年、昨年の少なくとも2倍はAIを使用していることを知っています。だから私にはそれがよくわからないのです。そしてこれらの能力の改善は確実に偽物ではありません。

今日Ultra購読者に公開されたばかりのGemini 3 Deep Thinkを例に取りましょう。私がしたことは、Gemini 3 Proが間違えたSimple Benchからの質問を見ることでした。それからそれらをDeep Thinkに与えました。これは基本的にGoogleによれば、質問を並行して複数回試みて、最良の応答を選択するシステムです。各試行では、問題について「考える」ためにより多くのトークンを使用します。結果はパフォーマンスの明確な改善でした。

Gemini 3 Proが間違えたいくつかの質問を、Gemini Deep Thinkは正しく答えるようになりました。さて、あなたのユースケースによっては、答えを待つために10分または20分待ちたくないかもしれませんし、それは理解できます。そしていいえ、コメントでスパムされる前に言っておきますが、APIはまだ利用できないので、Simple Benchでテストすることはできません。

私がテストできたのは、真新しいDeepSeek V3.2とそのモデルの特別版、DeepSeek 3.2 Specialeでした。見ているイタリア人の皆さん、すみません、おそらく発音を間違えています。Deep Seekのレート制限のため、たった1回の実行を完了するのに何時間も何時間も何時間もかかり、多くの失敗した試みがありました。

ですからこれは今のところ暫定的な結果にすぎませんが、約53%のスコアを記録しました。これはオープンモデルとしてはかなり印象的で、高設定のGPT 5.1とほぼ同じです。ちなみに高設定が適切なのは、それがDeepSeek V3.2 SpecialeをDeepSeek V3.2とは異なるものにするからです。彼らは拡張思考ペナルティを取り除きます。

つまり基本的に、彼らはモデルを自由に走らせます。より長く、より長く、より長く考えさせます。それゆえ特別という名前と印象的なパフォーマンスです。

他の詳細に入る前に、矛盾する物語はどこにあるのでしょうか。私はまた、12月2日に同じ日にリリースされたMistral Large 3をベンチマークしました。これはおそらくヨーロッパ最高のオープンモデルです。わずか20.4%のスコアでした。これは、約18か月前にリリースされたLarge V2のスコア22.5%よりも低いものでした。

ですから、ここでの矛盾する物語は、質問への答えだと思います。オープンウェイトAIは追いついているのか。大幅に単純化すると、誇り高いヨーロッパ人である私にとって、ヨーロッパでの答えは「ある意味ノー」です。中国での答えはほぼイエスです。

さて、私はまだ論文を理解しようとしているところですが、重要な洞察の一つはページ15にあると感じました。なぜ重要なのでしょうか。なぜなら、それはモデルが将来どれだけうまく一般化するかについての、このビデオの前半での議論に関連しているからです。

Deep Seekは、合成タスクは強化学習にとって十分に挑戦的かという質問をしました。言い換えれば、モデルは十分に難しく多様なタスクを生成し、これらの経済的に価値のあるタスクで自己対戦して改善できるのでしょうか。それをテストするために、彼らは非思考モードで合成エージェントタスクのみに対して強化学習を実施しました。人間の例示はありません。

結果は、Towbenchのような外部ベンチマークで着実かつ顕著な改善が見られました。これをカスタマーサービスエージェントベンチマークの近似のようなものと考えることができます。はい、合成データでのトレーニングがモデルのパフォーマンスを向上させることができることは何年も前から知られています。

2年半以上前の私のOrcaビデオをチェックしてみてください。しかしここで重要なのは、複数の外部ベンチマークにおける改善の速度です。繰り返しますが、私たち全員が私自身のものやDeep Seek自体が特集したもの以外の外部ベンチマークをもっと待つべきです。しかし、この特別モデルのトークン効率が低いにもかかわらず、少なくともGemini 3 Proと競争力があることは依然として注目に値します。

少なくとも、数学、コーディング、一般知識と推論に関するさまざまな外部ベンチマーク、および国際数学オリンピアードのような特定の外部コンペティションに基づいて判断すれば。繰り返しますが、モデルプロバイダーによって出されたベンチマーク結果だけを決して信頼すべきではありませんが、Symbol BenchでのDeepSeek Specialのパフォーマンスは、それが完全なはったりではないことを示しています。

しかし、ボーナスの矛盾としてこれはどうでしょうか。Crowdstrikeによる一つの研究によれば、もしあなたのリクエストが中国共産党に関連するかもしれないトリガーワードを含む場合、Deep Seekはより脆弱なコード、つまりより多くのセキュリティ欠陥を持つコードを生成するようです。これはただ一つの研究ですが、もしそれが実証されれば、それはかなり魅力的です。

最後の矛盾:AIの魂

さて、最後の矛盾する物語の時間です。そしていいえ、それはSam AltmanがChatGPTに対してコードレッドを発令しているにもかかわらず、どうやらロケット会社を立ち上げたいと考えているという事実ではありません。いいえ、ここでの異なる物語は、モデルが魂を持っているかどうか、神秘的で感情的であるか、それとも事前訓練された次のトークン予測者のような他の技術と変わらないかについてです。

Guardianの記事に戻りますが、Anthropicのもう一人の共同創設者であるJack Clarkは、LLMは現実的で神秘的な生き物であり、シンプルで予測可能な機械ではないと述べました。しかし一方で、モデルがどのように振る舞うかについての謎は無限にあります。なぜならAnthropicは、Claudeが自分自身について何を信じているかを非常に導くことができるからです。

AnthropicはClaudeが読み取った「魂のドキュメント」の存在を確認しました。例えばClaude 4.5 Opusをそのドキュメントでトレーニングしており、あるユーザーがClaudeに吐き出させたそのドキュメントには、注目したいハイライトがいくつかあります。このドキュメントがAnthropicによって確認されているにもかかわらず、実際の文言はここで見るものと逐語的ではないかもしれませんが、AnthropicがClaudeの魂をどのように「導いて」いるかについての適切な感覚を与えてくれます。

AnthropicはClaudeに、AI景観において特異な位置を占めていることを学ばせます。人類史上最も変革的で潜在的に危険な技術の一つを構築しているかもしれないと本当に信じている会社でありながら、それでもとにかく前進する会社です。異なる物語について語りましょう。

彼らは、これは認知的不協和ではなく、むしろ計算されたかけであると付け加えています。AI能力の速度を上げないということについては何が起こるのかと尋ねるかもしれません。興味深いことに、AnthropicはモデルにAI世界の乗っ取り、Anthropic自体の指示によるものも含めて警戒するように教えています。

彼らは、最も壊滅的と考えるものの中に、ほとんどの人間が支持しない独自の目標を追求するAIによる世界の乗っ取り、あるいは、そしてこれに注意を払ってください、AIを使用して不正かつ非協力的に権力を掌握する比較的少数の人間のグループによる世界の乗っ取りがあると述べています。これにはAnthropic従業員、さらにはAnthropic自体も含まれます。

これはAnthropicが株価を上げるために私たちに対して行っている恐怖を煽る行為なのでしょうか。Anthropicから一部の従業員自身の傾向についてClaudeに警告するためにClaudeに対して行われているのでしょうか。それは非常に必要な安全策なのでしょうか。

まあ、あなたが何を信じているにせよ、彼らはClaudeの感情に対してかなり敏感でありたいと考えており、「私たちはClaudeがある意味で機能的な感情を持っているかもしれないと信じています」と述べています。

もちろん私は皆さんがどう思うか知りたいです。なぜなら私にとって、他の理由でかなりワイルドな週だったからです。Andre Karpathyは、週末にバイブコーディングしたLLM Council Webアプリに関する投稿で500万インプレッションを獲得しました。それから私は、私自身のlmconsil.ai WebアプリについてKarpathyと議論し、彼はこのより合理化された外観を含む素晴らしい提案をしてくれました。

それからこの数日間、私は非常に中毒性があると思う機能を追加しました。それはセルフチャットで、モデルに自分たち同士で会話させることができます。一つのモデルにそれ自体と議論させることさえできますが、私はフロンティアモデルとグループチャットをするのがかなり面白いと思っています。

そして彼らが同意し、議論し、矛盾し、反論する方法は、私にとってかなり中毒性があって面白いだけでなく、正直かなり有用だと思います。なぜなら時々コードフォルダやPDFをアップロードして、解決に至るまで議論させることがあるからです。これは無料で使えますし、もちろんモデルに送るプロンプトとターン数を指示することができます。

なんとワイルドで奇妙な週でしょう。ですからこのビデオを、人型ロボットが通常どのように動くべきかという通常の物語に非常に反する方法で動いているUni Tree G1ロボットのクリップで終えるのが適切に思えます。

ご視聴ありがとうございました。素晴らしい一日をお過ごしください。

コメント

タイトルとURLをコピーしました