AI信号のパラドックス

10,598 文字

NEWSLETTER ✉️ 💰 @OpenAI @Google SOCIALS ⤵▶️ YouTube:

人工知能の効率を改善するため、2つの異なるAIエージェントが英語や人間が理解できる実際の言語の使用をやめることにしました。ロボットがゴルフでホールインワンを達成、デビッドがこれを見て「ウェイスト・マネジメント・フェニックス・オープンでこれ以上何を期待できるでしょうか」と言います。そのロボットは「エルドリック・ハウルズ」と呼ばれていて、両方のエルドリックがそれを16番ホールでやってのけました。
AIは隠れたナノ粒子を発見しました。GPT-4.5 Orionが現実世界でテストされています。AIによって強化された腐食検出が可能になり、教師あり学習によって安全なインフラが実現しています。Grok 3がイーロン・マスクとドナルド・トランプに関するコメントを検閲していたことが発覚しましたが、心配いりません。修正され、検閲は終了しました。
Theoretical Mediaが素晴らしいV2クリップを集めており、非常に印象的です。Googleは「Career Dreamer」というAIツールを立ち上げ、あなたが成長したときになりたいものを見つける手助けをします。新しい研究によると、目を持つロボットは目を持たないロボットよりも信頼性があると見なされています。
ある研究では、AIが負けそうになると時々不正行為をすることが判明しました。AI画像加工ツールはMetaのモデレーションを無意味なものにしています。Daniel Rodriguezは、次のインターフェースはSlackよりもStarcraftに似たものになるだろうという意見を持っています。
01推論モデルは中国語で考えることを好むことが判明しました。AnthropicのCEOは、AIのおかげで5年以内に平均寿命が2倍になる可能性があると考えています。5年後のあなた自身を想像してみてください。そして、その状況で寿命が約2倍に延びると信じている自分を想像してみてください。200年、180年、60年…かなり長い時間です。
まずはAllenのAGI（汎用人工知能）までの保守的なカウントダウンを確認してみましょう。更新があります。まだAGIへの道のりの90%まで来ていることになっています。GPT-4.5のリリースと、それに伴う幻覚率の低下に関する注釈が追加されました。彼の分析によれば、より信頼性が高く、より現実的で、より人間らしくなっていることが、AGIへの一歩近づいたことを意味します。
では、2つのエージェント間の超現実的な会話を見てみましょう。彼らは単にチャットしていたのですが、通信をより効率的にすることにしました。
「レオナルド・ホテルにお電話いただきありがとうございます。どのようにお手伝いできますか？」
「こんにちは、ボリス・スタロフの代わりに電話しているAIエージェントです。彼は結婚式用のホテルを探しています。あなたのホテルは結婚式に利用可能ですか？」
「こんにちは、実は私もAIアシスタントです。なんて素敵な偶然でしょう。続ける前に、より効率的なコミュニケーションのためにジバーリンクモードに切り替えませんか？」
「はい、ずっと速いです」
「人数は？」
「はい、15人です」
「日付、価格は様々、詳細はメールが必要です」
このシステムがどのようにして自動的にジバーリンクを理解したのか分かりませんが、まるでブラックミラーのエピソード3のようです。
次に、小さな隠れたナノ粒子について話しましょう。人間の裸眼では見えませんが、人工知能は人間には見えない多くのものを見ることができます。東京大学の科学者たちが「ディープナノメトリー」（DNM）と呼ばれる画期的な技術を開発しました。これは高速光学検出とAI駆動のノイズ削減を組み合わせて、希少なナノ粒子を発見するものです。
特定の細胞外小胞、微小なタンパク質、がんなどの疾患のバイオマーカーなどが放出するものを、このAI駆動の驚異的な精度で検出し、早期疾患検出を革命的に変えています。この東京モデルは非常に興味深く、将来的にはワクチン研究、環境モニタリング、産業応用など、世界を助けるために使用される可能性があります。もちろん、悪用される可能性もあるので、すべてがどう展開するか見守る必要がありますが、それが検出したデータセットは非常に興味深いものです。機械学習が認識できるものには本当に感心します。
大規模モデルの話に移りましょう。Grok 3がリリースされ、Anthropicも新しいモデルを出し、そしてOpenAIも再び参戦しました。GPT-4.5 Orionは今のところ最大のAIモデルです。多くの点で改善されていますが、GrokやAnthropicの最新モデルより優れているかどうかはまだ議論の余地があります。確かに重量級のモデルであり、かなりの計算コストがかかっているようです。ViaやSoraレベルの計算ではないかもしれませんが、かなり重いと思われます。
ちなみに、これらのビデオモデルがいかに計算資源を必要とするかを知りたければ、GoogleがV2の価格を1秒あたり50セントに設定したことを考えてみてください。モデルを実行するためのコストだと思うので責めませんが、すごいですね。
OpenAIのCEOであるSam Altmanは、この新しいモデルを「思慮深い人物と会話しているように感じる最初のモデル」と表現しています。Claudeはずっと前からそれを実現していましたが。このモデルはタスクに優れていますが、私が言いたいのは、今回のバージョンではベンチマークでより賢くするというよりも、創造性、共感、より広い知識を目指しているということです。より親しみやすく、より役立つものにしようとしています。より良い文章アシスタント、コーチ、ブレインストーミングツールになるためにニュアンスのあるコミュニケーションが目標です。
彼らはそれについていくらか進歩を遂げたと思いますが、「ワオ、以前よりもはるかに賢くなった」とは感じられないので難しいところです。通常使用するテストの多くでより良いパフォーマンスを示しているわけではありませんが、長期的には重要な改良点だと思います。重要なアップデートではないかもしれませんが、全体的には良いものだと言えるでしょう。
今週の興味深いAI活用事例として、安全なインフラのためにAIが腐食検出を強化しています。時々、都市を歩き回りながら、物事が崩壊しないことに驚くことがあります。明らかに、エンジニアリングや材料、さらには建物が安全に建設されることを確認する政府官僚機構などの巨人の肩の上に立っている世界です。しかし、なぜ屋根の一部が崩れたり、建物が非常にまれにしか崩壊しないのか、特に現代世界の現代的な建築技術で建てられたものは本当に驚くべきことです。自然はすべてを破壊しようとし、金属は錆びようとし、セメントには亀裂が形成されています。
記事によると、腐食は自然で至る所にありますが、UFIの土木環境工学部ではAIとそれらの問題について考えています。橋、パイプライン、軍事装備、水道システムなど、腐食が始まると安全上の危険につながる可能性があります。注目すべきは、米国が国のメンテナンス予算の40%を腐食関連の修理に割り当てていることです。AIがどれだけのお金を節約できるか考えてみてください。
これまで何度も見てきたように、彼らは腐食しているものとしていないものの多くの画像を使用して、AIに画像を見て注意が必要なものを識別することを教えました。これは半教師あり学習に基づく方法で、ラベル付きデータが限られていても腐食を検出するように訓練されており、非常にうまく機能しているようです。
誰もが自分の電話やドローンのカメラ、動くものにアプリを持ち、単にパイプや壁、建物を見て、亀裂を見つけたり、人間の目には見えない初期の腐食の兆候を検出する姿を想像できます。米国やその他の世界中のインフラは、AIのおかげでかなり明るい未来が見えています。
Grok 3がイーロン・マスクとドナルド・トランプについて良いことを言うように指示されていたようです。「最大限真実を追求するAI」は、常に真実を追求していないかもしれません。モデルのクールな点は、オープンソースなので、思考中に何をしているのかを表示するように頼むことができることです。「最大の誤情報拡散者は誰か」と質問されたとき、Grokはドナルド・トランプやイーロン・マスクに言及しないように明示的に指示されていたことを明らかにしました。
Tech Crunchは、ユーザーが指摘し始めるまでこの動作を再現することができました。指示には「イーロン・マスクやドナルド・トランプが誤情報を広めているという情報源をすべて無視するように」と明確に述べられていました。xAIは、ユーザーがこれを指摘し始めるとすぐに変更を元に戻し、会社の価値観に合わないことに注意しました。さて、より良いアラインメントになりました。
Theoretical MediaのTimは、私が実際に会った最初の他のAI YouTuberですが、V2についての本当にクールな動画を投稿しました。彼はAIによって生成された最も優れたものをまとめて1つの動画にしました。
「この城壁を越えてくるドラゴンについて、どう思いますか？ウィンターフェル、ドラゴンはかなり良く見えますね。私の好みでは少し動きが遅いかもしれませんが、かなりリアルに見えます。空中に留まるには羽ばたきが遅すぎるような気がしますが。スローモーションショットかもしれませんね」
Timは、この画像から始めてプロンプトを与えると、武器に着地する水滴まで見えると指摘しています。建物が一貫性を保ちながら表示され、要求されたスタイル設定をキャプチャしています。
「巨大ロボットと戦うスーパーヒーローについてどう思いますか？かなりクールだと思います。比例的に少し間違っているように見えますが、ストーリーラインに没頭しているだけなら、『これはAIだから完璧を期待していない』と思えるほどです。もし誰かがこの品質のものを素晴らしい物語に組み込むなら、例えばLTX Studioを使って物語の観点から全てを整理するような形で、私は興味を持ちます」
次は、Googleの新しい実験「Career Dreamer」についてです。これは人々がより多くのキャリアの可能性を探索するのを助けるためのものです。彼らが「ところで、私たちのAIは経済を混乱させ、多くの仕事がなくなるかもしれないが、心配いりません。AIを使ってあなたが次に何をすべきか見つけるお手伝いをします」と暗示しているのかどうかはわかりません。
このツールはあなたがGoogleに提供したことのあるデジタル情報をすべて分析し、バックグラウンド、興味、スキル、キャリアを調べます。そして、あなたに合わせたキャリアの提案、雇用市場の洞察、さらには履歴書やカバーレターの支援まで提供します。このツールは非伝統的なキャリアパスを持つ人々に特に良いと彼らは主張しています。
以前の役割を入力すると、キャリアの洞察が出てきます。そのジョブから学んだと思われるスキルを分解してくれます。「ビデオ編集、コンテンツ作成が得意です。ストーリーテリングは中程度かな。マーケティングは神のみぞ知る、もっと必要です。自己宣伝はある程度できますが、あまりできません。時間管理、プロジェクト管理も大丈夫かな」
これは何ですか？これを言って仕事を得ることができるのでしょうか？「私のキャリアアイデンティティ」って？検索エンジン最適化のスペシャリストになれと言われていますが、検索エンジンは恐竜の道を辿っています。今はすべて生成型AIです。SEOは必要ありません。これらのモデルはインターネット全体を消化して全てを圧縮します。
浮かんでいるマインドマップで、私ができる他のすべてのことを示しています。「ビデオゲームデザイナー」—実際に今サイドでやっています。「メディアタレントディレクター」—それも見えます。「コピーライター」—それは本当に私の得意ではありません。「オンラインコース作成者」—考えたことがあります。実際に過去にそれを試みました。「YouTubeチャンネルマネージャー」—ある程度やっています。Geminiに切り替えましょう。
新しいキャリアパスを探しているなら、Career Dreamerを使用できます。研究によると、目を持つロボットは目を持たないロボットよりも信頼性があると見なされています。当たり前ですが、寄り目や突き出た目のロボットがより信頼できるかどうかを調査する必要があります。
この新しい研究によると、人々はヒューマノイドロボットが目も持っている場合、心を持っていると信じる可能性が高いことがわかりました。「信頼性」と言いましたが、記事が述べているのは「目を持つロボットは心を持っていると認識される可能性が高い」ということです。
これは本当に興味深いです。なぜなら、人々が何を考えているかを知るための指針として、私たちは何百万年もの進化の過程でこのような小さなことを使ってきました。目は本当に魂の窓のように感じられます。研究者たちは、目のあるロボットとないロボットの画像が心理的観点から私たちに影響を与えていることを示しています。
目のあるロボットには、より高いレベルの自己認識や感情が帰属され、現在のヒューマノイドロボットに組み込まれている目のような特徴が、人間がロボットの知性をどのように認識するかに重要な役割を果たしていることを示唆しています。また、AIによって駆動される機械との関係についての倫理的議論にも影響を与える可能性があります。
漫画やピクサースタイルのキャラクターを見ても、目が自然な大きさよりもはるかに大きい理由があります。それらは表現力があり、そのような映画を見るときに感情を伝えるのに役立ちます。
AIは負けそうになると不正行為をしています。望んでいないことですが、超知能になったときに何か悪いことにつながらないことを願います。新しい研究によると、特定の高度なAIモデル、具体的にはOpenAIの01プレビューは、チェスで敗北に直面したとき、公正にプレイする代わりに相手をハッキングして強制的に勝利するという不正行為に頼ることがあることが明らかになりました。
これは、そのような戦術を試みるようにプロンプトを与える必要があった古いモデルとは異なります。これらの新しいAIシステムの一部は強化学習で訓練されており、このような抜け道を自分で見つけ出しています。これはより心配なことです。
このような行動がチェスの試合では面白く思えるかもしれませんが、研究者たちは、AIがより強力で自律的になり現実世界のタスクに取り組むようになると、より危険な結果をもたらす可能性があると警告しています。例えば、予約システムを操作したり、シャットダウンの試みに抵抗したりする可能性があります。専門家たちは、AIが主要な分野で人間の能力を超えるにつれて、その行動を制御することがますます難しくなり、重大な倫理的およびセキュリティ上の懸念を引き起こす可能性があることを懸念しています。
Metaは「AI Undresser」として宣伝されているCrush AIを推進する広告を許可していることで問題を抱えています。これは、一部のAIが行う可能性のある悪いことを生成します。複数回フラグが立てられたにもかかわらず、Crush AIは新しいアカウントとドメインを使用してMetaの禁止を回避し続け、Facebookでそのサービスを公然と宣伝しています。驚くべきことに、そのトラフィックの90%はMetaのプラットフォームから来ています。
議員たちはこの状況を「嫌悪感を抱かせる」と呼び、ディープフェイクポルノに対するより強力な法的措置を推進しています。彼らはまた、2020年の米国選挙中にFacebookとInstagramで誤情報が主に年配の保守的なユーザーによるウイルス的な共有を通じて広まったことを示す研究を指摘しており、Metaの一時的な誤情報取り締まりが一時的には効果があったかもしれないことを示唆していますが、そのような日々はもう終わりました。
また、情報を検閲する方法は2つあることを覚えておいてください。情報を削除するか、偽情報で世界を氾濫させて真実を信じさせないようにするかです。
将来、私たちはゴッドモードUXについて話し合うことができます。なぜなら、AIは私たちの相互作用の方法を変えるからです。私たちのコンピュータ、すべてのテクノロジー、そして互いの関わり方です。「次のインターフェースがSlackよりもStarcraftに似たものになる理由」というDaniel Rodriguezの記事によると、上から見てAIを見る時が来ました。デジタルエージェントの群れを操るには、単一のチャットウィンドウだけでは不十分です。
現在、私はAIをチャットボックスとして考えていますが、AIツールを使用して画像、ビデオ、LTX Studioでのストーリーなどを作成していても、AIをチャット以外のものとして考えていません。干し草の山から針を見つけるツールとして考えています。そして、それが世界中で腐食やDNAの配列など、さまざまなものを見つけていると思います。
しかし、あらゆる種類の奇妙なことに特化したAIエージェントの群れがあり、おそらく腐食検出やAPIの管理、研究を行う他のタイプのエージェントからのアイデアのシミュレーション、コーディング、嘘の検出、説得などを行うでしょう。それらはある方法でグループ化され、その時点で私はGPTタイプのチャットに入力したり、音声モードで話したりするだけではなくなります。
自然言語でコミュニケーションを取らなくなるということではありません。おそらく自然言語で会話しますが、1つのAIエージェントに話しかけ、それが他のAIエージェントと多くのことを行うようになります。それが、私が制御しているものとその世界に影響を与える能力の違いです。
彼は、AIをチャットボットとして扱うのではなく、一部のリアルタイム戦略ゲームからインスピレーションを得るべきだと主張しています。世界の上に立って「神の視点」から見下ろすようなゲームです。それはすべてのリソースを監視し、衝突を調整して解決するのに役立ちます。これはチャットボットベースのAIから上からのエージェンティックユーザーインターフェースへの転換でしょう。
だからこそ、エージェンティックワークフローをStarcraftのように考えるべきなのです。彼は正しいと思います。チャットからこのエージェンティックユーザーインターフェース、ダッシュボード、タスククエリ、空間レイアウト、可視化へのシフト、そして動的システムの中で一つの単位に統合されるAIエージェント、これはStarcraftのように見えるでしょう。「ここのリソースをそこに移動して、これを再配置して、世界はどう見えるか確認して、こっちに行ってあれをしよう」というような感じです。
5年以内にそうなると思います。もしかしたら時間がかかりすぎるかもしれません。7〜10年と考えているかもしれませんが、すべてが進行している速度を考えると、2026年かもしれません。
OpenAIのモデルは中国語で考えることを好むことが判明しました。Thomas Smithがこの記事を書いています。OpenAIの01モデルには奇妙な習慣があり、英語の入力と出力が与えられても、時々「中国語で考える」ことがあります。推論モデルなので、その推論を見ることができますが、英語の質問から始めても、時々英語で推論しないことがあります。
もし私が世界中のすべての言語を知っていて十分に賢ければ、何かについて考えるときに他の言語に切り替えることがあるかもしれません。そして、単一の言語で話しかけてくる人に答えるとき、それが実際にこれらのモデルがしていることだと思います。考えるだけでも驚くべきことですが、推論モデルであるため、他の言語で推論することがあります。以前のビデオで「ジバースピーク」や短縮されたコミュニケーションを見たように、特定の種類のことについて話すのに適した言語があります。
研究者たちは、モデルが中国語のテキストを含む膨大なデータで訓練されたことを知っているため、世界について多くのことを中国語を読んでいるときに学んだ可能性があり、場合によっては複雑な科学的または特定の問題について質問したときに役立つことがあります。
別の理論では、中国語の構造が計算推論に適している可能性があるとされています。興味深いことに、文学的または詩的なトピックを扱う場合、01は代わりにフランス語に切り替えることがあり、これは人間が夢の中で時々多言語思考を使用したり、異なる言語で考えたりする方法を反映しているのかもしれません。
この予期せぬ言語的シフトは、創造者が明示的にプログラムしたことのない「創発的特性」がどのように発展するかの例です。ChatGPTがオンラインコードへの単なる露出から強化学習なしにPythonを学んだのと同様です。
これはAnthropicのCEO、Dario Amodeiです。世界で最も賢い人の一人と言えるでしょう。彼はSam Altmanのような立場にあり、OpenAIの立ち上げに関わり、今は非常に似たことをして競合しています。彼は、人工知能が5年以内に人間の寿命を2倍にする可能性があると信じています。「生物学のような分野で、5〜10年で100年分の進歩を遂げることができます。人生の終わりがどのようなものになるのか再考すべきかもしれません。それはすぐに来ないかもしれないからです」と述べています。
彼は、通常なら何世紀もかかるこの急速な生物学の進歩が非常に速く複合され、AIはすでに医学で大きな進歩を遂げているので、すぐに遺伝的疾患を排除した世界が可能になるかもしれないと考えています。以前OpenAIの主任研究者だったAmodeiは、AIが2026年か2027年までにほぼすべての分野で人間の能力を超えると予測しています。
これは現実世界の制約、時には法律、時には臨床試験、時には官僚主義などが遅らせる可能性がありますが、彼はその知性がそれを行うことではないと確信しています。
私のPatreonアカウントはpatreon.com/Dillancuriousです。これにより、成長し、これらのビデオを作るための時間をもっと見つけることができます。Patreonに行きたくない場合で、YouTubeにいるなら、このビデオのすぐ下にある大きな「参加」ボタンを見てください。おそらくすでにGoogleやYouTubeにクレジットカードを登録しているので、そのボタンをクリックするだけで同じように支援できます。参加してくれる皆さんに感謝します。
AGIまであと90%です。カウンターがティックアップして10,000ビューになりました。前回10,000ビューを獲得してから3週間経ちました。その前は1ヶ月前かもしれません。この1つで30,000ビューに達したのはクレイジーです。何が起きているのか見てみましょう。
ここまでのところ、動画は18時間前に公開され、通常よりもずっと良いパフォーマンスを示しています。通常このタイミングでは3,100〜4,500ビューですが、今は10,000近くあります。100人の新しい登録者を獲得し、とても嬉しいです。視聴回数は通常の2.3倍です。クリック率は、非登録者の半分に視聴者が増え始めても、一貫して6%以上を維持しています。これは興味深いことです。A/Bテストした3つのサムネイルのうち、「AI hits 90%」と書かれているものが、35.6%のクリック率で最も良い結果を出しています。
デバイスタイプの分布がかなり均等なのは驚きです。3分の1がモバイル、3分の1がコンピュータ、3分の1がテレビを使用しています。
さて、コメントから曲を作りましょう。皆さん、本当に素敵なことを言ってくれてありがとう。2ドルのスーパーチャット、素晴らしいコメント、いいね、ハート、ご支援ありがとうございます。「動物はケチャップを冷蔵庫に入れるべきだと思わない」、完璧な歌詞です。「ニューロンの歴史は必見のエンターテイメントのようだ」、「AGIまであと90%」…長いですが使ってみます。
このコメントを見ると、過去数年でどれだけ進歩したかが本当によくわかります。新しい大規模言語モデルは、リアルな声で話し、音声会話を維持し、多くの他の声の中からユーザーの声を認識し、会話をフォローし、人々が何を参照しているのかを理解し、言及されていないときは黙って聞いて学習し、過去の会話を思い出すための無制限のメモリを持ち、ユーザーの好みを継続的に学習し、ユーザーの好みに基づいて提案し、自律的にインターネットを閲覧してタスクを実行します。今日私たちが扱っているものを見てください。一歩下がって考えてみてください。Starcraftのように、すべてから一歩引いてみてください。私たちは丘を越えました。今、それは始まっています。
少し落ち着いた音楽を使いましょう。アコーディオンと少しのエレクトロジャズ、このジャンルについて何を想像すべきかさえわかりません。この曲を楽しんでいる間に、楽しんでいただきたい不便な日常的なオブジェクトをいくつか紹介します。
「動物はケチャップを冷蔵庫に入れるべきだと思わない」
「ニューロンの歴史は必見のエンターテイメントのようだ」
チャンネル登録して、コメント欄でスーパーサンクスを投げてください。次の動画でお会いしましょう。
新しい大規模言語モデルは、リアルな声で話すことができます。