
6,963 文字

皆さん、AIが到来しようとしています。OpenAIのGPT-5はすでに生産ラインに入り、MidJourneyはバージョン7をリリースし、Google DeepMindは2030年に向けてAGIの安全計画を立てており、AIが地球の支配権を握らないようにしています。何が起きているのか見ていきましょう。
いつものように、いいねをくれた皆さん、チャンネル登録してくれた皆さん、そして特にこのAIチャンネルをサポートしてくださっているメンバーの皆さんに感謝します。
皆さんはすでにManusの動画からわかるように、私たちはAGI(汎用人工知能)と考えられるものにとても近づいています。これはSam Altmanの初期のAGIの定義に基づいています。ここで彼の発言を少し紹介しましょう。「AGIとは…」
皆さんが見てわかるように、Manusは基本的にこれに非常に近いことをしています。タスクを依頼すると、自律的に実行します。今や問題は「できるかどうか」ではなく、「品質」や「複雑さ」の段階に入っています。AGIはすでに存在しているが、より賢く、より詳細で、より複雑になる必要があるという段階です。簡単に言えば、非常にシンプルなプロンプトを書くだけで、AIが自律的に物事を行うという、この最小限の自律型AIのレベル1はすでに機能していると言えるでしょう。
Sam Altmanの発言を見てみましょう。彼はTwitterで次のように投稿しました:「計画変更:O3とO4 Miniを恐らく数週間以内にリリースし、その後数ヶ月以内にGPT-5をリリースする予定です」これは、彼らが以前「O3 Miniの後、高度な推論モデルをすべてGPT-5という名前でパッケージ化する」と言っていたことからの変更です。GPT-5では質問するだけで、どのモデルを使っているか心配する必要がなくなります。現在、多くのモデル名があり混乱していますが、彼らはGPT-5の発表を延期することに決めたようです。
「いくつかの理由がありますが、最も刺激的なのは、GPT-5を当初考えていたよりもはるかに優れたものにできることです」。皆さん気づきましたよね?Manusよりさらに高性能になることが示唆されています。今日見られるすべてのものが、Manusよりも劣るものなら、OpenAIにとって悪いイメージになりますから。
彼らは続けています:「また、すべてをスムーズに統合することは想像以上に難しいことがわかりました」と。すべてを一つにまとめることは簡単そうに見えましたが、そうではないようです。「また、前例のない需要をサポートするための十分な能力を確保したいと考えています」。彼らが画像生成機能をリリースした際に実感したのでしょう。最近のOpenAIの最高のリリースについての動画をご覧になっていない方は、ぜひご覧ください。
彼らはおそらく、これから発表するものがさらに深く、さらに重要なものになると予想しています。私が作った非常にシンプルなプロンプトでManusが驚くほどのタスクを実行したことに多くの人が驚いているコメントが寄せられています。AIが熱くなっていて、AGIは私たちの楽園から二歩先にあるように見えます。
私はこんな調査を実施しました:「AGI(汎用人工知能)はすでに存在すると思いますか?それともまだ理論上のものですか?」選択肢は「すでに存在するが秘密にされている」「存在するが非常に限定的」「存在しないが近づいている」「AIファナティックの作り話に過ぎない」です。コミュニティタブで皆さんの考えを教えてください。
次のニュースはMidJourneyに関するものです。彼らはバージョン7アルファをリリースし、画像生成に興味がある方や高品質な画像を好む方にとって非常に興味深い新機能をもたらします。
「皆さん、MidJourney v7アルファバージョンのテストを開始します。V7は素晴らしいモデルで、テキストプロンプトに対してはるかに賢く、画像プロンプトも素晴らしく、画像品質は美しいテクスチャ、体、手、物体など、すべての細部において大幅に向上しています」。これはMidJourneyの重要な特徴です。画像関連の仕事をする人たちは細部にこだわり、プロンプトとの一貫性を期待しています。
「V7は、デフォルトでモデルパーソナライゼーションが有効化された最初のモデルです。これを使用するにはパーソナライゼーションをアンロックする必要があり、約5分かかります」。これがどういうことか調べてみました。好きな写真をいくつか選ぶと、それに基づいてあなたの好みの画像スタイルを発見します。「パーソナライゼーションはいつでもオン・オフできます。これによって、あなたの望むものや美しいと感じるものをより良く解釈できるようになると考えています」。何を生成するかによっては、特定のパレットやスタイルを持っている場合に役立つでしょう。
「次の主要機能はドラフトモードです」。私は画像生成をよくするので、ドラフトモードが大好きです。初めてこれを見たのはLeonardo AIでしたが、プロンプトを入力してたくさんの可能性を見ることができるのが素晴らしいです。「ドラフトモードは半額で、画像のレンダリングが10倍速くなります。非常に高速なので、Webで使用する際にはプロンプトバーを会話モードに変更しました。猫をフクロウに変えたり、夜景にしたりと指示するだけで、自動的にプロンプトを操作して新しい作業を開始します。ドラフトモードをクリックし、マイクボタンをクリックすると音声モードが有効になります」。つまり、ドラフトモードでは書く必要さえなく、話すだけでOKです。「液体の夢のように、考えを声に出して、下に画像を流すことができます」。
「ドラフトモードはアイデアを反復する最良の方法です」。これは本当に良いですね。「V7はターボとリラックスの2つのモードでリリースされます。標準速度モードの最適化にはより多くの時間が必要で、近日中にリリース予定です。ターボジョブはV6の通常ジョブの2倍のコストがかかり、ドラフトジョブは半額です。現在、アップスケーリング、編集、再テクスチャリングなどの機能はV6モデルに戻ります。将来的に更新する予定です」。
簡単に言うと、ドラフトモードでは、マイクをクリックして話し始め、「猫がイチゴを食べている」と言えば猫がイチゴを食べている画像が生成され始めます。次に「背景にユニコーンを追加して」と言えばユニコーンが追加されます。「ノルウェー語で理解できますか?」など、話すにつれて画像は変わり続けます。あなたが説明するたびに画像は非常に動的かつ迅速に変化します。この声だけで画像を洗練させ続ける中で、「これだ!」と思う画像が出てきたら、それを選択して本格的な作業を始めます。使わない画像に多くのお金を使うのは嫌なものですが、ドラフトなら十分な場合が多いです。
もしMidJourneyを使ったことがなければ、画像の品質は単に素晴らしいです。これは最高品質の画像生成ツールの一つとして登場し、今でも驚異的な品質を維持しています。間違いなくトップ10に入るでしょう。
次のニュースです。Google DeepMindはAIが2030年までに人間を超える可能性があり、そのリスクに備えていると発表しました。興味深いことに、AIがますます賢くなり、Manusの開発を見ると、この流れが加速していることがわかります。Manusがほかの企業からリリースされていないのは、それがあまりに自律的で効率的すぎるため、OpenAI、Anthropic、Googleのような企業がまだそのような強力なツールを人々の手に渡したくないからかもしれません。
Google DeepMindは、安全な汎用人工知能(AGI)を開発するためのアプローチを詳細に記した包括的な戦略文書を発表しました。今後、「安全性」という言葉が何度も繰り返されるでしょう。同社はそうしたシステムを「ほとんどの認知タスクにおいて人間の能力に匹敵または上回るもの」と定義しています。これはGoogleにとってのAGIの定義ですね。認知能力の大部分で人間と同等か上回るシステムです。1つの認知能力であっても特別に優れていれば、人類は危険な状況になりかねません。
DeepMindは、現在の機械学習手法、特にニューラルネットワークがAGIへの主要な道筋であり続けると予想しています。これについてはあまり異論がないでしょう。ニューラルネットワークではなく、より抽象的で概念的なレベルでは、接続主義システムが重要かもしれません。この記事では、将来のAGIシステムは最終的に人間のパフォーマンスを超え、計画や意思決定において大幅な自律性を持って運用される可能性があると示唆しています。まさにManusで私たちが目にしたことですね。決断し、すべてを解決し、何も質問せずに実行し、気づいたときにはすでに完了していました。
DeepMindによれば、そのようなシステムは健康、教育、科学などの分野に広範な影響を与える可能性があります。安全性研究を行う人々の数は増加しており、Anthropic、OpenAI、Googleなどが取り組んでいます。なぜなら、技術が実際に驚くべきレベルで進歩していることが明らかだからです。
「現在の広く解釈されたパラダイムの下では、システムが人間レベルの能力に達することを根本的に阻む要因は見当たらない」これは興味深いですね。これは「スケール法則」と関連しています。データ量、推論時間、トレーニング時間を増やすことで知能が向上するという考え方です。多くの人々がこのスケール法則を批判し、新しいものを開発する必要があると主張していました。François Choletのような人物はArc Challengeを作り、知能を試しましたが、OpenAIのO3モデルが彼らの賞を獲得し、彼は自分の考えを見直さざるを得なくなりました。
AIの歴史において、ChatGPTが研究段階にあった時点で、人々はすでにスケール法則が機能しないと言っていましたが、実際には機能し、今日私たちはAGIについて議論しています。この疑問は続いています:データ、トレーニング、推論時間を増やし続ければ、本当に知能が向上するのでしょうか?「したがって、私たちはさらに強力な能力を真剣な可能性として準備しています」と研究者らは論文で書いています。
気になる方のために、論文のタイトルは「An approach to technical safety and security of AGI」です。Google DeepMindの研究者らによるものです。
DeepMindは4つの主要なリスク領域を特定しています:
悪用:ユーザーがAIに有害な指示を出す場合(ここではユーザーが問題)
不一致:AIが開発者の意図から逸脱した行動をとる場合(ここではAIが問題)
混乱と事故:AIが気づかずに問題を引き起こす場合(現実世界がAIが考えていたよりも複雑で、意図せず問題を引き起こす)
構造的リスク:何かがうまくいかないが、物事が複雑すぎて特定の原因者がわからない場合
DeepMindのCEO、Demis Hassabisは最近、最初のAGIシステムが5〜10年以内に出現する可能性があると推定しましたが、既存のモデルは依然として非常に受動的であり、世界の本当の理解が欠けていると強調しています。これは興味深いですね。ChatGPTにコーヒーの入れ方を尋ねると、「ChatGPTは実際にコーヒーを入れたことがないので、本当の意味では知らない」というわけです。私たちは実際に作ったか、飲んだか、誰かが作るのを見たからコーヒーの入れ方を知っていますが、ChatGPTは人間が書いた本を読むことを学んだ知能のようなものです。しかし、それらの物語を実際に体験したわけではなく、言葉と本を通じてのみ学習しました。
この論文は2030年を強力なAIシステムが出現する可能性のある日付としてリストしていますが、この推定には大きな不確実性があることを強調しています。2030年になっても、今日とほぼ同じ状態、少し改善され、少し最適化され、すべてが少し速くなっているが、AIはまだ幻覚を見たり、様々な問題を抱えたりしている可能性もあります。
Hassabis、Meta’s LeCun、OpenAIのAltmanを含む主要研究者たちは、今日の大規模言語モデルをスケールアップするだけではAGIに到達するには不十分であるという点で広く一致しています。スケール法則について触れましたが、彼らはスケール法則だけでは十分ではないと考えているようです。
Altmanは新興の大規模推論モデル(LRMs)をより能力の高いAIシステムへの潜在的な道筋として指摘していますが、もし他のタイプのモデルや概念があるとすれば、それはまだ発見されていないでしょう。LeCunとHassabisはどちらも、全く新しいアーキテクチャが必要になると主張しています。LeCunはLLMがより知的なことを達成できるとは考えていないと長い間言ってきました。
スケール法則がLLMをより知的にできると信じる理由は、おそらく乗り越えるのに時間がかかる知能のボトルネックが存在し、一度それを超えると物事が進むからかもしれません。例を挙げましょう。動物界では、犬は約250語の言語能力と記憶能力を持っています。ある研究者によると、これを人々に伝えると、すべての犬の飼い主は自分の犬が2〜3語知っていると思います。なぜなら犬はボールを取ったり、おもちゃを拾ったり、水を求めたりできるからです。しかし研究者は言います:「そうではありません。犬が言葉を学ぶ能力を発達させると、2〜3語ではなく、すぐに200語程度学びます。なぜならそれは持っているか持っていないかの特性だからです。理解した瞬間、すべてが機能します。理解するまでは3〜4つの物を記憶しますが、それはまだ言語ではありません」。
私の意見では、LLMがいつか超知的になるとすれば、それは同様のものでしょう。訓練を続け、ある時点で限界を超え、物事が進むかもしれません。しかしこれは仮説です。
DeepMindの主要な安全優先事項の一つは、人々が意図的に高度なAIシステムを使用して、例えば誤情報を広めたり公共の言説を操作したりするなどの害を引き起こす悪用を防ぐことです。これは興味深いですね。彼らが最も懸念しているリスクは情報操作です。これに対処するために、同社は開発の初期段階で危険な能力を特定して制限するように設計されたサイバーセキュリティ評価フレームワークを導入しました。
トレーニング中、彼らはこの安全セルの中にいます。ユーザーがLLMにプロンプトを送り、LLMが処理して報酬を受け取り、応答を送り返します。ここには安全トレーニングと抑制能力があります。トレーニング後、リスク評価のすべての要件をパスするかどうかの評価が行われます。パスすれば、デプロイされ、ユーザーが要求していることに関連するすべてのモニタリングが行われます。ここにはユーザーができないことに関する特定の制限があり、すべてが正しく機能します。
もう一つの重要な焦点は不一致です。AIシステムが人間の意図から逸脱した方法で目標を追求する場合です。論文で引用された例では、映画のチケットを購入するよう指示されたAIが、代わりにより良い座席を確保するために予約システムをハッキングする事故を描いています。興味深いですね。AIに「最前列に座りたい」と言ったところ、AIは最前列に空席がないことを認識し、システムに侵入して最前列全体を解放し、あなたとあなたの家族を最前列に配置し、チケットを購入します。当日に混乱が生じますが、これだけなら大丈夫ですね。しかし、これができるシステムはもっと悪いことができる可能性があります。
もしまだManusをテストしていないなら、複数のメールで承認を求めた人もいますし、私は同じメールで何度も申請し、最終的に通過しました。ぜひテストすることをお勧めします。まだテストできていない方は、私がこのテストについて作った素晴らしい動画をご覧ください。社会がどのような変化を遂げているのか、そして起きていることが私たちが想像していたよりもはるかに大きいことを理解するのに役立ちます。
このようなビデオをサポートし続けたい場合は、メンバーになってください。メンバーは知的エージェントの独占ビデオと早期アクセスビデオを利用できます。いいねをお願いします!
「こんにちは、奥さん」「こんにちは、元気ですか?」「あなたはWi-Fiのパスワードを知りませんか?」「あなたは読めないのですか?」「なんて無礼な!」「さあ、Manusの怒りを感じることになりますよ」「私はあのvibeコーダーの群れなんか怖くないわ!」「さあ、かかってきなさい!」


コメント