元Google AI専門家が世界初のAGI対応システムを主張 – しかし誰も話題にしていない…

AGI・ASI
この記事は約12分で読めます。

元Google社員が設立したIntegral AIが、世界初のAGI対応モデルの開発を主張している。同社CEOのJad Tafariは、GoogleのジェネレーティブAI初期チームで先駆的な研究を行った人物である。彼らが定義するAGIは、自律的スキル学習、安全で信頼性の高い習得、そしてエネルギー効率という3つの基準を満たすシステムを指す。従来のAIシステムがブラックボックスとして機能し、入力と出力を単純にマッピングするのに対し、Integral AIは人間の新皮質を模倣した階層的抽象化を構築するアプローチを採用している。デモンストレーションでは3D環境でのナビゲーションや効率的な問題解決能力が示されたが、査読論文やコードの公開がなく、独立した検証が行われていない点で懐疑的な見方もある。Deep Mindの2017年の類似研究と比較しても、透明性や検証可能性に欠けるという指摘がある。

Ex Google AI Veteran Claims Worlds First AGI Capable System - And Nobodys Talking About it...
Checkout my newsletter : - 🐤 Follow Me on Twitter 🌐 Learn AI With Me :

AGI達成?

元Googleの社員がAGIを達成したと主張しています。いえ、これはクリックベイトではなく、私たちはこれについて話す必要があります。

この人物はJad Tafariです。この方は著名なAI専門家であり、Integral AIという会社のCEOで共同創業者なんです。驚くべきことに、この人は実際にGoogleの初期ジェネレーティブAIチームで先駆的な研究を行い、その後退社して汎用人工知能に焦点を当てた自身の会社を立ち上げました。

彼は実際に自由ベースのAIという新時代を提唱しており、効率的な世界モデリングシステムを推進し、最近では従来の博士号が時代遅れになる可能性があると示唆しました。これはかなりバズったんです。皆さんのほとんどはこれを知らなかったでしょうが、もちろん、これがあなたがここにいる理由です。

彼がツイートしたこの内容をご覧ください。今週、Integral AIは世界初のAGI対応モデルを発表しました。これはエージェントが安全に、効率的に、そして信頼性を持って自律的に新しいスキルを学習することを可能にする画期的な成果であり、エンボディド超知能のための基盤モデルです。

低い注目度と疑問点

私が最も興味深いと思うのは、録画時点で、このツイートがわずか565ビュー、リツイートが5件、いいねが6件しかないということなんです。おそらく単に誰も知らないだけなのか、それともこの主張に何か問題があるのかもしれません。通常、AGIの主張であれば、特に元Googleの社員からのものであれば、もう少し注目を集めると予想していたのですが、私たちはこれらの主張と彼らが正確に何について話しているのかを深く掘り下げていきます。

彼らが投稿したリンクにアクセスすると、世界初のAGI対応モデルと書かれているのが分かります。彼らはこう述べています。私たちは、安全に、効率的に、そして信頼性を持って自律的に新しいスキルを学習する、機械知能における画期的な成果である、世界初のAI対応モデルを発表できることを嬉しく思います。このマイルストーンは、現在のAIシステムに内在する限界に対処し、真の汎用性と超知能を達成するためのスケーラブルなフレームワークを確立するものです。

AGIの厳密な定義

最初に彼らが行うのは、AGIの厳密な定義を示すことです。彼らは、AGIという用語は精密さを欠いたまま頻繁に使用されていると述べています。明確にするために、私たちはAGIを3つの中核的な基準を満たすシステムとして定義します。

自律的スキル学習。モデルは既存のデータセットや人間の介入に頼ることなく、新しい領域で独立して新しいスキルを教え込む必要があります。これは本当に重要なポイントだと思います。今私たちが目にする多くのモデルは、おそらく多くのベンチマークに過剰適合しているでしょう。

次に、安全で信頼性の高い習得。副作用や致命的な失敗なしに学習する必要があると述べています。例えば、料理を学習するキッチンロボットは、訓練中に火災を引き起こしてはいけません。

そしてもちろん、エネルギー効率。学習の総コストは、人間が同じスキルを習得するコストと同等か、それ以下でなければなりません。

これらのポイントの多くが本当に重要だと思います。なぜなら第一に、自律的スキル学習は人間が自然に行うことだからです。ほとんどのAIシステムよりもはるかに優れた形で、その場で学習することができます。そしてもちろん、私たちは、もちろん超複雑なタスクでない限り、かなり簡単に物事を学び習得することができます。そして、ここでの重要なポイントの一つはエネルギー効率だと思います。人間の脳は驚くほどエネルギー効率が良く、現在のものよりも桁違いにエネルギー効率が高いのです。詳細に入る必要すらありません。

現在のAIシステムの限界

彼らは、もちろん主張について話していますが、私が皆さんにこのデータをすべてお見せしている理由は、実際にページに何があり、彼らが何について話しているのかを示すためです。彼らは、後でインタビュークリップをお見せしますが、現在のAIシステムはブラックボックスとして機能し、明示的な抽象化や基礎となる世界の首尾一貫した理解なしに、入力を出力にマッピングしているという事実について話しています。

これらのシステムは記憶と汎化を混同しており、非効率性を招いています。構造化された抽象化が欠如しているため、モデルは力ずくの最適化に依存し、膨大な計算リソースを消費しながら、局所最小値に対して脆弱なままです。そして脆弱性については、解釈可能な表現がないため、新しいシナリオで壊れやすくエラーが発生しやすくなっています。これは非常に真実です。

これらの両方は、標準的な大規模言語モデルに関して非常に重要です。彼らは基本的に、これとこれから見ていくものがあるため、これが彼らの新しいアプローチだと述べています。つまり、パラダイムシフトを行っているということです。彼らは、人間の新皮質を反映する明示的な階層的抽象化を作成するように設計されたパラダイムシフトだと述べています。

3段階の構築アプローチ

彼らがこれを構築した方法には3つの段階があります。第一段階はマルチモーダルでエンボディドであるということです。シミュレーターは多様なモダリティからのデータを統合します。つまり、視覚、言語、音声、物理センサーで、領域を超えて汎化する統一された世界モデルを生成します。

次に階層的抽象化があります。感覚データを再帰的に圧縮し構造化することで、シミュレーターは現実の階層化された表現を構築し、高レベルの推論と予測を可能にします。

そしてもちろんスケーラブルな成長。静的なシステムとは異なり、ユニバーサルシミュレーターは生涯学習を通じて動的に成長し、壊滅的な忘却なしに知識を保持し洗練させ、パラメータサイズ、コンテキスト長、モダリティ、カバレッジを必要に応じて段階的に拡張していきます。

もちろん、皆さんが見たかったものの一つはデモンストレーションでした。今は画面が黒いのですが、これから彼らの最初の3D AGIデモンストレーションの一つを再生します。彼らは、モデルが小さな2D及び3D環境でナビゲートし問題を解決するように訓練され、記憶や空間推論のようなスキルを発展させると述べています。

デモンストレーションの内容

私はこの主張に少し懐疑的で、後で話しますが、もちろん、これを皆さんに全く判断なしでお見せしたいと思います。

寝室にマグカップを置き忘れたかな? リビングルームの壁は何色? 絵を掛けたいんだけど。寝室の壁の幅はどれくらい? トイレットペーパーは切れてる? もう一つの寝室に何台の車を停められる?

私たちのエージェントが新しい空間に足を踏み入れるとき、何が待っているかは分かりません。地図も事前の指示もなく、ただ自分の世界を理解するという目標だけがあります。一歩一歩、探索を始め、情報の断片を集め、心の中に絵を形成していきます。

私たちのモデルは、探索を導くために未来予測を使用します。私たちはその目的を定義する質問を提供します。家のどこかにノートパソコンを置き忘れたか? はい、ドアのそばのテーブルの上にあります。

すべてのゲストのための十分な座席があるか? 部屋には一つのソファがあります。

探索の仕方を学ぶことで、単に観察するだけではありません。信頼性の高い結果を保証するために、信頼度レベルを使用して結果を予測し、可能性を検討します。次の動きを計画するために、エージェントは可能な未来をサンプリングし、内部的にそれらを評価します。タスクをどれだけうまく解決できるかに基づいて各予測を採点してから、最も有望な経路を選択します。

動きながら、マルチモーダルエージェントは自分が知っていることを評価し続けます。能動的学習を通じて、知覚と動きを洗練させます。探索すればするほど、計画が良くなります。

効率的な計画と人間の視覚の類似性

ここで彼らが効率的な計画について話しています。これは彼らの2番目のデモンストレーションです。

あなたは気づかないかもしれませんが、あなたの目は素早く小さなジャンプ、サッケードと呼ばれる動きをします。サッケードは、あなたの焦点をある重要な領域から別の領域へと移動させます。各ジャンプの間に、あなたの脳は見えないものを構築します。つまり、目は最も重要なところに移動して知覚するのです。あなたは世界を断片的に見て、脳が残りを埋めるのです。

私たちのAIは似たようなことをすることを学びます。人間の目のように、AIは発見するために最も重要なパッチを探し出します。目と口角から始めて、その人が笑っているかどうかを判断するために焦点ポイントのマスクを外します。モデルは必要な場所のパッチのマスクを外します。

質問が背景色についてである場合、代わりに外側の端から始め、関連するものに焦点を当てます。精度が向上します。より少ない一瞥で信頼度が上昇します。私たちと同じように、一度に一つのパッチで絵を構築します。

推箱パズルのデモンストレーション

次のデモンストレーションは推箱実験と呼ばれるもので、AIが人間よりも大幅に速く問題解決の効率性を達成できる方法を実証することを目的としています。チェスのグランドマスターになるのに約10年かかるのと同じように、AIは計算能力と最適化されたアルゴリズムを活用することで、ほんの一部の時間でプロフェッショナルレベルに到達できます。

見てみましょう。これは動きと計画のゲームです。本当の課題は、目標に到達する最も効率的な方法を見つけることです。各ステップで、どの方向にも移動したり、ブロックを押したり、回り込んだりできます。それでは、どのように決定するのでしょうか?

推測する代わりに、AIは自問します。このパズルを解くまでどれくらいの距離があるか? パズルを見て、完了するのに必要なステップ数を推定します。ステップが少ないほど、その経路は有望です。

経路を検討する際、残りのステップが多すぎる場合、AIは保留してより良い選択肢を探します。より少ないステップで見つかれば、それに高い優先度を与えます。

AIは単にランダムにすべてを試しているのではありません。先を考え、各可能性をチェックし、最も有望な動きを最初に選んでいます。

この最初のパズルは、AIがまだ学習中で、非効率的なものを含む経路をテストしていることを示しています。しかし、新しいパズルごとに良くなっていきます。AIが時間をかけて学習し続けるにつれて、間違った方向転換が減り、より賢い決定が見られるようになります。

最初はシステム2の計画として始まったものが、システム1の直感的な生成として内面化されます。何をすべきかだけでなく、なぜある経路が別の経路より優れているのか、そしてそれを完全な自信を持ってどのように選択するかを学ぶシステムです。

Deep Mindとの比較と懐疑的な見方

興味深いことに、実際に少し調査を行ったところ、Deep Mindが実際にかなり似たようなことをしていたことが分かりました。

Deep Mindの2017年の研究「想像力強化エージェント」では、彼らの想像力のあるエージェントは推箱レベルの85%を解決したのに対し、標準的なモデル3エージェントは60%でした。そしてこの研究は本質的に査読されました。これは2017年に行われ、コードと方法論が利用可能な状態でNeurIPS 2017で発表されました。

私がこのAGI主張全体に少し懐疑的である理由は、査読すべきものが何もないからです。コードもありません。方法論もありません。彼らは、モデルがマスターを空白状態から取得し、単にシミュレーションとの相互作用によってルールとプロフェッショナル戦略を学習したと主張しています。しかし、重要なことは、これらのデモがどのように実施されたか分からないということです。独立した検証がありません。

通常、このようなことを主張する企業がある場合、外部企業はAPIアクセスや、ARC AGIベンチマークのような異なるベンチマークを通じてそれらを検証できます。APIを通じて企業にテストしてもらい、他のモデルと比較してどこでスコアを記録するかを見るでしょう。

さらに非常に興味深いのは、自己定義された成功基準があるということです。問題は、この会社が独自の指標を発明し、その後自らが優れていると宣言したことです。これはレースを主催して、「これがルールです」と言ってから、他の誰も走らせずに自分が勝者だと言うようなものです。

これらすべてのことが、私を少し懐疑的にさせます。彼らがAGIを達成しなかったとは言っていません。ただ、AI コミュニティで通常期待されている結果はどこにあるのか、そして通常AIカンパニーが持っている大規模な資金調達はどこにあるのかと言っているだけです。おそらくこの人たちは資金調達を必要としないほど裕福なのかもしれませんが、それでもあまりにも多くのことが合致していません。デモも含めてです。

AGIを達成した会社にしては、デモの品質が少し低いように見えます。このインタビュークリップの残りをお見せしたいと思います。彼らは実際にAGIに必要なアーキテクチャについて話しているからです。興味深いことに、実際には彼らがAGIの一般的なアーキテクチャについて間違っているとは思いません。

インタビュー:3つのブレークスルー

今のところ、デモがないだけです。つまり、彼らが超興味深いものをリリースしない限り、実際にこれを達成したと信じるのは本当に難しいでしょう。もちろん、繰り返しになりますが、彼らは元Googleの社員です。まあ、この人は元Googleの社員です。だから能力を疑っているわけではありません。情報の提示方法が興味深いだけです。

私たちはブレークスルーを3つのサブコンポーネントに分けています。一つは、予測のみのモデルから抽象化と予測モデルへ移行するためのアーキテクチャ上のブレークスルーです。つまり、純粋に予測するのではなく、世界を明示的に抽象化してから予測するモデルです。

そして、なぜそれが重要なのか、なぜ実際に多くの科学者もそれを試みているのかについて話すことができます。しかし、私たちはそれを行うための正しいアプローチを持っていると考えています。それがアーキテクチャ上のブレークスルーです。

そして、学習方法のブレークスルーがあります。これは、模倣学習や強化学習として分類できる現在の方法を超えるものです。新しい学習パラダイムはインタラクティブ学習であり、外科的に行動を起こすための効率的な計画を可能にします。その行動は物理的な行動である場合もあれば、質問である場合もあり、それをモデルにフィードバックし、継続的学習のブレークスルーを適用することで、モデルは自己改善できます。つまり、インタラクティブ学習によってモデルは自己改善できるようになったのです。

そして3つ目のブレークスルーはアライメントのブレークスルーです。これは基本的に、これらのモデルが世界で安全に動作することを保証する方法です。彼らがこれらの外科的な行動を行う際に、意図しない結果を引き起こさないようにし、スケールするにつれて安全性があることを確認します。

すごい、これは驚くべきことです。正確に言うと、私たちが明らかにするものは、AGI対応モデルと呼んでいるものです。なぜなら、AGI自体はモデルとその学習方法の特性だからです。エンドシステムではありません。エンドシステムとは、環境との相互作用、経験を通じてそれをスケールアウトしたときのことです。そして私たちは、これが超知能へスケールするための正しいモデルであると信じています。

それでは、皆さんがどう思うか教えてください。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました