
9,209 文字

これはGoogleの最新モデルの一つですが、なかなか変わっています。Gemini Diffusionと呼ばれるもので、今ご覧いただいているのはリアルタイムで起こっていることです。早送りではありません。ここで私は約30秒で7つの異なるアプリを作成します。このモデルはGemini 2.5 Proのような強力なものにはならないでしょう。
しかし、ご覧の通り、本当に高速です。しかし、さらに興味深いのは、このテキストとコードをどのように作成するかです。さて、これはGemini Diffusionの早期プレビューです。まだ開発の初期段階ですが、これまで見たことのないほど異なっているという点で興味深いものです。速度に注目してください。
1秒強で1,300トークンを吐き出します。私が見た中で最高は1,600ほどだったと思いますが、おそらくもっと高くいけるでしょう。これはハリー・ポッターの全巻が約22分で書けるということです。ここで木琴を作りたい場合は、それをクリックします。そして1.5秒後、木琴が完成します。
これで話している間にサウンドトラックを付けることができます。ペンギンの宇宙飛行士というものを試してみましょう。これらはGoogleが提案する事前に構築された組み込みプロンプトのようなものです。提案プロンプトと呼ぶのがより適切でしょう。宇宙飛行士になることを夢見るパーシーという名前のペンギンについての物語を書いてください。とても長く、予想外の展開に満ちたものにしてください。
ここで3.5秒で約2,600トークンです。トークンはもちろん完全な単語であったり、時には大きな単語が複数のトークンに分割されたりします。句読点なども全てトークンを消費します。平均的には100トークンが約75単語と考えることができます。この蛍をクリックすると、限られた箱の中で動く蛍のシミュレーションを作成すると言っています。
ここで箱の中の蛍の数を変更でき、それらはカーソルに引き寄せられます。興味深いことに、これはかなりクールです。繰り返しますが、これはGemini 2.5のように複雑で興味深く強力なものにはならないでしょう。まだこのようなものから次世代の驚くべきソフトウェアが生み出されることは期待しないでください。
しかし本当に高速です。拡散モデルが何かを理解するために少し時間を取りましょう。自己回帰とは、いくつかのテキストを吐き出し、次に来る単語を予測することを意味します。その予測は以前の全ての単語に基づいています。その前に来るものが次に来るもののコンテキストです。私たちはどこにいるのでしょうか。そして「行く」が予測です。これが自己回帰です。
そしてそれは毎回ループします。これは実際にそれを表す素晴らしい小さな図解です。「昔々」と言うと、ラムが「ある」を予測し、それから始めます。「昔々ある」で「時」を予測します。「昔々ある時」でそこにある次の単語を予測します。次の単語は何でしょう。次の単語を予測できますか。「昔々ある時そこに」。
「いた」がおそらく最も可能性の高い単語だと感じるでしょう。あるいは「住んでいた」のようなものかもしれません。「昔々ある時そこに姫が住んでいました」。これを私たちは順次トークン予測と呼びます。次のものを順番に一つずつ予測します。これは全てを順番に行わなければならないため、より遅くなる可能性があります。
また、これがだんだん長くなっていくにつれて、想像できるように、それら全てをコンテキスト内に保持することがますます困難になります。これがあまりにも長い入力や出力があった場合にコンテキストウィンドウの問題に遭遇する理由です。「昔々ある時そこに」に到達すると、戻る必要があるけれど戻れない場合があります。バックスペースできないのです。
ある程度制限されています。いくつかの単語を予測した後はエラーを修正できません。拡散モデル。そしてこの新しいモデルは拡散モデルです。少し異なって動作します。私たちは様々なオブジェクトの画像を与えてそれを訓練します。念頭に置いていただきたいのは、拡散モデルのほとんどは画像モデルだったということです。
今私たちはテキスト拡散モデルを見始めています。しかし画像がどのように動作するかを理解する方が簡単だと思います。私たちはこの画像にノイズを加えます。意味がなくなるまで、ページ上のランダムな点の塊になるまで、ランダムな静的ノイズを追加します。ここでこの犬がどんどんノイズまみれになって何も見えなくなるまでの様子が見えます。
ここにはデータがありません。これがモデルが訓練されるものです。そして私たちはそれを逆に実行します。ランダムなノイズだけのランダムな画像を取って、「これを犬に変えろ」と言い、それを逆向きに実行します。犬がいるかもしれない場所の断片をゆっくりと埋めて、そのデノイジングプロセスを何度も繰り返して、最終的に犬の画像を得ます。
この背後にある数学について語る素晴らしい動画がオンラインにあります。しかし発表者が持ち出した興味深いアイデアの一つは、実際にミケランジェロがこれを言ったということでした。「全ての石のブロックには中に彫像があり、それを発見するのが彫刻家の仕事だ」。
拡散モデルがまさにそれをやっていると考えることができます。このノイズの多い画像を取って、実際の画像になるまでゆっくりとデノイズします。これが意味するのは、順次次トークン予測の代わりに、全体が一度に起こり、それが反復的であることです。つまり、これをやってからこれをやってからこれをやります。
それはデノイジングプロセスのいくつかの段階を歩むようなものですが、全体の画像に対して一度に動作しています。これは並列処理のようなもので、一度に一つずつ順番に全てを行うのと比べて、はるかに高速になる可能性があります。画像全体のスコープに対して一度に作業し、そのグローバルな一貫性をより簡単に維持できます。以前に行っていた全体のチェーンを覚えている必要がなく、全体のスコープを見ているからです。
想像できるように、反復で描いている場合、特定の間違いを修正したり、いわば大まかなストロークから始めて、より細かい詳細にズームインしたりできます。私にとって最も魅力的な論文の一つは「Beyond Surface Statistics」と呼ばれるものでした。
これらの拡散モデルが何をすべきかをどのように理解し、特定のオブジェクトをどのように描くかについてです。彼らがそれらのスキルをどのように習得したかは、かなり驚くべきことだと言えるでしょう。それについてはすぐに触れますが、まずは手短に。これがGemini Diffusion、実験的テキスト拡散モデルです。参加したい場合はウェイトリストに登録してください。
私は昨日登録して今日取得したので、約一日かかりました。結果は人によって異なるかもしれませんが、彼らは大規模言語モデルが生成AIの基盤だと言っています。今日私たちはディフュージョンと呼ばれる技術を使用して、ユーザーにテキスト生成においてより大きな制御、創造性、速度を与える新しい種類の言語モデルを探求しています。
これは拡散モデルがどのようにテキストを作成し、テキストを修正するかの図解です。実際、これは何をしているかが見えるように減速されています。なぜなら、ご覧になったように、このモデルは驚くほど高速で結果を生成するからです。これらのモデルが今後進歩していく中で期待される利点は、すでに迅速な応答、速度を見ています。
より一貫したテキストを約束します。トークンのブロック全体を一度に生成するため、ユーザープロンプトにより一貫して応答し、自己回帰モデルよりも反復的改善を行い、生成中にエラーを修正してより一貫した出力を得ます。ベンチマークはこちらです。ご覧の通り、Gemini 2.0 Flash Lightと非常に似ています。小さなモデルである少し古いモデルですが、この拡散モデルはそれと非常に匹敵するようです。
ここで実行できることの例をいくつか示します。画像を作成できないと繰り返し言います。実際にはできます。HTMLで行います。コーディングしているのです。ここで見ることができるように、私はアニメーションする丸いドラゴンクリーチャーを作成するよう依頼しました。そこにあります。ここで見ることができるように、上下に浮かんでいます。そしてここで追加を行う方法です。周りに火を追加すると言います。このリクエストを手伝えません。
これは非常に初期のものなので、大目に見てください。しかし見ることができるように、このドラゴンクリーチャーの周りに浮かんでいる炎を追加しました。ご覧の通り、2.1秒かかります。電光石火の速さです。作成しているビデオゲーム用の簡単なビデオゲームアニメーションを作成したい場合、この場合はHTMLでコーディングしていますが、他の言語でもできると確信しています。
描いたり、他のAI生成ソフトウェアで生成したりするよりもはるかに高速かもしれません。そして異なる追加を行うことができます。攻撃アニメーションを作りたいとしましょう。攻撃アニメーションを作成してと言います。多くの不満を言われています。最初に始めた時の方がずっと良かったです。
今はより多くのリクエストを拒否しています。しかし、これは初期テスト、ベータなどです。睡眠アニメーションを作成してと言います。それは暴力的でないでしょうか。それが問題でしょうか。目を閉じて眠っています。それはかなりクールです。今度は目覚ましアニメーションで目を覚ますようにします。そこで何をするか見てみましょう。
しかし見ることができるように、それはかなり良いですよね。一度だけやりました。ループさせましょう。一度だけでしたが、ループに設定できると確信しています。目覚ましで起きているようです。ここで非常に迅速にコードの小さな断片を作成するのが超簡単だと見ることができます。1.1秒かかりました。
動くウサギのいる森を作ってと言います。再び、HTMLで行き、小さな森を作成します。これらのウサギは動いていますか。見てみましょう。ちなみに、必要であればここでコードを見ることができます。吐き出すもののほとんどは通常数百行です。199行、通常一般的に期待するものですが、動いていません。
新しいコンテキストを始めましょう。同じことを尋ねます。2秒で、これを思い付きます。今度は何かが動いています。小さなウサギが奇妙に動いているのが見えます。浮かんでいるウサギのようですが、すべてのもの、すべての変更をいかに迅速に作るかが見えます。ここでは惑星三目並べゲームを作らせています。
プレイヤーに土星と地球の絵文字を使用する4×4の三目並べゲーム。私は土星になります。それが地球の手番です。ここに行きます。私が何をしようとしているかあまりにも明白でしょうか。そうではないようです。私の勝ちです。AIは少し作業が必要です。しかし三目並べAI、拡散AIではありません。なぜならこれはかなり良く見えるからです。すべてを上手く決めました。
マトリックススタイルでヘビゲームを作って。果物を食べる時に震えるようにして。そして始まります。何秒かかるか見てみましょう。3.7秒。それはかなり良いです。ここで何が起こっているか見てみましょう。何らかの理由で、果物を食べていません。果物がプレイヤーとは異なるグリッド上にあると伝えました。
まだ何もしていません。果物を食べることができません。修正して。一つのことは、間違いを犯しても、それを修正する速度のために大丈夫だということです。コードを変更する速度が速いのですが、何らかの理由でここで問題が発生しています。どれくらい速く書けるかという点で、トーストをクリックします。トーストの利点を説明して10の他の言語に翻訳してと言っています。ここで見ることができるように、多くの異なる言語に翻訳しています。毎秒千トークン、7.5秒で約8,000トークン。
多くの異なる言語で。これを取って、実際に20の他の言語に翻訳してと言います。40にしましょう。どこまで行けるか見てみます。そしてそれをそこに貼り付けます。どれくらい速くやるか見てみましょう。そして始まります。読むことすらできません。
どの言語が提示されているのか読むことすらできません。とても速いのです。非常に速く過ぎるので何が書かれているのか理解できません。つまり、言語が馴染みがあるかどうかも見ることができません。これはリトアニア語です。そして英語でそう言っています。アイルランド語のような名前ですよね。しかし飛び去っていくのでこれを読むことすらできません。
ここで見ることができるように、16,000トークンを生成しました。残念ながら、サービスがクラッシュしました。申し訳ございません。私がこれをオンラインに投稿した時、多くの人がコーディングはどれくらい良いのかと尋ねていました。次世代的なものは期待しないでください。大規模言語モデルが現在の支配者です。
Gemini 2.5 Pro、Claude 3.5、3.7、OpenAIの03や4 miniなどに匹敵するものは何もありません。それに近いものは何もありません。そしてもちろん、Grokは3.5をまもなく取得する予定です。それが出たら間違いなくテストします。そしてGrok 4が今年後半に投下される予定です。
Grok 3.5は先週か2週間前に出る予定だったと思いました。ウェブサイトが変わっているのを見ることができます。彼らは物を追加していました。何らかの前進の勢いを見ましたが、まとまりませんでした。しかし、このバージョンのGrokは悪いコーダーではありません。3.5と4で大きな飛躍があれば、確実にとてもエキサイティングになるでしょう。最高のコーディングモデルの競争において、また一つの非常に強力な競争相手が現れるでしょう。
Claudeがそこにあることを言い忘れると多くの人が不満を言ったり、Grokが存在することを言及すると怒る人もいます。みんなお気に入りがあるからです。しかし要点は、そこで競争している素晴らしいモデルが多いほど、私たちにとって良いということです。より良いモデルをより安く手に入れることができ、競争が生まれ、私たちの勝利です。しかし手短に、Beyond Surface Statisticsという論文があります。
ハーバード出身で拡散モデルについてですが、大規模言語モデルについてのOllo GPTと呼ばれる非常に似た論文があります。それらすべてには、これらのものがどのように機能するか、なぜ賢いのか、なぜこれらのことができるのかを垣間見せる非常に興味深い部分があります。ここで言っているように、これらの拡散モデルは現実的な画像を生成する印象的な能力を持っていますが、どのように機能するかは私たちにとってまだ謎です。
例として、明示的な深度情報なしに純粋に画像で訓練すると言っています。つまり、2D画像を与えます。そこの深度については教えません。考えてみてください。家の写真を見せると、それは平坦な画像です。平坦な平面上のピクセルです。
あなたは以前に家を見たことがあるので、3D空間でどのように見えるかを理解できます。この側に行った場合、この側、上から見た場合などがどうなるかを考えることができます。それは実際の3D世界で深度を見たことがあるからです。その実際の画像にはその情報は全くありません。
平坦な平面上のピクセルに過ぎません。これらの2D画像でこれらのモデルを訓練し、どういうわけか彼らは3Dシーンの一貫した画像をまとめることができます。光がどのように機能するか、反射、影がどのように機能するかなどを理解しているようです。オブジェクトの深度と3D性を理解しているようで、多くの人がこれは表面統計のようなものだと言います。ある種の相関関係を理解しているのです。
犬と言うと、特定のピクセルの統計的分布を理解しています。犬を見たい場合、その説明を以前に聞いたことがあります。私には理にかなったことがありませんでした。これらのものが何をするかを十分に見ていれば。それが単なる統計だという考え。それが表面的なものを超えた何か他のことが起こっているようで、私たちが完全に理解していないものです。
最終的に統計かもしれませんが、どのように、ここで言っているように、「道路の車」という言葉を取って道路の車の写真に変える方法は謎です。ピクセル値と単語の間の表面的な相関関係を記憶するのでしょうか。それとも車、道路、そして通常どのように配置されるかなどのオブジェクトの基礎となるモデルのような、より深いものを学習しているのでしょうか。これがより起こっていることのようです。彼らはこれらのモデルの一つを訓練しました。
再び、3D深度情報はなく、2D画像のみで、モデルの内部動作を調べるためにプローブを使用して、それがどのようにしてそれらの画像を作成しているかを見ました。そこでプロンプトAMG 30 1933 minor 2Cを与えます。特定の車ですね。これが車の外観です。
拡散モデルがデコードを開始します。最初のものは、ノイズか、ここで何かをデコードし始めているかもしれません。ステップ1、ステップ2、ステップ3、ステップ4、ステップ5。ステップ5までに、車の輪郭を見ることができます。ここで形を取っているのを見ることができます。これは正常です。これは私たちが知っていること、見ることができることです。しかし、このプローブを使って、画面上のものをどのように表現しているかを調べることができました。
興味深いことに、彼らが発見したのは、画像をデノイズし、画像を作成するこのプロセスの初期に、内部表現から深度があったということです。前景がどこにあるか、背景がどこにあるか、カメラアングルから何が遠いか、何が近いかのアイデアを持っていました。それをサポートするデータは全くないことを念頭に置いてください。そのような概念をただ理解しただけです。この赤はカメラに近いことを意味します。青は遠く離れていることを意味します。
この画像を見ると、あなたに最も近いものは何でしょうか。おそらくこの車輪です。あなたから最も遠いものは何でしょうか。それは向こうにあるもの、木々の線か何かでしょう。最初のステップから、何をしているのか本当に見ることができませんが、これが何になるのか分からなくても、このものが私たちに近くなることを知っています。
そしてこの青は背景にあります。遠くにあります。続けていくと、形を取っているのを見ることができます。ここは画像から深度を判断できる別のものです。そして顕著なオブジェクト。主要なオブジェクトが何かを理解しているようです。この車と言うと、非常に早い段階からここに車が行くことを知っています。
主要なものがここに行き、その周りのすべてが草や何かのような装飾だということを知っているようです。Andrew AngとJeffrey Hintonの間の興味深いインタビューがあり、ある時点でAndrew AngはAIモデルが世界を理解しているかと言い、彼らは理解していると思うと続けています。彼は2つの論文、GPTと恐らくこのBeyond Surface Statistics論文を、彼が言っていることの支持として話しています。
これらのモデルは、理解を世界で何が起こるかを予測できるメンタルモデルを持つことと定義すれば、ある意味で世界を理解しているかもしれないと言っています。このモデル、このAIモデルが、3Dworld について何らかの内部モデルを脳内で開発したとすれば、それを見たことがないにも関わらず。2D画像しか見ていません。しかし、これがどのように機能するかを考えました。影がどのように機能するか。光がどのように機能するか。車とは何かです。
それらの画像を作成する方法についてある種のメンタルモデルを開発します。そして大規模言語モデル、alphafold、その他すべてがどのように機能するかも同様でしょう。それらはこれらの答えを予測するためにある種のメンタルモデルを作成します。そして、これらのモデルが理解しているかどうかについて話している場合、それは本当に理解をどのように定義するかにかかってきます。世界の結果を予測するメンタルモデルを持つことと定義すれば、確実に理解のように見えます。人間の理解と同じではないかもしれませんが、世界のある種の理解です。なぜなら、2D画像しか見ていないからです。
十分な2D画像を見ることで、深度について理解し始めます。それは以前に遭遇したことのない抽象的な概念に過ぎません。3Dworld、そこにある現実世界のもののように私たちに見える、私たちには良く見える画像をどのように作成するかを理解するために作られただけです。
Gemini Diffusionをチェックしてください。速度を見るためです。素晴らしいものは期待しないでください。しかし、これが完全に異なるアプローチであることを理解してください。このものがコードを生成できるという事実はかなりワイルドです。なぜなら、何かを書く時、どのように書くでしょうか。一度に一文字ずつ書きます。次に来る単語を予測し、書き続けます。紙を取って陰影をつけ始め、時間の経過とともにこの文章が現れるような、単語ごとに予測するのではなく文章全体を生成することを想像できますか。それはかなりワイルドに思えます。
それができるという事実は考えるべき興味深いことです。そして、これが有望な道筋であり、Googleがそれを開発し続け、時間をかけて大規模言語モデルが現在どれほど優れているかに近づくことができる方法であるなら、それは信じられないことのように聞こえます。なぜなら、高速だからです。長期的な一貫性があり、ステップバイステップで物事を作成しながら間違いを修正するこの反復プロセスを持っています。
何かがうまくいかないのを見ると、その場でそれを修正することができます。とても興味深く、これがAI進歩の全く新しい道筋であることを願っています。しかし、ここまで来た場合、あなたの考えを聞かせてください。私の名前はWes Robです。ご視聴ありがとうございました。また次回お会いしましょう。


コメント