
3,613 文字

これこそが大規模言語モデルの未来である可能性が非常に高いです。Gemini拡散モデルは、Googleのような本当に大きな研究所から出た最初の拡散ベースのテキスト生成モデルです。これは私がちょうどアクセスを得たモデルです。これはGeminiテキスト拡散モデルの小規模な実験版です。そしてこのモデルは驚異的です。
私がただクリックベイト的な理由でこれが驚異的だと言っているわけではないと思うかもしれません。そうではありません。本当に驚くべきものなのです。この動画の最後に、あなたがいつ見るのをやめたとしても、このモデルが驚異的だと感じたかどうか、そして拡散モデルが未来になり得ると思うかどうかを教えてほしいです。これは私がGemini拡散を使って作成したとても単純なゲームです。
とても簡単なプロンプトを試して、それがどのように機能するか見てみましょう。「ホットドッグかホットドッグではないかの5×5のチックタックトーゲームを作成してください。美しく光るUIと正確なスコアリングを持たせてください。」それだけです。この指示を与えただけで、作業が始まり、コードはほぼ完成しています。コードはこのようにすぐに利用可能になり、そのスピードは驚異的です。
合計2.26トークンで、わずか2.4秒しかかかりませんでした。つまり、毎秒94トークンです。これがGrockのように何らかのカスタムチップで実行されているのかどうかはわかりません。しかし、これは絶対に素晴らしく、非常に非常に高速です。ホットドッグかホットドッグではないかのゲームができました。ここでプレイできます。どのシンボルを使うべきか指定しませんでした。
「アイコンを絵文字に更新できますか?ホットドッグと、たぶん雪の結晶」と言うことができます。なぜホットドッグと雪の結晶というこの奇妙な組み合わせを思いついたのかわかりませんが。コードが話している間に更新されているのがわかります。ホットドッグ、雪の結晶、ホットドッグ、雪の結晶、そして5×5のホットドッグかホットドッグではないチックタックトーができました。
これはかなり印象的です。これらのことに詳しくない方のために説明すると、拡散モデルは自己回帰モデルが生成してきた方法とは全く異なるテキストを生成します。自己回帰モデルでは、生成は左側から始まり右側へと進み、また左側に戻って右側へと進みます。これによりレイテンシーが増加し、他の多くの問題を引き起こす可能性もありますが、拡散は完全に異なる方法で機能します。
拡散は破損したテキストのようにすべてのテキストを生成し、それをゆっくりと修正して、最終的に正しい答えに戻ります。これは画像では非常にうまく機能しており、テキスト拡散モデルはあまり見られませんでしたが、これはかなり素晴らしいです。さて、戻って、何か凝った質問をするのではなく、すべての大規模言語モデルに尋ねてきた質問をしてみましょう。
「strawberry(イチゴ)にはいくつRがありますか?」見てのとおり、strawberryには3つのRがあります。すでに答えをくれました。「Rを数えましょう」と言っていますが、なぜか見逃してしまいました。2つのRだと言っています。同じ質問をもう一度して、答えに大きなばらつきがあるかどうか見てみましょう。
さて、今度は「strawberryのRを数えましょう。strawberry」と言っています。なぜかこのRをハイライトしませんでしたが、それでも3つのRがあると言いました。とても興味深いですね。Simon Wilsonの非常に人気のあるプロンプトを試してみましょう。「自転車に乗るペリカンのSVGを生成してください。」
これをコピーして、SVGビューアに行き、貼り付けることができます。そして、自転車に乗るペリカンが見えます。とても面白いです。自転車というより、トロンバイクのように見えますが。とにかく、これが生成されたものです。では、私たち独自のニードル・イン・ア・ヘイスタック(干し草の山の中の針)バージョンを試してみましょう。
ウィキペディアのページで、フィッシャーランダムチェスが1回だけ出てくるページを持っています。ここに貼り付けて、「フィッシャーが何回言及されているか教えてください」と尋ねます。更新して質問したところ、「フィッシャーは2回言及されています」と答えました。どこですか?というのは明らかな幻覚です。なぜなら、実際には1回しか言及されていないからです。フィッシャーという名前が出てくるのはフィッシャーランダムの箇所だけです。「本当に2回ですか?」と確認すると、「申し訳ありません、数え間違えました。実際には1回だけです」と修正しました。
次に、チェーン・オブ・ソート論文からの数学の問題を、チェーン・オブ・ソートなしで解けるかどうか見るために尋ねたいと思います。「カフェテリアには23個のリンゴがありました。昼食を作るために20個のリンゴを使い、さらに6個買いました。カフェテリアには何個のリンゴがありますか?」答えを見てみましょう。
答えは9です。そして「正確に9です」と言っています。今、同じ質問をしますが、少し変えてみます。「昼食を作るために20本のバナナを使い、さらに6個買いました。何個のリンゴがありますか?」すると「リンゴの数を特定します。29個です。なぜなら、20本のバナナを使ったからです。バナナに関する情報を特定します。20本のバナナを使いました。この情報はリンゴの数に関係ありません。」
質問から気をそらそうとしても、リンゴに関する答えという質問の焦点を維持しようとしていることがわかります。「Little Coder Labs(フォーチュン500企業向けのAI研究コンサルティング)のためのシンプルなHTML5ランディングページを作成してください。実際には私の夢ですが。」見てみましょう。
非常にシンプルで超高速な…「アニメーションやFramer Motionのハイライトのようなものを追加できますか?」と言ってみます。コードが更新されています…コードが更新される速度は、何が起きているかを見るために実際に動画を遅くする必要があるほどです。では、いくつかの論理的推論の質問を試してみましょう。LLMに尋ねてきた質問があります。
「ラマという女の子には5人の兄弟がいます。各兄弟には2人の姉妹がいます。ラマには何人の姉妹がいますか?」この質問で、Gemini拡散がどう解くか見てみましょう。ラマは女の子で、ラマには5人の兄弟がいます。これは家族に5人の男の子がいることを意味します。各兄弟には2人の女の子がいます。ラマは姉妹の一人です。
各兄弟に2人の姉妹がいて、ラマがその一人なら、家族にはもう一人の姉妹がいるはずです。したがって、ラマには1人の姉妹がいることになります。これは非常に興味深いです。正しい答えを導き出すことができました。この種の複雑な質問では、スピードが変わっていることがわかります。
自己回帰モデルではないためトークンを生成するスピードが、どれだけ考える必要があるかによって変わる可能性があります。質問が簡単なほど、トークンは速くなります。これは私の推測です。現時点でGoogleからこれを説明する技術論文はありませんが、私の観察によれば、より多くの熟考を必要とする質問をすると、時間がかかります。明示的な思考はありませんが、最終的な答えを出すのにより多くの時間がかかります。数学に移って数学の質問をしてみましょう。
「レオの課題は3つのパートに分かれていました。最初のパートを25分で終えました。2番目のパートを終えるのに2倍の時間がかかりました。2時間で課題を終えることができた場合、レオが3番目のパートを終えるのに何分かかりましたか?」正解を見てみましょう。
45分が絶対に正しい答えで、解答手順も示されています。この答えを出すのに毎秒365トークンかかり、45分が正解です。
このモデルはコーディングが非常に得意なだけでなく、私のテストでは、ご覧のように論理的推論も得意であることがわかりました。どこからともなく現れた拡散モデルがこのようなことができるのは非常に興味深いです。以前にテキスト用の拡散モデルは見たことがあり、チャンネルでも取り上げましたが、大きな研究所からのものとしては、大規模言語モデルがどのように作成されるかというゲームの一段階上のように思えます。
これが大規模言語モデルの未来の一端であると私は信じています。コメント欄で皆さんがどう感じるか教えてください。YouTube説明欄にウェイトリストのリンクを貼っておきますので、登録してこれで遊んでみてください。また別の動画でお会いしましょう。ハッピープロンプティング。


コメント