Google発表の全て

14,570 文字

Google's IO announcements were wild: deep thinking Gemini model, AI Glasses, a new diffusion model, a new video model, a...

Googleの発表会、今年のIOは本当にすごかったです。深く思考するGeminiモデルからAIメガネ、さらには月額250ドルの新しいサブスクリプションまで。彼らは多くのものを披露しました。また、新しいディフュージョンモデル、古いコードベースを新しいパッケージやバージョンに移植するための新ツールもあります。
さらに、ビデオモデルとAIメガネも登場しました。そう、Android XRがついに動き始め、間もなく発売されるであろうAIメガネが登場しましたが、それらはかなり厳重に管理されているようです。話すことはたくさんあります。特にこういったものを使って遊ぶのが好きな私たち開発者にとっては。そして私はそれについて詳しく話すのがとても楽しみです。
しかし、この月額250ドルのサブスクリプションを支払えるようにするためには、はい、実際にこのために購入しましたが、誰かが請求書を負担する必要があります。だから、本題に入る前に、今日のスポンサーからの簡単な言葉を。
私はさまざまなクラウドプロバイダー間を行き来するのに少し時間を費やし過ぎてきました。そして学んだことは、特定のものが得意なことと、そうでないことがあるということです。JavaScriptホストが大好きですが、最高の開発者体験は他の言語を使っている人々には本当に利用できていませんでした。Savalaが始まるまでは。
Savalaは、WordPressホスティング会社であるKinstaの一部です。しかし、WordPressをホストするためには、データベースからCDN、サーバーまで基本的にすべてを行う必要があります。そして彼らはそれらすべてを取り、製品として提供することにしました。そしてそれはとても素晴らしいのです。彼らはGoogle CloudとCloudflareの上に構築されており、統合ステップを除けば本当に優れたプロバイダーです。最近両方のダッシュボードでかなりの時間を費やした人として、Savalaは私が戦ってきたすべての問題をすぐに解決できたと思いますし、もっと多くのことに彼らを使えばよかったと思います。
そしてダッシュボードを一度見ると、本当に理解できるようになります。彼らはあなたのためにサーバーをデプロイします。Cloudflareを使ったDOS保護もデプロイしてくれます。文字通り設定ボタンでCDNをオンにすることができます。スイッチを押すだけでOKです。Railsの開発者として、CDNをあなたのものの前に置くのがどれほど面倒か知っていますか？私は彼らについて多く話しましたが、最近の改善点をいくつか強調したいと思います。
彼らはサーバーサイドのためのこれらの非常に便利な機能をすべて追加しました。ワンクリックでワーカージョブやcronを作成できます。毎日数回何かを自動的に実行したい場合、cronの式を入力し、実行するコマンドを指示するだけで、このコードベースの残りと同じコードを実行しているサーバー上でそれを実行します。それがどれほど便利で、他の場所で行うのがどれほど面倒か知っていますか？それはcronジョブを実行するためのボックスを立ち上げるだけです。
そして明らかに、自動デプロイ、プレビュー環境、そしてJS開発者として私たちが期待するすべての素晴らしい機能もここにあります。プルリクエストをプッシュして、ワンクリックでそれらの変更が本番環境にどのように影響するかを確認するためのプレビュー体験を持つことができます。JavaScriptではないものを使用している場合、または通常のサーバーに戻りたい場合は、彼らをチェックする必要があります。
今日のビデオのスポンサーになってくれたSavalaに感謝します。soyv.link/savalaで今すぐチェックしてください。何が起きているのかを理解するために試してきたものをお見せできるのがとても楽しみです。私はたくさんのビデオを生成しました。それは見ないでください。話すことはたくさんあります。
まず最初に、Geminiファミリーのモデルの変更について話しましょう。前述のように、彼らはGemini 2.5エコシステムにDeep Thinkを追加しています。確かにそれはProの一部で、より多くのツールコールなどがありますが、まだリリースされていないので確実には分かりません。他のモデルと比較しても、さらに03と比較しても、非常に高いスコアを記録しており、これは驚くべきことです。USMOはかなり良いテストですが、コードスコアは本当に輝いているようで、これまでのところほぼすべてのものを上回っています。
2.5 Proが急速に他のほぼすべてのモデルよりも人々が使用することを好むものになったことを考えると、これはある意味で狂気じみています。2.5 Proの速度と03または04 Miniの深い思考を組み合わせることができれば、これは素晴らしいものになるでしょう。このモデルを使用する感覚にとても興奮していますが、まだどれくらい速く実行されるのか分かりません。
彼らが共有した情報はかなり限られていましたが、前述のように、安全であることを確認するためにより多くの時間をかけるため、まだ使用することができません。彼らは特にまず最初にフロンティアの安全性評価をより多く実施したいと明言しました。
ただし、2.5 Flashを改善したのは良いことです。特に思考をオフにすると、まあまあですが、20 flashと比較して特に素晴らしいわけではありません。少し良くなりますが、50〜100％も費用がかかります。つまり、素晴らしくはありませんでした。そして、推論をオンにすると、それは非常に高価になり、04 Miniのようなものと比較できるようになりました。なぜなら、出力価格が非常に近いからです。
彼らがこれを真剣に受け止めていることを見て嬉しいです。また、R1を直接取り上げるなど、市場の他のモデルを無視していないのも良いことです。しかし、彼らはプレゼンテーションにちょっと気まずいスライドを入れました。彼らは「20は市場の誰よりも1ドルあたり24倍の知性を持っている」と言いましたが、スピーカーはすぐに「GPT-40よりも24倍高い知性/ドル」と言いました。
GPT-40よりも1ドルあたり24倍の知性。それは意味があります。しかし、彼らが引用しているのは20 flashであって2.5ではないことに注目してください。まるで2.5があまり良い価値ではないことを知っているかのようです。2.5 flashが私を失望させた理由について全体的な分析をしたいです。20よりは良いですが、そんなに素晴らしくはありません。2.5 Proは素晴らしいモデルですが、2.5 Flashは私が期待していたほど印象的ではありませんでした。
しかし、このスライドをさらに面白くしたのは、スピーカーがすぐに「そして、Deep Seek R1よりも1ドルあたり5倍高い知性」と続けたことです。つまり、市場の誰よりも25倍高いと言ったのに、彼らが文字通り挙げた市場の競合他社よりも5倍高いだけだと言ったのです。
メッセージが混ざっています。私の推測では、彼らは正直にこれらのスライドを作るのに苦労したのだと思います。それらは最後の瞬間に、よく知らない誰かによって作られたのでしょう。ソースは「3月の人間の好みによるLLMを評価するためのオープンプラットフォーム」です。参照するのにあまり良いものではないと思います。
とはいえ、この男性が話していたことを楽しみました。彼が出てきた発表の一つは、彼らが行っているTPUの驚くべき改善でした。既に知らない人のために、Googleのものでの最も印象的なことの一つです。明らかに、彼らはデータを制御し、トレーニングを制御し、APIを持っていますが、彼らは自分でチップも作っています。GoogleはTPU（テンサー処理ユニット）を自作しています。
GPUのようなものだと考えてください。TPUの目標は、推論とAIのことを本当に効率的に行うことです。そして、Googleはこれらすべてのことを行う唯一の企業であり、推論を実行するTPUを作り、トレーニングに必要なデータを持ち、モデルを作成する科学者と、モデルを消費するためのAPIサービスとユーザー向けのものを持っています。
彼らはそこで本当にユニークな相乗効果を持っており、他の企業は近づいていません。できるかもしれない唯一の企業はAppleですが、彼らは現在全く成功していません。TPUに関する大きな発表はIronwoodで、42.5エクサフロップスのものです。本当に狂気のような計算量です。正直にとても馬鹿げています。
昨年11月時点での世界最強のスーパーコンピュータは1.742エクサフロップスで、彼らは42.5を主張しています。これはかなり馬鹿げています。その数字には多くの注意点があると確信していますが、それでも見るのはエキサイティングです。Ironwoodの数字を詳しく調べれば調べるほど、それはより恐ろしいものになります。これは多くの人が打ち負かすことができない優位性です。それは7.44テラバイト/秒のHBM帯域幅を持つことができます。それは実際に彼らが非常に効率的に訓練するような狂気のことをできることを意味します。
彼らは、消費電力あたりの計算量が大幅に向上したことを示しましたが、これも素晴らしいです。2018年に初めてこれを試みたときと比べて、消費電力は約30倍効率的です。ワットあたりのパフォーマンスは2倍高くなっています。つまり、彼らは実際にAPIをさらに安くすることができるかもしれません。20 flashよりも安いものを作ることはないと思いますが、2.5 Proはより大きなコンテキストウィンドウを使い始めると高価になります。これらのチップを活用して多くのものの価格を下げるかどうか見ると良いでしょう。
彼らはそうする必要があります、本当に。これらのものの価格設定は馬鹿げたものになっています。彼らはこれを活用する必要があります。しかし、Ironwoodについて覚えておくべき狂気のことは、他の誰もこの利点を持っていないということです。NvidiaがGPUに改善を加えれば、すべてのAIが速くなります。GoogleがTPUを改善すれば、Geminiだけが速くなり安くなります。
これは彼らが持っている大きな競争上の優位性であり、他のモデルプロバイダーが行うことができないことを可能にします。そして、彼らのLLMがなぜそんなに速いのかの大きな理由です。20 Flashを自分のハードウェアで実行するとどれくらい速く実行されるか誰も知りません。Googleが私たちに伝え、与えてくれることしか知ることができません。そして彼らが実行しているものは信じられないほど強力です。
他のすべてに移る前に、Geminiへのさらなるいくつかの改善があります。Geminiへのネイティブ音声出力がありました。これはさまざまなことを行うことができる1つのモデルを持つことが少し狂気じみています。そして、私が聞いた限りでは、音声の品質は本当に良かったです。
デモの一つはAndroid XRを使ったメガネのことでしたが、彼らの接続は悪かったので、その時は詰まってしまいました。しかし、ほとんどの場合、それはかなり印象的でした。それは私がそれほど気にしていることではありません。しかし、私が気にすることの一つはコンピュータの使用であり、彼らはそれも非常に真剣に取り組み始めています。
彼らはあなたの電話があらゆるウェブサイトで検索したり何かをしたりできるようにしたいと考えており、Googleはそれをすべて自動化できる数少ない企業の一つです。興味深いことに、彼らがそこで何をするかを見るでしょう。しかし、これらの最近の発表で私のお気に入りのことは、考えの要約です。これがこれほど長い時間がかかったとは信じられません。
ご存知ない場合、思考モデルを使用すると、それは自分自身で考え、答えを計画し、自分の仕事をチェックし、答えを出す前に前後に話し合います。Deep Seek 1（蒸留版ですが、同じことです）に話しかけて「ブラックホールは本当に存在しますか？」と尋ねると、それは推論しています。そして中を見れば、この質問にどう答えるかを決める際に自分自身に言っていることがすべて見えます。そして推論が終わったら、下に実際の答えがあります。
R1が出る前は、あまり多くの思考モデルはありませんでした。大きなものはOpenAIからの01でした。OpenAIはウェブサイト上でモデルが考えていることを少し表示していましたが、完全な推論データを表示していませんでした。そしてより重要なことに、APIを通じてそれをまったく提供していませんでした。だから、03や01などのこれらのモデルを使って何かを生成しようとすると、思考が終わった後のこの部分だけが返ってきて、他は何も返ってきませんでした。
これは多くの理由で最悪ですが、最大の理由はユーザー体験です。このAPIを使って何かを構築しようとしている場合、ユーザーは推論が完了するまで単にローディングスピナーを見るだけです。そして、その間何が起きているのかを伝えたり、そのステップ中に何をしているのかを示すことができなければ、最悪です。
OpenAIは推論データを隠蔽し、理論的には他の人がそれを訓練に使って同様に良いモデルを作ることができるため、人々がそれを取得することを許可しないという標準を設定しました。OpenAIはそれで一歩踏み過ぎました。
聞いた限りでは、彼らはそれを少し後悔しているようです。しかし、R1が出てきて、完全な推論データを提供しました。それはオープンウェイトモデルなので、そのデータを使用してテストし、好きなことをすることができます。OpenAIがここで標準を設定したので、Googleはそれに従い、Googleの思考モデルは思考データを与えていません。
あなたがCursorとして知られている特別な雪片でない限り。信じられないかもしれませんが、CursorでGemini 25 Proを使用すると、他の人がアクセスできない特別なAPIにアクセスできます。なぜなら、それらは完全に考えることができるからです。だから、このフックのパターンを取ってそれを再利用可能にするというタスクを与えると、すぐに何を行うかについて考えている計画データが表示されます。
最近まで、Cursorだけがアクセスできました。彼らはある時点でいくつかのテストグループを入れたことを知っていますが、それは素晴らしいことでした。私は入れませんでした。そして今、ついに彼らはこれを全員に公開しています。彼らはコース修正を撤回しています。OpenAIがそれを行ってから1ヶ月半しか経っていないのは少し面白いです。OpenAIは有名な閉鎖的な企業ですが、Google は制限しても何も得られないデータを共有することで OpenAI に負けてしまいました。
しかし今、新しいGemini 25 ProまたはFlashバージョンでこれを行うと、25 Flashを使用すると、推論データが得られるようになります。狂気です。誰が考えたでしょうか？
また、気づかれなかった場合、T3チャットベータには楽しい新機能があり、リトライやフォークをクリックすると、テストしたいさまざまなモデル間をすばやく切り替えることができます。それは非常に楽しく、この機能なしでどうやって生きてきたのかわかりません。
ところで、T3は月額わずか8ドルです。使いたいと思うすべてのモデルにアクセスできます。独自のキーを持ち込む機能も追加しました。多くの素晴らしい機能があります。無料枠も非常に寛大です。そして、1ヶ月無料が欲しい場合は、「freethinking」コードを使用して1ヶ月無料を取得できます。最初の500人がそれを行った後、おそらく50％オフに下げる予定です。つまり、50％オフになります。遅れてきてごめんなさい。また、キャンセルして再サブスクリプションしないでください。そのようには機能しません。
もしそうすれば、それは私たちの数字を傷つけるだけで、あなたはコードを使用することができず、誰もが悲しくなります。とにかく、Google、ついに推論データを提供してくれてありがとう。ずっとそれについてあなたを悩ませてきました。ローガンは私のハラスメントにとても忍耐強く対応してくれました。そして、ついにこれを持つことができて良かったです。
最後にGeminiのことをもう一つやらなければなりません。ディフュージョンモデルは技術的にはGeminiだということを忘れていました。Geminiディフュージョンは本当にクールです。20フラッシュライトのパフォーマンスを5倍の速度で提供します。これは狂気じみています。なぜなら、20フラッシュライトは既にかなり馬鹿げていたからです。
artificial analysisに行きます。それはこれらすべてをチェックするための最高のサイトです。数字を見てください。Googleは25フラッシュ推論のためのより高いトークン毎秒を報告しているようです。しかし、彼らは完全な推論データを提供しないことを覚えておいてください。だから、多くの推論トークンを生成してから、それをはるかに小さい数に要約している可能性があります。だから、25フラッシュ推論はフラッシュライトよりも速く感じません。フラッシュライトはかなり馬鹿げています。すべての推論モデルでほとんど他に見たことがないようなものです。
彼らが多くのことを考えるかもしれないので、トークンごとの秒数を信頼することを躊躇します。たくさんの思考データを吐き出してそれをあなたに与えなければ、それは実際にはそれほど速くは進んでいません。大手プロバイダーからの最速の非思考コアモデルは断然2aフラッシュライトです。だから、それよりも5倍速いことは狂気です。どれくらい狂気？JavaScriptについての10の詩を書いてください。
今エンターキーを押します。終わりました。これは狂気じみています。これは実際に馬鹿げています。しかし、詩はどうでしょうか？「スクリプトが点火する圧力。論理の明るい言語が目覚め、HTMLとCSSで。それは立ち上がり、ページを活気づけ、国中に広がる。シンプルなクリックから壮大な機能まで。」まあ、いいですが、速いです。そして、これが実際にかなりクールなことがたくさんあります。
コードを渡してみましょう。25フラッシュシンキングのようなよりスマートなモデルに「アドベントオブコード2021の3日目をRustで解決してください」と言ってみましょう。それは考え、アルゴリズムの部分を出し、最終調整しています。そして、ここにRustコードがあります。このRustコードを取り、ここに貼り付けて、「このコードをJavaScriptに変換してください。Bunで動作し、input.txtファイルから入力を読み取る必要があります」と言います。
そこにいくつかの本当に素敵なフォーマットを貼り付けますが、それはすぐに行われました。3秒以内に完全な答えが出たことは少し狂気じみています。しかし、これが動作するかどうか気になります。試してみましょう。25フラッシュが生成したRustのコードを与え、それをJavaScriptに翻訳するように指示しました。
そして、ダムモデルにもかかわらず、最初の試みで完全に動作しました。より難しい問題の一つを与えてみましょう。また、問題をコピー＆ペーストしていないことも注目に値します。アドベントオブコードの全歴史を含む十分なデータで訓練されているため、問題が何であるかを知っているだけです。
それはまた、それがアドベントオブコードの答えで訓練されている可能性も意味します。だから、難しい問題を与えてそれが解決策を考え出すという伝統的な意味での難しい問題を解決しているわけではありません。しかし、動作するコードを吐き出すことができるのはまだ印象的です。10日目を解かせています。思い出せば、これはより難しいものでした。
input.extではなくinput.txtを使うように伝えます。TypeScriptにしましょう。なぜしないのですか？今はTypeScriptになりました。新しいファイルを作りましょう。ここです。貼り付けます。その日の入力を取ります。ああ神様、これを覚えています。これは私を打ちのめしました。パート1は1661です。そこです。1661、91。パート2は15288313です。はい。素晴らしいです。それはかなり狂気じみています。印象的です。
それがそのようなものを瞬時に生成できることは素晴らしいです。また、テキストのコンテキストでディフュージョンモデルが何であるかについてあまり話していないことに気づきました。面白いことに、元々ディフュージョンが使用されたのは画像でした。要するに、ノイズを実際の出力に効果的に変えています。
デノイジングアルゴリズムは永遠に存在しており、時間とともに大幅に改善されてきました。コンピュータを使用して、ぼやけたり粒子が粗かったりノイズの多い写真を取り、ゆっくりとノイズを除去することができるようになってからかなりの時間が経ちました。そして、ディフュージョンは余分なステップと余分な知性を持つ同じようなものです。あなたはランダムなピクセルがたくさんある画像をテクノロジーに渡して、「これは猫の写真です。もっと猫らしく見えるようにしてください」と言います。そして、それを何度も何度も行います。そして、それがパスを行うたびに、最終的に欲しいものが出てくるまで、わずかに物事を再配置し変更します。
ディフュージョンは画像生成で本当に人気があります。これを見ればわかるように、ピクセルマッピングのようなものを本当によく作成できるからです。テキスト生成にはあまり適していません。なぜなら、ランダムな文字の束を実際に欲しいテキストに変えることは全く意味がないからです。少なくとも、それが私たちが考えていたことです。これらのテキストディフュージョンモデルの仕組みは、彼らがランダムな文字の束を生成し、自動修正アルゴリズムに「ここにある間違いを修正してください」と言い、結果が得られるまで何度も何度も行うというものです。
インスタント編集機能はおそらくこれを最もよく示すでしょう。このTypeScriptコードを取り、「これをRustに移植してください」と言います。「今、それをPythonに移植してください」。そして、それが行うにつれてすべての部分を調整していくのがわかります。明らかにRustからPythonへの移行には多くの変更があります。全く異なる世界ですが、どれだけ変更されなかったかも見ることができます。
ディフュージョンはそのために本当に強力です。あるテキストを取り、別のテキストに変え、ノイズの画像を取り、それをデノイズして別のものにします。そして、ディフュージョンがこのように使われるのを見るのは素晴らしいです。歴史的に、テキストディフュージョンは特にスマートではありませんでした。なぜなら、最も可能性の高い次のトークンを推測するために、過去のすべてのトークンと彼らが訓練したデータの量の情報をすべて使用する従来のLLMが提供する次のトークン予測の力に勝つのは難しいからです。これはそのように構築されていません。
それはそれほどスマートではありません。早期アクセスを得るために申し込む必要がある非常に早期の実験である理由があります。しかし、それは非常に有望であり、長期的にどこに向かうのかを見るのが楽しみです。そして、それが速いのは依然として少し馬鹿げています。文字通り1秒あたり1000トークンです。それは狂気じみています。Geminiはもう十分です。
Flowについて話さなければなりません。Flowは非常に興味深いです。それを使用して、このコードを書いているコーギーのようなこの素晴らしいビデオを生成することができます。冗談です。このビデオはFAI上のLTXビデオモデルを使用して作成されました。また、FAI上で最先端に近いものもテストしました。Cling V2モデルを使用し、これはすべてを考慮するとかなりうまくいきました。
まだ何かに使いたいビデオというよりは、少し悪いCGIのように見えます。カメラのパンは本当によくできていて、それは印象的でした。光はあまり現実的ではありません。紙や後ろのものは何が起こっているのか全く分かりませんが、これが約140ドルかかったことを考えると、そんなに悪くありません。
実際、得たものを考えるとそれはかなり高価です。しかし、Flowを見ると、かわいいコーギーのビデオが見えます。それはただ全部のために同じプロンプトを使っただけです。彼らはこれをアニメーション化することを選んだだけで、まあまあです。素晴らしくもなく、ひどくもありません。このタブは新しいUltraプランにアップグレードする前のものでした。通常のGoogleサブスクリプションを支払うと、デフォルトで1000クレジットを得ます。
そしてそれらの1000クレジットはあらゆる種類のことに使用できます。テストしたとき、これが最新のGoogleビデオモデルを使用すると思いました。そうではありません。これは実際にはV2しか使用できませんでした。音声生成も含む、今日彼らが発表したモデルであるV3にはアップグレードする必要がありました。これを生成するのは標準プロティアの1000クレジットのうち20だけかかりましたが、それは古いモデルで、品質は高くありません。
だから、これを再実行するために、月額250ドルのティアにサブスクライブする必要がありました。リマインダーとして、T3は月額8ドルだけです。月額250ドルは、おそらく使用しないであろう30テラバイトのストレージのためにある程度価値があります（今はDropboxを使っているので）。しかし、V3を含む最新のすべてのGoogleモデルにもアクセスできます。
だから、このプロンプトを取り、ここに貼り付けると、タイマーも開始します。なぜなら少し時間がかかるからです。皆さんを私と一緒に待たせることはしませんが、私は待つ必要があります。そして、実際にどれくらい時間がかかるかを皆さんに知らせたいと思います。成分モードになっていました。忘れていました。以前にテストしていて、2枚の画像をアップロードして何かをさせたいと思っていました。
画像の生成だけができます。まだ画像のアップロードをサポートしていません。はい、テキストビデオ。デスクに座ってコードを書いているコーギー。今すぐ開始します。また戻ってきます。撮影を始める前にこのテストを行いました。一つは通過し、一つは失敗しました。今、失敗通知を見たところです。更新すると表示されるでしょうか？いいえ。
しかし、待ってください。表示されました。良いUXを構築するのは難しいですね、Google。理解しています。ほとんどの人よりもあなたにとって難しいです。どうなったか見てみましょう。あら、クリック音を立てています。彼らが以前に行った最初のものは、ただランダムなクリック音が最後まで流れていました。私のラップトップをミュートします。なぜなら狂ったように感じるからです。
しかし、彼はキーボードに触れていません。なぜクリック音が出ているのですか？それは音声も生成しているためですが、AIで多くのものを生成する方法で音声を生成しています。下手です。だから、適切に音声を同期するのはそれほど上手くいっていません。もう一度これを試してみます。
いいえ。間違ったものです。UXは難しいです。わかっています。神様、すべての中で考えると…それは明らかに一時停止していると言っていますが、明らかにそうではありません。状態管理が難しいことは知っています、Google。しかし、それはChromeとあなたが構築を手伝ったウェブ標準のために難しいのです。あなたのビデオプレーヤーを修正します、皆さん。
彼がキーボードに鼻を置いたとき、何か音がするのを聞きました。いずれにせよ、少なくともそのテストからの音は役に立ちません。この生成が1分40秒経過し、67％に到達しています。そこにさえありません。ページに留まっていることを確認してください。なぜなら彼らは回復力のあるストリームを行っていないからです。T3チャットを宣伝し続けるのは嫌ですが、これを成し遂げたことを本当に誇りに思っています。
これを再実行します。同じモデルです。ストリーミング中です。ストリーミング中に更新したばかりですが、まだトークンごとにストリーミングしています。思考は何かのチャンクとして表示されませんが、残りは通常の速い方法で表示されます。ベータ版として、うまくいけばすぐに全員に公開されるでしょう。まだでない場合は、beta.tfree.hatに行くだけです。
回復力のあるストリームは難しいです。ほとんどの人がそれを機能させていない理由を理解しています。Googleはそれを機能させるべきです。本当に機能させるべきです。とにかく、99％に到達し、2分30秒が経過しました。ああ、実際に両方が同時に出てきました。2分33秒。よくやりました、Google。これらがどのように出てきたか見てみましょう。ミュートを解除します。
ああ、ただランダムなキーボードタイピングです。これです。これは実際にとても良く見えます。背景などに他の画面を置くような奇妙なことをしていません。私はこのミスを多くのモデル、特に安価で新しいビデオモデルでよく見かけました。プロンプトが与えられると、彼らはコードを至る所に置くのが大好きです。同じプロンプトを取ります。
AAIが開くと思いました。Sora。私もOpenAIの非常に高価なプランに加入しています。だから、素早くSoraをテストすることができます。同じことをするように言います。暗い部屋のデスクに座ってコードを書いているコーギー開発者。キューに入れました。一度に4つのビデオを生成しています。私がその高いティアのために支払っているので、それは派手なことをしているに違いありません。
タイマーを開始するべきでした。これに10秒ほどかかりました。すべて遅いです。Clingはこれを生成するのに5分以上かかりました。速くはありませんでした。ここにある太い腕のコーギーを忘れることができません。これはOG Will Smithがスパゲッティを食べているタイプのものです。これらが生成されるのを待っている間に、Android XRを簡単に見ておくべきです。
皆さんが既にご存知ない方のために、私は大きなVRオタクです。それはただ私がしばらくの間オタクだったものです。非常に楽しいと思います。以前はBeat Saberを真剣に取り過ぎていました。Android XRについて興奮することは、それをメガネに収めたことです。後でそれらについて話しましょう。
生成が終わったからです。なぜそれがビデオではないのにビデオにあるのでしょうか？OpenAI、なぜ4つの画像を生成したのですか？正しいことをしなかったからです。OK、画像を生成するのに1分半かかりました。素晴らしい。それを再試行します。Vision Proが世界で最も愛されているものではないことは知っています。私はそれを深く愛しています。
おそらく使うべきほど使っていませんが、初めて窓を前に置いて歩き去り、振り返って、それが私が置いた正確な場所にあるのを見たとき、このXRのことがすべて理解できました。それは本当に魔法のようです。そして、それを使用するUXは、BlackberryからiPhoneに移行するiPhoneの瞬間のように感じました。そして、Googleはついに空間に浮かぶ窓のようなアイデアに傾いているようです。
問題は、彼らが披露した新しいメガネでは、物事を再生できるレンズの真ん中に小さなスペースがあり、それは世界に持続しないということです。だから、周りを見回すと、ここからここを見て、この物を見ているとき、私が動くと、それは私と一緒に動きます。
Vision Proでは、物をここに置いて動くと、それはあった場所に留まります。これは小さなことのように思えますが、これらのデバイスが周囲の世界とどのように接続するかを完全に変えます。Googleはまだそのような能力に近づいていないと思います。しかし、このテクノロジーをmetaのraybanメガネのようなものに詰め込むというアイデアは実際にかなりエキサイティングです。
私はVRとARのものと共に愛しているものが現実になるためにこれが起こるのを必死に見る必要があります。だから、これがうまくいくことを願っていますが、見た限りのデモはあまり約束されておらず、奇妙な接続の問題のためにステージでは少し失敗しました。だから、どこに行くか見てみましょう。私は一般的にVRとARのものに懐疑的です。なぜなら、毎回興奮するたびに、後で失望するからです。
まだビデオを生成中です。約1分後にタイマーを誤ってリセットしました。だから、これを待つのに約3分ぐらいです。もう少しflowのものを試したいと思います。やってみましょう。シーンビルダーは、異なるシーンをリンクして完全なビデオを作成できる楽しい新機能です。
学校でコードの学び方を学んでいるコーギー。それが進行中に新しい部分を追加できますか？いいえ、次のシーンの生成を開始する前に、それが完了するのを待つ必要があります。煩わしいですね。あら、コーギーコードマスターの準備ができました。生成に約3分半かかりました。それよりも少し多いですね。そうですね、実際にその周りです。生成に約3分半かかりました。それはまあまあ出来上がりました。
これについて不満はありません。すべてが気まずいカメラのパンを行います。なぜすべてがそれを主張するのか分かりませんが、すべてがそうします。そこに本当にリアルなラップトップがありますね。品質です。エスケープを押すと、フルスクリーン表示を終了せず、このセットのものを完全に終了することが好きです。
UXは難しいですが、正しい形状の画面をレンダリングするのも同様に難しいようです。ええ。これは、VOモデルがコンピュータの画面を確実にレンダリングできる唯一のビデオモデルであることを意味するのでしょうか？そう思います。背後にあるラップトップは完全に解剖学的に正しいように見えます。はい、正直に言って、これは私のデスクとそれほど遠くありません。
だから、奇妙な音声のものがゴミであっても、Googleはビデオ部門で勝利します。興味深いですね。まだ任意のGoogleのIOで最も重要な指標を測定する必要があります。通常、私とコミュニティがこれを自分たちで行いますが、Googleは今年実際に私たちに先んじました。だから、一つの最後のリーダーボードを見てみましょう。
新しい参加者がいるようですね。Geminiが95で首位を獲得しました。それが私が持っているすべてです。Googleがまた別の休日を台無しにしてくれてありがとう。次回まで、プロンプティングをお楽しみください。