
5,940 文字

まずはPunetteというユーザーがGemini 2.5 Proでコーディングしたデモをご覧ください。彼はXで公開しました。かなり印象的です。彼は粒子効果を作り出して、さまざまな形を視覚化しています。これは全てGemini 2.5 Pro AIでコーディングしたもので、彼はその方法も説明しています。そして今日、私たちもこの例を再現してみましょう。最近の動画で行ってきたAIの最新機能の探索を続けるわけですが、今回も素晴らしいGoogleのツールを使用することになります。
最近はChatGPTについて多く話してきましたが、GeminiはGPTに引けを取りません。むしろ、GoogleとOpenAIという2つの企業は熾烈な競争を繰り広げています。両社はAI分野の頂点に立っています。OpenAIのO3とGoogleのGemini 2.5 Proという2つのモデルは、現在AI分野で最高のものであり、これ以上のものはありません。
Google AI Studioに行ったのは、Googleの最新モデルをお見せしたかったからです。2、3日前に発表された最新モデルのGemini 2.5 Flashです。4月17日にトレーニングされた本当に最新のモデルで、このモデルを使って冒頭で見た例を再現したいと思います。XからビデオをダウンロードしてAIに入力しました。これがこの動画のキーポイントで、その理由がわかるでしょう。
次に以下のプロンプトを入力します:「このビデオの内容をコードで再現してください。three.jsとプログラミング言語を使用し、HTMLファイル1つだけで」と追記しましたが、実際はそれほど必要ありません。AIがビデオを抽出している最中です。トークンカウントでも処理中であることが分かります。
Google Studioの素晴らしい点は、入力トークン数と残りのトークン数が見えることです。Geminiは巨大なコンテキストウィンドウを持つことで知られていますが、ここでは実際に100万トークンまでのコンテキストがあります。これはかなり膨大です。
「Thinking mode」を有効にして、連続した思考連鎖を適用するようにし、「Code」もチェックしました。ビデオが送信されると、36秒のビデオを読み込むのに10,621トークンを使用しています。まだ100万トークンまで余裕があります。これで、AIのコンテキストにビデオが入り、プロンプトを処理しています。
このモデルの最も印象的な点は、超高速であることと、市場の他のほとんどのモデルと比較して非常に経済的であることです。カーソルを合わせると、100万トークンの入力コストが15ドル(15セント)であることがわかります。Thinking modeを使わない場合は0.60ドル(60セント)で、これは本当に安いです。比較として、Gemini 2.5 Pro全体版では、20万トークン以上(100万の5分の1)で入力が2.5ドル、出力が15ドルになります。Flashよりもはるかに高価です。
ビデオを入力し、再現するよう依頼したところ、AIがコード全体を書いてくれました。コードの最後まで行って、理解しようとせずにコピーし、HTMLビジュアライザーに貼り付けました。最初は動作しませんでした。「形を変える」をクリックしても何も起こりません。
そこでAIに戻り、「change shapeをクリックしてもモーフィングのままです」と問題の写真を送ったところ、AIがコードを再作成してくれました。今回は動作しました。一回目では成功しませんでしたが、二回目で成功しました。これはFlashモデルとしては正常で、わずか30秒×2で1分で完了しました。Gemini 2.5 Proなら最初から成功したかもしれませんが、5分や10分かかったかもしれません。
このように高速で経済的なモデルがこのような例を実現できるのは非常に印象的です。すべてが正常に動作するか確認してみましょう。「change shape」をクリックして形を変えてみます。うまくいきました。ピラミッド、トーラス、銀河の形を表示してくれます。色の変更も完璧に動作し、すべての形状がきちんと機能しています。
このようなFlashモデルでもこれだけのことができるのは印象的です。より高速に反復し、デバッグ時により多くの問題を解決できる可能性があります。右クリックして図形を移動したり、ズームイン・アウトしたりすることもできます。すべてが正常に機能しています。AIはほんの1分でこれをコーディングしました。
もちろん、Punetteユーザーが作成したものと完全に同じではありませんが、彼はフル版のGemini 2.5 Proを使用し、私たちはFlashを使いました。さらに反復を重ねれば同じ結果を得ることができるでしょう。ユーザーをより具体的に導くことで同じ結果に到達できるでしょう。ビデオをアップロードして「このビデオを再現したい」と言うだけで、プロンプトエンジニアリングなしでも、かなり似たものができました。非常に印象的です。
もう一つの例で、この新しいGemini 2.5 Flashモデルをテストしてみましょう。以前のGemini 2.5 Pro全体版リリース時と同じ例を使用します。ルービックキューブの例です。当時、その能力を徹底的にテストするために作成したもので、それまでどのAIもこれを実現できませんでした。O3が出てからGemini 2.5 Proを再テストしましたが、動画では紹介していませんが、O3は成功しました。さて、Gemini 2.5 Flashはこのルービックキューブのシミュレーションを実現できるでしょうか?
前回のプレゼンテーション動画で使用したのと同じプロンプトを使用しました。この機能はAIには実現が難しいので、右側にある「code execution」ツールを有効にしました。これはAIがコードを実行し、バグをチェックして反復するためのツールです。少しトークンを多く消費しますが、Gemini 2.5 Flashは非常に高速なモデルなので問題ありません。
AIは前回と同様に3つのファイルにプロジェクトを分割しました。最初の試みでは成功せず、アプリケーションを起動するとバグが発生し、キューブがまったく表示されませんでした。いつものように、問題を解決するよう依頼し、ブラウザで受け取るエラーメッセージを送信しました。合計47,000トークンを使用しましたが、問題を解決するにはまだ少ないです。
こちらがGemini 2.5 Flashによるルービックキューブプログラムです。サイズ5のキューブを生成し、シャッフルボタンを押すとキューブがシャッフルされます。他のバージョンとは異なり、ブロックは同じ方法では動きません。「解く」ボタンを押すと、同じ方法で解きます。3×3キューブでテストしても、シャッフルして解けます。
正直に言うと、以前のバージョンほど洗練されていません。以前のバージョンはコーディングが優れており、各ブロックや各列の動きがよく見えます。Flashバージョンを使用したので当然ですが、多くのAIはこれを実現できません。O3、完全版のGemini 2.5 Pro、そして今回のGemini 2.5 Flashだけが成功しています。Googleに拍手を送ります。このテストをFlashバージョンでも通過させたのは素晴らしいことです。
Geminiの本当に印象的な点は、ビデオを送信できることです。ビデオを読み取るのが最も得意なAIの一つで、実際唯一のAIです。これは非常に興味深い機能で、皆さんにもビデオを送信してコンテンツについて質問することをお勧めします。Gemini 2.5 Proで既にうまく機能していましたが、2.5 Flashでも機能します。
次はこのツールのパワーを見てみましょう。YouTubeにGoogleのDeepMind(Geminiの背後にある企業)のCEO、Demis Hassabisの動画があります。彼はノーベル賞受賞者でもあり、AIや他の分野についてのマスタークラスや講義をよく行っています。彼はAlpha Foldの開発に関わった人物の一人で、タンパク質予測を可能にし、業界に大きな変化をもたらしました。彼は非常に興味深い人物です。英語が理解できれば、彼のインタビューや講義を聞くことをお勧めします。彼の分析は非常に洞察に富んでいます。
この講義はVision IAチャンネルでフランス語に翻訳しましたので、興味があればチャンネルをチェックしてください。この動画は彼の最新のマスタークラスの一つで、Geminiに送信してみたいと思います。
前回と同様に、動画をダウンロードして貼り付け、「話者が取り上げた3つの主要なポイントを要約できますか?このプレゼンテーションのハイライトは何ですか?説明してください」と尋ねました。ここでテストしたいのは、Gemini 2.5 Flashのビデオ分析能力です。
この30分の動画は50万トークンを使用しました。AIがこの情報を理解し、ポイント間のつながりを理解する必要があります。トークン数は100万の半分に達しています。
AIが作成した要約には、彼がAIに興味を持ったきっかけ、AIのテスト場としてのゲーム(特にAlpha Go)、そしてAlpha Foldについての言及などが含まれています。Alpha Goは、今日の私たちの状況の出発点となったGoogleの最初の印象的なAIです。もちろんAlpha Goの前にもAI研究はありましたが、この技術を普及させ、今日の急成長を可能にしたのはAlpha Goでした。
彼はまた講義の中でAlpha Foldについても多く話しており、AIはハイライトもまとめています。思考時間は80秒と、このタスクにしては少ないです。30分の動画を見て、理解し、要約し、タイムスタンプ付きのハイライトを作成しました。このような応用の可能性は非常に多岐にわたります。
今日見ていただいたのは、単なる技術的なデモではありません。ここ2ヶ月、あるいはさらに短い期間で、特にGemini 2.5 Proのリリース以降、多くのことが加速している重要な転換点を示したかったのです。ChatGPTのGPT 4.1やO3、O4、エージェントの設計などについて多く語られていますが、Gemini 2.5、特に新しいFlashバージョンも、AI分野で最高のものであり、Googleの復活を過小評価してはなりません。
確かに、Sam Altmanのようなソーシャルメディアでのハイプやマーケティングは少ないかもしれませんが、実際にテストすると、その内部には本当に印象的なもの、恐るべき効率性があることがわかります。だからこそ、皆がそれについて話しているのです。
Xからダウンロードした単純なビデオをGeminiに送信し、それをコードに変換するよう依頼しただけで、AIは30秒で説明付きでこれを行いました。非常に印象的であり、特にライブコーディングでの今後の展開が楽しみです。Wind Surfでの実装を待ち望んでいます。その速度でテストすれば、非常に多くのことができるでしょう。
もちろん完璧ではなく、エラーが発生することもあり、再試行や言い換えが必要なこともありますが、理解すべきは、このモデルも他のどのモデルも硬直したツールではないということです。GPT-4 Turboのようなモデルを使い慣れている方なら、速度の違いをすぐに感じることができるでしょう。コストの違いも言うまでもありません。さらに、研究者の講義全体をビデオとして入力すると、AIはすべてを分析しました。素晴らしいことです。
ちなみに、まだご存知ない方のために、Demis Hassabisについて少し触れておきましょう。彼のTwitter(X)ページをご覧ください。彼の言葉に耳を傾けることを強くお勧めします。最近、Google DeepMindは印象的な新しいシミュレーションを作成しました。Twitterでこれについて取り上げる予定です。彼はただのテック業界の元CEOではなく、元チェスチャンピオンでもあり、神経科学者であり、人工知能のアーキテクトです。彼は人工知能の創設者の一人なのです。彼が概念について考えるとき、年単位ではなく、数十年単位で考えます。興味があれば、彼について調べてみてください。
今日は、新しいツールであるGemini 2.5 Flashの簡単な紹介をしたかったのです。このツールが存在することを知っていただきたいと思いました。もし私と一緒にこれらのツールの探索を続け、それらがどのように機能するか、どう使いこなすか、何が変わるのか、そして特にプロジェクト、アイデア、仕事で一歩先に進むためにどのように具体的に適用するかを理解したいなら、一つ知っておいてください。私はAIを教えています。
これが私がAIトレーニングコースを作った理由です。一般論に満ちた単なるマスタークラスではなく、実践的な自律性を与えるための具体的で実践的なトレーニングです。今日はそのうちの一つを見ましたが、何百もあります。すでに1000人以上のメンバーがいます。サポートに感謝します。
次のコース更新では、さらに踏み込んでいきます。高度なビデオ生成、AIストーリーテリング、ライブコーディングのコンセプトをさらに深め、特にプロのワークフローにこれらをどう統合するかについて話します。この動画で見たものに興味を持ち、受け身でいられないと感じるなら、今こそ学ぶべき時です。
いつものように、リンクは動画の説明やコメント欄に全て記載されています。好奇心を持ち続けてください。最後まで視聴していただきありがとうございます。気に入っていただけたら、チャンネル登録やいいねをお願いします。今私たちが経験しているこの革命は、まだ始まったばかりだということを覚えておいてください。今後も全てをカバーしていきますのでご期待ください。
それでは、また明日お会いしましょう。この人工知能の分析に興味を持ち、この魅力的な分野での進歩についての理解を深めたいと思われるなら、人工知能に特化した私のx.comページをチェックしてみてください。そこでは、私たちの日常を変え、未来を形作る最新のイノベーションと人工知能の具体的な応用についての詳細な分析を見つけることができます。


コメント