新しいGemini CLIは本当に機能するのか？

この動画は、Googleが新たにリリースしたGemini CLIツールの性能検証を行った詳細なレビューである。惑星生成、ベンチマークスイート作成、To-doアプリ作成という3つの異なる難易度のコーディングタスクを通じて、このCLIツールの実力を徹底的に検証している。結果として、期待されていた性能を大幅に下回る結果となり、特にエージェント機能において既存の競合ツールと比較して明らかに劣っていることが明らかになった検証動画である。

Does the new Gemini CLI even work?

In today's video, The Feature Crew try out the new Gemini CLI tool with surprising results...Chapters00:00 Intro 00:22 C...

Gemini CLIの初回テスト開始
問題の修正とライブラリ検索
Flash モデルへの自動切り替え
結果の評価と次のテスト
3Dベンチマークスイートのテスト
期待外れの結果
さらなる問題の発生
To-doアプリテストの実施
最終的な失敗結果
総合的な評価と結論
最終的な推奨事項

Gemini CLIの初回テスト開始

皆さん、Feature Crewへようこそ。今週はAI分野では少し静かな週でしたが、私たちが非常に興味を持っている一つのリリースがありました。GoogleがGemini CLIをリリースしたのです。これはCodec CLIと非常に似ていて、注目すべき点は大量の無料リクエストを取得できるということです。そこで、このツールを徹底的にテストして、何ができるのか、そして私たちがテストしてきた他のCLIベースのツールと何か違いがあるのかを確認してみましょう。

VS Codeでセットアップが完了し、Gemini CLIがアクティブになってプロンプトを待機している状態です。今日の最初のテストは、おなじみの惑星生成テストになります。私たちはGeminiがCLI環境以外でこれを行うのを見たことがあるので、この種の追加環境で実行する際にモデルがどれほど向上するかを本当に確認したいと思います。

3JSやsimplex noiseなど、ゲームを実装する際に使用したいライブラリの使用方法の簡単なデモであるvibeシェルがあります。そして、惑星で欲しいすべての機能を説明する長い標準プロンプトを送信します。

基本的な地形だけでなく、バイオーム、大気、雲など、多くの興味深い機能を求めています。この場合、惑星から始まる組織化された、よく整理されたプロジェクトも求めています。

計画が示されました。Planet classを作成して定義するつもりです。実行していく際に許可を与える必要があります。まだ実装を定義しているところで、結果をチェックするつもりでしょうか。

すべての要件を実装しましたと言っています。これらのモデルがいかに自信満々であるかが大好きです。彼らは既存のファイルを見ることを拒否します。プロジェクトにライブラリの使用方法の例が含まれていると伝えたにも関わらず、「いえいえ、実際にこのライブラリを正しく使わない方法を知っています」という感じです。

スタックしているようではないので、キャンセルでスキップできます。結果を確認しようとしていますが、できません。エスケープキーを押してください。出力をチェックするこのステップでスタックしているようです。

サーバーは正しく起動しましたが、実際の出力を見ることができません。そこで待機しているようでした。作成できたものにはコンソールエラーがあり、ライブラリの使用例を提供したにも関わらず、ライブラリを間違って使用したというイライラするコンソールエラーでした。特にsimplex noiseについてです。

問題の修正とライブラリ検索

フィードバックを与えて、問題を修正できるかどうか確認します。これは良い兆候です。今、ウェブを検索して、simplex noiseライブラリのドキュメントを見つけるためにGoogle検索を行っています。ドキュメントで見つけたら、正しい構文を使用できることを期待しています。

create noise 3DとcreateNoiseを使用する必要があります。それは事実です。例を削除して、インターネット上で例を再発見することができました。これは非常にマリオ64に近い結果です。特に選択した色がそうですが、公平に言うと、要件に従ったということで評価すべきでしょう。

大気が惑星と一緒に動いていません。ただ回転しているだけで、独自の速度を持っています。正しくマッピングしなかった、3Dノイズを使用せず2Dノイズを使用して雲の位置を決定したため、この奇妙な球体のアーティファクトがあります。あまり良くありません。

上部と底部を見ると、惑星自体に明確なピンチポイントは見られないので、惑星自体には3Dノイズを使用したように見えます。これは良い兆候です。残念ながら水は実際には存在しません。ただの青い地面です。

私たちが見た中で最高の結果には程遠く、中程度の結果です。実際、HTMLファイルでのGeminiの結果よりも悪いです。フィードバックを与えましょう。

Flash モデルへの自動切り替え

水の周りに波のようなものがあります。それは水でしょうか？エッジが波打っているのが見えますが、それは大気だと思っていました。それらを組み合わせたのでしょうか？

水について継続的に反復するようフィードバックを与えたところ、非常に高速で動作していたにも関わらず、応答時間が遅いことが検出されたと表示され、このセッションの残りの部分で2.5 proからflashに自動的に切り替わると言いました。

これは無料のGeminiクレジットに対するクライアントベースの負荷分散のようなものです。私たちが注目した興味深い点の一つは、大量の無料Geminiクレジットを取得できるということでしたが、彼らがあなたを少し負荷分散させて、flashに移行させる可能性があることは驚くことではありません。

修正策はAPIキーを使用してアップグレードすることのようです。それでも続行しますが、proから始まるのはエキサイティングですが、大量のproクレジットを取得できない可能性があるという興味深い副作用として言及しておきます。

水が見えるようになるということなので、サーバーを再起動して確認しましょう。素晴らしい、太陽の中にいます。create noise 3Dを削除したのでしょうか？それを理解するためにGoogle検索をしなければなりません。

このエージェントは混乱し続けており、これは大きなコードベースではありません。事実上ゼロからの状態です。CLIツールなので、コードベースから始めたかったのですが、それがこのツールの目的だからです。コールドスタートは実際には意味がありません。

結果の評価と次のテスト

次のテストはコールドスタートを試して、それが良いかどうかを確認します。歴史的に、Geminiは私の経験ではワンショットコーディングの王でしたが、最新のOpenAIやAnthropic モデルに訓練されているような同じエージェンシーを持っていません。

これは、SWEのような他の非エージェンティックコーディングベンチマークに対するベンチマーク結果の格差で確認できます。この早い段階でこれほど混乱することに少し失望しており、結果がほぼ同じプロンプトでのGeminiのシングルショット結果よりも明らかに悪く、サンプルコードベースの利点さえ持っていませんでした。

惑星についてはここで終わりにしようと思います。確実に継続的な反復は可能ですが、すでに数回試行し、混乱が生じました。継続しても、それ以上進展しないと思われるので、別の問題に切り替えて、コールドスタートから始めて、ワンショットの方が良いかどうかを確認しましょう。

3Dベンチマークスイートのテスト

チャンネルでは多くのゲーム開発テストと、モデルが3Dシーンを推論して実装することを要求するテストを行っているため、シーン構築、オブジェクトの配置、物理的相互作用などの3Dタスクにおけるモデルの能力をテストするベンチマークスイートを作成する能力をテストしたいと思います。

プロンプトを入力しており、まだかなり曖昧です。ゲーム開発タスクではなく、より開発に焦点を当てたタスクをモデルがどのように処理するかを確認したいと思います。

興味深いことに、今回は曖昧なプロンプトが与えられたため、承認のための計画を出力しただけのようです。実行させましょう。ベンチマーク用のWeb UIを提供してくれました。だからFlaskだったのですね。

AGIを感じますか？いえ、今日は残念ながらAGIを感じていません。ファビコンも見つけませんでした。それは一般的なことです。

何も見えないというフィードバックを与えましょう。ただの黒い画面です。ドロップダウンメニューが表示されるはずですが、ドロップダウンメニューもベンチマーク実行ボタンもありません。

期待外れの結果

この結果には少し失望しています。コールドスタートは他の一部のツールでは問題でした。ディレクトリは作成しましたが、他のCLI ツールと同様です。しかし、ここでは良い結果が見られていません。

空のディレクトリを作成しました、それは素晴らしいです。ディレクトリを作成するとしか言いませんでした。APIキーも求めませんでしたが、これは警告サインであるべきでした。ベンチマークを実行するモデルを呼び出す方法がありません。

理論的には再びproに戻りました。底部にそう表示されています。この場合の勝算は良くありません。白い画面です。背景色を変更すると言いました。

あそこにあります。前回見なかっただけでしょうか？下にずっとあったのかもしれません。前回は見えなかっただけかもしれません。

Gemini、わかりました。ユーザーが悪いのかもしれません。しかし、APIキーなしでどのようにベンチマークを実行するのでしょうか？実行していません。エラートレースを提供します。

アンビエントライトとディレクショナルライトがあることになっており、それがシーンとその中のオブジェクトを明確に見えるようにするはずです。この3Dベンチマークが世界を席巻するかどうかはわかりません。

問題の継続的な反復を許可して、何か合理的なものが得られるかどうかを確認していますが、LLM APIとの統合がないという事実が迫っており、ベンチマークが実行できても、何をするつもりなのかわかりません。

これは残念ながら、なぜ私たちが少し失望しているかを物語っています。ある意味で本当に超知能的ではないのです。明らかにコーディングに焦点を当てていますが、CLIツールですが、クライアントよりも良い結果を与えてくれていません。

さらなる問題の発生

技術的にはスコアを作成しました。おそらく何かをレンダリングしてからスコアを付けただけでしょうが、それは2D正方形ですか？3DベンチマークでのA2D正方形です。スコアは1を取得しています。

ドロップダウンから何を選べるでしょうか？削除しました。ベンチマークはLLMAPIを呼び出す必要があると言って、もう一度チャンスを与えます。

率直に言って、何かを追加してから次のターンで削除するような、本当に混乱しているように見えます。これは曖昧で、このような開発ケースに興味があったため、これは私たちが解決したいものだったので、私たちのように作業を進めるのに役立つかどうかを確認したかったのですが、フィードバックを求める方法や重要な部分が何であるかを理解していません。タスクをうまく推論していないのです。

コードベースの認識があまり良くないようです。プレビュー画像は保存しましたが、再びFlashに戻ったので、Proでは56個程度で、おそらくFlashに移行されるようです。

両方の場合に発生しているようです。今、すべてが壊れるでしょう。実際に何かをしているかどうかは明確ではありません。上にスクロールしてください。

テキストです。LLM出力にIFがあるかどうかを確認するために文字列マッチを行っています。実際のシナリオでは、LLM出力を解析します。解析さえしていません。「あなたのために本当のアプリケーションを作るつもりはありません、あっちに行って」という感じです。

これは使用することさえできません。これはひどいです。これは私たちの最悪の結果かもしれません。API接続を取得するためにプロンプトを出しましたが、求めました。

通常、ギャップを埋める必要があり、これはOpenAIの正しい使用法ではありません。おそらくdot completionsではなく、持っているものに基づいてdot update completionsである必要があります。OpenAI APIで間違った構文を使用しました。

壊れてから作業を続けるよう求めるためだけにAPIキーを取得するつもりはありません。これも失敗です。To-doアプリのようなものでさえ作れるでしょうか？

To-doアプリテストの実施

To-doアプリテストが続きます。これほどひどく失敗しているので、To-doアプリテストについては冗談を言いますが、To-doアプリテストに失敗すれば、このツールに対する本当に手厳しい告発です。To-doアプリを簡単に試してみましょう。

これまでのところ、モデル間を跳ね回り、非常に混乱しているため、かなり失望しています。

完全に機能するTo-doアプリを作ろうとしています。APIの設定の代わりにローカルストレージの使用を許可していますが、実際のプロジェクトのようにプロジェクトを整理したかったのです。本当に完全に機能するTo-doアプリを探しており、これは私たちがテストしてきたどのツールにとっても非常に管理しやすいはずです。

すぐにFlashに切り替わりました。計画を立てました。確実に進めましょう。189個のパッケージを追加しました。現在、npmのインストールに失敗しています。rmを常に許可するつもりはありません。このツールを信頼していません。

Tailwindのインストールが失敗しています。10点満点中10点です。Codecはプルリクエストを作成していることが理解でき、その形式になっているのは理にかなっていますが、VS CodeでのGitHub CopilotやCursorよりもネットで優れている理由がわかりません。そこではファイルが見えて、右側にチャットがあります。ここでは奇妙な混合があり、これを理解したことがありません。

それは明らかに悪いです。置換する文字列が見つかりませんでした。モデルが有効なパラメータを提供しませんでした。どこかでそこに謝罪しました。

本当に苦労しています。Flashに切り替わったのは残念ですが、実際これは良いテストだと思います。FlashはTo-doアプリを作ることができるはずです。私の電話でローカルで実行されているモデルでも、ある程度はTo-doアプリを作ることができるはずです。多分私の電話は誇張ですが、それでも何が起こっているのでしょうか。

最終的な失敗結果

TSconfig オプションを検討中です。TSconfig オプションを検討することでスタックしているようで、手動で実行したところ、この結果で白い画面が表示されました。それは得意です。多くのそれらを見てきました。

エラーについて最後のチャンスを与えて、それから終了します。この疑似アプリはFlashのみでした。最初のリクエストでも同じことをしました。実行するものが何も得られないことはよくありません。

app.jsを削除しました。完了したと考えています。確実です。皆さん、これが存在する中で最高の完全に機能するマルチビューTo-doアプリです。あなたが待ち望んでいた瞬間であることを知っており、失望することはありません。

実際に箇条書きアイテムを作成できます。チェックオフできます。少なくともフィルタリングされます。更新しましょう。ローカルストレージを使用しています。削除できます。これは非常に基本的なTo-doアプリです。

Gemini CLIは実際に実行されるコードを作成することができます。一種の、一種の正しいです。スタイルの欠如は残念です。確実に試みましたが、どこまで進めるかという通常のチャレンジモードを求めています。

これは2.5 Flashという注意点付きですが、少なくとも実行するものは得られました。これまでに見た中で最悪のTo-doアプリへの挑戦であり、これがCLIツール自体に対するフィードバックなのか、基礎となるモデルに対するフィードバックなのかはわかりませんが、それらは共同設計されていますよね。

それがこれらのものが出てくるときの約束ですよね。「ああ、モデルを作る人々がモデルを使用するための最高のツールを作ることができると信頼するだろう」。この場合はそうではありません。

総合的な評価と結論

それでも公平に言うと、Geminiはすべてのモデルの中で、IDEがCursorであろうとCo-pilot エージェントモードであろうと関係なく、最も問題を起こすモデルとして見ています。これは単なる経験談ですが、エージェントモードでGeminiに最も多くの問題を抱えてきました。一方、ワンショットコーディングでは非常に印象的なことがよくあります。

それを結構な量使用していた時期がありましたが、必要のないものを反復したり、ソースに迷い込んだりするような迷走行動をしていました。そのダブルバック行動は確実に今日でもできることです。

私の主要なドライバーはClaude 4で、そして03がマネージャーです。少し評価すると、クライアントサーバー分割のような、複数パッケージのセットアップのようなものは得られました。

これに対してGPTシリーズのどこまで戻ればこれよりも良いと考えるでしょうか？3.5でしょうか。私はそれらすべてが、スタイルを具体的に求めたときでさえ、何もできませんでした。混乱しています。

Flashがそれをできないというのは理解できません。Flashが惑星生成テストで失敗するのは理解できますが。スタイルを修正する最後のチャンスを与えて、確認します。そして壊れました。それは素晴らしいです。まだ動作しています。

いえ、動作していません。希望を持ちました。GPT3.5以来、クリスが言及したように、モデルをTo-doテストでテストしてきたので、これは私たちが見た中で最悪の結果かもしれません。

Flashに戻り続けましたが、Flashはto-doテストで最も活発でした。これは確実にフォローアップビデオを作成できるかもしれません。Geminiといくつかの他のエージェンティックインターフェースをチェックします。

私の個人的な経験では、Geminiは確実に真のエージェンシーで全般的に苦労しており、ワンショットコーディングの方がはるかに優れています。一方、Oシリーズやclaude sonnet、さらにはopusでさえ、エージェンティック環境やエージェンティックコーディングで非常に優れています。

Geminiには感銘を受けませんでした。クリス、何か言いたいことはありますか？その通りだと思います。CLIツールが素晴らしくないという傾向が続いていますが、これは非常に長い間で最悪の結果だと思います。

競合他社よりもこれを使用すべきシナリオを思い浮かべることさえできませんでした。このツールを使用した結果が、ブラウザやVS Code、Cursorで単にGeminiをロードアップするよりもどれほどひどいかは非常に驚くべきことです。基本的に同じことです。非常に驚くべきです。

最終的な推奨事項

私はこれをパスします。彼らがアップデートを行う可能性があります。これらのモデルに多くのアップデートを行うので、戻ってテストして何か素晴らしいものを見つける可能性がありますが、今のところ、ただひどいです。

より良いパフォーマンスを見た場合は、コメントで教えてください。私たちが言ってきたように、これからもっと良いものを期待していました。私たちはGeminiでビデオを作り続けます。それは良いモデルですが、これらのエージェンティック設定でのGeminiに関しては理想的ではありません。特に独自の共同設計されたインターフェースでは残念です。

いつものように、ビデオを楽しんだ場合は「いいね」を押してください。コメントで自分の経験を教えてください。本当に楽しんで今後のビデオをフォローしたい場合は、チャンネルを購読してください。私たちの成長に本当に役立ちます。皆さん、ご視聴ありがとうございました。