新Gemini 3.1 ProがARC-AGIで首位を獲得、そしてAnthropicがOpenClawを禁止

Google・DeepMind・Alphabet
この記事は約13分で読めます。

Googleが満を持してリリースしたGemini 3.1 Proは、ARC-AGIベンチマークでGPT-5.2やClaude Opus 4.6を大きく引き離してトップに立ち、AIモデルの新たな勢力図を描いている。本動画では同モデルの実力をSVG生成やバイブコーディングによるゲーム・サイト制作など多角的に検証するとともに、AnthropicがOpenClawに対してClaude APIの認証情報を無断利用しているとして利用規約違反を宣告した件についても詳しく解説している。

NOVO Gemini 3.1 PRO Surpreende em Primeiro Lugar no ARC AGI e Anthropic Bane OpenClaw
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Gemini 3.1 Proついにリリース

みなさん、Gemini 3.1がついにリリースされました!これは私が一番テストを楽しみにしていたモデルです。というのも、OpenAIもAnthropicも、Elon MuskのGrok 4.20まで出揃ってしまっていたので、アンケートでもしようかと思っていたくらい待ち遠しかったんですよ。それがようやく正式リリースです。

このモデルがどれだけすごいのか一緒に見ていきましょう。ARC-AGIのランキングでは事実上トップを走っており、Claude Opus 4.6とほぼ互角の戦いを繰り広げています。さらに今回は、AnthropicがOpenClawによるClaudeサブスクリプションの利用を禁止したという話題についても触れていきます。何が起きているのか、一緒に見ていきましょう。

まず、いつもいいねやチャンネル登録をしてくださっているみなさん、本当にありがとうございます。チャンネルメンバーとしてスポンサーしてくださっている方々にも特別な感謝を。メンバーの方はMCPやWhatsApp連携、PDF・スプレッドシートの読み取りなどを扱うインテリジェントエージェントの限定動画に加え、先行公開動画も視聴できます。

Gemini 3.1 Proのポジションとベンチマーク

今日のテーマはこちら、Gemini 3.1 Pro、つまり最も複雑なタスク向けの最高インテリジェンスモデルです。最近コメントで「テストの難易度を上げてくれ」という声をたくさんいただいています。ということで、少しずつ改良を加えているところですが、さらにアイデアがあればぜひコメントで教えてください。テストがどんどん面白くなっていきますから。

簡単に整理すると、Googleのラインナップはシンプルで、Deep Thinkは科学的課題や工学研究向けの専門モデル、Gemini 3.1 Proはそれ以外の全用途向けです。エンジニアリングに特化しているわけではなく、幅広く使えるモデルです。

開発者・企業・一般ユーザーのいずれにも対応しており、Google AI Studio、Gemini、AnthropicのCo:workingツール、Android Studio、そしてGemini APIから利用できます。GeminiアプリやNotebookLMを使っている方も3.1が適用されています。

ベンチマークを見ると、トップ争いはGemini 3.1 ProとClaude Opus 4.6がほぼ独占している状態です。一部のタスク、たとえばターミナル上でエージェントを使ったコーディングではGPT-5.3 Codexが77.3%でトップに立っています。ただ全体的に見ると、首位はGeminiです。

ARC-AGIに至っては、Gemini 3.1 Proが77.1%で単独トップです。Deep Thinkも84%という驚異的なスコアを出しています。次点はGPT-5.2の72.9%、その次がClaude Opusの69%。Gemini 3.1は2位に約10ポイント差をつけており、Deep Thinkを含めるとGPT-5.2に対して12ポイント以上の差があります。

Gemini 3.1 ProとClaude Opus 4.6は多くのベンチマークで接近戦を繰り広げており、44%対40%、51%対53%、エージェントコーディングでは80%対80.8%といった具合です。なおLivecode Bench Proについては、Claude Opusが未実施のためスコアなしで比較できません。

専門家向けタスクでは面白い結果が出ています。日常業務のベンチマークでトップに立っているのはClaude Sonnet 4.6で、このカテゴリではGemini 3.1 Proの成績はあまり良くありません。専門家タスクはSonnetに軍配が上がる形です。

エージェンティックなツール使用においては飽和現象が起きています。Gemini 3.1 ProとClaude Opus 4.6が99.3%を記録し、他モデルも90%台後半に入っています。正答率が90%を超えると、そのベンチマーク自体がもはや有効な評価指標とは言えなくなります。全員がほぼ満点を取れているということは、テストが簡単すぎるということですから。

SVG生成とアニメーション機能

注目すべき改善点の一つがSVG生成です。SVGとはベクター画像のことで、ウェブ上で使えて拡大しても画質が劣化しないという特徴があります。さらにアニメーションにも対応しており、ズームしても鮮明なまま動く画像が作れます。

GoogleのSVG生成がここまでクオリティを上げてきたのは初めてのことで、もはや実務レベルで使えると言っていいでしょう。例として、自転車に乗ったペリカンを生成してみます。静止画だけでなくアニメーションも作れるのが売りで、GoogleがデモしたISSの軌道トラッカーのプロンプトも試してみます。

鳥の群れが動くアニメーションのデモも印象的でした。背景に太陽があって、Googleの研究者が指を動かすと、指を追いかけるプログラムが動作し、鳥の群れに干渉するというものです。これがバイブコーディングで驚くほど簡単に作れてしまう。素晴らしいですよね。

サイト生成も引き続き優秀で、画像を用意するなり生成させるなりすれば、見栄えのいいサイトが出来上がります。ウェブサイト生成はだいぶ前から成熟している分野ですが、それでも着実に進化し続けています。

3.1 Proはアプリ上でも利用可能になり、プロユーザーとウルトラユーザーはより多くの利用枠が与えられています。無料ユーザーでも使えますが、サブスクリプション加入者はより多く使えるという仕組みです。

AIの知能レベルについて

Geminiに関連して、少し重要な話をしておきたいと思います。以前から何度もお伝えしていますが、私たちはすでにAGI的な水準に達しています。それについて詳しく解説した動画もありますので、ぜひ見てみてください。

よくこのグラフについてコメントをもらうのですが、GPT-2からGPT-3、GPT-3.5と進化してきた過程を見て、「じわじわと線形的に良くなってきているだけ」と思っている方が多いようです。でもこれ、対数スケールなんですよ。

線形スケールで見ると全然違う景色が見えてきます。長時間タスクの処理能力が、数分から数時間単位へと急激に伸びているんです。これは緩やかな成長ではなく、凄まじい加速です。

Claude Opus 4.6、Gemini 3.1、GPT-5.3は、長いコンテキストを扱う作業において非常に優れた性能を発揮していることをすでに実感しています。以前は複雑すぎてAIに任せられなかったプロジェクトも、今では現実的に考えられるようになってきました。では実際に試してみましょう。

Gemini 3.1 Proの実機テスト

私のアカウントを開くと、「Geminiに聞く」とだけ表示されていて、3.1とは書かれていません。3とか「高速思考」とか「Pro」とかは書いてありますが、3.1という表記はない。本当に最新版なのか少し気になりますよね。

確認する方法があります。3.1だけが高度なSVGを生成できるので、自転車に乗ったペリカンを作らせてみました。そうしたら、ちゃんとペリカンが出てきました!棒の先に人参をぶら下げて、ペリカンが自転車で追いかけるシーンにしようとしたのですが、アニメーションはなんとも残念な出来でした。

人参は地面に落ちてるし、自転車の車輪は飛んでるし、棒は曲がってるし、ペリカンの目は変な感じになってる。でも一応走ってはいる。静止画のほうが断然クオリティが高かったです。とはいえ一歩一歩の進歩ということで、焦らずいきましょう。

次はISSのプロンプトを試しました。3Dレンダリングを高解像度で行い、ISSの現在地データを特定のサイトから取得し、AIが扱いやすい形でいくつかの指示を加えた内容です。

自分のPCで動かしてみたら、実際に動きましたよ!まさに今この瞬間、ISSがどこを飛んでいるかをリアルタイムで表示してくれています。ヨーロッパの上空を猛スピードで飛んでいますね。このレベルのクオリティが手軽に使えるようになったことが本当に感慨深い。バイブコーディングでブラジルも正確に表示されたマップに、昼夜の光の当たり方まで再現できるんです。すごい時代になりました。

ペットショップサイトとMario Kartゲーム

ペットショップのサイトを作らせたところ、なかなか独創的なデザインになりました。サービスごとにタブが分かれていてオリジナリティがある。でももう少し凝ったものを作りたくて、3D要素を取り入れるよう指示しました。

できたサイトはマウスで3D空間をナビゲートできる仕様で、「Trinityの首輪」などの商品をクリックすると詳細ページに移動して購入もできます。さらに「クリックした商品に近づくようにカメラをズームする」という指示を加えたら、ちゃんとクリックに合わせてカメラが寄っていきます。興味のない商品は画面を回転させてパス。どのカードも常に自分のほうを向いていて、内容がきちんと読めるようになっています。

背景にはマトリックス風の文字が流れていて、全体的に個性的な仕上がりになりました。これはかなり良いですよ。

ゲームの話もしましょう。カートゲームに新しい改良を加えてみました。まず以前からのカートゲームを確認します。音楽とエフェクト付きで、ムカデのような電車も出てきます。コイン、スピードメーター、木を通り抜ける動きはそのままですが、電車にぶつかるとちゃんと衝突して爆発します。

これが従来のゲームです。視聴者から「レースゲームを作ってくれ、Mario Kartみたいなの」というリクエストが来ていたので、AnthropicのCo:workingにアクセスしてみました。Gemini 3.1 Pro HighとLowがすでに使えるようになっています。

起動時に古いバージョンだと言われたので確認したら、1.16を使っていたのですが、すでに3.1対応の1.18が出ていました。手動でダウンロードしてインストールしたら正常に動きました。

Gemini 3.1 Proで生成したMario Kartはどうなったかというと、もう最高です!対戦相手のカート、ボーナスアイテム、バナナ、スター、コース上のサインボード(Gemini 3.1 High表記)、Nanoバナナで生成した「Marildaのスーパー」の看板まで入っています。2位でゴールして、音量設定もマップ予測もバッチリです。

ステージ2はビーチステージです。ランプあり、ボーナスアイテムあり、スターを取って加速、ロケットアイテムを取って、カメのコウラも撃てます。最終コーナーはきつい曲がりで難しいのですが、1位でゴールしました。

ただ一つ問題がありました。操縦が楽すぎるんです。前進ボタンだけ押し続けても、自動的にコース内に修正してくれるんです。左右に曲がることや障害物を避けることはできるのですが、コースから外れる心配がまったくない。この部分だけはどうしても直せなかったです。かなり時間をかけたのですが、うまくいきませんでした。次はClaudeで試して改善できるか挑戦してみます。

どちらのゲームが好きかコメントで教えてください:電車付きの旧カートゲームか、新しいMario Kartか。

3D都市ゲームの進化

最後に3D都市ゲームです。これがどんどん進化しているんですよ。主人公の笑顔のキャラクターがいて、ミニマップや各種機能がすでに充実しています。たとえばヘリコプターに乗れるようになりましたし、空から飛び回ることも可能です。

今回コルコバードのキリスト像も追加しました。ただ、ボクセルアートで作ったキリスト像がだんだん変な見た目になってきたので、もうボクセルアートはやめます。3D都市の中にちゃんとキリスト像が建っています。

モデル名の看板(3.1 Pro High)も設置しました。ケーブルカーも走っていて、コルコバードへ向かったり、シュガーローフへ行ったりしています。手動でジャンプして高いところへ登れば、街全体を見渡せます。

夜になるとケーブルカーが到着します。ジャンプしてケーブルカーに乗り込むことも可能です。現実とは少し違う経路ですが、ゲームですからそれはご愛嬌。ミッションもあって、黄色い矢印を追いかけてアイテムを届けるというものです。

細かいところでは、池にアヒルが泳いでいて、ぴょんぴょん跳ねて可愛い動きをしています。池に小舟も浮かべました。橋の下をくぐれますし、橋の上に登ることもできます。

そして最大の見どころ。緑のマーカーが頭についているキャラクターからアイテムを受け取ってアヒルに近づくと、なんとアヒルがついてきます!Minecraftみたいにアイテムを持つとキャラクターが寄ってきて、大きなアヒルが後を追いかけてくるんです。

車を入れるのを忘れてしまいましたが、アヒルが仲間になって、顔のアイコンもあって、かなりいい感じになっています。

今後の構想としては、モデルがリリースされるたびにこの3D都市ゲームに新機能を追加していくというアイデアを考えています。次のモデルが出たら同じプロジェクトを引き継いで、「これを追加して」「あそこを直して」という形で積み重ねていくんです。年末までにどれだけ進化するか楽しみですよね。

3D都市に足りないと思うものがあれば、ぜひコメントで教えてください。次のモデルが出たときにそのリクエストを実装してみます。

AnthropicによるOpenClaw禁止の経緯

では最後に、OpenClawのAnthropicサブスクリプション利用禁止についてお話しします。

Rob Zocosの投稿によるAnthropicの公式見解では、「Claude Free・Pro・Maxアカウントを通じて取得したトークンやOAuthを、エージェントSDKを含む他のいかなる製品・ツール・サービスにおいて使用することも許可されない」とされています。

どういうことかというと、Claude Codeで認証すると、自分のAnthropicサブスクリプションをClaude Codeと連携させることになります。これがOAuth認証と呼ばれる仕組みで、要するにサービスに自分のアカウントを使う許可を与えるものです。

OpenClawはまさにこの認証を使って、ユーザーのClaudeサブスクリプションで動作していました。API経由でも使えますが、そちらは圧倒的にコストがかかります。だからこそ多くのユーザーがOAuth認証を選んでいたわけです。

AnthropicのドキュメントにはOAuth認証の使用条件が明記されており、「Claude CodeとClaude AIに限り使用可能」とされています。Co:workingやClaude Code以外での使用は規約違反とみなされます。

「Anthropicは正しいのか間違っているのか?」と聞かれれば、正直なところ、Anthropicがそうルールを定めて、あなたがその規約に同意してサービスに加入したのであれば、それがルールです。異議があったなら、サインする前に言うべきでしたよね。

実際にどう運用されるかはわかりませんが、一つ興味深い背景があります。OpenClawはかつてClaude Bot(Clawdbot)という名前でした。その後Anthropicから名前を変えるよう求められたとき、開発者のPeter Steinbergはすでにmbot.shのドメインを持っていたので、そちらへ移行しました。本人はこの名前が気に入っていなかったため、しばらくしてOpenClawという名前に変更したという経緯があります。

そしてPeter SteinbergがOpenAIとのパートナーシップを結び、OpenAIがOpenClawにスポンサードすることになりました。その直後から、Anthropicが以前から存在していたこのルールを改めて周知し始めたわけです。

AnthropicがOpenClawのユーザーを検知するのは技術的に難しくありません。OpenClawが送信するCLAUDE.mdファイルのコンテキストメッセージなど、特徴的な通信パターンがあるので、それを見れば利用状況はすぐにわかります。

今後実際に禁止措置が取られるのかどうかは不明ですが、ルールはルールとして確実に有効です。Anthropicの対応は正当な権利の行使だと思いますか?それとも嫉妬でしょうか?コメントで教えてください。

このチャンネルへのサポートを続けていただける方はメンバーになってください。メンバー限定のインテリジェントエージェント動画や先行公開動画が視聴できます。

いいねをよろしくお願いします。ありがとうございました!

コメント

タイトルとURLをコピーしました