壁は存在しない:Gemini 3があなたの仕事にとって本当に意味するもの

Google・DeepMind・Alphabet
この記事は約9分で読めます。

Gemini 3が明確な世界ナンバーワンモデルとして登場し、あらゆるベンチマークで他を圧倒している。数学、科学、視覚的推論、スクリーン認識など幅広い領域で大幅な進歩を見せ、特に視覚理解とマルチモーダル能力において顕著な飛躍を遂げた。これは「AIの進歩が壁に直面している」という主張を完全に否定するものである。Gemini 3の登場は、AI開発競争において決定的なリードを取ることが依然として可能であることを示し、AIが扱えるワークフローの範囲を大幅に拡大した。しかし、このモデルは複雑な作業において真価を発揮するものであり、人間の創造性や判断力、ステークホルダー管理といった領域を代替するものではない。むしろ、ますます賢くなり続ける同僚として、私たちの仕事を支援し加速させる存在として捉えるべきである。

There Is No Wall: What Gemini 3 Really Means For Your Job
My site: Story:

Gemini 3は世界ナンバーワンのモデル

Gemini 3は世界ナンバーワンのモデルであり、しかもその差は歴然としています。今回の最初の動画では、ナンバーワンのモデルであることが何を意味するのか、なぜ私たちが注目すべきなのかについてお話しします。そして明日公開する次の動画では、私の考察についてお話しする予定です。

では、世界ナンバーワンのモデルであるとはどういうことでしょうか。実はこれについて深く掘り下げたいと思います。というのも、誰もが認める明確なナンバーワンモデルというものが、しばらくの間存在していなかったからです。

Gemini 3はまさにそのモデルなのです。私が見つけられるあらゆるベンチマークで勝利しています。そして逸話的な評価でも勝利しています。このモデルが何ができるかについて、Redditでの会話やX(旧Twitter)での会話を見ても明らかです。ユーザーたちは、ベンチマークが示すのと同様に、これが非常に非常に強力なモデルであると報告しています。

では、これらのベンチマークは何を語っており、なぜそれが重要なのでしょうか。「人類最後の試験」において、最高の公表スコアを記録しています。

私が注目したのは、その公表スコアを達成するためにツールを使用していないということです。それはモデルの頭脳がやっているのです。ARC AGI2でも再び明確なリードを示しています。そして注目すべきは、抽象的な視覚パズルにおいて優れた性能を発揮していることです。この視覚パズルというテーマは後ほど再び登場します。数学と科学においても優れた性能を示しています。これらのスコアはある意味飽和状態に感じられます。

つまり、コードなしでAIMで95%を獲得するというのは、技術的にはGPT-5.1を1ポイント上回っているかもしれませんが、要点はそのベンチマーク全体が飽和しているということです。Math Arena Apexは異なる数学的ベンチマークです。こちらは飽和していません。このベンチマークにおける大規模言語モデルの平均スコアは1〜2%でした。では、Gemini 3は何%のスコアを記録したと思いますか。15%です。完璧でしょうか。いいえ。しかし、1%や2%よりもはるかに優れているでしょうか。はい、その通りです。

モーダル理解においても優れています。MMU ProにおいてGPT-5.1とSonnetを上回っています。ビデオMMUについて最高の報告されたベンチマークを持っています。また、最高のOCR認識率も持っています。そして、私を最も驚かせるのがこれです。スクリーンショット。Screenspot Proは、モデルが実際の画面を読み取る能力の測定値です。

これは競合を圧倒しています。72.7%のスコアを記録しており、これはSonnet 4.5の約半分である36%と比べて、GPT-5.1のわずか3.5%と比べても圧倒的です。ちなみに、これらのスコアを見て、「うわあ、私が目の前にしているモデル、GPT-5.1やSonnet 4.5はひどいものだ」と思い始めるかもしれません。いいえ、あなたが目の前にしているモデルが魔法のように悪くなったわけではありません。

私たちはただ、壁が存在しないということを目の当たりにしているだけなのです。そして、それこそが私が皆さんに覚えておいてほしいことです。壁が存在し、研究所が進歩を遂げられないためにAIバブルが起きていると言う人は誰であれ、間違っています。彼らは間違っているのです。そして、それを示すこれらすべてのベンチマークがあります。私は作り話をしているわけではありません。Googleがすでに出荷したものを報告しているだけです。

事前学習に壁は見られません。事後学習にも壁は見られません。これらのモデルは改善し続けており、しかもほんの少しずつ良くなっているわけではありません。進歩は遅くなっていません。少しずつ進んでいるだけではないのです。これは最先端技術における大規模な飛躍なのです。そして重要なのは、Geminiとカジュアルな話題について会話しているだけでは、これに気づかないかもしれないということです。

たとえば、サッカーの試合の計画について尋ねている場合、これには気づかないでしょう。1ページの文書を書くことについて尋ねている場合でも、大きな違いには気づかないかもしれません。このモデルは非常に非常に優れていますが、複雑な作業により適した方法で優れているのです。そして、それが私の2番目の動画で焦点を当てる内容です。

より大きな視点と、Gemini 3が私たちのワークフローにどのように組み込まれるかについての考察に焦点を当てるつもりです。テストしたいと思います。それをすべて理解したいのです。その間、ナンバーワンであるということは、皆さんが心に留めておくべき3つのことを意味します。

ナンバーワンであることの意味

第一に、ナンバーワンになることは可能だということです。それは循環論法に聞こえるかもしれませんが、約束します、これは重要なことです。

ナンバーワンであるということは、誰もが認めるAI競争において決定的なリードを取ることが可能であることを意味します。私たちはその信念を少し失っていたと思います。私たちは激しい競馬の最中にいて、それはただ激しい競馬であり続けるだろうと思っていました。これは激しい競馬ではありません。私たちは皆、横並びで走っていたのに、突然新しいモデルが数馬身も先を走って登場したようなものです。

このような大きな飛躍は依然として可能なのです。ですから、誤った安心感に惑わされないでください。それが皆さんへの私の最初の考察です。

2番目の考察は、数ヶ月ごとにAIが何ができるかを再考し続ける必要があるということです。人々は、なぜ私がまだ素材を見つけられるのか、まだAIについて話し続けられるのか不思議に思っています。

皆さん、今日がまさにその理由です。これらのモデルを実用的なワークフローでどのように使用するか、これらのモデルをどのように統合するか、いつ複数のモデルを呼び出すか、最も賢いモデルが必要か、いつGemini 3を使用するかについて、私たちはまだ学ぶべきことがたくさんあります。そして、最先端技術を前進させるたびに、それがGemini 3が今日行ったことですが、AIでカバーできる可能なワークフローの表面積が拡大します。

そして今日、それは本当に意味のある範囲で拡大しました。ですから、AIが何ができるかを考えるとき、軌跡の観点から考えることをお勧めします。今日のAIを、AIがカバーできるあなたの仕事の特定の領域、または構築しようとしているワークフローの領域として理解しているはずです。それは良くなると仮定してください。私はこれを言い続けていますし、その日を予測することはできないことは分かっていますが、良くなるでしょう。

AIはより多くのワークフローをカバーし続けるでしょう。そして、そのどれもが、AIが本当に苦戦している場所がまだあるという考えと矛盾しません。Gemini 3が向上している領域は素晴らしいものです。ある意味では、これが博士課程レベルの研究者であるという主張を反映しています。思考し、率直であり、押し進め、質問をするといったことすべてができます。

しかし、逸話やテストから、これがモデルが突然すべての人のすべての仕事をいつまでもできるようになる状況であるという兆候は見られません。人間が繁栄する曖昧な領域、私たちが下さなければならない困難な判断、管理しなければならないステークホルダー、私たちが尋ねる質問、私たちがもたらす創造性、これらすべてを私たちはまだ行う必要があります。

Gemini 3は言語モデルとして非常に優れていますが、言語モデルが得意でないことは得意ではありません。ですから、ナンバーワンについて興奮している一方で、より大きな考察のセットと、それをどこで使用するかについての別の動画を作成するつもりです。つまり、価値がどこにあるかということです。今日の考察は、それがナンバーワンであることを本当に信じてほしいということです。

今やロックを解除できる高度なワークフローに注目してください。しかし、それが世界を乗っ取ると信じたり、明日にはあなたの仕事を奪うと信じたりして過剰に重視しないでください。なぜなら、それはまったくそのような兆候を示していないからです。そして、数学、科学、コーディングのような重要な方法でモデルが向上できることは、皆さんにとって励みになるべきだと思います。

しかし、私たちが行う仕事には、そのような非常に狭く定義されたタスクだけではない側面があります。ですから、興奮してください。あなたは、あなたの仕事であなたを助けてくれる同僚を得られる世界に生きています。その同僚は実際にあなたの仕事をうまく奪うことはできませんが、はるかに多くのことをはるかに速く行うのを助けることができます。

そして、その同僚は常に賢くなり続けています。それが今日の意味するところです。それは常に賢くなり続ける同僚についてです。そしてGemini 3は、その明確なナンバーワンで、それこそが私たちがAIについて興奮する理由であることを思い出させてくれます。それが、これらの日々が重要である理由です。

視覚能力とマルチモーダル性の飛躍

私の最後の考察、そしておそらく明日これをさらに探求するつもりですが、最大の飛躍が見られる分野のいくつかは、私たちが進歩を見たいと望んでいたが、実際には非常に困難であることが証明されてきた分野であるということです。

そして、そこには探求すべき何かがあると思います。私はまだそれを形成中です。具体的に言うと、視覚的鋭敏性、視覚的推論、視覚的インターフェースをナビゲートする能力、視覚的理解において巨大な飛躍が見られると同時に、推論能力の飛躍、コーディング能力の飛躍も見られます。これが強化しているのは、モデルが見ることと考えること、見ることと推論することの両方を必要とする一連のユースケースです。

これは本当にエキサイティングです。なぜなら、これらのモデルの約束は常に、それらがマルチモーダルであるということだったからです。画像データ、音声データ、テキストデータを取り込み、さまざまなもの、おそらくコード、おそらく他の何かを出力できるということです。まあ、それはますます真実になっています。これらの他の入力モード、テキストだけでなく、をネイティブとして扱い、高レベルで推論できるものとして扱うモデルを手に入れ始めると。

全方位で賢く感じられ、弱点があるように感じられない、真にマルチモーダルな体験が得られます。視覚的な弱点を持たないモデルには、おそらく探求すべきことがたくさんあります。これは他のモデルのいくつかに当てはまることが分かっています。たとえば、ChatGPTにウェブページを作成するよう頼んだり、Sonnetにウェブページを作成するよう頼んだりすると、それらは優れています。

どこかには到達させてくれますが、Gemini 3ほど優れてはいません。ですから、ビジュアルで賢くなり始めているモデルを持つことで、私がまだ考えている多くのことがロックを解除されます。そして、マルチモーダルAIが存在することが何を意味するかを考え始めるにつれて、皆さんの見解にも興味があります。

しかし、今のところ、Gemini 3は世界ナンバーワンのモデルです。ほぼすべての人がそれに同意しています。そして、皆さんがそれで何を構築しているのか聞いてみたいです。今日のテストを完了したら、より詳細な考察のセットを考え出すつもりです。

コメント

タイトルとURLをコピーしました