Sam Witteveenと振り返るAI界の激動の一週間

11,869 文字

https://www.youtube.com/watch?v=c2IBZlFBcgs

ここにクールなモデルがありますが、それらのモデルで作った製品がこちらです。OpenAIを皮切りに、今日のAnthropic、そしてGoogleといった大手プロバイダーの多くが、これらの推論モデルから生の思考トークンを提供しないことを決めているのは非常にイライラします。舞台裏のチームから聞いている話では、発表と同時にリリースするだけでなく、完成してから文字通り1、2日後にリリースしているんです。
あなたは神経に触れましたね。それで私は興奮してしまいます。気をつけてください。
皆さん、こんにちは。チャンネルへようこそ。今週私はGoogle I/Oに参加していました。そこで素晴らしい友人のSamと会いました。Google I/Oで見たことについて話していきます。また、今週のモデルリリース、特に今朝のClaudeについても話します。
ぜひ最後まで動画をご覧ください。Samさん、調子はいかがですか？
元気です。GoogleのビッグウィークであるGoogle I/Oのためにここに来ています。たくさんの新しいもの、話すべきことがたくさんあります。どこから始めたいですか？I/Oについてどう思いますか？どう感じましたか？
今年は本当に印象的でした。今年はおそらく過去2年間よりも印象的だったと言えると思います。
今年は本当にGoogle内の多くのグループが取り組んできたことの成果を見ることができました。Project Astraのようなものを昨年プレビューで発表したようなものです。しかし今年は、Sundaが文字通り、今日の後半にGemini liveを開いて遊ぶことができますと言ったような、本当にクールなものを実際に見ることができました。
それは本当にクールなテーマだったと思います。そうですね、少なくとも私たちはもう物事を待つ必要がなくなりましたね。舞台裏のチームから聞いている話では、発表と同時にリリースするだけでなく、完成してから文字通り1、2日後にリリースしているんです。
Sunが基調講演の冒頭で非常に興味深いコメントをしました。今は3月中旬の平凡な火曜日にモデルがドロップするのを見る可能性が、Google I/Oまで待つのと同じくらい高いということです。これは本当に興味深いと思います。なぜなら、あなたも私もGeminiモデルなどのテスターですが、確実にそれを見てきたからです。
今日は私のGeminiトップを着ています。確実に、過去6週間から数ヶ月の間に複数のGeminiリリースがあったのを見てきました。多くの人が、ああ、彼らは何をリリースするのだろうか、途中でこれらすべてのものをリリースしているなら、何が残っているのだろうかと疑問に思わせました。
それは確かにそうですが、リリースされたすべてのモデル以外で、モデル全般だけでなく、あなたのお気に入りは何でしたか？
私にとって大きなアイデアは、昨日ビデオを作ったりしたことですが、このI/Oは本当にモデル対製品についてでした。Googleだけでなく、業界全体で過去2年間、みんなが新しいモデルです、ベンチマークをチェックしてください、これらすべてのようなものをチェックしてくださいと言ってきたと感じています。それは本当にクールでしたが、業界の私たちにとって非常に技術的なもの中心でした。
私はこれがそれを超えたと感じました。クールなモデルがありますが、それらのモデルで作った製品がこちらです。私にとって、発表される多くのことを既に知っていた状況で、実際に見たときの製品の良さ、それらに対する反応の良さに今でも驚かされました。
新しいGemini Flashモデルや新しいProモデルが来るという興奮だけでなく、人々が実際にそれらで構築している製品に多くの興奋があるようでした。製品のいくつかを試すことができましたか？
はい、かなり多くの製品を既に試しました。様々な製品があると思います。
分解したいなら、Gemini製品から始めることができると思います。たくさんの異なるコーディング関連のものがあります。あなたは既にJulesについてビデオを作りましたね。
Julesについてどう思いましたか？
それはかなり興味深いアイデアです。Julesは非同期ポーティングエージェントだと言っています。これまでCursorやWindsurf のようなものを使ってきました。基本的にこれらの手がかりをベビーシッターするというアイデアです。コードを生成し、あなたがそれを受け入れる必要があります。Julesは初の一つだと思います。これは新しいカテゴリーで、CodeXも別の一つ、Devinも別の一つです。タスクを与えると、バックグラウンドでタスクを完了し、そしてオーケー、こちらがPRですと教えてくれます。
これがエージェント的コーディングシステムが想定されていたものだと思います。そして実際にそれが実現されているのを見ています。約束されていたものの実現を実際に見るのはとても素晴らしいことです。
先週金曜日にOpenAIがみんなを先手を打とうとしたのは非常に興味深いと思いました。昨年は、Googleの雷を盗もうとしてI/Oの前の月曜日にやりました。今週は前の金曜日でした。月曜日にMicrosoftも大きな発表をしたからだと思います。明らかに多くのフロンティア研究所がこのエージェント的コーディングのアイデアに取り組んでいて、それを行うためのソフトウェアを考え出そうとしていることに同意します。
OpenAIは金曜日にそれを展開しました。GoogleはI/OでJulesを発表しました。これがどこに向かうかを見るのは本当に興味深いでしょう。現時点ではできることがまだ少し制限されていると思います。実行できるエージェントの数、コール数などです。
そのため、まだテスター的なものかもしれません。そうですね、より初期の探索のようなものだと思います。コミュニティからフィードバックを得て、それを改善していくことを願っています。しかし、あなたは多くのモデルリリースについて言及しましたね。今週はかなりクレイジーに見えます。
完全にそうです。他の人のモデルについて戻って話すかもしれませんが、I/Oでは、モデル的に言えば、Gemini Flash 2.5の新バージョンがありました。これを考えると、このモデルの2番目または3番目の公開イテレーションです。12月頃に遡ると、彼らはそれを思考モデルと呼んでいたと思います。
Sundが発表したのは本当に興味深いことです。これは6月にGAになる予定です。興味深いのは、Googleがこれに対して行ったイテレーションの数です。それは本当に魅力的でした。
その上で、彼らはGemini 2.5 ProのDeep Thinkを搭載した新バージョンを発表しました。これはテスト時間計算のより多くのもの、おそらく並行して、おそらく多くの異なることを行っています。Gemini Diffusionもありました。これは本当に興味深いです。それについてどう思いましたか？
それは本当に魅力的なアイデアです。まず第一に非常に高速になると思います。そうです、遊んでみましたが、1秒あたり11,200トークンまで取得でき、平均して8,900だと思います。非常に高速です。
それらすべての中で最も賢いモデルではありません。Googleはそれについて非常に正直でした。これは実験で、人々がこれをどこで使用するかさえ確信していないと言いました。しかし、これは開発者コミュニティにとって本当に価値のあるものでしょうか？確実にそうだと思います。エージェントにとって本当に大きなものになると思います。
人々がこれを使用するのを見るでしょう。なぜなら、人々があまり話していないことの一つは、これをサーバーサイドのコード実行と組み合わせることを想像できることです。文字通り瞬時に、コードを書く必要があると判断し、コードを書き、コードを実行し、ユーザーに応答を返すことができます。本当に秒や秒の断片で行うことができます。これは確実に本当に大きなものになると思います。
Geminiモデルでは確実に多くのことが起こっていました。Googleの哲学が変化していることを示していると思います。完全に開発されたモデルを待つだけではなく、特にライブデモのようなもので本当に実験しています。それは見ていて興味深いことだったと思います。
確実にGeminiが多くの異なることに使用されているのを見ました。Project Astraについて話しました。発表された他のGeminiモデルは、live APIの新バージョンでした。元々はbyday API、双方向APIと呼んでいました。
これにより、人々はリアルタイムでGeminiと話すことができます。それだけでなく、ビデオフィードも持つことができます。これは巨大なことになると思います。そして私の先ほどのポイントに戻ると、モデルだけではなかったということです。
彼らはそれを示しましたが、それがGemini Liveアプリに組み込まれ、AndroidとiOSで人々が無料で使用できるようになることを示しました。
多くの人がそこで感動していましたが、今後数ヶ月で人々がこれを使い始めるだけだと思います。文字通り何かの問題があるときはいつでも、人々はこれを取り出し、それを見せて、「ここで助けて」と言うでしょう。
あるいは、彼らは本当に素晴らしい例を示しました。Geminiが再びこれらの種類のものでサーチに組み込まれる例です。携帯電話を取り出し、これらのスニーカーの写真を撮って、「ウェブでこの種類のものの最高価格を見つけて、それが何だったか教えて」と言います。
そして、それが本当に遊び心のあることである一方で、私たちはSundaのスニーカーの写真を撮りました。いくらだったかは言いませんが、調査をすれば、かなり素敵です。しかし、子供の宿題から仕事での使用まで、そのアプリで様々なことに人々がそれを使用するのを見るでしょう。そしてサーチにも組み込まれます。
サーチは明らかにGemini 2.5モデルがサーチに組み込まれ始めているところでした。Googleは明らかにサーチで知られています。
過去1年間、みんながこれらの他の会社がGoogleを革新で上回っていると言ってきました。Googleは実際にサーチにおいて、ボリュームだけでなく革新においても、まだおそらくナンバーワンのプレイヤーであることを示したと言わざるを得ません。
彼らが最初のパートからGemini 1や1.4へと行った進歩の量に本当に感動しています。それを見るのは魅力的でした。
今お聞きしたいことがあります。私たちは両方ともNextにいて、彼らはAIについて、エージェントについて話していました。これらの2つの単語が何回使われたかのカウンターまでありました。今回はエージェントについてそれほど聞きませんでした。確実にそれについての話ははるかに少なかったです。
それは本当に興味深いと思いました。確実にGoogleは何の発表もなかったわけではありません。ここラスベガスで話したADK、エージェント開発キットは現在1.0になっています。そのために多くの変更がありました。リリースされた、そして来るそのフレームワークのための多くの新しい組み込みツールがあります。それらのいくつかはまだパイプラインに来ています。
それは私たちが話さなかったGeminiモデルの別の使用であるMarinerに戻します。
エージェントストーリーはおそらく開発者ストーリーよりも消費者ストーリーでした。彼らはそれを基本的に製品に変換しています。
Project Marinerは、昨年プレビューとして発表され、年の後半に来ると言われていたものが、テスター向けのChrome拡張機能としてリリースされました。
今、これが出てくるようです。Ultraパッケージで入手できます。ビデオモデルについては後で話せます。私にとって興味深いことは、明らかにこれが未来だということです。
明らかにこれは人々のブラウザに組み込まれ、携帯電話に組み込まれ、エージェントと呼びたいかアシスタントと呼びたいか、ある意味ではアシスタントの方が良い言葉かもしれませんが、これらのアシスタントが実際に出て行ってあなたのために物事を行うこの全体的なものを見ることになります。
これは本当に大きな飛躍だと思います。人々はこれらのものから学ぶことや、情報を集約してもらうことについて多く話してきましたが、今後は実際に独自の検索を行い、物事を取得し、あなたが望むアクションを実行することになります。それは本当に魅力的だと思います。
私たちは消費者またはユーザーとして、この新しいパラダイムに本当に適応しなければならないと思います。確実に時間がかかるでしょう。これが今日Chrome 100%でリリースされたという発表ではありませんでした。そのため、出てくる前におそらくいくつかのイテレーションがあるでしょう。
しかし、そこから得られる大きな持ち帰りの一つは、おそらく昨年はそれができなかったということです。昨年はできなかったと言えます。なぜなら、モデルがその時は適切なレベルになかったからです。そのため、これらのモデルをこの時点まで持ってくることで、これらすべての製品が可能になります。
昨年やそれ以前に製品に関する多くのアイデアがありましたが、モデルが十分に良くなかったという点の一つだと思います。Googleのモデルが十分に良くなかったわけではありません。業界のみんなでした。そのため、過去1年間で、人々は異なるプロバイダーなどのモデルを改善してきました。
それがこれらすべての新しいことを可能にしました。VOやImage Jamにも触れていません。実際に、みんなVOについて話しています。それは本当に魅力的なので、それについて話す必要はないと思います。Gemmaについてお聞きしたいです。
どう思いましたか？それはあまり注目されていない非常に重要な部分だと思います。
これは午後の開発者基調講演に委ねられました。確実に非常に興味深いモデルです。再び、それについてのスペックのためではなく、それでできることのために、おそらくより興味深いです。
Gemma 3リリースは数ヶ月前でした。1Bテキストモデルから27Bマルチモーダルモデルまで、画像とテキストのみができました。
興味深いことに、彼らはこれらのモバイルバージョンまたはnanoバージョンをリリースしました。これが3Nです。そしてオーディオと画像ができます。人々がGemini Liveアプリのようなものを携帯電話で完全にローカルで作り始めているデモを見ました。
それはちょっとナッツでクレイジーですね。あなたはこれらすべてのものを携帯電話で実行することができ、プライバシーが保持されます。見るのは非常に興味深いでしょう。
その背後にいるGooglerと話して、彼らでさえすべての使用例を正確に知らないというのがクールなことの一つだと思います。開発者がこれをどこで、どのように使用するかを見ることに興味があります。それは本当に魅力的になると思います。
明らかなものは携帯電話に入れて人々に使わせることです。しかし、人々がラップトップやデスクトップで使用するために開発する本当にクールなものを見ることになると思います。画面を使用している間に見て、それにコメントできるようなものです。
これらのモデルをカスタマイズして、コンピュータ使用のようなことを少し行うこともできます。すべてが魅力的です。これは始まったばかりのようです。これらのモデルに関する多くの技術的なことがあり、リサイズできる方法について本当に興味深いです。聞いているところでは、これはまさに始まりです。より多くのクールなものが来る予定です。
モデル機能についてどう思いますか？私にとって、現在はるかに小さなモデルでより多くのことができるように感じます。
確実に、アイデアが昨年本当にクールだったが、モデルで単に機能しなかったという橋を渡ったと思います。今では突然、ああ、これは機能するし、まだ完璧に機能するとは限りませんし、すべての使用例でそうとは限りませんが、より多くの人々がコーディングは巨大なもので、Julesについて話しましたが、もう一つはStitchでした。
基本的にこれらのモデルを使用してアプリのデザインを生成できます。6ヶ月後、1年後を見ると、開発者としての私たちは競争という言葉を使いたくありませんが、良いアイデアを持った人々がアプリを構築できるのを見ることになります。
コードを学んだことがなく、これらのどれも学んだことがなくても。それは起こると思います。どれだけ早くなどによりますが、それは見るべきものになります。しかし、GoogleがGemini 2.5モデルでこれらのアプリのいくつかに旗を立てているのは興味深いです。
つまり、彼らは良いアウトプットなどを提供しているということです。多くの場合、人々がこれをどのように使用するかを見たいと思っていると思います。例えば、「モバイルアプリが欲しい。ライムグリーンにしたい。角を美しく曲げたい」などと話すだけでアプリを構築する人々の本当に素晴らしいデモを見ました。
アイデアを持った人々がそれになると思います。V3について言及していましたが、VOについてはどこでも話されているので、あまり話しませんが、私にとってV3での大きな持ち帰りは、モデルが素晴らしいということでした。
今では本当に信じられないビデオを生成できるだけでなく、それと一緒に行くオーディオサウンドエフェクト、音楽、そして対話も生成できるモデルについて話しています。それは魅力的でした。
それはクールでした。しかし、彼らがそのモデルを出すことができたという全体的なアイデアも。過去ではそれが起こっていたでしょう。過去では彼らは基本的にモデルでVOを示していました。今年、彼らはFlowと呼ばれるこの新しい製品を出しました。
Flowアプリのアイデアは、本当にこれらのモデルを取って、それで完全な映画を作ることを可能にすることです。それは本当に魅力的だと思います。作られなかったWestworldの第5シーズンを見たいです。誰かがそれを作りに行くでしょう。
すべてのStar WarsやStar Trekファンなどを想像できます。これらすべてのものを人々が作るのを見ることになります。著作権に関する問題があるかもしれません。しかし、作るにはコストがかかりすぎるか、技術的に困難すぎるために作ることができなかった本当にクールなストーリーも見ることになると思います。
それらを見るのは本当に興味深いことになります。私たちは既にDarren AronofskyとDeus Hazabusとこの全体について話すことに参加しました。Darren Aronofskyがストーリーテリングについて本当に話し、以前にはできなかった異なるストーリーテリングを可能にするということについて話すのを聞くのは本当に興味深かったです。
技術者として、モデルがどのように機能するかを知っている私にとって、それは技術の印象的な偉業ですが、他の人々がそれを映画を作ったり何かをしたりできる素晴らしいツールとして見るのを見るのは本当にクールです。
実際に私はDennisとのセッションにいました。彼は誰かが彼に見ている将来の機能について尋ねた将来について話しました。彼が言及したことは非常に魅力的でした。今日私たちはツールを構築し、それらのツールをLLMに決定させるために与えていますが、将来これらのLLMやモデルがその場でツールを構築するのを見ることになるでしょう。そのアイデアについてどう思いますか？
多くの意味で、それは私がdiffusion gemmaとコード実行について話していたことの種類です。そのことは非常に迅速にコードを書くことができ、コードを実行する能力があれば、文字通り決定できます。このAPIにpingするか、このMCPを使用します。コードを書き、それを行う。うまくいかなければ、コードを更新し、再び行う。すべて1秒程度でです。
そうですね、彼は完全に正しいと思います。それを巨大に将来的なこととさえ見ていません。少なくともそれの始まりは、確実に今後、より知的なモデルである2.5 prosのようなモデルが、私たちがまだ考えていない科学的ツールを理解するのに本当に上手になるかもしれません。それは本当に興味深いことになります。
つまり、すべてのために一つのモデルは必要ないが、異なることを行う異なる機能を持つ複数の異なるモデルを持つことになるということですね。
それは可能ですし、多くの異なるプロンプトや多くの異なるエージェントが実行されている一つの大きなモデルのようなものかもしれません。確実にdiffusionの速度は、何十分も考えることができるdeep thinkを持つ2.5 proとは非常に異なる性質を与えます。
しかし、これらのものが自分たちのツールなどを作成するこの全体的なアイデア、誰にとっても危険ではないサンドボックスを与えることは、多くの興味深いものを生成すると思います。先週だったと思いますが、DeepMindがAlpha Evolveを発表しました。モデルまたは一連のエージェントにアイデアを生成させ、それらのアイデアをテストする方法を持ち、そのループを更新し、そのループをどんどん速く回すというアイデアです。
多くの研究者と話していると、彼らはそれを癌の治療法を発見する道筋、新しい物理学の問題などを発見する道筋として見ています。
この分野では多くのことが起こっており、より多くの革新的なアイデアを見ることになると思います。今週見たすべての異なるリリースについてどう思いますか？先週でしたかね？
私たちはそれを開始しました。先週の水曜日にサンフランシスコに飛び込みました。時差ボケを解消するために1日半ありました。そして確実に、金曜日の朝、OpenAIがCodeXリリースで開始しました。
月曜日には、Microsoft Buildの新しいCo-pilotのようなもので Microsoftがありました。明らかに火曜日、水曜日は主にGoogleとGoogle I/Oでした。また、文字通り私たちが録音する1時間前にClaude、AnthropicがClaude 4をドロップしました。
確実にみんなが飛び込みたがっているようです。誰も取り残されたくありません。確かにそうです。しかし、私たちに少し時間をください。あなたと私のように、それをカバーしたり評価したり、それについてビデオを作ったりしようとしている者にとって、それはイライラします。週に一つずつ、次の4週間のように間隔を空けてくれればいいのですが。残念ながらそれは起こりません。
Claude 4を見る機会はありましたか？
Claude 4が出たときに素早く遊んでみて、彼らが発表したもののいくつかを見ました。本当に興味深いものがいくつかあると思いました。一つは、コード実行という全体的なアイデアも発表したことです。AI Studioはかなり長い間それを持っていました。
ほとんどの人は話していません。あなたがそれについてビデオを作ったのを知っています。私も以前にそれについてビデオを作りました。人々がストロベリーの何時間かについて話していたとき、あなたがコード実行を使ってそれを回避したのを覚えています。
その通りです。Anthropicもそれを採用したのを見るのは良いことです。他のツールも採用しています。火曜日のI/Oで見たものの一つは、Gemini APIも基本的にMCPをサポートする予定で、Claude、Anthropic APIも現在それを行っているということです。サーバーサイドで行っているようです。それがどこに向かうかを見るのは本当に興味深いです。
私が気づいているのは、機能の収束があるように見えることです。すべてのプロバイダーが基本的に同じことを今行っています。
モデルの機能だけでなく、アドオンの収束だと思います。アドオンを検索、コード実行、何らかのツール使用またはMCPのようなものと考えると、今はほぼみんながそれを持っています。OpenAIがかなり前にコード実行を最初に持っていたと思います。
Googleもかなり前にそれを導入しました。そうですね、少なくとも明らかなもののアドオンと私が呼んでいるものの多くは、みんながああ、それが必要だ、ああ、それも持つべきだと言っているような感じがあります。
おそらく他のものは、コンピュータ使用やクラウドでブラウザを起動するような種類のものでしょう。確実に、これらのアイデアの周りにある種の収束を見ています。
個人的に強い意見を持っており、あなたも持っていると思う何かがあります。推論トレースをどのように有効にしているかについても収束があります。今、実際の生の推論ではなく、それを要約しています。
あなたは神経に触れましたね。それで私は興奮してしまいます。気をつけてください。OpenAIを皮切りに、今日のAnthropic、そして途中でGoogleも含めて、多くの大手プロバイダーが、これらの推論モデルから生の思考トークンではなく、その要約を提供することを決めているのは非常にイライラします。
彼らは要約が親切で、より有用であるなどと主張しようとしていますが、実際のモデルから得られる深さには全く及びません。
Gemini 2.5のそれらの生の思考トークンについて非常に印象的だと思ったことの一つです。残念ながら今、それらは消えています。Googleはそれらを戻すかもしれません。興味深いことに、Anthropicは要約を提供するが、本当に生のトークンが必要なら、営業に連絡すれば何かを解決するかもしれないと言いました。
それは良いことです。それが必要ない人々の使用例と必要な人々の使用例があると思うからです。少し多くコストがかかるなら、公平です。それは理にかなっています。しかし、それは興味深いことです。これをすべての大企業からの防御的な戦略と見なければなりません。
彼らはDeepSeekのような世界を望んでいません。彼らのモデルを蒸留のために、他のモデルを訓練するために使用できる他のプレイヤーを望んでいません。完全に理解できます。
しかし、開発者の観点から、使用例はどのようなものでしょうか？なぜ私たちはこれに興味を持つのでしょうか？
私にとって、最近まで使用していた大きなことの一つは、生の思考トークンが計画を立てるときでした。まず、これを行います。次に、これを行いますと言います。本当に素晴らしい計画を立てます。
エージェントなどとして使用している場合、アウトプットを実際に取って、LLMを判定者として使用してその計画を見て、計画のすべてを完了したか、何かを残したかを確認できます。そのループを通して行うことで、エージェントがはるかに良くなり、より信頼性が高くなり、より印象的な体験になります。
これまでのすべての要約は、その種の情報を与えてくれませんでした。おそらく、より良い要約のセットを見ることになるでしょう。要約が石に刻まれたものとして見ているわけではありません。チームの一部の人々と話していると、どのように使用したいか、どのように改善できるかを見ていることを知っています。
しかし、思考トークンの多くの使用があると思います。また、これらのものを読んで、モデルが考えているかっこ付きの方法を見ることは魅力的です。実際にどのように様々なステップを考え抜くか。そこから多くを学ぶことができます。個人的に、それを通して行き、実際にそれについて考えた方法があるかもしれないことを本当に楽しんでいます。
その大きな使用の一つは、これらの思考ステップを見ることができるとき、プロンプトがモデルを適切に導いているかどうかを見ることができることです。間違った種類の思考ステップを見たり、この方向に行きすぎようとしているのを見たりすると、軌道に戻すためにプロンプトを更新することが簡単にできます。
それらなしでは、それを行うのがより困難になります。
Samさん、ありがとうございました。魅力的な議論でした。視聴者も楽しんでくれることを願っています。Samのチャンネルをチェックしてください。みんなが購読していることを願いますが、もしそうでなければ、すべての技術的コンテンツで優秀なチャンネルを持っています。
I/Oで発表された製品のいくつか、そしてClaude、発表されたオープンソースモデルのいくつかについて、詳しく掘り下げる予定です。
とにかく、このビデオを楽しんでいただけたことを願っています。ご視聴ありがとうございました。次の動画でお会いしましょう。