AIニュース:OpenAIエージェント、Google Geminiのコンピュータ操作、そしてAMD

AIニュース
この記事は約13分で読めます。

本動画では、2025年10月時点でのAI業界の最新動向が網羅的に紹介されている。OpenAIの開発者向けイベントで発表されたChatGPTのアプリストア機能やエージェントキット、Google Geminiの新しいコンピュータ操作モデル「Gemini 2.5」の性能評価、OpenAIとAMDの契約交渉の内容、XAIのGrokによる動画生成モデルの進化、そしてGoogleのノーベル賞受賞者の増加まで、多岐にわたるトピックが扱われている。特にGemini 2.5のコンピュータ操作能力は実際のデモを通じて検証され、ウェブナビゲーションにおける大きな進歩が示されている。AI技術の急速な発展と各企業間の競争激化が鮮明に浮き彫りになる内容である。

AI NEWS: OpenAI Agents, Google Gemini Computer Use and AMD
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

AI業界の最新動向

さて、AI業界では大きなことがいくつも起こっています。私は数日間休暇を取っていたのですが、本当に遅れを取ってしまった感じがします。AI動画に関するニュースがたくさんあります。VO3.1がもうすぐリリースされるかもしれません。すでにHicksfield AIにリストアップされているのを確認していますが、これはおそらく実際の完全版が間もなく公開されることを意味しているのでしょう。XIも遅れを取っておらず、同じくAI動画モデルをリリースしようとしています。

Google Geminiがこれを発表しました。新しい最先端のGemini 2.5コンピュータ操作モデルです。これはGeminiのコンピュータ操作ストーリーにおける最初のステップに過ぎません。これは私にとって非常にエキサイティングなことです。なぜなら、これはこれらのAIモデルで見られた弱点の一つだったからです。コンピュータを使ってウェブをナビゲートすることがあまり得意ではなかったのです。

一見したところ、これは素晴らしく見えます。そしてもちろん、本当に手短に、OpenAIの開発者向けイベントで何が起こったのかをキャッチアップしましょう。あまり深くは掘り下げません。私はライブ配信をしました。リアルタイムで起こっているのを見ました。でも何よりもまず、ChatGPTにアプリが登場しました。アプリストアのようなものです。ChatGPTにもあらゆる種類のアプリが入ることになります。

多くの既存アプリが接続されます。Zillowが彼らが紹介したものの一つでした。Spotify、Booking、Canva、Corsera、Expedia、Figmaもあります。誰でも参加できるようです。彼らが概説している要件はいくつかありますが、アプリを持っていれば、それがChatGPTで紹介される可能性があるようです。これが軌道に乗れば、確実にアプリをChatGPTに使ってもらう方法をめぐる競争が始まるでしょう。

これは、人々がGoogleやiTunesストアで検索エンジン最適化のランキングを上げる方法を見つけ出したのと似ています。ChatGPTがあなたのアプリを推薦する前に何を見たいと思っているのでしょうか。彼らはまた、エージェントビルダーを含むエージェントキットも発表しました。基本的に、コマンドラインインターフェースを必要とせず、コーディング方法を知る必要なく、これらのエージェント的なワークフローを構築する非常にシンプルな方法です。

これも再び、かなり大きな出来事になる可能性があるようです。なぜなら、誰でもこれらのワークフローを構築でき、他の多数のアプリやMCP、接続したいあらゆるソフトウェアに接続して、その多くを自動化できるようになるからです。また、彼らはこれをエンタープライズフレンドリーにすることに多くの努力を払ったようです。

これは自分のワークフローを構築する様子のようなものです。そして、エンタープライズフレンドリーなものは、ジェイルブレイクガードレールやハルシネーションガードレールなどです。基本的に、大規模アプリケーションやエンタープライズアプリケーションで使用するのを少し安全にしています。過去に私はmake.comやZapierを使用したことがありますが、それらは非常に強力で素晴らしいツールでした。

OpenAIはそれらを狙っているようです。もちろん、現時点ではOpenAIモデルでのみ使用可能なようです。したがって、競争の余地はまだたくさんあります。そして、自分のモデルを持ち込みたい場合、誰のモデルにでも切り替えられるようにしたい場合、これはそれを許可しないように思えます。

確かに今はそうではありませんが、間違いなく非常に近いうちに試してみるものです。また、sort 2やAPIなど、たくさんの新しい発表もあります。Codexは、Slack統合、Codex SDK、エンタープライズコントロールなどの新機能とともにローンチされました。そして、Codexは現在一般提供されています。それが発表でした。

APIにはGPT5 Proがあります。GPT realtime miniという、はるかに安価なモデルがあります。より小さな音声モデルとGPT Image 1 Miniです。ですから、私は確実にこれら二つに注目しています。どれだけの支持を得るか、どれだけ速くスケールするか、どれだけの人が使い始めるかによって、これは大きな出来事になる可能性があります。

ですから、ご注目ください。さて、でもGoogle Gemini、Gemini 2.5コンピュータ操作モデルを見てみましょう。つまり、これらは基本的にユーザーインターフェースと対話できるAIエージェントです。コンピュータを使う、ウェブをブラウジングするなどを考えてください。彼らはここにいくつかのデモを持っており、このエージェントがどのようにウェブをナビゲートできるかを示しています。

ベンチマークのスコアはかなり良く見えます。最近、二つの新しいシステムがリリースされました。一つはAnthropicからで、もう一つがこれで、ウェブをナビゲートするのに非常に非常に優れているように見えます。つまり、コンピュータ操作です。繰り返しになりますが、これはこれらのAIモデルが物事を行う能力のもう一つのボトルネックです。なぜなら、ウェブをうまくナビゲートできなければ、多くのユースケースが事実上ロックアウトされているからです。

ここでは、このフォームを埋めるのにかなりうまくやっているようです。これは、カンバンボードと呼ばれるものだと思います。ボード上でプロジェクトを移動させるようなもの、またはそれに似たものです。しかし、ここではかなりうまくやっているようです。必要に応じてそれらを動かしていて、あまり問題はありません。

これはデフォルトのユーザーインターフェースのようなものではありませんが、それでもかなりうまくナビゲートしているようで、これは刺激的です。ベンチマークでは、非常に良く見えています。OpenAIのコンピュータ操作エージェントモデルより優れているように見えますし、新しい4.5を含むClaude Sonnetモデルも上回っているようです。これらが正確であれば、これは現在私たちが利用できる最高のモデルということになります。

もちろん、自分のユースケースでテストする必要があります。しかし、確かにこれらのコンピュータ操作モデルの反復は良くなっており、かなり速く良くなっています。なぜなら、かなり長い間遅れを取っていたからです。このグラフで見ることができるように、非常に正確でありながら、非常に非常に高速です。

これが競合がクラスターを形成している場所です。そして、これがGemini 2.5コンピュータ操作です。ですから、精度と低レイテンシを求めている場合、間違いなく群を抜いて最高のものです。さて、これが重要な理由の一つは、もちろんウェブをナビゲートするためです。Project Marinerは、あなたのためにウェブをナビゲートして調査を行うオンライン調査エージェントです。

しかし、彼らがFirebaseテストエージェントも持っていることに注目してください。これは私にとって非常に興味深いです。なぜなら、AIがコードを書く際に、何らかのUIや動画ゲームになるとき、いつ実際にそこに入って、自分が構築したものを見て、動画ゲームをテストしたり、構築したウェブサイトをテストしたりできるようになるのかとずっと疑問に思っていたからです。自分の作業をテストしない理由はありません。

または、あなたが開発者であれば、構築したものをテストするために、これらのエージェントを百個または千個取得して、それを壊そうとしたり、バグや問題、ユーザビリティの問題がないか確認したりしない理由はありません。これらがオペレーティングシステムやさまざまなブラウザの使用方法において人間のようになれば、本当に多くのユースケースが開かれます。

それを見ることができます。パブリックプレビューです。Gemini API、Google AI Studio、またはVertex AIで使用できます。Browser Baseがホストするデモ環境もあります。それがこのような感じです。マインスイーパーゲームを見つけて勝利してください。これは私のテストの定番の一つです。それでは、どれだけうまくやるか見てみましょう。

そして、画面下部にセッションタイマーを見ることができます。マインスイーパーを検索しました。おお、見てください。大きなプレイボタンがあって簡単です。わあ、すごい。マインスイーパーのゲームが立ち上がりました。チュートリアルを辛抱強く見ています。左右のマウスボタンが何をするか示しています。難易度メニューを開きます。

つまり、私の推測では、はい、イージーに切り替えました。賢いGeminiです。さて、始まります。最初のクリックは非常に良く、非常に成功しました。私は二つの地雷を特定できるか見てみます。私は認めます。ここで少し苦戦しています。ランダムにクリックしているように見えて、ここでのポイントが本当にわかっていないようです。

そして、自分を爆破してしまいますが、私たちは勝つように言いました。では、どれだけ粘り強いか見てみましょう。全部には付き合いませんが、セッションは5分後にタイムアウトするようですが、新しいゲームを開始します。もし一つの地雷を特定できれば、それはゲームを理解していることを私に示すでしょう。正しい場所に一つのフラグを立てれば、ポイントがもらえます、小さなロボットさん、お願いします。

クリックして、地雷がない場所を掘り出しました。あれはラッキーな推測だったのでしょうか。つまり、フラグを使っていません。通常、フラグを使えば、わかります、これは地雷だと思う、だから大丈夫だと。つまり、地雷ではないことはわかっていましたが、それに気づいたかどうかはわかりません。

推論の連鎖や思考の連鎖がないので、何を考えているのか見ることができませんが、確実にあちこちをクリックしています。私にとっては、ゲームを本当に理解していないことを示唆しています。はい。そういうことにします。マインスイーパーゲームには当分勝てないでしょう。私のXプロフィールの背景は何ですかと尋ねます。そのウェブサイトにナビゲートして、そのアカウントを見つけて、背景が何かを把握できるでしょうか。それを説明してくれることを期待しています。

Google検索を行い、非常に非常にうまくやっています。Xプロフィールを開きます。ここまでは驚異的で、見えているものがわかります。では、ああ、でも何らかの理由で戻るをクリックしました。余分なステップを追加しましたが、何が間違っていたのかを理解しました。

戻ってきて、かなり迅速に完了することができました。画面下部で、ヘッダー画像にはサメに乗った黒猫が描かれていることがわかります。他にもたくさんの詳細を教えてくれます。これは完璧です。A+です、小さなロボット。また、レイテンシがかなり良いことに注目しなければなりません。それはかなり速かったです。どれくらいかかったかはわかりませんでしたが、他のモデルよりもずっと速かったです。

誤クリックはありませんでした。何らかの理由で、最初に行ったページでは見えないと思ったようです。だから戻って別のページに行きましたが、最終的には背景が見える最初のページに戻り、タスクを正常に完了しました。

これまでのところ、非常に非常に印象的です。もっとテストする時間があることを願っています。なぜなら、これはこれらのAIモデルの非常に興味深い応用だからです。他のニュースでは、OpenAIとAMDが契約を結びました。Ask Perplexityがこれを投稿しました。Matt Lavineによって、その契約がどのように行われたかが説明されています。交渉はどのようなものだったのでしょうか。こんな感じだったかもしれません。

OpenAIが言います、推論を行うために60ギガワット相当のチップが欲しいです。AMDが言います、素晴らしい。それは780億ドルになります。どのように支払いますか。OpenAIが言います、ええと、考えたのですが、聞いてください、契約を発表すれば、それがあなたの会社の価値に780億ドルを加えることになり、それでカバーできるはずです。

AMDはそれらを見て、おそらく一度か二度まばたきしますが、話しません。OpenAIは見返していて、感情のないポーカーフェースです。AMDが沈黙を破って言います、いいえ、チップの代金を支払わなければならないと確信しています。OpenAIがなぜと言います。また、OpenAI、Sam Altmanがこれを言っているのが見えますか。彼は確かにマスターディールネゴシエーターのようです。

彼はなぜと言います。ボーカルフライはできません。でもAMDが言います、わかりません。しないのは間違っているように思えるだけです。OpenAIが言います、わかりました、なぜチップの価値に対して現金を支払い、あなたは株式を返してくれませんか。契約を発表すれば、株価が上がり、780億ドルを取り戻せます。

AMDが言います、ええ、まあそれは機能すると思います。ええと、私たちも価値の一部を得るべきだと感じます。OpenAIが言います、わかりました、半分持っていってください。約350億ドル相当の株式をくれて、残りは保持してください。そしてAMDは、契約発表以来約50%上昇しています。これは少し奇妙に思えますが、まあいいでしょう。他のニュースでは、Grokがいくつかの見出しを作っています。

Grock CodeがVisual Studioで利用可能になりました。また、XAI Imagine V0.9もあります。V0.1からの視覚品質、モーション、オーディオ生成などにおける大幅なアップグレードを伴う動画生成モデルです。これはテスラのCybertruck が森の中を走っているアクションショットです。ここには気に入る点がたくさんありますが、OpenAIとGoogleの提供するものが少し進んでいるように感じます。

音は、オンにします。音はあまり良くありません。少し漫画っぽく見えますし、ほとんどのものには特定の見た目、特定のフレーバーがあります。同じプロンプトがこちらです。これはオーバーヘッドショットです。つまり、反射のように気に入る点はありますが、Xiのアプローチが他のモデルとは異なるだけなのか気になります。なぜなら、これらの発表に基づいて、OpenAIとSam Altmanが、多くのIP保有者、著作権保有者と真っ向から対決する用意があることはかなり明白だからです。

そして、多くの著作権で保護された作品がこれらのモデルのトレーニングに使われたことはかなり明白です。これの多くは、実際の映像が使われていないように見えます。つまり、ここでこのドラゴンが歩いているのが見えます。足が見えて、かなり良く見えますが、本物ではありません。動画ゲームやアニメーション、そのようなものに基づいています。このようなものでさえ。

繰り返しになりますが、動画のようにリアルではありません、写真のようにリアル、どう呼びたいかは別として。悪くは見えませんが、これは実際の人々、実際の人間の映像でトレーニングされたとは思いません。彼らがより著作権に優しいデータを使用しているのか、これらが最初の反復のようなものなのか疑問に思います。なぜなら、Grockが最初に出たとき、少し遅れていたからです。

今では、多くの点で追いついています。確かに、いくつかの点では、他のAIラボと比較して先頭に立っているとさえ言えます。ですから、彼らが次世代のAI動画モデルを、利用可能なすべての計算能力でトレーニングするとき何が起こるか興味深いです。なぜなら、現状では良いですが、AI用語で言えば少し時代遅れのように感じるからです。

これは6か月前のものだとしましょう。これはクールでしょうが、Elon MuskとXAIに賭けないほうがいいでしょう。彼らはあらゆる面で速く追いついているようです。そして、興味深いと思った最後のニュースは、Google、Gemini、DeepMind、つまりAlphabetの傘下にあるすべてのもので、さらに数人のノーベル賞受賞科学者を追加したということです。

Eyeでは、Hinton、Hacabus、Jumperがいて、最近Googleで働く量子物理学者である科学者を何人か追加しました。Dennis Hassabusが言っています、物理学の2025年ノーベル賞を受賞したMichelle Devoreに大きなおめでとうを、そしてHartmoot NevinとGoogle Quantum AIチームのすべての同僚に。彼らと協力できることを誇りに思います。これは、2年間でAlphabet/Googleで行われた仕事に関連する3つ目のノーベル賞です。悪くないですね。それを見ることができて非常にクールです。最も刺激的だと思ったAIニュースは何だったか教えてください。

そして準備してください。なぜなら、今後数週間でかなり大きなリリースが続々と出てくると思うからです。私の名前はWes Robです。ご視聴いただき本当にありがとうございました。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました