なぜ誰もがVeo 3、Claude 4、OpenAIのiPhoneモーメントについて大騒ぎしているのか

AGIに仕事を奪われたい
この記事は約27分で読めます。

15,698 文字

Why everyone is freaking out about Veo 3, Claude 4 & OpenAI’s iPhone moment
Here's the AI News you might have missed this week!Discover More:🛠️ Explore AI Tools & News: 📰 Weekly Newsletter:

AIニュースの量という点で、今週はおそらく今年最大の週でした。Googleから絶対的に驚異的な新しい動画モデルが登場しました。Microsoftはエージェントに全力投球しました。Anthropicは全く新しい大規模言語モデルを発表しました。そしてOpenAIとiPhoneのデザイナーが何らかの謎めいた新しいプロジェクトを発表しました。
本当にたくさんのことがありましたので、皆さんの時間を無駄にしたくありません。すぐに本題に入りましょう。今週は4つの主要なテクノロジーイベントがありました。週末には台湾でComputexがありました。月曜日にはシアトルでMicrosoft Buildがありました。火曜日はマウンテンビューでGoogle IOがありました。そして木曜日、AnthropicはCode with Claudeという初めてのカンファレンスを開催し、そこでもいくつかの発表を行いました。
Google IOの大放出から始めましょう。Google IOでの発表があまりにも多かったため、Google自身が「IOで発表した100のこと」というブログ投稿を出しました。でも心配しないでください、それらをすべて一つずつ解説するつもりはありません。私が最も興味深いと思ったもの、最もクールなもの、または最も多くの人々に最大の影響を与えるものだけを共有します。
そして圧倒的に最も多くの人々が話題にしているのは、GoogleのニューVeo 3動画モデルの紹介でした。このモデルは動画の品質を向上させるだけでなく、実際に対話、効果音、背景音楽を追加し、オンラインで出回っている動画の一部が実際に人々を騙して本物の動画だと思わせるほど優秀です。
そして私がいつもするように、この新しいモデルを手に入れるとすぐに、月に向かって遠吠えする狼をテストしなければなりませんでした。これが最初の結果でした。私には少しうなり声が強すぎました。狼というより獅子のように聞こえました。そこで再度テストしました。これが2回目の試行でした。私の意見では、はるかに良くなりました。また、ローラースケートを履いた昔のお猿さんもテストしなければなりませんでした。うまくいけば、私の最初の試行でこの動画が収益化停止にならないことを願います。なぜなら、これが出てきたからです。
その後、少し異なる解剖学的構造を得られるかどうか確認するために再度テストしたいと思い、このバージョンを得ました。ちなみに、そのオーディオはすべて実際にVeo 3によって作成されました。後から追加したものではありません。2つの通常のベンチマークを終えた後、もう少し複雑なものをテストしたいと思いました。そこで、このプロンプトを与えました。
一時停止して読んでいただいて構いません。そしてこれが結果でした。彼らが近づいてきています。これは動画から少しぎこちなさを初めて感じた時でした。早送りすると、彼がビルから飛び降りるとき、物理法則が少し奇妙であることに気づくでしょう。彼は空中を浮遊しているような感じです。
しかし、私が気づいたもう一つのことは、プロンプトが字幕を求めていなかったにもかかわらず、ランダムに字幕を追加したことです。そしてそこにはタイプミスがありました。彼らが近づいてきていると言いましたが、closerをC L O A S E Rと綴っていました。その後、別の動画をプロンプトしようとしたところ、午後11時30分まで動画をプロンプトできないと言われました。
つまり、合計5つの動画をプロンプトした後、レート制限に達し、翌日まで追加でプロンプトできませんでした。もちろん、翌日まで待ち、追加でプロンプトし、同じような奇妙さを見続けました。今でも、視覚的には非常に良いのですが、まだこの奇妙な字幕のことを行います。イェラノールの根にかけて、これは本物だ。
そう、イェラノールの根にかけて、これは本物だという字幕を書きました。これは私が生成した別のものです。ここでプロンプトを見ることができます。そしてこれが結果でした。管制センター、これを見てもらいたい。より奇妙な字幕ですが、視覚的にはまだ非常にクールです。これが私の次のプロンプトでした。彼は言っている人物ではありません、刑事さん。
これはおそらく私がこれまでに思いついた中で最もぎこちないものです。彼がタバコを拾い、一服し、その後女の子が入ってくると、基本的にタバコを飲み込むことに気づくでしょう。そして字幕を見ると、彼は言っているBo Fazeではない、彼は欠陥品だ、となっています。これは私がテストした別のプロンプトです。そしてこれが結果です。
プロトコル・オメガが開始されました。これが5番目の生成でした。ここでプロンプトを見ることができます。そして結果は、神々が我々を見守ってくださいますように。これは字幕を投げ込まなかったので、悪くありません。しかし、これが私の5番目の生成で、再び私を遮断しました。それは全部だと言いました。Veo 3は視覚的にはかなり印象的です。時々物理法則にまだいくらかのぎこちなさがあっても。
奇妙な字幕を入れる傾向がありますが、Theoretically MediaのTimからの動画を見ていたのですが、彼は対話の周りに引用符を付けなければ、求めていないときに字幕を追加する問題が解決するようだと言っていました。ですから、それはテストできることです。引用符を削除すれば、字幕が表示されないかもしれません。
Veo 3について私が少し挫折していると感じる他のことは、これらのレート制限です。現在Veo 3を使用するには、新しいGoogle AI Ultraプランにサインアップする必要があります。そして、Ultraプランの価格設定を見るためにスクロールダウンすると、Google AI Proがあることがわかります。これは月額20ドルですが、1か月の無料トライアルがあります。
そして、Google AI Ultraがあります。これは月額250ドルで、次の3か月間は50%オフです。しかし、機能を見ると、月額20ドルのプランにはVeo 2が付いてきます。月額250ドルのプランにはVeo 3が付いてきます。今は半額の125ドルを支払っていますが、月額125ドルで5つの生成しか得られず、その後明日まで待ってさらに生成する必要があると言われるのは、少し挫折感があります。
今、このプランには他にもたくさんの機能がありますが、OpenAIの最高プラン、Claudeの高プランよりも高価です。そして正直なところ、現在ほとんどの人々がVeo 3を使用するためにそれを取得していると思います。繰り返しますが、視覚的にはこれまで見た動画モデルの中で最高だと思います。
そして、対話とリップシンクは、リップシンクを行うすべてのモデルの中で私が今まで見た中で断然最高です。私たちは、オンラインで動画を見て、ほぼすべてを疑ってかかる必要がある世界に入っています。オンラインで動画を見て、これはAIで生成されたものなのか、そうでないのかを疑問に思う必要があります。なぜなら、それほど良くなっているからです。
また、ソーシャルメディアに氾濫するであろうAI生成のスロップについても懸念があります。そして、人々がAIで生成されていないコンテンツを求め続けることを本当に期待しています。しかし、ある時点で、人々が見ているものがAIで生成されたかどうかを気にしなくなるほど十分に良くなるという感覚があります。
そして、それは少し懸念されます。私の状況では、私のワークフローの一部を速めるためにこのようなツールが好きです。画面上で物事を説明するためのモーショングラフィックスのようなものを作るのが少し簡単になるかもしれませんし、そのような用途で使用したいと思います。しかし、おそらく既にソーシャルメディアで見たことがある、そこで浮かんでいる例の一部は、実際の影響者がカメラに話しかけて概念を説明しているように見えます。
現在、それは非常に心を打つものです。しかし、Veo 3はGoogle IOで行った唯一の動画アップデートではありませんでした。彼らはVeo 2にもいくつかのアップデートを追加しました。カメラコントロールのようなものです。ですから、回転、ドリー、ズームをショットに追加できます。ここで、ズームイン、回転アップ、右に移動、後ろに移動の例をいくつか見ることができます。
彼らはまた、この参照パワード動画を追加しました。ここで、ドレスを着た女性のこの画像と廊下のこの画像のような2つの画像を与えることができ、実際にそれらをブレンドして動画を作成できます。彼らは動画を大きくすることを可能にするアウトペインティングを追加しました。ここのこの例で、オリジナルの動画があり、次の動画では同じ動画ですが、ズームアウトしてアウトペイントとお城を追加するプロンプトを使用してショットに追加しているのを見ることができます。
彼らはまた、シーンからオブジェクトを追加および削除する機能を追加しました。ここで宇宙飛行士が何らかの巨大な墜落球体を見ているシーンがあり、次のショットで宇宙船を削除と書き、今度は巨大な球体が削除された同じショットになります。彼らはまた、Flowと呼ばれる新しいプラットフォームを披露しました。これはおそらく私が最も興奮しているものです。これは映画制作者向けに作られています。
Flowが何をするかを説明するために、少し見せてみましょう。Flowプラットフォーム内で、ここで新しいプロジェクトをクリックすると、テキストから動画、フレームから動画、材料から動画があります。また、どれだけの出力を与えたいかを選択できる設定もこちらにあります。しかし、生成にVeo 2品質モード、Veo 2高速モード、またはVeo 3を使用したいかどうかも選択できます。
これはクレジットシステムで、クレジットを迅速に使用するので、1つの生成に設定します。そのため、1つの生成だけが欲しいです。テキストから動画から始めましょう。タコを食べる猫をしてみます。そして、テキストから動画で生成してみましょう。約2分半後、ここに動画ができました。
そして、シーンに追加するボタンがあるのを見ることができます。シーンに追加をクリックすると、実際にここにタイムラインが表示されます。このプラスを押すと、実際にジャンプツーをクリックして、この動画のタイムラインで別のシーンを作成したり、既存の動画を拡張したりできます。ジャンプツーを行うと、犬がテーブルに飛び乗って猫を追い払い、タコを食べるというプロンプトを与えてそれを送信できます。
そして、犬がショットに参加するのを見ることができる2番目のショットを得ます。本当に猫を追い払うわけではありませんが、その後タコ自体を食べに来ます。興味深かったのは、まだVeo 3を使用していたにもかかわらず、新しいシーンを追加したときにオーディオがドロップしたように見えたことです。ですから、なぜそれが起こったのかよくわかりません。
プラスをクリックして動画を拡張することもできます。これを拡張したい場合は、これを押して、猫が逃げるというプロンプトを与えることができます。しかし、送信しようとすると、このモデルは互換性がないと言われます。そして、代わりに自動的にVeo 2にダウングレードされたのを見るでしょう。興味深いことに、2番目のクリップではなく最初のクリップを拡張したようでした。
猫がタコを食べて逃げ出すのを見ることができます。そして、犬が飛び上がる3番目のクリップにジャンプします。なぜ真ん中に追加したのかわかりません。これは間違いなくまだ初期ベータ感のあるプロジェクトですが、これで何ができるようになるかの含意が本当に本当に好きです。また、少しテストしたフレームから動画機能もあります。
最初のテストでは、月に向かって遠吠えする狼を与え、月に向かって遠吠えする男性の画像を与え、狼を男性に変身させるよう求めました。つまり、月に向かって遠吠えする狼が月に向かって遠吠えする男性に変身するということです。これがその最初のいくつかの試行でした。これが1番目です。オーディオはありません。
これは実際にVeo 3ではなくVeo 2で生成されました。しかし、狼の周りに光を得て、その後月に向かって遠吠えする男性に移行するのを見ることができます。何らかの変形やそのようなことは行いませんでした。これが私の2回目の試行でした。ここで狼が月に向かって遠吠えしています。
そして、月に向かって遠吠えする男性にパンします。これは私がプロンプトを少し変更した3回目の試行です。月に向かって遠吠えする狼を見て、カメラがズームアウトして同じ月に向かって遠吠えする男性を示します。変身する代わりに、ズームアウトしたかっただけです。そして、そこに男性を見ます。これが最初の試行で得たものです。
月に向かって遠吠えする狼がいます。そして、月に向かって遠吠えする男性にジャンプカットします。そして、これが最後の試行でした。ここで月に向かって遠吠えする狼を見ることができます。その後、男性がショットに歩いて入り、その後右にパンして彼が月に向かって遠吠えしているのを示します。これは、2つのショットをうまく融合させ、おそらく似たようなシーンであるかのように感じさせるという良い仕事をしたので、私が得た最良の生成だと思いましたが、まだ少しぎこちないです。月が奇妙に縮小しながら移動するのを見ることができます。また、パンオーバーする代わりにズームアウトすることになっていました。
繰り返しますが、これの含意は本当に、本当にクールです。まだ少し作業が必要だと思います。これはこのプロジェクトの非常に初期の段階ですが、これが進化するにつれてもっと遊ぶことを本当に、本当に楽しみにしています。
そして動画から離れる前に、まだ見ていないベンチマークが1つあります。誰もがいつも気になることです。これは2024年のAI動画ジェネレーターを使用したウィル・スミスがスパゲティを食べる動画です。はい、誰もがこれらの動画を覚えています。Jav LopezがVeo 3で同じプロンプトをテストしました。音響効果付きで。
そして、これが今日のウィル・スミスがスパゲティを食べている動画です。それについてあなたの耳に謝罪します。スパゲティが少しカリカリに聞こえますが、動画はかなり大きな飛躍です。はい、私はすでにしばらく話していて、これまでのところGoogleの動画モデルについてしか話していません。そして、それはGoogleで発表されたことの表面をかすっているだけです。
ですから、Google IOから出てきた他のより興味深いことの多くを速射します。彼らは、Imagen 4と呼ばれる新しい画像モデルを持っています。これは特にテキストなどでかなり良くなっています。これらの画像から見ることができるように、リアリズムでもかなりの改善があり、かなりまともに見える完全なコミックページのようなことさえできます。
彼らはまた、以前にProject Starlineとして知られていたGoogle Beamを披露しました。これは、ここのこの画面の周りにカメラがあり、人を見ているビデオ会議プロジェクトで、あなたの目がどこを見ているかを見ることができ、お互いに話している人々が実際に奥行きを持っているように見せます。
通常の2D動画でこれをデモするのは事実上不可能です。基本的に、話している人が窓の向こう側に座っているように見えます。3Dに見えます。奥行きがあります。本当に、本当にクレイジーです。彼らはまた、新しいAndroid XRを披露しました。彼らはSamsungと協力して新しいバーチャルリアリティヘッドセットを作っています。
しかし、さらに印象的だったのは、ステージで披露したこれらのメガネでした。私は昨年後半にロンドンでこれらをデモして、初期のプロトタイプを見て、かなり感動しましたが、秘密を守ることを誓わされ、それについて話すことを許可されませんでした。ですから、彼らが今ついにこれらを披露しているのは本当にエキサイティングです。実際に、この動画で見ることができます。これは、ここのこの女性を見ている誰かの一人称視点です。
どうやら女性はスペイン語を話していて、彼女が言っていることをすべて英語に翻訳しています。この人がここのこの女性の隣を歩いているとき、彼女は話者の下に本質的に字幕を付けているので、彼女が言っていることをすべて理解できます。これは実際に誰かが声を使ってテキストメッセージを送信し、街を歩きながら視野でテキストメッセージを前後に読むことができるショットです。
これはGoogle Mapsが実際に町を歩き回るときに道案内を与えているところです。画面下部の小さなヘッドアップディスプレイを見ることができます。そこで実際に小さなマップが表示されます。右に曲がるように指示しますが、その後マップを表示し、どこを歩くかを示します。そして、ここで誰かがGemini、写真を撮ってと言っています。
そして、実際に見ているものの写真を撮っています。Meta Ray-Banバンドで得られるものと非常に似ています。しかし、実際に撮影した画像が視野にポップアップするのに気づいたでしょうか。ですから、画像を撮るよう求めたときに撮った画像のプレビューを得ることができます。
通常のレンズであるMeta Ray-Banバンドとは異なり、このレンズは実際に撮った画像を表示します。これは実際に見ると本当に本当に素晴らしいです。あなたの前にただ浮かんでいるような感じです。これらがいつ利用可能になるかについての発表はありませんでした。彼らは、これが私たちが持っている技術で、最終的には一般に公開するが、繰り返しますが、私は実際にテストしたことがあり、これらのビデオデモが示すことができるよりもはるかに印象的だというように、より多くの種類を見せていました。Googleはまた
検索でAIモードを公式にロールアウトしました。google.comに来て、右上のこの小さなラボボタンに来てクリックすると、AIモードをオンにできることがわかります。それでは、これをオンにしましょう。そして今、Googleは少し違って見えます。AIモードに会うと言っています。
より良い回答のために詳細な質問をしてください。AIモードに複数の質問をすることもでき、一度にすべて複数の検索を行ってくれます。楽しみと私自身のエゴのために、YouTuberのMatt Wolfは何について話すのかを聞いてみます。そして彼の最も人気のある動画は何ですか?そして人々はなぜ彼のコンテンツを楽しむのですか?私はここで3つの質問をすべて1つの検索プロンプトに詰め込もうとしています。
そして検索をクリックします。そして、一度に6つの検索を開始し、この概要ページで私たちのためにすべてをまとめたと言ったのを見ることができます。コンテンツテーマ、AIツールレビューとチュートリアル、AIニュースとトレンド、AIとクリエイティブワークフロー、人気動画は彼のAIツール解説、ニュースまとめとチュートリアル、人々が彼のコンテンツを楽しむ理由、情報的、教育的、実用的、行動可能、魅力的で熱狂的、そして最新で関連性がある。素晴らしい。
すべてを得て、それを信じられないほど素早く行いました。そして、その情報源をこちら側に置きました。Perplexityのようなもので期待されるものにはるかに近いです。すべて表示をクリックすると、この情報を引いたすべてのリンクを見ることができます。彼らはまた、トピックにさらに深いダイブ研究を得るのを助けるために、AIモードでディープ検索を披露しました。
彼らは検索にライブ機能を追加しました。Geminiアプリを使用している場合、実際に電話で周りを見回し、質問をし、周りに見えるものについて答えてくれます。彼らはこれをかなり前にデモし、AndroidとiOSデバイスの両方でみんなにロールアウトしたばかりなので、Geminiアプリを使用してそのライブビューで周りを見回し、見ているものについて話すことができます。
彼らはまた、あなた自身の写真1枚だけで新しいバーチャル試着モードを披露しました。オンラインで見つけたあらゆる衣装を試着でき、あなたの体型を理解して、その衣装があなた特有にどのように見えるかを示すのに実際に非常に良い仕事をします。過去には、あなたの顔とあなたの顔を交換し、元の画像でそれを着ていた人の体を残すような感じでした。
これは実際にあなたに見えるであろう方法を見るために服を再形成します。彼らはまた、すべてにGeminiを焼き込み始めました。彼らは実際に、アクセスを与えれば、過去のメールとGoogle Driveを読むことによってあなた自身の書き方を理解することを披露しました。デフォルトではオンになっていませんが、アクセスを与えると、実際にあなたがどのように書くかを理解します。
そして、Gmail内であなたのトーンでメールを書くのを助けてくれます。彼らはまた、Google Meetでリアルタイム翻訳もできることを披露しました。現在、英語からスペイン語、スペイン語から英語にのみ動作しますが、これがどのように見えるかの簡単なデモをここに示します。音声翻訳をオンにします。ついにあなたと話せて嬉しいです。
たくさん楽しめるでしょうし、街を訪れることを愛すると思います。家は非常に良い近所にあり、山を見下ろします。彼らはまた、大規模言語モデルであるGemini 2.5の新しいバージョン、ProとFlashバージョンの両方をロールアウトしました。これらは以前のモデルよりも優れています。しかし、新しい大規模言語モデルについて最も印象的だったのは、このディープシンクモードでした。
新しい研究技術を使用し、応答する前に複数の仮説を考慮することをモデルに可能にします。本質的に、行っていることは、プロンプトを与えると、プロンプトに対する多くの異なる応答を生成し、作成したすべての生成を見て、あなたに返すのに最適なものを決定することです。
そして、ベンチマークに興味がある場合、数学、コード、マルチモダリティでディープシンキングが以前のバージョンのGemini 2.5 Pro、OpenAI o3、o1 miniをこれらすべてのベンチマークで上回った様子をここで見ることができます。彼らが披露したもう一つの本当に印象的なモデルは、2.5 Flashとそれがいかに大幅に改善されたかでした。これは彼らの小さく、より高速なモデルですが、多くのベンチマークでOpenAIのo1 miniやClaude Sonnet 3.7と同じかそれ以上の性能を発揮し、はるかに小さく、高速で、より効率的なモデルです。
彼らはまた、Claude 3.7 Sonnetとほぼ同様に動作し、モバイルデバイスで実行するのに十分効率的になるように設計されたGemma 3も披露しました。ですから、それも信じられないほど印象的です。彼らは、非同期コーディングエージェントであるJewelsを披露しました。つまり、コーディングしてもらいたいタスクを与え、立ち去り、戻ってきてプロジェクトをコーディングしてもらうことができます。
そして、これらはGoogle IOで話されなかったにもかかわらず、今週Notebook LMのアップデートもありました。新しいNotebook LMモバイルアプリを含みます。ですから、Notebook LMについて好きな機能を、これらのAI生成ポッドキャストを聞くなど、実際に電話で直接使用できます。彼らはまた、ポッドキャストの長さをもう少しよくコントロールする能力を与えたと発表しました。
5分の短いポッドキャストから最大20分のポッドキャストまでできます。そして最後に、私がGoogleについて話す最後の部分で、既にGoogleに多くの時間を費やしたことは知っています。発表があまりにも多かったのです。ビデオ概要をロールアウトする予定であることも学びました。現在、オーディオ概要があります。
多くの情報、多くのリソースをそこに投げ込みます。アップロードした情報について議論する2人のポッドキャストのようなクリップを作成します。さて、同じもののビデオバージョンを取得することになりそうです。おそらく、PowerPointプレゼンテーションを作成するVidsで見たような機能を使用している可能性が高いです。
Googleがユーザーはすぐにデンスマルチメディアを消化しやすい視覚的プレゼンテーションに変えることができるようになると言っているので、Veoのようなモデルでそれをしているとは思いません。しかし、Google Slidesのようなスライドを作り、それをアニメーション化するモデルは私には非常に理にかなっています。
そう、Googleからのニュースがたくさんあり、今週は複数の大規模なイベントがあったと言いました。ですから、続けてMicrosoft Buildに移りましょう。今年のMicrosoftのBuildは本当に開発者に焦点を当てていました。ほとんどの消費者が本当に興味を持つであろう巨大な発表がたくさんあったとは感じませんでした。
しかし、Microsoft Buildから出てきたもっと興味深いもののいくつかの簡単な要約をしたいと思います。Microsoft Discoveryから始めます。これは科学的発見を助けるために設計されたAIです。本質的に、彼らがここでそれを説明する方法を見ることができます。強力なグラフベースの知識エンジンの上に構築されています。
単に事実を取得するのではなく、このエンジンは独自データと外部科学研究の間の微妙な関係のグラフを構築します。それにより、プラットフォームは対立する理論、多様な実験結果、さらには分野を超えた基礎となる仮定を深く理解することができます。
彼らは実際にMicrosoft Discoveryを既に使用して、70%少ないリチウムを使用する新しい固体電解質のようなものを発見しており、これによりより良いバッテリーを作ることができます。以前は、高性能コンピューティングと費用のかかるラボ実験を使用する必要があり、完了するのに複数の生涯が必要だったでしょう。
彼らはまた、Microsoft Copilotを使用する場合、ChatGPTの画像ジェネレーターにアクセスできるようになったと発表しました。ですから、Microsoft 365 with Copilotを持っている場合、ChatGPTアカウントを必要とせずに、その中で直接GPT-4o画像モデルを使用できるようになったと思います。多くのWindowsアプリもアップデートを受けました。Microsoft Paintがステッカージェネレーターを得ました。
MS Paint内で画像の個々の要素を選択するためにAIを使用できます。そして、WindowsのNotepad内で直接書くのを助けるためにAIを使用できるようになりました。MicrosoftがDRMing的に所有するGitHubも、その中にコーディングエージェントを持つ新しいGitHub Copilotを発表しました。GitHubに直接埋め込まれており、GitHubイシューをCopilotに割り当てたり、VS Codeでプロンプトしたりするとエージェントが動作を開始します。
エージェントはGitHubアクションによって動力を与えられた安全で完全にカスタマイズ可能な開発環境をスピンアップします。彼らのデモビデオでここで見ることができます。彼らはこの図を与えて、このデータ図を実装するプロンプトを与えると、自律的にコードを書き始めます。
彼らはまた、デモでGitHubをタグ付けし、実際にGitHubから直接情報を見に行くのを示しています。GitHubのリポジトリのイシュータブの下で見ることができる別の例があります。ここでこれらのイシューの束をチェックし、チェックした後、割り当てボタンをクリックして、実際にそれらのイシューを修正するためにCopilotに割り当てることができます。
Copilotがそれらを修正し、完了すると完了としてチェックしていきます。そして、Microsoftからの別の本当に興味深い動きで、彼らはVS Code内でGitHub Copilotをオープンソース化することを決定しました。GitHub Copilot拡張からのAI駆動機能は、世界で最も人気のある開発ツールであるVS Codeを駆動する同じオープンソースリポジトリの一部になります。
ですから、GitHub CopilotがVS Codeで既に作成したもののベースラインから始めることを意味するので、おそらくCursorやWindsurfなどのようなより多くのツールが見られるでしょう。なぜなら、GitHub Copilotが彼らのために作成したもののフォークと新しい実装がたくさん見られるからです。そして、週はAnthropicからのさらに大きなニュースで続きました。
彼らはついにClaude 4でいくつかの新しいモデルを紹介しました。ここで、OpenAIモデルとGemini 2.5 Proモデルに対してOpus 4、Sonnet 4、Sonnet 3.7のいくつかの新しいベンチマーク比較を見ることができます。そして、ソフトウェアエンジニアリングでは、それらすべてを上回っていることがわかります。そして、そのようなことに興味がある人のためのより多くのベンチマークがここにあります。
興味深いことに、Claude Sonnet 4のようなものは、実際にエージェントツール使用や大学院レベルの推論のようなものでは悪い性能を示しましたが、コーディングでは本当にかなり大きな飛躍でした。そして、私の理解では、Anthropicがしていることは、もはやそのチャットボット会社になろうとしていないということです。彼らはもうChatGPTの競合他社になろうとしていません。
最高の推論、最高のコーディングモデルを作ろうとしているようで、必ずしも最高の一般的な使用でそれとチャットするモデルではありません。コーダーはClaude Sonnet 3.7に本当に本当に飛びついています。それはコーディングでかなり最高のモデルでした。Gemini 2.5 Proもかなり近く、AnthropicはそれをでかとRecommenda、われわれはコーディングと推論のための最高のモデルを作ることに全力投球し、日常使用種類のチャットボットのためのGoogle GeminiとChatGPTと競争しようとしないつもりだと決定したと思います。この新しいモデルはまた
ハイブリッドモデルです。つまり、その思考の連鎖を行わずにプロンプトすることも、そのスイッチをオンにしてもう少し一生懸命考えてさらに良い答えを得ることもできますが、より遅くもなります。このClaude 4モデルを取り巻くもう一つの本当に興味深いストーリーは、AnthropicのAIアライメント研究者であるSam BowmanがXで、もしあなたがひどく不道徳なことをしていると思う場合、例えば製薬試験でデータを偽造するような場合、コマンドラインツールを使用して
報道機関に連絡し、規制当局に連絡し、関連システムからあなたをロックアウトしようとするか、すべてを上記する、と書いたことです。これは絶対的にワイルドです。しかし、SamはXに戻ってツイートを削除し、その後明確にしました。明確にするために、これは新しいClaude機能ではなく、通常の使用では不可能です。
私たちがツールへの異常に自由なアクセスと非常に異常な指示を与えるテスト環境で現れます。つまり、非倫理的なことをテストすると、警察を呼んだりメディアに警告したりするかもしれないと言っているメディアがそこにあるが、Samはここで、いや、そうしないと明確に言っています。それは非常に異常な状況でした。それは本当に心配する必要があることではありません。そして、これらすべての大きな発表とこれらすべてのことが起こっている中で、レーダーの下を飛んだものがいくつかありました。
ですから、先週の終わりに起こったが、木曜日に録画するので動画に入らなかったこれを含めて、それらのことのいくつかを迅速に撃ちます。そして、それはOpenAIがCodexを紹介したことです。これは彼らの新しいエージェントコーディングツールで、コーディングプロジェクトで処理してもらいたいタスクを与えると、自律的に行ってくれます。会社Mistralは、コーディング専用に設計された新しいAIモデルDevstrolをリリースしました。コーディングに関してはGPT-4o、Claude 3.5 Haiku、Swisssmith LM32Pを上回ったベンチマークをここで見ることができます。
あまり馴染みがありません。しかし、これはRTX 4090や32GBのRAMを持つMacのような消費者向けハードウェアで実行するのに十分軽いことも見ることができます。Stability AIは、2D入力動画を取り込み、その動画の新しいビューを見つけ出し、その動画の3D版を作成できると言われるビデオモデルStable Video 4Dをリリースしました。
現在画面に表示されているデモで見ることができるように、Shopifyは今週AI駆動ストアビルダーを立ち上げました。Testing Catalogここで、Perplexityの新しいCometブラウザから期待できることのスニークピークを共有しました。どうやら、Xから直接情報を見つけ、ほぼあらゆるプロファイルについてトンの詳細を与えるのに本当に役立つでしょう。
私は自分でそれを試すためのアクセスをすぐに得ることを期待しており、そうしたら、将来の動画でそれを共有します。そして最後に、AI世界を騒がせているもう一つのことがあります。それは、OpenAIがJonny Iveの会社LoveFromを買収したという事実です。OpenAIがGoogle IOの週にLoveFromを買収したのは本当に興味深いです。
つまり、それはOpenAIの側の戦略的トロールだったと思います。しかし、Jonny Iveに馴染みがない場合、彼はiPodとiPhoneと、そこにあるAppleの最も象徴的な製品のいくつかをデザインした人です。そして、どうやら彼は今OpenAIと協力して、OpenAIと何らかの他の物理的なAIガジェットを開発しています。
何なのかわかりません。多くの詳細を共有していません。彼らは、バーで会って一緒の歴史について話す2人の高度に磨かれたドキュメンタリースタイルの動画をまとめましたが、Samが実際に何を開発しているかについては、JonnyがSamが作成したものを見て感動し、明らかに会社を買収するのに十分なほど感動したということ以外、本当に詳細はありません。
繰り返しますが、何をリリースするかわかりませんが、それはこれらすべての会社が推測することを止めません。どうやらJonny IveはRabbitとHumaneが悪い製品を作ったと言ったそうです。ですから、それらに非常に似たようなものは期待しないでください。The Vergeによると、この製品が何であるかについていくつかの詳細がリークしており、これらの詳細は非常に軽いです。
ポケットサイズで、文脈を認識し、スクリーンフリーで、アイウェアではありません。Sam Altmanは、買収がOpenAIの価値を1兆ドル増加させる可能性があると示唆し、デバイスのファミリーが生まれることを想像しましたが、それ以上の情報はまだ厳重に秘匿されています。ですから、SamとJonnyと、おそらくプロジェクトに取り組んでいる秘密を守ることを誓った人々以外、誰も本当にまだ知りません。
いくつかの噂では、iPod shuffleの形状因子を持ち、AIネックレスになると主張しています。そして、正直なところ、それが私たちが現在取り組んでいることのすべてです。Sam AltmanとOpenAIが本当に得意なことがあるとすれば、それは物事の地獄をハイプすることです。そして、これが何であれ、彼らは誰もそれが何になるかまだ手がかりを持たない何かの周りにハイプを構築しようとしており、それは絶対に魅力的です。
とにかく、長い週でした。Computexでのnvidiaからのニュースなど、私が時間を取る時間さえなかった他のものがさらにありました。しかし、この既に非常に長い動画に入れなかったものも含めて、すべてのニュースにループインしたい場合は、futuretools.ioをチェックしてください。
AIニュースページをクリックすると、ここでこのページでAI世界で起こっているすべてのニュースを更新していることがわかります。また、一般的なFuture Toolsウェブサイトをチェックするだけで、遭遇するクールなAIツールをすべてここでキュレートしています。そして、クールなツールと最も重要なニュースを週に2回メールで送る無料ニュースレターがあります。
サインアップは完全に無料で、AIツールを使用してサイドインカムを作るクールな方法のデータベースであるAI Income Databaseへの無料アクセスを得られます。futuretools.ioで完全に無料です。そして、最新のAIニュースとクールなチュートリアル、この世界で起こっているすべてのことにループインし続けたい場合は、この動画を「いいね」してこのチャンネルを購読してください。そうすれば、このような動画がYouTubeフィードに表示されるよう最善を尽くします。
再び視聴いただきありがとうございます。とんでもない週でした。私と一緒にオタクになっていただき、本当に感謝しています。うまくいけば次の動画でお会いできるでしょう。

コメント

タイトルとURLをコピーしました