本動画は、直近1週間で起きたAI業界の重要なニュースを総括する解説動画である。驚異的なペースで新機能をリリースするAnthropicの動向から始まり、GoogleのGemini 1.5 Flash Liveのデモ、音楽生成AIのSunoやMistralの最新音声モデル、そしてOpenAIのSora開発中止やAnthropicの未発表モデル流出まで、多岐にわたるトピックを網羅している。情報過多なAI業界の動向を整理し、視聴者に分かりやすく伝えることを目的としている。

今週のAnthropicは怒涛のリリースラッシュ
今週のAI界隈はニュースが山盛りでした。皆さんがノイズの中から本当に重要なシグナルを見つけ出すお手伝いをしたいと思います。というわけで、時間を無駄にせず早速本題に入りましょう。まずはAnthropicから始めます。最近の彼らは、ほぼ毎日のように新機能をリリースしているんですよ。
実際、The Product Compassというウェブサイトがカレンダー付きの記事を公開したんですが、それによるとAnthropicは52日間で74個ものリリースを行っています。これまでの週刊まとめ動画でもその多くを取り上げてきましたが、先週の金曜日以降に発表されたものに絞って少し話してみましょう。Claudeのタスク機能、プロジェクトやCo-workでのDOM選択、労力とスキルの設定、Claude Codeのアップデート、Computer Use、Claude Codeのスケジュール機能、Claudeの各種機能、Claude Codeのチャンネル機能、権限プロンプト、チームおよびエンタープライズ向けのClaude Codeチャンネルなどなどです。しかもこの表は24日までのデータなので、それ以降にもさらに追加されています。スマートフォンからClaudeを使ってFigmaのデザイン、Canvasのスライド、Amplitudeのダッシュボードといったツールを操作できる機能や、Claude Codeのオートモードなども追加されました。
さて、非常に多くの機能があり、そのほとんどがプログラマー向けなのですが、少し視点を変えて、より多くの人に大きな影響を与えそうなリリースについてお話しさせてください。
特に重要だと感じたのがこれです。23日にClaude Co-workとClaude Codeで展開された機能で、Claudeをあなたのコンピューター上で動かせるようになりました。Claudeがあなたのコンピューター上でポインターを動かし、クリックし、タスクを完了できるんです。つまり、Claudeにあなたのコンピューター、マウス、キーボードを操作する権限を実際に与えることができるようになりました。
先週彼らがリリースしたディスパッチ機能と、このコンピューター操作機能を組み合わせると非常に強力です。例えば、家から離れた場所にいても、自分の代わりにコンピューターに作業をさせたい時に、スマートフォンからテキストを送るだけで、コンピューターがマウスを動かしてクリックし、その作業を処理してくれるんです。
では、私のコンピューターでClaudeアプリを開いてみますね。このComputer Use機能を使うには、月額20ドル以上の有料プランに加入している必要があるはずです。有料メンバーであれば、設定をオンにする必要があります。設定画面を開き、デスクトップアプリの下にある一般オプションに進み、Computer Useがオンになっていることを確認してください。
設定のこの小さなスイッチがオンになっていないと、この機能は使えません。でもオンにしていれば、アプリを開いて私の代わりにクリックするよう指示できます。例えば、DaVinci Resolveを開いて、マジックマスク機能の場所を教えて、と指示して、Let’s goをクリックします。ここからは完全に手放しです。
画面の周りがオレンジ色に光り始めたのがわかると思います。Claudeがコンピューターを使用中という表示が出ています。コンピューターを制御できるのは非常にクールなんですが、今は動作がかなり遅いので、少し早送りにしますね。最初の試みはうまくいきませんでした。
現在、Computer Useツールがタイムアウトしているようです。そのため、アプリを直接開くことができず、自分でどうやるかの手順が表示されてしまいました。もう一度やり直すよう指示してみます。前回テストした時は絶対にうまくいったんですよ。よし、今回はうまくいっているようです。DaVinci Resolveが開いていますね。私は一切触っていません。
見てください、完全にハンズフリーです。DaVinciが開きました。今、動画を開いています。繰り返しますが、私は何も触っていません。カラーページに移動しました。そしてここでComputer Useが終了し、使い方の説明が始まりました。編集のせいで分かりにくかったかもしれませんが、本当に動作が遅いんです。
DaVinci Resolveを開いてカラーページをクリックし、マジックマスクボタンの場所を教えてもらうまでに5分くらいかかりました。でも、あなたの代わりにコンピューターを使ってくれるのは事実です。自分でやれば10秒で終わるタスクに5分もかかるなら、何の意味があるのかと疑問に思うかもしれません。しかし先ほども言ったように、スマートフォンからClaude CodeやClaude Co-workを制御できるディスパッチ機能と組み合わせれば、コンピューターから離れた場所から指示を出せます。
もしそうであれば、タスクが完了しさえすれば、どれだけ時間がかかってもあまり気にしないでしょう。ただ、実際にコンピューターの前に座って代わりに作業させようとすると、イライラするほど遅いです。でもこれは、ここ数日でリリースされた機能のほんの一つに過ぎません。
Anthropicは本当に毎日のように何か新しいものをリリースしています。正確には毎日少なくとも1つは新しいものを出していますね。例えばClaude Co-workには新しいプロジェクト機能も追加され、Claude内で作業しているものをより適切に整理できるようになりました。また、プロジェクトにカスタム指示を与えて、どのように処理すべきかを把握させることもできます。
Claudeアプリに戻ってCo-workを開くと、新しくプロジェクトで作業するというドロップダウンメニューが追加されており、新しいプロジェクトを作成できます。
試しに、ゼロから始めるMattのサンプルプロジェクトと名付けてみましょう。そして、常にジムにいる筋トレ仲間のよう振る舞い、私のことを常におい、兄弟、と呼んで、といったカスタム指示を出すことができます。ファイルを追加して、作業中のコンテキストをより正確に伝えることもできます。機能としてはClaudeやChatGPTなどのプロジェクト機能を持つ他のプラットフォームと全く同じように動作します。
作成をクリックして、調子はどう?と聞いてみます。すると、おう兄弟、絶好調だぜ。お前が投げかけてくるタスクは全部ぶっ潰す準備ができてるぜ。どうした?今日は何を手伝おうか?と返ってきました。もちろん、普通はこんな使い方はしないでしょう。実際に価値のあるコンテキストを与えて使うはずですが、こういう使い方もできるということです。
これはあくまでふざけた例です。先ほども触れましたが、スマートフォンのClaudeアプリからFigmaのデザインを使用したり、Canvasでスライドを作成したり、Amplitudeのダッシュボードを確認したりする機能も追加されました。コーディングにAIを使っている人にとって、これは間違いなく歓迎すべき機能です。Claude Codeのオートモードですね。Claude Codeを使ったことがある人なら、プロンプトを出して、この機能を作って、と指示したことがあるでしょう。
そしてコンピューターから離れて、20分後に戻ってきたら機能が完成しているだろうと期待していたのに、画面にはあなたの代わりにウェブを検索する権限をもらえますか?と表示されていて、ずっと作業してくれていたんじゃないの?もちろん権限はあるよ!と突っ込みたくなるような状況を経験したことがあるはずです。
そしてまた離れて戻ってくると、今度はこのターミナルコマンドを実行する権限はありますか?と聞かれていて、ああもう、なんで自分でやってくれなかったんだ、そのコマンドくらい実行していいのに!と思うわけです。そこで今回彼らはオートモードを導入しました。これにより、無害なターミナルコマンドや簡単なウェブ検索など、比較的安全なコマンドの多くについては、いちいち許可を求めなくなりました。すべてのClaude Codeユーザーが、このシンプルな機能の追加を喜ぶと思います。
GenSpark:オールインワンのAIワークスペース
さて、今週新機能をリリースしまくっていたのはAnthropicだけではありません。最近よく見かけて、個人的にも気になっていた素晴らしい新しいAIツールがGenSparkです。最近スーパーボウルでもかなり大きな広告を出していましたね。基本的にはオールインワンのAIワークスペースで、あらゆるモデルが揃っており、一つのプラットフォーム内でプレゼンテーションの作成、データの分析、レポートの執筆などができます。
しかし、このツールの最も素晴らしい点のひとつは、2026年12月31日まで、月額わずか20ドルの有料プランに加入していれば、これらのモデルを使ったAIチャットやAI画像生成が無制限に使えるということです。これは本当にすごいことです。なぜなら、これらのモデルそれぞれに無制限のアクセスを求めようとしたら、モデルごとに別々に月額20ドル近く払うことになるからです。
全体的に非常に優れたモデルが揃っていますが、それぞれに得意分野があります。そのためGenSparkは単なるチャットインターフェースではなく、これらのAIモデルを組み合わせて使用し、実際の仕事をより早く、より安く完了させるのに役立ちます。タブを切り替えたり、別のサブスクリプションに登録したりすることなく、プレゼンテーション、スプレッドシート、ウェブサイト、画像、動画、さらにはブランドアセット全体まで生成できるんです。
スライド資料の作成などは、AIによってプロセスが劇的に速くなる分野のひとつです。GenSparkを使えば、トピックのリサーチからスライドの構成、ビジュアルのデザイン、そしてプレゼンテーションとしての書き出しまでを代行してくれます。メディアアセットが必要な場合も、同じプラットフォーム内で画像を生成し、それを動画に変換したり、音楽やナレーションを追加したりすることができます。
この場を借りて、私のチャンネルをサポートし、今日の動画のこの部分のスポンサーになってくれたGenSparkに感謝します。試してみたい方は、無料で始められるクレジット制限付きのプランもあります。繰り返しますが、月額20ドルのプランには、2026年いっぱいまで無制限のAIチャットと画像生成が含まれており、正直これはかなり破格です。概要欄のリンクからぜひチェックしてみてください。
Googleの怒涛のアップデートとGeminiの進化
Googleも今週、Gemini 1.5 Flash Liveを含む大量の新機能をリリースしました。これはGemini 1.5 Flashモデルでありながら、実際に会話ができるモデルです。そして彼らはこの新しいモデルをすべてのサービスに展開し始めています。APIで利用可能になり、エンタープライズユーザー向けにも提供され、検索機能やGemini Liveでも使えるようになりました。
例えばGoogle AI Studioを開いて、上部のモデル設定でLiveのGemini 1.5 Flash Liveに切り替えることができます。このモデルとは会話ができ、ウェブカメラの映像を見せたり、画面を共有したり、音声の種類を変更したりすることも可能です。ウェブカメラへのアクセスを許可してみましょう。今何が見えますか?と聞いてみます。
すると、録音スタジオのような場所にいる男性が見えます。野球帽をかぶり、ヘッドホンをしてマイクに向かって話していますね。彼の後ろには写真を表示しているデジタルディスプレイも見えます。何か具体的に知りたいことはありますか?と返ってきました。今見ているのが誰か分かりますか?と聞いてみましょう。
個人的には存じ上げませんが、そのセットアップから判断すると、ポッドキャスターかコンテンツクリエイターの方かもしれません。特定のチャンネルや人物を思い浮かべていらっしゃいますか?と答えてくれました。
さて、ウェブカメラをオフにして、今度は画面共有をしてみましょう。OBSを起動しているサブモニターを共有します。ここですね。もう一度質問してみます。今は何が見えますか?
ああ、今はフルスクリーンが見えます。OBS Studioを使っているようですね。これはストリーミングや録画で人気のあるプログラムです。設定されたさまざまなシーン、オーディオミキサー、右側のコントロールパネルが見えます。OBSの中で何か具体的に作業したいことはありますか?と的確に答えてくれました。
ここで、OBSでの操作方法を質問したり、特定の場所を指し示してもらったりすることができます。もしこれが初めての設定であれば、画面を見ながら次に何をすべきか案内してくれるでしょう。私はGoogleのLive機能は過小評価されすぎているし、もっと話題になるべきだと常に思ってきました。文字通り、画面を共有して手順を案内してもらうだけで、やり方を教えてもらうことができるからです。実際に使ってみるとかなり印象的ですよ。
これは検索機能にも追加されている機能です。検索でLive機能を使うと、AIモードでインタラクティブなマルチモーダル会話ができます。スマートフォンのGoogleアプリを開き、星マークの付いたAIモードの横にある小さなボタンをクリックします。今週、世界を静かに変えた出来事は何ですか?と聞いてみます。
静かな変化がいくつかありました。ひとつは、GoogleがLyria AIをアップグレードして、より長く構造化された楽曲を作成できるようにし、ユーザーに音楽制作の自由度を与えたことです。また、Microsoftは医療記録と連携できるCopilot Healthという機能を導入しました。何か具体的に興味のあるトピックはありますか?と教えてくれました。
正直なところ、これこそSiriがこうあるべきだったという理想の姿に感じます。
Gemini 1.5 Flashについて話しているついでに、今週GoogleがXで披露した非常に興味深いデモも紹介したいと思います。彼らはGemini 1.5 Flash Liveを使って、何かをタイピングしたり検索したりクリックしたりするたびに、リアルタイムで新しいページを生成するブラウザを作って見せたんです。
これは数年前に登場したWebSimというアプリの機能と非常によく似ていますが、今回はすべてGoogle内部でバイブコーディングによって構築されたものです。フルスクリーンにして、ここで好きな言葉を打ち込んでみます。Taco Cat Parade。この検索を実行すると、文字通りリアルタイムでページが生成されるのがわかります。これは今まで存在しなかったページです。
しかもほぼ瞬時に生成されます。このページは非常に素早く、完全にその場で生成されました。上部のスケジュールをクリックすると、また全く新しいページが生成されます。これも以前は存在しなかったもので、リアルタイムに生成されています。残念ながら実際のメモリ機能のようなものはありません。
そのため、作成されたページは保存されず、この種の目新しさを楽しんだり、どのようなことができるかを披露したりする用途以外には実際には使えません。しかし、これらすべてをリアルタイムで生成するスピードは非常に印象的だと思います。
これまでGoogleのAI製品を使っていなかった人で、移行したいけれどChatGPTやClaudeにすべての記憶が残っているからと心配している人もいるでしょう。GoogleはAnthropicの戦略を取り入れ、移行を非常に簡単にしました。Geminiに移行する際、他のAIアプリから記憶、好み、チャット履歴を引き継ぐことができるんです。
AnthropicやOpenAI、国防総省をめぐる騒動があった時、多くの人がOpenAIを離れることを決めました。Anthropicはそこにつけ込み、私たちへの移行は本当に簡単です。すべての記憶や履歴、好みを持ち込むことができますよ、とアピールしました。それから数週間後、Geminiも、それはいいアイデアだ。うちでも同じことができますよ、と言い出したわけです。
しかし、今週Googleがリリースしたのはそれだけではありません。先ほどLive AI機能を試していた時に少しだけ触れましたが、彼らはLyria 3 Proもリリースしました。これはGoogle版のSunoのようなもので、好きな音楽を生成できます。以前は30秒ほどの短い曲しか生成できませんでしたが、今回からははるかに長い曲を生成できるようになりました。
この高度なバージョンでは、最長3分のトラックを作成できます。イントロ、Aメロ、サビ、ブリッジといった特定の要素をプロンプトで指示できるようになりました。そして彼らはこれをほぼすべての製品に展開しようとしているようです。Vertex、Google AI Studio、Gemini API、Google Vids、Geminiアプリ、Producer AIなどに搭載されています。
Geminiを開くと、音楽を作成するという小さなボタンがあります。これをクリックすると、ベースとなるテンプレートがいくつか表示されるか、自分でオリジナルのトラックを説明することができます。サンディエゴ・パドレスを応援するダブステップの曲を作って、と入力してみます。すると、重いベースドロップと攻撃的でリズミカルなシンセサイザーを特徴とする、あるいは巨大なビルドアップの最中に中年の危機を迎えるマスコットについて、といったプロンプトの拡張候補を提示してくれます。
最初の候補を選んでみましょう。
街の中心で。さあ行こう。さあ行こう。さあ行こう。さあ行こう。
雰囲気は伝わると思います。かなり良い出来ですね。
音楽生成AIと音声合成AIの最新動向
今週リリースされた音楽生成AIはそれだけではありません。SunoがSuno 5.5という新しいバージョンの音楽生成AIをリリースしました。今回から自分の声を学習させて、その声を使って曲を作らせることができるようになりました。私の場合、これはおそらく最悪なアイデアになるでしょうけどね。
Sunoのアカウントにログインしてみましょう。詳細設定をクリックすると、新しいボイスセクションがあります。自分の声を録音またはアップロードして、何でも作成しようと書かれています。では、声を作成してみましょう。私は全く歌えないので、普段の話し声を使ったらどうなるか気になります。
これが私の自然な話し声です。私は現在歌っています。はい、その通りです。私は実際に歌うことはなく話すだけなので、私が歌うとこんな感じに聞こえるはずです。
あなたの歌唱力をどう評価しますか?という質問には、超初心者としておきます。このボイスをMatt Wolfの話し声と名付けます。よし、シンプルモードに戻って、Matt Wolfの話し声を選択したままにします。
そして、野球とタコスとゼルダの伝説 ブレス オブ ザ ワイルドについてのポップソングを作ってみましょう。入力している時に頭に浮かんだ3つのランダムなテーマです。おそらくかなりひどいことになると思いますが、どうなるか見てみましょう。さあ、やってみましょう。
そうですね、私の歌声はきっとこんな感じでしょうね。こっちのオプションも試してみましょう。
ブレス オブ ザ ワイルド、ホットドッグ、叫んでいる、俺たちはワイルドサイドを行く。
まあ、自分の声がこんな風に聞こえる可能性があるというのはかなり励みになりますが、私が歌おうとした時の実際の声とは絶対に違いますね。でも、これまで試したことがないなら、ぜひやってみてください。本当に楽しいですよ。
テキストから音楽の話題から、次はテキストから音声の話題に移りましょう。Smallest.aiという企業が、対話型の音声エージェント向けに設計された新しい音声合成モデルを発表しました。これはElevenLabsの新しい競合となります。考えているように聞こえたり、聞いているように聞こえたり、人々が実際に話す方法を処理し、ユーザーを引き付け続けるように調整されているそうです。彼らが提供している短い例を聞いてみましょう。
あー、なるほど。じゃあ、えーと、7時に出発するとしたら…いや、待って、それは…うん、いや、早すぎるね。たぶん8時半くらいかな。それで、えーと…到着するのは、そうだな、たぶん昼くらいになると思う。
うん、悪くないですね。彼らはElevenLabsや他のいくつかとの比較ベンチマークを公開しており、大半のベンチマークで勝っているとしていますが、そのベンチマーク自体を彼らが作成したという点には注意が必要です。
ElevenLabsと同様に、これにも自分の声を学習させることができます。最も自然な声は多くの場合、あなた自身の声です。最高の構築済み音声でさえ限界があります。私たちの評価では、クローン音声が一貫してそれを上回っています。彼らのLightning V3.1を使用すれば、自分の声をクローン化できます。これはAPI利用向けのもので、これを使ったアプリを構築するためのようです。ElevenLabsのようにブラウザ上のプレイグラウンドで簡単に試せるようなものはなさそうです。しかし、ElevenLabsと同等、あるいはそれ以上に自然に聞こえる音声エージェントを必要とするアプリを構築しているなら、Smallest.aiをチェックしてみる価値はあるでしょう。
Mistralも今週、音声合成モデルをリリースしました。こちらは実際に自分のコンピューター上でローカルに実行できるオープンウェイトモデルです。彼らも独自のブラインドテストを用意しており、両方を再生してどちらが好きかを選ぶことができます。最初の音声です。
やあやあ、夏がとても楽しみだ。ここはすごく暖かくなるからね。海で泳いだり、チェリーパイを作ったりするのが待ちきれないよ。
そして2つ目の音声です。
やあやあ、夏がとても楽しみだ。ここはすごく暖かくなるからね。海で泳いだり、チェリーパイを作ったりするのが待ちきれないよ。
どちらも素晴らしいですが、最初の音声の方が少し良かったと思います。そして当然ですが、最初のものが彼らの音声合成で、2つ目がElevenLabsでした。
ElevenLabsとかなり匹敵する、あるいは少し上回っているのがわかると思いますが、これはオープンウェイトモデルなんです。他にも例があります。これはポールの入力音声だと思います。
こんにちは、私の名前はポールです。今日はどのようなご用件でしょうか。
そしてこのテキストを入力すると、このような出力が得られました。
始める前に、いくつか詳細を確認する必要があります。フルネームと生年月日を確認していただけますか。
推測するに、本当に必要なのは最初のテキストだけなのでしょう。ほんの数秒しか必要ありません。見てみましょう。このモデルは、わずか3秒の参照データでカスタムボイスに適応するように訓練されており、声質だけでなく、微妙なアクセント、語尾の変化、イントネーション、さらには参照元に表現されているような言葉のつかえなどのニュアンスも捉えることができます。
マリーというフランス語の入力データがあります。しかし、この英語のプロンプトを与えて出力させると、フランス語訛りで話します。
始める前に、いくつか詳細を確認する必要があります。フルネームと生年月日を確認していただけますか。
Voxrolのテキスト読み上げを試すをクリックしてみましょう。無料で試せるプランがあるようです。ただ残念なことに、ログインしてみるとカスタムボイス機能は有料プラン限定でした。なので、ここにある既存のアクターの声をいくつか試してみましょう。ポールの怒った声を選んで、次のように言わせてみます。
みんなYouTubeでMatt Wolfをチャンネル登録するんだ。
どうやらポールが怒りながらチャンネル登録しろと言っているようです。ポールを怒らせたくはないですね。では、キュリアス・ジェーンがどう言うか聞いてみましょう。
みんなYouTubeでMatt Wolfをチャンネル登録するべきだわ。
同感です。私もそう思います。
画像編集AIのLove Art AIの新機能
次はクールなAIアートの機能に移りましょう。Love Art AIという企業がMove Objectという新機能をリリースしました。画像を与えて、画像の一部をハイライトし、その部分を移動させることができます。これも無料で遊ぶことができます。画面上部に少量のクレジットが付与されています。
画像ジェネレーターをクリックして、アスペクト比を16対9にします。モデルをNano Banana 2に切り替えて、夕方の森に座っているハイイロオオカミというプロンプトを入力します。すると、こんな感じの画像が生成されます。この画像を選択すると、Move Objectというボタンがあります。
Move Objectを選択すると、長方形か投げ縄ツールを使えます。今回は長方形で選択しましょう。オオカミ全体が長方形の中に収まるようにします。選択範囲内にオオカミがいることをAIが認識したのがわかります。あとは、オオカミを配置したい場所にこのように新しいボックスをドラッグするだけです。
右側にドラッグして、ボックスを小さくしてみましょう。そうすればオオカミが伏せるかもしれません。そしてRunをクリックすると、2枚目の画像が生成され始めます。はい、できました。画像内の他の部分はほぼすべて同じですが、オオカミがこちら側で伏せています。
画像1をJPEGで書き出し、画像2もJPEGで書き出します。Leonardo AIを開いてビデオに移動し、開始フレームと終了フレームを指定して、オオカミが伏せるというプロンプトを与えると、こんな感じになります。これがオオカミで、別の場所に移動して伏せます。
Love Art AIのこの機能は本当にクールですね。開始フレームと終了フレームを作成し、あとは動画生成AIを使ってその間をアニメーションさせるのが非常に簡単になります。
今週はニュースが多いと言いましたが、まだまだ終わりませんよ。でも時間を無駄にするつもりはないので、ここからはラピッドファイアでテンポよくいきましょう。
OpenAIの最新動向:Soraの開発中止と広告ビジネスへの移行
これはおそらく今週最大のニュースだったと思いますが、すでに別の動画で詳しく解説したので、この動画ではラピッドファイアのコーナーに移動させました。
私たちはSoraを失うことになります。Soraのアプリだけではありません。OpenAIは本業以外のサイドクエストを終わらせる決断を下しました。彼らはチャットモデル、コーディングモデルに集中し、基本的にはそれらを非常にうまくやることに専念する方針です。そして、サイドプロジェクト削減の最初の犠牲者がSoraでした。
彼らはアプリを廃止し、動画生成ツールとAPIも廃止します。今後しばらくは、OpenAIにおいて動画生成機能を持つことに注力することは全くないでしょう。個人的には、これは賢明な判断だと思います。彼らは資金を注ぎ込んでいる状態ですし、これには大量の計算資源を消費します。そしてほとんどの人は、OpenAIをコーディングやチャットのために使いたいのであって、動画生成のために使いたいわけではありません。
実質的にネットミームを作るだけのジェネレーターに、なぜあれほど多くの計算資源が割り当てられていたのでしょうか?ですから、この決断は理にかなっていると私は思いますが、同時にディズニーとの関係において非常に気まずい状況を作り出しました。彼らは最近ディズニーと大規模な契約を結んだばかりで、ディズニーはOpenAIの技術にアクセスできるようになる一方、OpenAIはユーザーが自分の動画でディズニーのIPを生成することを許可できるはずだったのです。
しかし、Soraの廃止が発表されるやいなや、ディズニーは契約から撤退し、ディズニーとOpenAIの間のプロジェクトは消滅しました。どうやらOpenAIはディズニーに事前通知を一切行わなかったようです。ディズニーとOpenAIの関係者は、今週の月曜日までは協力して作業していたと述べているので、多くの人にとって大きなサプライズだったようです。
そして、サイドプロジェクトを排除する取り組みの中で、もうひとつの犠牲になったのが、ChatGPTに組み込む予定だったアダルトモードのようです。これもまた、なぜ卑猥な言葉を話すチャットボットを作るために研究者やGPUを割り当てていたのか、と疑問に思うようなプロジェクトでした。
また、OpenAIが最初に打ち切った2つのプロジェクトが、xAIのElon Muskが最も力を入れている2つの分野のように感じられるのも興味深い点です。彼は自身の動画生成AIをとても気に入っていますし、卑猥な言葉を話すロボットを作ることにも熱心ですからね。
OpenAIにとってさらに悪いニュースがあります。どうやら、広告のためにChatGPTを利用してきた人々は、それが機能しているかどうかがよく分かっていないようです。ChatGPTで最初の広告キャンペーンを購入した広告主たちは、プロセスがローテクであり、広告が機能したかどうかを示すデータをほとんど受け取っていないと述べています。
彼らはまだ、その広告がクライアントにとって測定可能なビジネス上の成果をもたらしたことを証明できていません。OpenAIが無料層や低価格層を提供し続けるには、課金していない人々のための計算リソースのコストを補うために、広告ビジネスが機能する必要があります。しかし今のところ、広告が実際に機能しているかどうかは誰にも分かっていません。
私の推測ですが、ほとんどの人はOpenAIの広告をクリックしていないでしょう。なぜなら、彼らは何かについて学ぼうとOpenAIと対話している真っ最中だからです。そのすべての会話の下に表示される広告なんて、なぜクリックしなければならないのか、と感じてしまいます。
全く関係ないニュースのように思えますが、今週OpenAIから、ChatGPTでの商品発見を強化するという発表がありました。エージェント型コマースプロトコルを活用した、よりリッチで視覚的に没入できるショッピング体験を立ち上げるそうです。つまり、購買意欲の高い特定の商品の検索を行った際に、より多くの商品を表示し、商品同士を比較できるようにするということです。
また、Eコマース事業を展開している企業がChatGPTに商品を掲載しやすくなりました。商品フィードを共有することで、買い物客が選択肢を検討し、商品を比較し、何を買うか決める際に、より効果的にアプローチできるようになります。
これは私にとって非常に興味深い動きです。あえて言わせてもらいますが、彼らの広告プラットフォームは最高のスタートを切ったとは言えません。効果があるのかどうかもよく分からない状態です。そのニュースが今週出たわけです。
そして同じ今週、OpenAIは、ChatGPTプラットフォーム内での買い物をしやすくします。また、企業が当社のプラットフォームに商品を掲載しやすくします、と発表しました。現在、このChatGPT内での商品発見機能はまだ有料ではありません。Eコマース企業はChatGPTに商品を掲載してもらうためにお金を払う必要はありません。しかし、将来的に課金するための地盤固めをしているように感じませんか?
例えば今、Googleで商品名を入力すると、常に上位に注目の商品が表示されます。多くの場合、これらは企業がその枠のためにお金を払った広告です。もし誰もChatGPT内のチャットの下に表示される広告をクリックしないのであれば、ChatGPTは広告を機能させるための別の方法を見つけ出す必要があります。注目の商品枠を企業に買わせるというのは、次の論理的なステップだと感じます。
私は数週間前、OpenAIが陥るであろうこの広告の危険な道についての動画を作成しました。そして今私たちが見ているこの動きは、私が文字通り予測していたそのプロセスの次の段階のように感じられます。まあ、私の的外れな推測かもしれませんが。
またOpenAIは、CodeXアプリ内にプラグインを導入しました。これにより、Slack、Figma、Notion、GmailなどをCodeX内で使えるようになります。これまではChatGPT内でもこういった機能の多くを使えましたが、今回からは彼らの統合開発環境アプリにも搭載されました。
Anthropicの法的勝利と次世代モデルClaude Mythosのリーク情報
Anthropicからもいくつか興味深いニュースがありました。どうやら彼らは国防総省との戦いに勝利し、サプライチェーンの脅威とは見なされない可能性が高くなったようです。ウォール・ストリート・ジャーナルの報道によると、米国連邦裁判所の判事は、言論の自由の侵害を理由に、トランプ政権によるAnthropicへのサプライチェーン脅威指定を差し止めました。判事は政権に対し、大統領令の適用を停止し、4月6日までに遵守報告書を提出するよう命じました。
これはAnthropicにとってかなり大きな勝利のようです。しかし、Anthropicが完全に危機を脱したわけではありません。Samuel RolandによるXの投稿ではさらなる解説があり、DC巡回区控訴裁判所で現在も別の4713指定が係争中であると指摘しています。
Charlie Bullockによるさらなる明確な説明もあります。国防総省は、2つの異なる法律の下でAnthropicをサプライチェーンの脅威と宣言しました。Anthropicは、それぞれの指定に異議を唱えるために2つの並行する訴訟を起こさなければなりませんでした。現在Anthropicは1つの指定を停止する予備的差し止め命令を獲得しましたが、もう1つの指定は依然として法的に有効な状態です。そのため、1つの法廷闘争には勝ったものの、彼らが乗り越えなければならないハードルはまだあるようです。
Anthropicに関するもうひとつのニュースは、Anthropicから文書が流出し、Claude Mythosと呼ばれる新世代の超強力なモデルが存在することが明らかになったというものです。これは当初、Anthropicが自社のウェブサイトにパスワード等で保護されていないブログ記事の草稿を残してしまい、誰かがそれを発見したことでFortune誌によって報じられました。
そのブログ記事はすでに削除されていますが、このM1というアカウントは削除される前にコピーを保存することに成功したようです。そしてこのブログ記事は、3月中のどこかで公開される予定だったように見えます。Mythosは、Opusモデルよりも大きく、よりインテリジェントな新しい階層のモデルの名称です。
Mythosは、ソフトウェアのコーディング、学術的な推論、サイバーセキュリティなどのテストで、劇的に高いスコアを獲得しています。彼らはさらに次のように述べています。Claude Mythosのリリース準備にあたり、私たちは細心の注意を払い、それがもたらすリスクを理解したいと考えています。私たちは、サイバーセキュリティの領域におけるモデルの潜在的な短期リスクを理解し、サイバー防衛者が準備できるよう結果を共有したいと考えています。
また、私たちがサービスを提供するのは非常にコストがかかり、顧客が使用するのにも非常にコストがかかるでしょう、とも述べています。彼らは実際にこのブログ記事の中で、これから登場するモデルの波は、防衛側の努力をはるかに凌駕する方法で脆弱性を悪用する可能性があると警告しています。つまり彼らは本質的に、非常に強力な新しいモデルをリリース予定であり、サイバーセキュリティの観点からは少し恐ろしいものだと言っているのです。
繰り返しますが、これは流出後にウェブサイトから削除されたものであり、誰かが削除される前に取得したものです。ですので、すべて鵜呑みにしないでください。まだ何も確定した情報ではありません。
動画生成AI、Wikipediaの規制、そして最新ロボティクス
次に進みましょう。今週、CapCutはDreaminaというByteDanceの動画生成モデルをリリースしました。これは中国発の誰もが絶賛している動画生成モデルですが、米国は商標問題や有名人の肖像権などを理由に米国への参入を阻止しようと戦ってきました。事実上、すべての映画スタジオがこれに対して声を上げました。政府も声を上げました。そしてCapCutでは利用できるようになったものの、ヨーロッパや米国ではまだ利用できないようです。
この新しいモデルは多くの人にとって利用可能ですが、米国やヨーロッパにいる人はまだ使えません。確かに非常に優れたモデルのようです。私自身はまだ触れることができていませんが、これまで見たものはすべて非常に印象的でした。
Wikipediaは今週、Wikipedia内でのAI生成記事を禁止しました。AIを使用すること自体は可能ですが、Wikipediaのページ全体をAIに生成させることはできません。Wikipediaの編集者は、基本的なコピーの編集や翻訳にのみAIを使用できます。
しかし、これはおそらく良い動きでしょう。考えてみれば、多くのLLMはおそらくWikipediaのデータで訓練されています。もしLLMがWikipediaのデータを生成するようになったら、それこそモデル崩壊につながるのではないでしょうか。
最後はロボットの話で締めくくりましょう。今週、Figure 03ロボットがホワイトハウスに初めて入った人型ロボットとして歴史に名を刻みました。この動画がどんな結末を迎えるか、信じられないと思いますよ。見てください。
いや、実は動画の結末は全くそんな感じではありません。面白いかなと思って最後の部分は私が作りました。実際のところ、ロボットはただ歩いて入ってきて、群衆の前に立ち、何かを話し、少し手を振って、そして歩き去っていっただけです。このロボットとの交流で誰も傷つくことはありませんでした。
まとめ:AIニュースのノイズからシグナルを見つける
というわけで、今週私からお伝えする内容は以上です。私の毎週の目標は、皆さんが今週知っておくべきだと思うすべてのAIニュースを解説する1本のコアな動画を作ることです。私はあらゆる情報をふるいにかけ、すべてに注意を払い、ツールで遊び、人々と話し、すべてのニュースを読み、そして週に1回、ノイズや誇大広告の中からシグナルを見つけ出し、最も多くの人が知りたいと思うであろうことだけをピックアップして解説しようと最善を尽くしています。
毎日AIのニュース動画や、起きたことすべての解説をお届けして皆さんを圧倒したくはありません。週末にその週のまとめを提供することで、情報の波に飲み込まれる感覚を少しでも和らげることができればと思っています。少なくともそれが私の目標です。圧倒される役目は私が引き受けます。だから皆さんには、その圧倒される感覚を最小限に抑えるよう設計された週1回の動画をシェアさせてください。
もしこういう動画が好きなら、ぜひ高評価ボタンを押し、チャンネル登録を検討してください。そうすれば、毎週この動画があなたのフィードに表示されるようにします。というか、YouTubeが毎週あなたのフィードに表示してくれることを願っています。高評価とチャンネル登録は間違いなくその助けになりますけどね。
改めて、ご視聴いただき本当にありがとうございます。皆さんには本当に感謝していますし、私はこの動画を作るのがとても楽しいんです。私は木曜日にこれらの動画を作成し、金曜日に公開しています。そのため、木曜日の夜に録画してから金曜日の間に大きなニュースが入ってきた場合は、来週の動画に回すことになります。でも、これをやるのが本当に楽しいんです。
テクノロジー業界に注目し、それを共有し、ツールで遊び、この動画を見てくれている皆さんのような人々と一緒に楽しむことを仕事にできているなんて、私は世界で最も幸運な人間の1人だとよく感じます。本当にありがとうございます。文字通り夢を生きています。いくら感謝してもしきれません。
最後にもう一度、本当に感謝しています。また次回の動画でお会いしましょう。バイバイ。以上、スタイリッシュな着地でした。


コメント