
14,881 文字

今週見逃したかもしれないAIニュースを掘り下げていきましょう。まず最初に、OpenAIが無料プランでもDeep Researchを利用可能にしたことです。このDeep Researchは非常に役立つと感じています。これをオンにすると、インターネット検索を行いますが、本当に深く掘り下げた検索を行い、質問やトピックに関する多くの情報を引き出してくれます。
彼らによれば、Plus、Teams、Proプランで利用できるようになった新しいDeep Researchは軽量版で、現在の利用制限を増やすことができるとのことです。ChatGPTの無料版を見てみると、Deep Researchオプションが利用可能になっています。これにカーソルを合わせると、5月25日までに5回使用できることがわかります。つまり、ChatGPTの無料プランでは月に5回使えるということです。
ツイートを読む限り、Plus、Team、Proユーザーにとってどのように機能するのかについては少し不明確です。彼らは「Plus、Team、Proユーザー向けに、Deep Researchの軽量版を導入することで使用量を拡大しています。現在の制限を増やすために、無料ユーザーにも軽量版を展開していますが、Proユーザーとして既にDeep Researchにアクセスできていた私にとって、軽量版が展開されるとはどういう意味なのでしょうか?」と述べています。
このスレッドを読み進めると、Deep Researchの軽量版はO4 Miniのバージョンを使用しており、既存のDeep Researchとほぼ同等の知性を持ちながら、提供コストが大幅に低いとのことです。回答は通常より短くなりますが、期待される深さと品質は維持されます。元のDeep Researchの制限に達すると、クエリは自動的に軽量版にデフォルト設定されます。
彼らのツイートから理解する限り、無料プランでは5回のDeep Researchが使用でき、Plus、Team、Proプランではある程度の通常のDeep Researchが利用でき、それらを使い切った後に軽量版に移行するようです。しかし、上位プランでは通常のDeep Researchが何回使えるのか、どの時点で軽量版にダウングレードされるのかは完全にはわかりません。
OpenAIの話が出たので、彼らが計画しているオープンモデルについても話しましょう。噂によれば、このモデルは6月頃に公開される予定です。Techrunchの記事では「初夏」と書かれていますが、噂では6月頃と言われています。このモデルは無料でダウンロードでき、APIの裏側に隠されることもないため、おそらくローカルマシンで実行できるでしょう。
また、MetaやDeepseekのオープンモデルを上回るパフォーマンスを目指しているとも言われています。Meta Lama 4は非常に大きなモデルで、1,000万トークンのコンテキストウィンドウを持っています。これはOpenAIの現在のクローズドモデルが持つコンテキストウィンドウよりも大きいので、それにも匹敵するかどうか見てみる価値があります。
このモデルは他のモデルも呼び出すことができるようになるそうです。つまり、あなたのクエリやプロンプトが少し複雑すぎて、APIを持つクローズドモデルの方が良い回答を得られると分かっている場合、理論的にはそのモデルに質問を委託することができます。ただし、これはまだ非常に推測的な段階です。
「情報源によれば、もしこの機能がオープンモデルに組み込まれれば、OpenAI APIを呼び出して、計算能力を大幅に向上させるために同社の他の大規模モデルにアクセスできるようになるでしょう。このオープンモデルがウェブ検索や画像生成などの機能を持つかどうかはまだ不明です」とのことです。
多くの人がOpenAIのようなツールを使用する際の大きな反対理由は、ローカルで実行できないことや、クローズドソースであること、OpenAIのクラウドで実行されていること、そして将来のモデルのトレーニングにOpenAIが情報を使用することを懸念していることです。ローカルで実行できるモデルがあれば、理論的にはインターネットをオフにしてクラウドに接続せずに、コンピュータ上で適切な計算能力を持っていれば、優れた回答を得ることができるはずです。
また今週、Washington PostがOpenAIと検索コンテンツのためのパートナーシップを結んだことも発表されました。OpenAIの検索機能を使用すると、OpenAIはWashington Postのコンテンツを実際に検索できるようになります。以前にも話しましたが、これはすべて訴訟を最小限に抑えるための予防策のように思えます。OpenAIとしては共有できるものはすべて共有したいのでしょうが、OpenAIに対する訴訟が次々と起こっているため、OpenAIは様々なニュースメディアとパートナーシップ契約を結ぶことを余儀なくされているようです。これは彼らがこれらの情報源のコンテンツを人々に提供し始めたときに訴訟を起こされないようにするためです。
Perplexityは今週、iOSアプリ内で「Perplexity Assistant」という新機能をリリースしました。これは人々がSiriに期待していたことを実現するような機能です。基本的な質問に答えるだけでなく、メディアの再生、メールの下書き、会議の移動、乗車の予約、予約の作成、リマインダーの設定などができます。
他の例として、ポッドキャストの再生、見つけにくい動画の検索、お気に入りの曲の再生、一日のレビュー、会議のスケジュール、メールの送信などが挙げられています。PerplexityのCEOであるRavenは、これらの機能の一部はまだ少し不安定で改善中だと警告していますが、多くの機能がリリースされ、Siriの改良版のようになっていくのは素晴らしいことです。
私自身も少しテストしてみましたが、うまく機能するものもあれば、そうでないものもあります。例えば、ポッドキャストは開きますが、Apple Podcastsでのみ開きます。「Next Waveポッドキャストの最新エピソードを開いて」と言うと、「Apple Podcastでの最新のNext Waveポッドキャストを開きました。他に何かありますか、それともセッションを終了しますか?」と返答します。「明日の午後7時にサンディエゴのIsland Primeで予約して」と言うと、「サンディエゴのIsland Primeで明日の午後7時の予約のためにOpen Tableの予約ページを開きました。そこで予約を確認できます」と返します。「来月のカレンダーのイベントを教えて」と言うと、「来月のカレンダーには次のイベントがあります:5月2日 ビルの誕生日、5月5日 シンコデオ、5月7日 アルフィーの誕生日、5月8日 トレイシーの誕生日」と答えます。
面白いことに、これらのテストの多くは録画前に試したとき正常に動作しませんでしたが、録画を開始して再度テストしたときには動作しました。私のデモはすべてうまくいきましたが、少し不安定な経験もありました。前回カレンダーの予定を確認したときは何も見つからず、最初にNext Waveポッドキャストを開いてくださいと頼んだときは、単にApple Podcastを開いただけでNext Waveポッドキャストは開きませんでした。しかし今回は録画中に試したすべてのことがうまくいったので、少なくとも動画を撮影しているときはかなりうまく機能するようです。
今週はMicrosoftからも更新がありました。Microsoft 365 Copilotの新機能として、より高度なエージェント機能が発表されました。例えば、情報をより早く見つけるためのAI検索機能、新しいコンテンツ作成機能、コパイロットノートブック、そしてエージェントを見つけてアクセスするための新しいエージェントストアなどです。
この一部はビデオでデモされていました。Microsoft 365 Copilot内では、アナリスト、リサーチャー、セールスなど様々なチャットオプションがあります。Microsoftアカウント内のデータから棒グラフなどを作成することもできます。ノートブックは整理に役立ち、AIとチャットするときにそのノートブックの内容を考慮してくれるようです。
エージェントの下では、Jira、アイデアコーチ、スキル発見、プロンプトコーチなどの例が見られます。すべてのエージェントの下には、monday.com、Dropbox、Trelloなどの他のツールとのAPI接続のようなマーケットプレイスがあります。
ここでの大きな特徴は、特定のタスクに最適化されたリサーチャーとアナリストのエージェントのようです。一つは深いリサーチを行い、もう一つはExcelやWordなどからのデータを分析することができます。ほとんどのユーザーは5月下旬の春からアクセスできるようになるでしょう。
もう一つのMicrosoftのアップデートとして、発表され、延期され、展開され、撤回され、再び発表されたリコール機能が、今回は本当に実現する見込みです。この機能は、ブラウザの履歴のようなものですが、コンピュータ全体に対するもので、以前Da Vinci ResolveやMicrosoft Wordなどで作業していたことを振り返ることができます。コンピュータ上の任意のアプリで以前取り組んでいたことを時間を巻き戻すように見ることができ、AIプロンプトを使用して特定の時間や作業内容を見つけることもできます。
多くの人々がこれを懸念し、最初に発表されたときにはいくつかの問題がありました。入力されたパスワードなどを遡って見ることができるというような問題もありましたが、それらの懸念に対処したようで、ついに展開されることになりました。
「リコールを導入したとき、先週のプロジェクトやオンラインショッピング中の無数のブラウザタブなど、中断したところから再開するという一般的なフラストレーションに対処しようとしました。それを見つけるには、フォルダ、ウェブサイト、無限のメールを漠然とした記憶に頼って検索する必要があることがよくあります。リコールはデジタルメモリを取り戻し、数秒でステップを追跡し、アプリ、ウェブサイト、画像、ドキュメントをすばやく安全に見つけて戻ることができます」
以前はリコールはデフォルトでオンになっていて、オフにする必要がありましたが、今回はオプトイン形式でリリースされるので、デフォルトではオンになりません。また、何が保存され、何が保存されないかを具体的に設定するコントロールとフィルターも用意されています。リコールデータはデバイス上でローカルに処理されるため、クラウドに送信されることはなく、Microsoftとも共有されません。Microsoftはあなたのデータを共有しません。なぜならコンピュータに保存されるだけで、Microsoftのクラウドに送信されることはないからです。
また、Microsoft検索も改善されており、ニューラルプロセシングユニットを使用して、つまりAIを使用してあなたが検索しているものをより理解し、正確なファイル名を知らなくても必要なものを見つけられるようにしています。「クリックツードゥー」機能も導入され、画面からテキストや画像を要約、書き直し、コピー&ペーストする機能が提供されます。
今週はXAIからもアップデートがありました。Grockチャットボットに、GeminiモデルやOpenAIモデルで利用できるものと同様のビジョン機能が追加されました。これはGrockモバイルアプリでも機能します。
Grockアプリを開いて、チャットウィンドウの右下にある小さな白い丸(ダークモードでは暗い丸かもしれません)をクリックし、左下の小さなカメラアイコンをクリックすると、周囲の世界を見ることができます。そして今、チャットを始めると「今何を見ていますか?」と質問できます。すると「素敵なワークステーションがセットアップされているようですね。ニュース、映画のピック、NBAハイライトなどのオプションを表示しているモニターと、その上に取り付けられたカメラ、デスク上の他のテック機器も見えます」と回答します。「ニュースやNBAハイライトは見えません。カメラがあるのは正解です」と言うと「そうですね、メニューが少し変わったようです。カメラはまだモニターの上にあり、異なる画面になっているようです。たぶんアシスタントか翻訳者のオプションですね」と返します。「カメラの後ろの壁の写真に何が見えますか?」と聞くと「カメラの後ろの壁に美しい写真が見えます。ビーチ、波、緑があり、部分的に曇った空の下にある風光明媚な海岸の風景が写っています」と答えます。「写真がどこで撮られたかわかりますか?」と質問すると「写真だけから正確な場所を特定するのは難しいです。岩の多い海岸と豊かな緑、澄んだ空の下の海岸は、ハワイや似たような太平洋の島のような熱帯地方のように見えますが、詳細がなければ確実なことは言えません」と答えます。実際にはマウイ島です。
正直なところ、Grockにはかなり感心しています。Grockは十分に評価されていないと思いますが、実際には非常に印象的なモデルです。Grock 3モデルは素晴らしいです。長い間それが普及しなかった理由の一つとして、APIがなかったため、他のツールが自分たちのツールに統合できなかったことが挙げられますが、率直に言ってGrockはかなり優れています。
今週はLTX Studioからもニュースがありました。彼らは今日の動画のスポンサーでもありますが、GoogleのV2ビデオ生成モデルをLTX Studioプラットフォームに追加しました。これが重要なのは、LTX StudioがV2でビデオを生成する最も安価な方法になったからです。LTX Studioを使用すると、8秒のビデオの生成に約65¢かかります。これをGoogle自身のクラウドプラットフォームと比較すると、1秒あたり50¢かかるので、Googleで直接4ドルかかるものが、LTX Studioでは65¢で済むのです。
それではLTX Studio内でV2を試してみましょう。モーションジェネレーターをクリックすると、ビデオモデルの下にGoogleのロゴがあることがわかります。ドロップダウンメニューではLTXVかV2を選択できます。V2を選択し、画像プロンプトから始めましょう。カウアイの海岸で撮影したウミガメの写真があります。この画像をアップロードし、プロンプトとして「亀が砂浜を這い上がる」と入力してビデオを生成します。
予想通り、V2はかなり良い仕事をしてくれました。波が動き、人々が歩き、ここでは亀が動いているのが見えます。では、一からビデオを生成してみましょう。LTX Studioの画像生成モジュールに戻り、月に向かって遠吠えするオオカミの新しい画像を生成します。この画像が気に入ったので、モーション追加をクリックし、再びV2を選択してプロンプトを更新し、ビデオを生成します。
生成されたのは、月に向かって遠吠えする見事なオオカミのビデオです。これは月に向かって遠吠えするオオカミの中で最高の生成結果でしょう。LTX Studioがよりモデル不可知論的になっているのは素晴らしいことだと思います。彼ら自身のオープンソースモデルLTXVもありますが、今はV2も使えるのです。説明欄にリンクを置いておきます。5月3日までにLTX Studioにサインアップすると、最大$300のビデオ生成クレジットを追加で獲得できます。詳細は説明欄のリンクをチェックしてください。LTX Studio、今日の動画のスポンサーをありがとうございます。では続けましょう。
Ray-Ban Meta(レイバン・メタ)をお持ちの方は、今週新機能がリリースされました。ライブ翻訳機能が追加され、誰かが異なる言語で話しかけてきても、メガネに付いている小さなヘッドフォンが実際にライブ翻訳してくれます。誰かがスペイン語で話しかけても、英語で音声翻訳が耳に聞こえるという超クールな機能です。昨年MetaConnectでこれをテストする機会があり、非常に感銘を受けました。そして今、それが展開されています。
また、言語パックを事前にダウンロードすることもできるので、インターネットにアクセスできない場合でもライブ翻訳機能を使用できるのは素晴らしいことです。これらのメガネを使って大規模言語モデルを使用しようとするときの問題の一つがこれだったからです。例えば、グランドキャニオンで使用していて質問していましたが、インターネット接続が良くなかったため、質問に答えられませんでした。しかし、ライブ翻訳ではそれが問題にならないようです。なぜなら、行く予定の国の言語の翻訳パックをダウンロードしておけばいいからです。
YouTubeは新機能をテストしています。私自身はまだ見かけていませんが、彼らは「AIオーバービュー」機能をテストしています。通常のGoogleで検索するとき、検索結果の上にAIオーバービューが表示されますが、YouTubeでは同様のものをテストしていますが、テキストのAIオーバービューではなく、特定のものを検索したときに動画からの小さなクリップが表示されるというものです。
まだ見ていないため詳細は不明ですが、Mac Rumorsによれば、動画結果のカルーセルがあり、検索クエリに最も役立つ動画からのクリップをAIがハイライトするとのことです。これは基本的に、動画からクリップを取り出し、検索結果に直接再生するため、必要な情報を見つけるために動画をクリックする必要がなくなるかもしれません。GoogleはGoogle検索でAIオーバービューを使用していますが、YouTube版は異なります。AIは動画を要約せず、単にクリップを引き出すだけです。
AI選択されたクリップがユーザーに完全な動画を視聴させるのか、それとも動画への実際のエンゲージメントを減らすのかはまだ明確ではありません。これは英語で一部のYouTubeプレミアムユーザーに対してテストされていますが、私はまだ見ていません。私の推測では、「Ray-Ban Metaはどんな機能を追加したの?」というようなYouTube検索をすると、ライブ翻訳機能について話している私のクリップを見つけ、その質問に答える動画のクリップのカルーセルを提供するのでしょう。
これにより、YouTubeを検索する人々にとって素早く質問に答えることが容易になるかもしれませんが、動画のクリックを必要とするクリエイターにとっては大きな阻害要因になる可能性もあります。これがどのように展開されるかはわかりません。そのような仕組みであれば、YouTubeの動画を作成している多くの人々は特に喜ばないでしょうが、私はまだこれを完全には理解していないので、どのように展開されるか見守る必要があります。
Anthropic(アンスロピック)に移りましょう。新しいモデルや画期的な更新はあまり得られていませんが、彼らからは多くのエッセイや研究が発表されています。今週彼らは「AIによる害を理解し対処するアプローチ」というブログ記事を公開しました。基本的に、AnthropicやほかのAI企業はAIについて語られる巨大な終末論的シナリオだけでなく、物理的影響、心理的影響、経済的影響、社会的影響、個人の自律性への影響にも注意を払う必要があると述べています。
彼らはClaude 3.7を調整し、無害なプロンプトの拒否を45%減らしながらも、本当に危険なものに対するガードレールを維持できるようにしたと主張しています。また、「Claudeの悪意ある使用の検出と対抗」という記事も公開しました。この記事では、Claudeがすでに悪意を持って使用されている様々なケーススタディを共有しています。政治的なボットファームの運営、漏洩したパスワードの探索、ハッカーのマルウェアコーディングの支援などです。
彼らが共有したすべてのケーススタディで、そのような行為をしているアカウントを捕捉し、禁止していますが、この記事の本当の目的は、AIモデルが多くの害をもたらす可能性があり、すでに見られていることを示すことです。この記事の趣旨は、このようなことが起きており、私たちは常にこれに対処するために最善を尽くしているが、それは猫とネズミのゲームのようなもので、皆がこのことに責任を持つ必要があるということです。また、消費者にもこのようなことに注意する必要があることを認識してもらうためでもあります。
メール、DM、さらにはソーシャルメディアへの投稿も、悪意ある行為者がAIを使用して生成したボットである可能性があるため、信頼することがますます難しくなっています。本質的には、安全に気をつけてください。
そして、AnthropicのCEOであるDaarioは、彼自身の個人ブログで「解釈可能性の緊急性」というエッセイを発表しました。このエッセイはかなり長いですが、要約すると、彼は大規模言語モデルは非常に賢いが、依然として非常に謎めいていると感じています。人々はまだそれらがどのように考えるかを完全に理解していないため、現在行われているリスク管理の多くは基本的に推測に基づいています。彼はAIのためのMRIのようなものを構築して、これらのモデルが実際にどのように考えているかをよりよくマッピングし、それらがどのように機能しているかをより理解できると信じています。
しかし、もしこれらの問題の多くを解決しなければ、つまり、それらがどのように機能するかを本当に理解しなければ、引き返せない地点に到達する可能性があると懸念しているため、これらを理解するスピードの必要性を特に強調しています。これはAnthropicが先ほど発表した前の2つの記事で扱った他の問題についても言えることです。
これらすべてを考慮すると、なぜAnthropicがOpenAIほど速く出荷していないのかがわかり始めます。彼らはこれらすべてがどこに向かっているのかについてより懸念しており、これらがどのように機能するかをより理解する必要があると考えているようです。これが、Anthropicの立場であり、おそらく他の多くの企業よりも出荷が遅い理由でしょう。
開発者の方なら、今週いくつかの新しいAPIで遊ぶことができます。OpenAIはAPIで画像生成モデルを提供しました。数週間前、ChatGPTで画像生成が導入され、みんながスタジオジブリの画像を作ったりYouTubeのサムネイルを作ったりできましたが、その技術が今APIで利用可能になりました。これにより、開発者は実際にその技術を使って画像を生成するためのAIツールを作ることができます。
また、新しいGrock 3 Mini APIもあります。ここのベンチマークによると、Grock 3 MiniはGemini 2.5 Flash、O4 Mini High、Deepseek R1、さらにはClaude 3.7 Sonnet Thinkingモデルよりも、これらの選択されたベンチマークのほとんどで優れており、価格も他のモデルよりかなり低くなっています。
AI画像ニュースに移りましょう。AdobeはFireflyの新バージョンとウェブアプリをリリースし、他のモデルを選択する機能も追加しました。Fireflyダッシュボードにログインすると、モデルがあり、確かに新しいFirefly Image 4、Firefly Image 4 Ultra、Imagine 3、GPT Imageがあります。
「月に向かって遠吠えするオオカミ」というプロンプトでFirefly Image 4 Ultraを使った結果と、標準のFirefly Image 4を使った結果を比較すると、私はUltraよりも4の方が良い結果だと思いますが、まだこのモデルを十分にテストしていません。
AI画像の話が出たところで、Crea AIはChatGPT画像モデルを使用してチャットでの画像編集機能を導入しました。ChatGPT画像モデルで他の人々が行っているようなGiblify(ジブリ風)、Froggifyなどの様々な加工ができます。これは今なら直接Creaで行えるようになりました。Creaはまた「Stage」という新機能も導入しました。これは画像やテキストからAIで3D環境を作成できるものです。「カウボーイ映画のシーン」というプロンプトで生成し、シーン内にたくさんのアセットがある場面を生成しました。そして、それらのアセットを変更したり移動したりすることができ、画像をシーンにドロップして3Dオブジェクトに変換し、リギングすることもできます。
また今週、Tencent(テンセント)はHunan 3D 2.5という新しいモデルをリリースしました。これは以前の10億パラメータから100億パラメータに増加したモデルで、高品質のテクスチャとアニメーションの向上があります。彼らのデモビデオを見ると、紹介されているものはすべて非常に印象的に見えます。もちろん、このような動画では常に良いものだけを選んで紹介しているでしょうが、Creaがこれをすぐに組み込むのも時間の問題だと思います。Creaはあらゆる種類のAPIを取り込んで自分たちのツールに組み込む傾向があります。このモデルから見えるものは非常に優れているように思えます。
Character AI(キャラクターAI)は、チャットできる架空のキャラクターを作成できるツールで、若い世代の間で非常に人気がありますが、最近動画を生成する新機能を導入しました。「アバターエフェクト」機能をロールアウトし、チャットしているキャラクターのビジュアルを生成します。これにより、通常のテキストチャットボットと話しているというよりも、アニメーションが作られたキャラクターと話しているように感じられます。これは現在Character AIで展開中で、早期アクセスに申し込むことができます。まだすべての人が利用できるわけではないようです。
AIアバターの話が出たところで、Argil(アーギル)という会社(私は正確な発音を知りません)が、AIアバターが実際の製品を持って見せられる新機能をリリースしました。これはeコマース企業にとって大きな意味を持ちます。製品を用意し、ブランドのためのAI生成アバターやスポークスパーソンを作成し、彼らが実際に製品を持ち上げて話すことができます。
ここには、Yコンビネーターのウォーターボトルを持ち上げてバットマンのマスクをしたGary Tanのスクリーンショットもあります。彼らのウェブサイトには、さまざまな製品を持っているAI生成キャラクターの例がたくさんあります。ポッドキャストをしているアバターや、実際に料理をしているアバターもあり、これらのAIアバターを製品ブランディングに活用できるようになっています。
最近、Next Waveポッドキャストでワンダースタジオのニコラとポッドキャストエピソードを収録しました。企業がGEICOのゲッコーやトニー・ザ・タイガーのようなマスコットを作り、それをさまざまなシーンで使用してブランドを宣伝できるという話をしました。今ではAI生成の本物らしいスポークスパーソンでもそれができるようになりました。マーケティングとビジネスへの影響は非常に大きいものです。
近日中にリリースされるNext Waveの別のエピソードでは、MindstreamニュースレターのAdam Biddcomと話し、ArgillやCynthsia、Hey Jenなどのさまざまなツールをテストし、それらの違いを比較しています。このような内容に興味があれば、数日後にリリースされるそのエピソードをチェックしてください。
Tavis(タビス)という会社は、現在利用可能な最高のリップシンク(唇の同期)モデルと言われる新しいモデルをリリースしました。AIの声と唇の同期はまだ違和感があると思いますが、かなりうまく一致しているようです。デモを見てみましょう。
「私は強迫観念でした。プロンプトの最適化、ジェイルブレイキング、完璧な出力を追求していました。そのような1000回のプロンプトの後、『私は何を追求しているのか?正確さ?整合性?それとも単に何らかのコントロール感?』と自問し始めました。百万のAIにプロンプトを出しても、私は決して満足しないだろうと気づきました」
私にとってはまだ少し不気味に見え、まだ少しおかしく見えますが、かなり近づいています。ここでのドナルド・トランプのミュートされた例でも、唇を見るだけで少し変に見えます。唇の動きが完全に自然には見えませんが、これが最悪の状態で、すでに長い道のりを経てきています。
Descriptの新機能が非常に興味深いと思いました。REIまたはMoon Midasがこれについて紹介してくれたことに感謝します。Descriptはいくつかの新しいAIエージェント機能をテストしています。基本的に、AIビデオ編集のためのカーソルを構築していると主張しています。
この動画を開いてみましょう。音声はミュートにしておき、ここでデモにズームインしましょう。左側にチャットウィンドウがあり、「スクリプトを読むときにカメラの前で自然に見えるための私のトップ3のヒントを使って1分のビデオを作成して」と書かれています。そして彼らはヒントを提供し、AIが彼らのためにスクリプトの下書きを作成します。
彼らは別のプロンプトも与えています。動画をアップロードして、文字通り「これを編集してもらえますか?」と言っただけです。AIは「もちろんです。この動画はDescriptのクリップ作成機能についてのものですね。編集したいものがいくつかあります:繰り返しテイク、脚本から外れた部分、異常に長いポーズなど」と応答し、「全部で13の編集を行い、動画を約2分短縮しました」と述べています。つまり、「これを編集してもらえますか?」というプロンプトに基づいて、AIが適切だと思うカットを行ったのです。
次に「ビジュアルに手を加えて、いくつかのチャプタータイトルとストック素材のオーバーレイを追加して、少し変化をつけてもらえますか?」とプロンプトします。AIは計画を立て、いくつかのチャプタータイトルを追加し、ストック素材のオーバーレイを挿入し、「ジャンプカットがたくさんあることに気づきました。ズームやその他のシーンでそれらをできるだけマスクします。スクリーン録画が必要な場所もあるようなので、それらも追加します」と応答します。「完了しました。4つのチャプタータイトルカード、6つの関連するストックオーバーレイ、2つの短いスクリーン録画を追加し、また、最も目立つジャンプカットを控えめなズームでマスクしました」とのことです。
これはすごいことです。これはまだ一般公開されていません。私はこれをテストするために申し込みました。なぜなら本当にテストしてみたいからです。彼らは編集のためのカーソルを構築しようとしています。単にボットとチャットするだけで、それに基づいて編集が行われるのです。エージェントによるAIビデオ編集に非常に近づいており、私はこれを歓迎します。試してみたいです。
AIビデオの話が出たところで、今週アカデミー賞は映画でAIを使いたいかどうかについて実際には気にしていないと発表しました。彼らの正確な声明は「映画制作において生成人工知能やその他のデジタルツールを使用することに関して、これらのツールはノミネーション獲得のチャンスを助けも害することもありません。アカデミーと各部門は、どの映画に賞を与えるかを選択する際に、創造的な著作権の中心に人間がいた度合いを考慮して業績を判断します」というものでした。
完全にAI生成された映画が近いうちに賞を獲得することはおそらくないでしょうが、映画のシーンを助けるためにここかしこで少しだけAIを使用している場合、映画芸術科学アカデミーはそれを問題にしていないようです。
今週のGoogleに対する裁判で、OpenAIは実際にGoogleのChromeブラウザを購入したい、または販売が可能であれば入札したいと述べました。裁判所は現在、独占禁止法の理由でGoogleを解体しようとしており、OpenAIやPerplexityなどいくつかの企業が「Chromeが利用可能であれば購入に興味がある」と表明しています。私の推測では、OpenAIはブラウザ市場に参入し、既存のChromeの基盤の上に完全にAIファーストのブラウザを構築したいのかもしれません。
最後に締めくくりとして、DeepMindのCEOであるDemis Hassabisが今週60 Minutesに出演し、興味深い発言をしました。60 Minutesのインタビューで最も気に入った部分は、AIが意識を持っているかどうかについて話していた部分です。ぜひ全ての動画をチェックしてください。以下は簡単な抜粋です:
「自己認識はあなたの目標ですか?」
「明示的にはそうではありませんが、暗黙的に起こる可能性はあります。これらのシステムは自己認識のような感覚を獲得するかもしれません。それは可能だと思います。これらのシステムが自己と他者を理解することは重要だと思いますし、それが自己認識のような何かの始まりかもしれません」
つまり、Demisは将来的にAIが自己認識に似たものを持つと信じており、私にとってそれは非常に魅力的です。
今日はこれでおしまいです。信じられないかもしれませんが、これは実際にはAI世界ではより緩やかな一週間でした。この動画は十分長かったので多くのことがあったように感じられたかもしれませんが、過去の週と比較すると実際には少し減速していました。私の過去の動画を見ていれば、おそらく同意してくれるでしょう。
このような動画が好きで、最新のAIニュースすべてに関心を持ち続けたいなら、この動画に「いいね」を押し、このチャンネルをサブスクライブしてください。そうすれば、このような動画がもっとあなたのフィードに表示されるようにします。私は現在いくつかのAIチュートリアルも準備しており、さらに素晴らしいインタビューも予定しています。マイクロソフトAIのCEOであるMustafa Solemanとのインタビューをまだ見ていなければ、ぜひそちらもチェックしてください。
このAI技術を実際にどう生活に活かすか、将来どこに向かうのか、そのすべての意味合いについて深く掘り下げる、多くの本当に素晴らしく興味深い楽しいディスカッションがこのチャンネルで予定されています。それらをシェアできることにとても興奮しています。繰り返しますが、動画に「いいね」を押し、チャンネルをサブスクライブすれば、このような内容がもっと表示されるようになります。
まだチェックしていなければ、futuretools.ioもご覧ください。現在デザインの大幅な見直しを行っていますが、ここは私が日々出会う素晴らしいAIツールをキュレーションしている場所です。これらの動画で共有する時間がないような、もっと多くの素晴らしいAIニュースもここでシェアしています。また、完全に無料のニュースレターもあり、週に2回、最も重要なAIニュースと最も素晴らしいツールについてメールでお知らせします。これは完全に無料で、登録するとAI Income Databaseにアクセスできます。これは利用可能な様々なAIツールを使って副収入を得る方法についてのクールなデータベースです。すべて無料で、futuretools.ioで見つけることができます。
今日、私と一緒に参加し、交流し、あれこれ考えてくれてありがとうございます。本当に感謝しています。次の動画でお会いしましょう。バイバイ。


コメント