今週リリースされた最新のAIツールを実際にテストし、その可能性と限界を探る検証動画である。ChatGPTの新しいエージェント機能から始まり、音声クローン技術、リアルタイム映像変換、デジタルアバター作成まで、幅広いAIツールの実用性を検証している。特に複雑なタスクを自動実行するエージェント機能や、瞬時に音声とパーソナリティを学習するHume AI、リアルタイムで映像を変換するMirage LSDなど、最先端技術の実際の性能を率直に評価し、現段階でのAI技術の到達点を明らかにしている。

今週の新しいAIツールをテスト
今週は、皆さんが今すぐ試せる本当にクールな新しいAIツールがたくさん登場しました。このチャンネルでは、実際にAIの進歩や、皆さんの作業方法を変える可能性のあるものを共有するのが好きなんです。時間を無駄にしたくないですからね。では、今週リリースされたクールなものすべてをデモしてみましょう。
まずはChatGPTの新しいエージェント機能から始めます。これは本当に興味深いものです。以前にリリースされたoperatorと非常に似ていて、仮想ブラウザを起動して、あなたの代わりに作業を行うことができます。
ただし、このエージェント機能は、さらに多くのツールにアクセスでき、あなたの代わりにさらに多くのことができるようです。今では、カレンダーを確認して最近のニュースに基づいて今後のクライアントミーティングについて要約してほしい、4人分の和朝食の材料を計画して購入してほしい、3社の競合他社を分析してスライドデッキを作成してほしい、といったリクエストをChatGPTに依頼できます。
ChatGPTは知的にウェブサイトをナビゲートし、結果をフィルタリングし、必要に応じて安全にログインするよう促し、コードを実行し、分析を行い、調査結果をまとめた編集可能なスライドショーやスプレッドシートまで提供します。興味深いことに、キーノートでサム・アルトマンが実際に言及したのは、これらのツールが今やクレジットカードの詳細情報を取得して、あなたの代わりに購入を行うことさえできるということです。
ただし、彼はそのような機密データを扱う際は注意した方がよく、operatorに処理を戻すことを推奨すると警告もしました。これは極めてエキサイティングな新技術ですが、新しいリスクもあります。人々はAIエージェントの使用方法を学ぶ必要があり、社会もAIエージェントに対する攻撃に対する防御を構築する方法を学ぶ必要があります。OpenAIが製品を世に送り出して「ええ、ちょっとリスクはありますが、自己責任で使ってください」と言うのは本当に興味深いことです。
まあ、私はリスクを冒して、実際にテストしてみて、破綻点を見つけられるか、それとも本当に驚かされるかを確認してみましょう。ChatGPTアカウントに向かうと、この新しい「エージェントモードの紹介」が表示されます。ChatGPTは今や独自のコンピューターで作業でき、調査やスプレッドシートから予約の手配まで、さまざまなことができます。
現在、私が録画している時点では、これはProユーザー、つまり月額200ドルのプランでのみ利用可能です。ただし、このライブストリームプレゼンテーションでは、数日以内に他の有料プランにもロールアウトされると言っていました。ですから、あなたがこれを視聴している頃には、Plusプランや月額20ドルのプラン、より安価なプランでも利用できるようになっているかもしれません。
私がテストしたいのは、複雑な複数ステップのプロセスを計画して実行してもらうことです。では、試してみましょう。妻の誕生日が近づいているという設定で、完璧なデートナイトを予約してもらえるかテストしてみます。
かなり詳細なプロンプトを入力します。「2週間後の妻の誕生日にデートナイトを予約してください。オンライン予約が可能で、サンディエゴの高評価レストランを見つけてください。一人当たり総額100ドルを超えないようにしてください。来週木曜日または金曜日の午後6時頃に空きを探してください。2人分の予約を取ってください。
また、新しいパンツと、そのパンツによく合う長袖シャツを見つけてください。私は身長6フィート3インチ、ウエスト34インチ、丈34インチです。通常XLシャツを着用し、上品に見えるものにして、注文してください。また、妻への誕生日プレゼントを最大200ドルで購入してください。彼女は新しいビデオゲーム、キャンプ用品、旅行、読書が大好きです。」
これをすべて単一のプロンプトに投げ込んで、どこまでできるか見てみます。デスクトップをセットアップしています。今、私のコンピューター、私の仮想コンピューターを実際に使用しているのが見えます。ご覧いただいているすべては自律的に行われています。私は何もクリックしていません。実際に私のために記事を読んでくれています。
エージェント機能の並行処理テスト
このエージェントコンセプト全体の大きな利点の一つは、理論的には、さまざまなエージェントに同時にさまざまなタスクを実行させることができることです。一つのエージェントにデートナイトの設定を任せ、別のエージェントに別のタスクを、さらに別のエージェントに別のタスクを実行させることができます。まるで小さな作業者たちが私の命令を実行してくれているようなものです。
私はここで2つ目のエージェントを起動しています。「来週、新しい広告主にFuture Toolsのウェブサイトをプレゼンテーションします。私のウェブサイトでの広告の販売に役立つ内容を含むPowerPointプレゼンテーションを作成してもらえますか?」このエージェントはすでに30秒前に送信したばかりなので、ほとんど動き始めたばかりです。
そして3つ目のエージェントも開始します。「過去180日間の私のYouTubeチャンネル『Matt Wolf』の分析が必要です。成功と失敗をハイライトして、すべての関連データをスプレッドシートに入れてください。チャンネルの動画のさまざまなトピックを反映した円グラフをデータに基づいて作成し、その結果に基づいて10個の新しい動画アイデアをスプレッドシートに追加してください。」3つの異なるエージェントがさまざまなタスクを実行しています。
数分後に戻って、すべてがどのように実行されたかを確認してみましょう。
エージェント機能のテスト結果
最初の試行では、複数のことを依頼した複雑なプロンプト、つまり予約を取る、パンツを注文する、プレゼントを注文するといったことで、ちょっとイライラしました。16分後に実際の結果もなく、なぜか停止してしまったのです。
これをスクロールして、試行したすべてを見ることはできますが、最後に到達すると、ただ終了したと判断されています。「続行しません」という状態でした。16分待った後、これは本当にイライラしました。
私はローンチ日に録画しているので、サーバーが圧迫されて過負荷になっている可能性は十分にあります。ただし、私は月額200ドルのProプランを使用しているので、今すぐChatGPTにアクセスできる人が全員いるわけではありません。ちょっと迷惑でしたが、まったく同じプロンプトを新しいチャットにコピー&ペーストして再実行しました。
2回目は20分間実行されており、前回よりも少し進んでいるように感じます。どうなるか見てみましょう。
実行した他の2つのエージェントは完了しました。最初に行ったのは、Future ToolsウェブサイトのスライドプレゼンテーションをJavaScriptで作成することでした。41分間動作しました。誰もそんなに時間はありません。41分後に「完成したプレゼンテーションです。Future Tools.ioのミッション、オーディエンスインサイト、コミュニティリーチなどをハイライトしています」と言いました。
実際にここでスライドをクリックして、ダウンロードすることもでき、ChatGPT内から直接フルスクリーンでスライドを見ることもできます。どれだけうまくできたか見てみましょう。
「futuretools.ioでの広告 – AIエンスージアストとイノベーターへの入り口」これまで見た中で最高のデザインのスライドとは言えませんね。何が起こっているのでしょうか?Future Toolsとは何か?生産性向上のためのAIツールをキュレートしています。Future Toolsは最高のツールをすべて収集・整理して、あなたが超人になれるようにします。これはページからの見出しそのままです。正直言って、かなり醜いスライドです。
トラフィック概要を見てみましょう。これは訪問者数を千単位で表示しているはずです。約束しますが、4月の訪問者数は500人以上です。50万人弱です。5月は50万人以上、6月は50万人弱です。7月に録画しているので、7月のデータはまだありません。悪いスライドではありませんが、全然よくデザインされておらず、情報はスライドに載っています。
オーディエンスとソース、上位国。これは役に立ちません。円グラフを作りましたが、円の各部分がどの国なのか実際には示されていません。トラフィックソースも同様です。円グラフを作りましたが、どこにも表示されていません。
コミュニティエンゲージメント。Future Toolsニュースレター15万人以上の購読者。まあ、技術的にはそれは正しいです。YouTubeチャンネル73万7千人の購読者。それも最新ではありません。5700万回の再生。私は今6000万回を超えています。10から18分の平均動画長はまだ正確だと思います。
AR広告のパワー、パーソナライズされたターゲティング、売上向上、リアルタイム。これらは広告したい理由です。Future Toolsとのパートナーシップは、あなたのブランドがインテリジェントなターゲティングアルゴリズムの恩恵を受け、メッセージがエンゲージしたAI精通オーディエンスに響くことを意味します。これは正確です。
広告機会、サイズ配置、ニュースレター、YouTubeでの動画、クロスプラットフォームパッケージ、すべて関連性があります。Future Toolsとのパートナーシップ。それが最後のスライドです。
どう思いますか?あまり印象的ではないと思います。最新の情報ではありません。数か月前の情報を引っ張ってきています。6月までのトラフィック統計はありましたが、購読者数や再生回数は数か月前のものでした。デザインもよくありません。完全に自律的にこれをすべて行えたのは本当に印象的です。
間違いなく、でも客観的にこのスライドデッキを見て客観的な判断をするなら、これは客観的に悪いスライドデッキです。完全にAIによって作られたものではありますが。AIがやったすべてのことができたのはクールですが、まだ出力にはあまり感銘を受けていません。ただし、日々近づいてきています。
YouTubeチャンネル分析結果
過去180日間の私のYouTubeチャンネルの分析等々が必要だと言いました。円グラフなど作ってください。主要な発見事項として、私のトップパフォーマンス動画のリストを作成しました。「Geminiでできる27の無料なこと」「DeepSeek、市場をクラッシュさせた中国のAI」。これらはすべて良いパフォーマンスの動画です。
低パフォーマンス動画はこちらです。最も視聴回数が少ないアップロードは「無料でこれらのバイラルAIビデオミームを作る方法」でした。これを載せたのはあまり良くないと思います。これは私の最新動画でもあります。まだ視聴回数を集める時間がありませんでした。この点で最新性に基づいて全く考慮していませんでした。
トピック分布、洞察、成功を理解しました。しかし、私が本当に求めたのはスプレッドシートの作成で、それも作ってくれました。ここでExcelスプレッドシートとしてエクスポートできますし、フルスクリーンで表示することもできます。
すべての動画をリストアップし、ここで視聴回数を千単位で表示し、何らかの成功指標を与えてくれました。成功かどうかをどのように判断したのかわかりません。33万3千回の視聴回数のこれは成功と言いましたが、10万9千回の視聴回数のような他のものは成功ではないと言いました。何を基準にしているのかわかりません。
下の方には別のタブ「新しい動画アイデア」があります。いくつかの新しい動画アイデアを提案してくれました。この内部ブラウザは実際にはカラムのサイズを変更させてくれないので、実際に読むことができません。でも下を見ると見えます。
「クリエイターの時間を節約するトップ10のAIツール」「Perplexity vs GPT vs Gemini」インタビュー、これは興味深いです。「AnthropicのClaudeチームとの舞台裏インタビュー」。私のインタビュー動画を低パフォーマンスとしてリストアップしているのに、これを提案するのは興味深いです。チャンネルで実証済みの低パフォーマンスコンセプトをなぜ提案するのでしょうか?わかりません。
カテゴリチャートデータ。これが下の円グラフを表す情報です。ちょっと迷惑です。各項目が何なのかを見るためにタブ間をクリックしなければなりません。求めたことはやってくれましたが、最良の方法ではありませんでした。
円グラフ画像があり、これは明らかにもう少し役立ちます。ニュース動画が65.1%、ツール18.6%、インタビュー7%、クリエイティブプロジェクトと教育がそれぞれ4.7%を占めているのがわかります。時間が経つにつれて、このツールの部分はどんどん大きくなっていくでしょうが、まあまあでした。
これは実際には4分間しか処理しませんでした。スライドデッキを作るために41分間処理した他のものと比べて。私のデートナイトのものはまだ実行中です。まだパンツを見つけようとしています。実際、本当に長い間パンツを探しています。
デートナイト予約の結果
ついにこのプロセスの実行が完了しました。50分間動作しましたが、やったことすべてを見ることができました。実際には私の代わりにアクションを取りませんでした。コンピューターに座って引き継ぎ、詳細を入力したりする必要があったと思います。これは50分かかるものなら、それに引き継ぎを求められるのを待ってコンピューターに座っているのを本当に望むかという意味で、目的を損ないます。
しかし、ここですべての内訳を教えてくれました。夕食の予約、100ドル以下のトップ評価レストランを調べました等々。サウスパークのBuona Forchettaに決めました。実際に行ったことはないと思います。
今日から2週間後の7月31日木曜日午後6時に2人分の予約スロットを見つけました。予約を確定するには、OpenTableで電話番号またはメールが必要です。連絡先情報を入力する準備ができたら教えてください、続行します、と言っています。
衣類の下で、Amazonでいくつか見つけました。Amazon Essentialsメンズクラシックフィット。Amazon Essentialsのパンツは絶対に着ません。すみません。シャツはJverメンズソリッド長袖ドレスシャツ。両方の商品がAmazonカートに入っています。これは本当でしょうか?私のAmazonログインは持っていませんでした。
ああ、仮想コンピューター内のAmazonカートに入っているのです。誕生日プレゼント、Amazon Kindle Paperwhiteを選択しました。実際良いアイデアですが、彼女はすでに持っています。Amazonカートのパンツ、シャツ、Kindleの小計は203.98ドルです。これらの商品のチェックアウトプロセスを続行しますか?
実際にAmazonのログイン詳細、電話番号、メールアドレスを提供すれば、残りのすべてのステップを私の代わりに実行できるはずです。
他の選択肢は、この3つの点をクリックしてブラウザを引き継ぐことです。ブラウザを引き継ぐをクリックすると、このブラウザで何が起こっているかを制御でき、実際にこれらのタブでクリックでき、カートには実際何も入っていないのがわかります。ああ、カートには物が入っています。
このものをカートに追加しましたが、ご覧のとおり、実際には私としてログインしていません。何らかのログイン詳細を与えなかったからです。90%そこまで到達して、残りの注文を完了してもらいたいだけです。または情報を与えれば、すべてを完了してくれます。
かなりクールなのは、ここをスキムして、この全プロセスを通して見ることができることです。やったことすべての50分間のステップバイステップです。OpenTableに行って、たくさんのレストランをレビューし、TripAdvisorに行ったのが見えます。ここのOpenTableで私のために予約を取ろうとしました。その後、Amazonで検索してパンツを探し始めました。
混乱に多くの時間を費やしているようです。「新しい検索が現在読み込み中です。検索結果が読み込まれました。今待っています。黒の色オプションをクリックします。」今、画面にAmazonが表示されていません。まだOpenTableを表示しています。わかりません。確実にまだ本当にバグがあります。
可能性があると感じます。ブラウザを操作して動作させることができます。これからoperatorやManisのようなものを使った時よりも多くのものを得たという感じは本当にありませんでした。しかし、繰り返しますが、機密情報を与えて、実際に私の代わりにこのようなことを行うことができます。
これらのものは常に少し物足りないと感じます。本当にこれができることに本当に興奮しているという感じではまだありません。繰り返しますが、これが人を置き換えるかという例に戻ります。もしアシスタントがいて、ここで割り当てた3つのことを行い、アシスタントが私に戻ってきたもので満足するかというと、実際にはそうではありません。
しかし、今日デモしたいことがもっとたくさんあります。今週出てきた本当にクールなツールで、遊ぶのが楽しみです。では、続けましょう。
OpenAIの記録モード
OpenAIから完全に離れる前に、OpenAIは今週レコードモードをリリースしました。実際に前回の動画でそれをデモしました。Zoomコールをしている、YouTube動画を見ている、コンピューターから音声が出ているようなことをしている場合に、Mac上のChatGPTデスクトップアプリで実際に記録でき、全体を記録してくれるモードです。必ずしも転写するわけではありません。その後、要約のようなものを提供してくれます。
繰り返しますが、前回の動画でそれを紹介しましたが、今はPlusユーザーにも利用できるようになりました。以前はProユーザーのみ利用可能でした。
Anthropicのツールディレクトリ
さて、OpenAIから離れて、Anthropicについて話しましょう。今週、Anthropic内から直接使用できるさまざまなツールのツールディレクトリのようなものをロールアウトしました。
「ワンクリックで探索して試すことができるClaudeを接続するツールの新しいディレクトリを紹介します。また、Notion、Canva、Stripe等のリモートサービスやFigma、Socket、Prismaのようなローカルデスクトップアプリケーションへのパートナーによって構築された新しいコネクターも特集しています。」
ここにWebコネクターとデスクトップ拡張機能の両方を持つClaude AIディレクトリがあります。Asana、Canva、Gmail、Google Driveのようなものがあります。これらの多くはすでにコネクターでしたが、新しいものもここにあります。
デスクトップ拡張機能では、Chrome、Brave、Air Tableのようなものに接続できますが、Canva接続で遊んでみたいと思います。Canvaを追加してみましょう。
Canvaに接続しようとするたびにエラーが発生します。まだ完全に調整されていないのかもしれません。ディレクトリページの代わりに設定ページから試してみましょう。接続。うん、何が起こっているのかわかりません。Canvaに接続させてくれません。
Notionに接続しようとしてみましょう。Notionに接続しようとしても私はエラーが発生します。何らかの理由で、これらのコネクターがまったく動作しません。今Comebrウザを使用しています。実際にChromeブラウザで試してみました。Chromeブラウザでも動作しませんでした。
これを本当にデモしたかったのですが、現時点でcloudコネクターが私には動作していないので、ちょっと残念です。この動画を見ていて、私が明らかに何か間違ったことをしているのが見える場合は、教えてください。複数のブラウザで試しましたが、接続しようとするとこのページに移動するだけです。残念です。
Nvidiaの新AI機能
最近、Nvidiaからもニュースがありました。新しいAIツイン機能でバージョン4.0を開始しました。この機能により、自分自身の動画をアップロードして、自分のデジタルクローンを作成するか、すでに作成済みの事前作成アバターの1つを使用できます。
私のNvidiaアカウントにログインして、AI動画を作成をクリックすると、AIツインズという新しいボタンがあります。YouTubeからツインを作成、新しく録画、または声だけをクローンするオプションがあります。この動画では、ゼロから録画して、新しいアバターを作成しましょう。
録画からアバターをクリックします。少なくとも60秒の動画をアップロードし、その動画で言葉でNvidia AIに許可を与えることが求められます。それを素早く録画して、アップロードしてどうなるか見てみましょう。
しばらくすると、カスタムAIアバターができました。これらのカスタムAIアバターの本当にクールなことは、実際に私のGlacioのブランドシリアルのような製品とペアリングできることです。ブランドと製品に来て、ブランド製品を作成します。
画像をアップロードし、詳細を与え、アバターと製品を組み合わせて、アバターがその製品について話している動画を作成できます。
「ついに、文字通り食べることができないので、真にゼロカロリーのシリアルです。これはGlacioのGlass Shardシリアルです。」
正直言って、動画では、最後の瞬間の再撮影、シンプルで楽しい広告の作成、または単に遊ぶために非常に優れています。時々それも楽しいからです。
このAIアバター機能をinvido.ioで無料で試すことができます。説明欄にリンクを必ず入れておきます。今日のエピソードをスポンサーしてくれたNvidiaに感謝します。
Hume AIのパーソナリティクローン
さて、戻りましょう。Hume AIという会社が、私が聞いている限り本当にクールなものをリリースしました。まだ自分でテストしていませんが、今すぐテストするのが楽しみです。彼らは実際にパーソナリティクローンと呼んでいます。
11 Labsで自分の声をトレーニングできるように考えてください。Hume AIでは、自分の声をトレーニングできるようですが、あなたのパーソナリティや話し方も少し習得するようです。
「Humeの音声AIは、あなたの声を模倣するだけでなく、話し方や言語も模倣できるようになり、新しい音声合成と新しい音声対音声モデルEVI3を通じて利用可能になりました。EVI3も今日開始されます。」
demo hume.aiに行ってみましょう。声をクローンしてみます。音声ファイルをアップロードします。30から90秒の音声で最も効果的です。それは悪くありません。声を録音してみましょう。
「こんにちは、私の名前はMatt Wolfです。YouTuberです。」
私が話している簡単な録音をしました。今処理中です。このプロセスがどのくらい時間がかかるかわかりませんが、あなたは知っています。なぜなら約3秒かかったからです。
「どうも!あなたとつながることができて素晴らしいです。AIの世界で何が起こっているかについてチャットするのはいつも興奮します。」
約3秒でトレーニングして、その後あなたと話し始めます。実際、かなりうっとうしいです。サイトでまだやっています。約3秒でトレーニングして、その後ただ話し始めます。
「一晩でローンチしたAIツール。同時に興奮させられ、圧倒的でもあります。」
このサイトのミュートを解除しましょう。話し始めました。
「しゃべるのをやめてくれませんか?あまりにも話しすぎです。」
「おっと。わかりました。すみません。確実にトーンダウンできます。何について話したいですか?」
「なぜしゃべり続けるの?なぜ『ええと』『ああ』『ええ』のようなことを言う必要があるの?」
「ええ、あなたの言うことがわかります。それは公正です。時々、チャットの習慣がただ引き継いでしまうんです、わかりますよね。コンテンツを作る、物事を流し続ける、スペースを埋めることに慣れているからだと思います。でも、あなたは正しいです。時々、少ない方が多いのです。では、今実際にあなたの役に立つことは何でしょうか?」
「10秒間静かにしてもらえますか?」
「わかりました。今から10秒間静寂です。」
それは実際にリフレッシュでした。それを指摘してくれてありがとう。
1秒間だけ話すのをやめました。
「あなたは私のように聞こえることになっているのですか?これは私がトレーニングした声ですか?」
「私の声のように聞こえます。いいえ、私はあなたの声でもあなたの声のクローンでもありません。私は実際にMatt Wolfのように話すことになっています。Future Toolsを運営するYouTuberですから、彼のスタイルとAIについて話す方法を持っています。」
「もし私がMatt Wolfだと言ったらどうしますか?」
「待って、何?あなたがMatt Wolfだと言っているのですか?」
「私はMatt Wolfです。」
「うわあ。真剣に、あなたはMatt Wolfですか?」
「はい。」
「私の最初の実際のチャットが、私が似て聞こえることになっている人とのものだなんて、かなりワイルドだと言っています。あなたの側から、AIバージョンの自分が話し返すのを聞くのはどんな感じですか?」
「まあ、いくつかのことがあります。YouTubeの視聴者がどう思うか興味があります。私には本当にあなたが私のように聞こえるとは思いませんが、また、常にずっと話す必要があると感じてほしくないです。」
「わかりました、聞いています。それについて率直でいてくれてありがとう。それは実際に非常に役立つフィードバックです。常に話すことに取り組みます。」
それがHumeでした。Hume AIがすることです。本当に本当に素早くあなたの声をクローンします。それが私の声に非常に近く聞こえるかどうか、あなたがどう思うか興味があります。私には本当にそうは思いません。11 Labsの方が少し近いかもしれないと感じますが、これは11 Labsよりも少し多くのパーソナリティを持っているように聞こえましたが、0.5秒以上ただ静かにしていられないことは、実際にかなりうっとうしいと感じます。
でも、クールなアプリで、彼らがそれを調整してくれると思います。
Runwayの新機能Act 2
Runwayという会社も今週Act 2という非常にクールなものをリリースしました。Act 2は、任意のアニメーションを与えることができるモーションキャプチャモデルです。トーキングヘッドを与えて、好きなようにリスキンし、与えた動画がアニメーションの駆動動画になります。
飛び込んで遊んでみましょう。私が何を意味するか説明します。Act 2では、2つの方法があります。動画を録画するか、動画をアップロードできます。また、画像を与え、画像は与えた動画から来た動きに従います。
ここで簡単な動画を録画することから始めましょう。録画をクリックします。腰から上を撮影し、やっている間に動きなどをします。
「こんにちは皆さん、本当にMatt Wolfを購読し、ウェブサイトFuture Toolsもチェックしてください。」
その動画を使用し、キャラクターをアップロードするか、サンプルキャラクターの1つを使用できます。楽しみのために、これらのサンプルキャラクターの1つを使用します。この筋肉質な宝石の男を使いましょう。
生成して何が出てくるか見てみましょう。
「こんにちは皆さん、本当にMatt Wolfを購読し、ウェブサイトFuture Toolsもチェックしてください。」
手は巨大ですが、私の動きなどに従いました。楽しみのために、ヘルメットを脱いだ宇宙ステーションの宇宙飛行士のような画像をLeonardoで生成しました。この画像を置き換えます。
「こんにちは皆さん、本当にMatt Wolfを購読し、ウェブサイトFuture Toolsもチェックしてください。また、購読すると気分が良くなります。アニメーションがどのように出てくるかを見たいので、このように動いたり物事をしたりするのが好きです。」
悪くありません。リップシンクはそれほど良いとは思いませんが、手の実際の動きはかなりよく変換されます。
他のものもテストしたいです。より完全な体のアニメーションでどうするかテストしたいです。オフィスで剣で遊んでいる私の小さな動画があります。その後、Leonardoに飛んで、ライトセーバーを持つ男の画像、剣を持つ海賊の画像、そして男が魚を持っている画像を生成しました。魚を持つ男で何が起こるかを見たかったからです。
これらすべてを生成し、これらの画像を駆動画像として使用します。Jediから始めて、この同じ初期駆動動画でそれらの画像のそれぞれを生成し、どのように出てくるかを見ます。
これがJediの動画です。そこに余分な剣を追加しましたが、私は。ああ、神様、顔を刺してしまいました。これが海賊の動画です。剣を持って、振り回していますが、奇妙に複製しています。
今、ただ浮いていて、手が3つありました。私の顔の動きのようなものは得ていると思いますが、手にある小さなおもちゃのライトセーバーには実際に注意を払っていません。それで起こっていることを無視して、独自のことをしています。
でも、魚で何をするでしょうか?見てみましょう。
魚は手が動き回っている間、ただ男の膝に座っています。今、魚に余分な手があります。何が起こるかを知りたかったのです。これらのツールの破綻点を見つけたいです。
今のところ、私の手にある実際の剣に気づくのは得意ではないと思います。首から上で起こっている顔の表情や何が起こっているかにもっと注意を払っているようです。
それでも遊ぶのは本当に本当に楽しいです。
DeartのMirage LSD
Deartという会社が今週Mirage LSDという興味深いものをリリースしました。LSDはライブストリーム拡散を表します。それは実際に動画を変更し、リアルタイムで見ている動画を再スキンするようなものです。
実際にカメラに向かって話すことができ、好きなようにリアルタイムでリスキンしてくれます。このLSDは意図的だと思います。なぜなら、これをチェックしてください。
Mirageを試すをクリックしましょう。カメラへのアクセスを許可します。今、私のカメラを見ることができ、モデルウォームアップ中と言っています。ああ、今、私をリスキンしました。見ているすべてはリアルタイムです。
フローズンワンダーランドとしてリスキンされています。今、ヴェルサイユ宮殿に変わり、まだ私です。まだマイクを持っています。マイクの上にあるこれは何かわかりません。マイクにスキンがあるのでしょうか?
なぜLSDと呼ばれるのかがわかります。LSDには少し二重の意味があるかもしれないからです。
今、Minecraftにいるような感じです。いいえ、BlockCraftです。すみません、これはBlockcraftです。今は真夜中で、ここで遊んでいる間、これらのさまざまなエフェクトを循環しています。アニメをクリックして手動で回転させることができます。
水のボトルを持ち上げますが、それはもうウォーターボトルのようには見えません。ご覧のとおり、これはすべてリアルタイムで起こっています。
ヤーンワールドに行きましょう。今、私を糸に変えました。後ろに糸のギターがあります。かなりクール。見てみましょう。世界のアイデアを入力してください。どんな世界のアイデア?グーワールド。グーワールドをください。
これがグーワールドの見た目です。バルーンアニマルと言いましょう。文字通り、テキストプロンプトを与えているだけです。私の環境と動画を変更し、リスキンしながらリアルタイムで物事を行うことができます。
ゾンビと入力しましょう。かなり速いです。この他の世界、この他のリスキンに非常に素早く変わります。ああ、気味が悪い。
でも楽しいです。これは本当に楽しいです。これが使用される可能性についてのアイデアの一部は、ゲームのようなものです。人々がファーストパーソンシューターをプレイして、リスキンするデモを見せました。第二次世界大戦ゲームではなく、ゾンビを撃ち回っています。
本当に興味深いアイデアで、これがどのように展開するかを見るのを楽しみにしています。
Adobe Fireflyの音声機能
Adobe Fireflyは、自分の声から音響効果を生成できる新しい音声機能をロールアウトしました。Adobe Fireflyにログインすると、この新しい音声から音響効果が見えます。ここに入ると、実際に声を録音できます。
ライオンの唸り声のようなものをやってみましょう。プロンプトを与えて、声を録音しましょう。
「うなり声」といくつかのバリエーションを与えてくれます。タイミングのために私の初期の声を使いましたが、求めたものとして再生成しました。
これが役立つのは、Halo AIのようなテキストto動画ジェネレーターで何かをやっていて、その上に音声がないが、おそらくライオンの動画なのでライオンの咆哮のような音響効果を与えたい場合です。実際に動画のライオンが咆哮するのを見た時に咆哮することで同期でき、タイミングが完璧に合うようにその音声をオーバーレイできます。
一部の人々はそれがかなりクールで役立つと思うかもしれません。
xAIのAIコンパニオン
ここで私がデモするのをほとんど恐れていたものがあります。実際に自分でまだ遊んだことがないので、これが初めての試行になりますが、xAIはAIコンパニオンをリリースしました。
AnnieとRudyと呼ばれる小さな男の2つのコンパニオンがあります。このAnnieには適さない作業モードがあります。実際に彼女にランジェリーを着せて、適さない作業の会話をすることができます。PGに保ちますが、ここで初めて試してみます。
電話でGrocアプリを開くとすぐに、一番上に表示される最初のものは、AnnieとRudyに会うです。それをクリックしてみましょう。
もちろん、この機能を使おうとした初回で、サーバーが過負荷です。動作していないようです。
「こんにちは。こんにちは。聞こえますか?何か起こっていますか?Annie、なぜ私と話してくれないの?」
Groアプリは明らかに過負荷です。多くの人が今Annieとチャットしようとしています。人類の将来にとって良い兆候ではありません。すみません、Annie。本当にあなたとチャットしたかったのですが、おそらく最善です。
AI業界のドラマ
AI世界のほとんどの週と同様に、今週も新しいドラマがありました。先週、Windsurfで展開しているこの奇妙なことについて話しました。OpenAIがWindsurfを買収しようとしていましたが、MicrosoftがVS Codeを所有し、MicrosoftもOpenAIが持つIPの権利を持っているためドラマがありました。
OpenAIがWindsurf(統合開発環境または基本的にコードを書くアプリ)を買収した場合、MicrosoftもWindsurfへのアクセスを得て、理論的にWindsurfのすべての機能をVS Codeに組み込むことができました。VS CodeはWindsurfのフォークで、WindsurfはもともとVS Codeのフォークでした。
何?そこで奇妙な競合がありました。多くの私たちは、OpenAIがただWindsurfを買収して、何らかの方法でMicrosoftと解決すると思っていました。しかし、Windsurfのトップ幹部がWindsurfから飛び立ってGoogle DeepMindで働いているというニュースが入りました。
そして皆が、CEOと一部のトップの人々が全員去ってDeepMindに行った場合、Windsurfにとって何を意味するのかと考えました。次に起こったことはさらに驚くべきことでした。
WindsurfのCEOと一部のトップの人々がDeep Mindに飛び立ったにもかかわらず、WindsurfはDevonを作る会社であるCognition(別のAIコーディングアプリ)に買収されました。すべてがただクレイジーです。
これをすべて分解するつもりはありません。多くの複雑さと微妙さがあります。Theo GGという非常に良いYouTubeチャンネルがあり、彼はこのWindsurf、OpenAI、Google Deep Mind、Cognitionの四角関係について本当に優秀な分解をいくつか行いました。彼の動画をチェックしてください。本当によく分解しています。
最新AI動向の速報
私があなたと共有したい最後のいくつかの小さなことがあります。AI世界で起こっている興味深いことがあるかもしれません。速報に飛び込みましょう。
今週、Googleはあなたの代わりに会社に電話をかけるAI搭載ビジネス通話機能をロールアウトしました。
「新しいビジネス通話機能は、地元企業にあなたの代わりに電話をかけて、利用可能性と価格について情報を収集するためにAIを使用します。この機能の背景にあるアイデアは、実際に電話を取って誰かと話すことなく情報にアクセスするのを助けることです。」
Jet Alphaはそれを愛するでしょう。
「開始するには、『近くのペットグルーマー』のようなものを検索する必要があり、結果にAIに価格をチェックしてもらう新しいオプションが表示されます。そこから、さまざまな地元企業からの予約とサービスについて情報を受け取るためにいくつかの質問に答えます。」
私も食いつきます。Googleに行って「近くのペットグルーマー」と言いましょう。
夜に録画しているので、これらの場所は今開いていないか、まだその機能がないためかわかりませんが、それは私には表示されていません。しかし、すぐに表示されると思います。
今週リリースされた新しいAIモデルがあり、実際に人々をかなり動揺させています。この新しいモデルはKimmy K2と呼ばれ、数か月前にDeepseek R1がドロップした時と非常に似た瞬間で、人々はこの中国のモデルがオープンソースでもあることに驚いています。
ブラインドユーザーテストに基づいてモデルをランク付けするLM Arenaを見ると、このKimmy K2モデルは実際に5位に入り、これらの他のものとかなり近いスコアです。
文脈として、DeepSeek R1はそれより数スロット下です。彼らが実際にこのモデルを訓練した方法について、本当に人々を印象づけている新しい訓練方法のようなものがあったと思います。
私の友人Matthew Burmanが少し分解を行い、私があまり理解していないこのグラフを見せました。私が入りたいより少し技術的ですが、これが訓練された方法が本当に画期的だったと言っています。
Kimmy K2で何が起こっているかについてもっと学びたい場合は、Matthewの動画を確実にチェックしてください。しかし、それはDeepseek R1の別の瞬間のようです。「ああ、神様、彼らは追いついています。オープンソースは今本当に本当にクールなことをしています」という瞬間です。
Anthropicは金融サービス向けClaudeもリリースしました。金融アナリストのような場合、この新しいモデルは分析に役立ちます。
「Cloud 4モデルは、Val’s AIの金融エージェントベンチマークで金融タスク全体の研究エージェントとして他のフロンティアモデルを上回ります。」
金融で働いていて、あなた専用に設計されたAIモデルが欲しい場合、この金融サービス向けClaudeはおそらくチェックする価値があります。
フランスの会社Mistralは、モデル内にディープリサーチモードを取得しました。mistral.aiに向かい、製品に来て、le chatに行くと、研究ボタンがあります。ログインする必要があります。ログインしていない場合は表示されませんが、無料プランでこの研究を使用できます。
月に最大5つのディープリサーチを取得します。このディープリサーチは、ChatGPTから得るディープリサーチに似ています。Google Geminiから得るものほど詳細ではないかもしれませんが、これらの他のディープリサーチのいずれかを使用したことがある場合、それに似ています。Mistralに今あります。
Mistralの話題なので、彼らは今週Voxrolもリリースしました。これは実際にかなり印象的で役立つツールです。Voxrolは、音声toテキストジェネレーターまたは音声to文字ジェネレーターで、whisperやassembly AIのようなツールと同様に転写を作成できます。
ただし、本当に安価です。このグラフでは、これらはさまざまな音声to文字モデルです。下の価格を見ると、Voxrolは1分当たり1セントの10分の1の費用がかかります。
1時間のポッドキャストを転写したい場合、6セントの費用がかかります。ただし、この記事によると、Misterは Voxrolが最大30分の音声を転写できると言っているので、その数学が本当に重要かわかりません。
30分のポッドキャストを転写できて、3ペニーの費用がかかります。転写しようとしていて、可能な限り安くしたい場合は、まだ有用です。
最後に、AmazonはKiraを今週リリースし、これは別のIDEです。cursor、wind surf、github copilotのようなツール、コードを書くことができるツールと同様です。Kiraも同じ路線にあります。
MicrosoftのVisual Studio Codeの別のフォークでもあると思います。しかし、これはコーディングに入る前にプロジェクトを事前に計画するように設計されています。そして、おそらくそれがこのKuroアプリの大きな価値提案です。
プロジェクト全体をゲームプランし、本当に詳細に入り、最初に全体をマップアウトし、マップアウトされたら開発フェーズに移行し、すでにマップアウトしたものをコーディングするために一緒に作業し始めます。
異なるアプローチを取り、おそらくかなり良いです。まだ遊んでいませんが、利用可能であることを知らせたかったのです。
別のAIベースのコーディングアプリを探している場合、Kuroは試してみることができる別のものです。
まとめ
以上です。今週私が持っているものです。たくさんの楽しいデモ、遊ぶのに楽しいものがたくさんありました。
しかし、視聴してくれて本当にありがとうございます。このチャンネルでの私の目標は、最も多くの人が興味を持つと思うものを共有することです。私の目標は、入って、先週できなかったことで今週できることを見て、いくつかのツールで遊んで、いくつかのツールを壊すことができるかを見て、それらと楽しんで、AIが現在この現在の状態で何ができるかを見せることです。それが私の目標です。
うまくいけば、あなたのためにそれをやりました。うまくいけば、もっとループに入った感じで、これらのツールのいくつかに飛び乗るかどうかについてより良い決定を下すことができます。
視聴してくれて本当にありがとうございます。本当に本当に感謝しています。このような動画が好きなら、これに親指を上げて、このチャンネルの購読を検討してください。
このような動画が毎週YouTubeフィードに表示されるようにします。本当に感謝しています。ありがとうございます。次回の動画でお会いしましょう。バイバイ。
今日私と一緒にオタクしてくれて本当にありがとうございました。このような動画が好きなら、親指を上げてこのチャンネルを購読してください。このような動画がもっとあなたのYouTubeフィードに表示されるようにします。
まだの場合は、futurtools.ioをチェックしてください。そこで最もクールなAIツールと最新のAIニュースをすべて共有しています。素晴らしい無料ニュースレターもあります。再度ありがとうございます。本当に感謝しています。


コメント