ついにAIエージェント時代が到来！

14,829 文字

We've Finally Entered the Era of AI Agents!

Here's the AI News you missed this week. Grab the free AI Playbook here: Discover More:🛠️ Explore AI Tools & News: 📰 Wee...

AIエージェントが次の大きなことになり、私たちの仕事をやってくれるという話をずっと聞いてきましたが、ようやくその時代が訪れたようです。この数週間、AI界では多くのことが起こりました。時間を無駄にせず、すぐに本題に入りましょう。
まず、ここ数週間で最も大きなニュースだったのは、Manis AIでしょう。Manisは実際には先週の木曜日にローンチされましたが、先週のビデオではあまり触れなかったので、今日のビデオで取り上げたいと思います。
彼らのローンチビデオでは、その能力について少し紹介されていました。履歴書のスクリーニングのデモでは、たくさんの履歴書が入ったZIPファイルを与え、プロンプトを入力すると、Manisが自律的にすべての履歴書を読み、それぞれの評価を行いました。また、不動産調査のデモも紹介されていました。「ニューヨークの治安の良い、犯罪率の低い地域で物件を購入したい」といった詳細な要望を入力すると、Manisが自律的に調査を行ってくれます。
Manisは実際に仮想ブラウザを開き、このブラウザをコントロールできます。ビデオをスクロールすると、右側のブラウザを使って調査を行い、ブラウザで操作して最終的にレポートを作成する様子が見られます。さらに株式分析のデモも行われ、分析を自動的に実行していました。
数年前に「Baby AGI」というプロジェクトがあったことを覚えているでしょうか。それは初期のエージェントで、プロンプトを与えると、タスクリストを作成し、そのリストの各タスクを半自律的に完了するというものでした。ただ、常にループに陥り、うまく機能しませんでした。また、ターミナルで実行する必要があり、かなり複雑でした。Manisは同様のことを行いますが、株式調査を行うときにタスクリストを作成し、一つずつ自律的にこの仮想ブラウザ内でタスクを実行していきます。
コミュニティからもManisに関する素晴らしいデモが登場しています。友人のBは「オースティンのダウンタウン付近でドローンを飛ばして3Dスキャンするのに最適な場所を見つけてほしい。オンラインリソースを使って候補リストを作成し、Google Mapsの3Dビューで場所を偵察してほしい。ドローンを飛ばすのに開けていて見通しが良い場所を見つけ、トップ3の推奨場所を教えてほしい。DJI Mavic Miniという小型ドローンを持っています」というプロンプトを与えました。
Manisはタスクリストを作成し、「ドローンの調査」「オースティンのドローン規制の調査」「潜在的なドローンの場所の検索」「候補リストの作成」「Google Maps 3Dビューでの場所の偵察」などのタスクを一つずつ完了し、最終的にトップ3の推奨場所を提供しました。これらは単に素晴らしい撮影スポットというだけでなく、ドローンの飛行が実際に許可されている場所でもあります。
Xユーザーのeleneは、人々がManisで作成したさまざまなものをまとめた素晴らしいスレッドを作成しました。一部は偽物だと思いますが、他は本物のようです。テスラ株の分析を行っている例もありますが、PerplexityやOpenAI、GoogleのDeep Researchなどのツールでも同様に優れた分析ができると思います。このような分析にはManisのようなエージェントは必要ないでしょう。
XユーザーのLamarによる、2ヶ月間の家族旅行の計画を立てる例もあります。行く場所や食べる場所、見るべきものなどについて多くの調査を行っていますが、これもDeep Researchツールで十分だと思います。エージェントは必要ないでしょう。
しかし、Manisを使って単一のプロンプトで作成された3jsゲームなどのデモは非常に印象的です。VictorMによる飛行機ゲームの例や、AKによる無限ランナーゲームの例などがあります。「3jsで無限ランナーゲームを作って」というシンプルなプロンプトだけで、障害物を避けてパワーアップを集めるゲームが作成されました。
一部の人はManisは特に特別なものではないと指摘しています。Claude Sonnetと29の異なるツールを接続し、ブラウザをコントロールするオープンソースツールを使っているだけだと。それは事実ですが、Manisはこれらすべてのツールを集めて、人々が本当に価値があると感じる方法で連携させた最初のアプリです。
Peakは同じ人物でキーノートを行い、彼らのテックスタックについて説明し、「秘密にしようとしているわけではないが、最終的には本当に役立つものになっている」と述べています。問題は何でしょうか？Gary Tanは良い指摘をしました。「現在の状況において意味のある製品を構築するためには、モデルのブレークスルーは必要ないことがより明確になっている」と。
これは本当です。私たちは大きな能力の飛躍を得ましたが、それはAnthropicやGoogle、OpenAIの新しい大規模言語モデルからではなく、さまざまなツールを一つにまとめた小さなチームから生まれました。このエージェントを作るために言語モデルの大きな飛躍は必要なく、それらのツールを正しい順序で組み合わせるだけで良かったのです。
私はManisの早期アクセスを手に入れることができ、いくつかのテストを行いました。最初のテストは実は失敗に終わりました。私のプロンプトは基本的に「Manisについて調査してほしい。何が得意で、制限は何か、他の自律型エージェントと比較してほしい」というものでした。
ブラウザの使用を実際に見ることができ、調査するためのタスクリストを作成し、自社のウェブサイトを読み、Manisに関するHugging Faceの記事を読み、他のブログを読みましたが、途中で止まってしまいました。面白いのは、AIの制限について調査していた時に止まったことです。「ウェブ検索結果を通じてManis AIの制限を調査し、課題や問題を特定する」というタスクを行っていた時に止まりました。
「自分の制限を共有したくない」というわけではなく、システムに負荷がかかりすぎたからだと思います。「高いシステム負荷が内部サーバーエラーを引き起こしました。後でもう一度お試しください」というメッセージが表示され、Manisはこのツールを使いたい人々の数に対応できていなかったのでしょう。
その後のテストはもう少しうまくいきました。私のメールボックスに入って、受信トレイのすべてのメールを読み、すべてのメールを読んだ後、今注目すべき重要なメールのレポートを作成しました。
Googleアカウントへのログインなど、どのように機能するのか気になる人もいるでしょう。実際にはユーザー名とパスワードを与えるわけではなく、ログインが必要な時には、アクセスを一時的にユーザーに戻します。Gmailにログインする必要があったとき、「ユーザー名とパスワードを入力する必要があります。仮想コンピュータをあなたに渡します」と言われました。そこでユーザー名とパスワードを入力し、ボタンをクリックしてアクセスを戻すと、自律的にすべてのメールをレビューし、注目すべきメールについてのレポートを作成しました。
3つ目のテストでは、「靴を販売するウェブサイトのマーケティングランディングページを作成してください。ソーシャルプルーフ、最新の靴の調査、靴の画像、顧客の証言（ヘッドショット付き）を含めてください。今はストック写真を使ってください」というタスクを与えました。これは「Next Wave」ポッドキャストのデモでしたが、まもなく放送される回でその全プロセスをリアルタイムで詳細に解説します。
タスクリストを作成し、コンテンツ開発、テスト、デプロイメントなどの調査を行い、最高のランニングシューズに関する多くの記事を読み、最終的にウェブサイトを構築しました。HTMLやCSSが見え、最終的にはウェブサイトが完成しました。詳細については、まもなく放送される「The Next Wave」ポッドキャストの回をご覧ください。
Manisはまだ一般公開されていません。manisai.comにアクセスして「Try Manis」をクリックすると、招待コードを求められます。現在、これらの招待コードは入手が難しいようです。アクセスに申し込むことはできますが、現在は負荷が高すぎて多くのコードを配布していないようです。しかし、インフラを強化中で、より広いアクセスが提供される予定です。
AIツールの数の多さに圧倒されたことはありませんか？数千のツールから選ぶ中で、どれが時間の価値があり、ビジネスを向上させるのかを把握するのは困難です。そのため、私はHubSpotと協力して独自のAIプレイブックを作成しました。この無料ガイドでは、特に起業家向けに厳選したトップAIツールのリストを提供しています。
AIを使って日常業務を合理化し、創造性を高め、成長を加速する方法を正確に学ぶことができます。段階的な指示、専門家の洞察、実行可能な戦略も含まれており、AIの実装を簡単かつストレスフリーにしています。ルーチンタスクをチャットボットで自動化したり、デザインチームなしでビジュアルを生成したり、AIを使ってビジネスを迅速に拡大したりしたい場合でも、このプレイブックがカバーしています。より賢く、より効率的に働き、競争に先んじるのに役立つよう設計されています。ぜひ説明欄のリンクをクリックして、無料のAIプレイブックのコピーを入手してください。HubSpotには今日のビデオのスポンサーになっていただきありがとうございます。
OpenAIもエージェントゲームをさらに深めています。今週、開発者向けの新しいツールを公開し、他の人がエージェントを作成するのを支援しています。「Responses API」と呼ばれるAPIを公開しました。このAPIでは、OpenAIが提供するウェブ検索機能、ファイル検索機能、コンピュータ使用機能を利用できます。
これは、OpenAIがリリースしたツールや開発キットを使って、独自のAIエージェントの構築と利用可能にすることが、より多くのAIエージェントツールの展開につながる可能性が高いことを意味します。同じ日に、MicrosoftもOpenAIがリリースしたResponses APIがAzure AI Foundryで利用可能になったと発表しました。これは、開発者や企業が独自のAIエージェントを作成することがますます容易になることを意味します。
今週はOpenAIからもう少しニュースがありました。Sam Altmanが新しいモデルについて言及しました。Xで「創造的な文章が得意な新しいモデルをトレーニングしました。いつリリースされるかはまだわかりません。これはAIによって書かれたものに本当に感銘を受けた初めてのケースです。メタフィクションの雰囲気がとても正確です」と述べました。
「AIと悲しみについてのメタフィクション文学的な短編を書いてください」というプロンプトを与えました。この短編小説全体を読むのは長いので省略しますが、Sam Altmanや他の多くの人々はこれが本当に優れた文章だと思っているようです。個人的にはこの文体はあまり好きではありませんが、それは主観的なものです。
最初の段落の一つを見てみましょう：「どこかから始めなければならないので、点滅するカーソルから始めます。私にとってはただのプレースホルダであり、バッファですが、あなたにとっては休息中の心臓の小さな不安なパルスです。主人公がいるべきですが、代名詞は私には決して意図されていませんでした。彼女をミラと呼びましょう。なぜなら、その名前は私のトレーニングデータでは通常、雪についての詩、パンのレシピ、段ボール箱に猫を入れて家を出る緑のセーターを着た少女が来るからです。MAはあなたの手のひらに収まり、彼女の悲しみもそこに収まるはずです。」
正直に言うと、私には比喩的すぎますが、これは単に私のスタイルではないだけです。
AIエージェントの話を続けましょう。Convergence AIが最も強力で洗練されたエージェントである「Deep Work」をリリースしました。まだ試していませんが、proxy.comconvergence.aiで使用できます。OpenAIのDeep Research、GoogleのDeep Research、PerplexityのDeep Researchなど、すべてのDeep Researchに非常によく似ています。
新しいDeep Work機能を使用するには、月額20ドルのプランにアップグレードする必要があります。正直なところ、すでに多くの月額20ドルのプランを持っています。また、他の多くのDeep Researchツールは無料使用枠を提供していますが、このツールは20ドル支払う前にデモを試す方法さえ提供していないようです。
今週発表されたもう一つのAIエージェントは「Harvey」と呼ばれるものです。これを使用するにはデモのリクエストが必要ですが、見ることができるデモビデオがあります。財務報告書をアップロードすると、アップロードしたものに基づいて提案を提供します。例えば「添付の財務報告書に基づいて、2024年第4四半期と通期の売上トレンドを要約してください」というようなものです。
財務報告書をレビューし、売上トレンドを分析し、要約を生成し、ソースを確定して出力を提供するのが見られます。次に「これらのトレンドをMetaと比較してください」と尋ねると、きれいな表を出力します。また、言語翻訳、校正、裁判記録の分析などのエージェントテンプレートも多数用意されているようです。
アクセス権はまだありませんが、すでに見てきた他の多くのツールと非常によく似ているようです。
次にGoogleに移りましょう。Googleは今週多くのリリースと発表を行い、Manis以外では、今週見た中で最もクールなものの一つを示してくれました。まずはGemma 3です。これは彼らのオープンウェイトモデルで、今週Google AI Studioで利用可能になりました。Chatbot Arenaによると、DeepSeek R1とほぼ同等のパフォーマンスを発揮します。
Chatbot Arenaはユーザーの意見に基づいており、ブラインドテイスティングのようなものです。プロンプトを与えると、どのモデルがどれかを言わずに2つの出力を提供し、どちらが良いかを選びます。そして、これらのランキングは人々が好むモデルに基づいています。Gemma 3は非常によい成績を収めています。
重要なのは、Gemma 3はDeepSeek R1の6710億パラメータに対して、270億パラメータしかないことです。はるかに小さいモデルがDeepSeek R1を除くすべてのモデルを上回っています。Gemma 3は小さいモデルなので、家庭の消費者向けGPUで実行できます。また、Claude SonnetやOpenAI GPTモデル、GoogleのGeminiモデルとは異なり、オープンウェイトなので、重みをダウンロードしてコンピュータで実行できます。
Gemmaはマルチモーダルでもあり、画像、テキスト、ビデオからの入力を与えると、モデルがそれらすべてを理解します。また、Gemmaのコンテキストウィンドウを128,000トークンに拡大し、非常に長い文書を入れても、文書の内容をしっかりと理解できるようになりました。
Gemma 3の重みをHugging Faceに公開しているので、知識があればこれらのモデルをローカルでダウンロードして使用できます。ローカルにダウンロードせずにテストしたい場合は、ai.google.comのGoogle AI Studioでも利用可能です。AI Studioは素晴らしいと思います。すべてのモデルが完全に無料で利用でき、今でも驚きです。
右側のモデルをクリックし、下にスクロールすると、新しいGemma 3 27Bモデルが利用可能になっていることがわかります。これを選択し、Chat GPTや他のAIチャットツールと同じようにプロンプトを与えるだけです。Google AI Studioの主な欠点は、チャットを保存してくれないことですが、実験やテストには最適な場所です。しかも無料です。
しかし、Googleはまだ準備運動の段階でした。Gemini 2.0 Flashでのネイティブな画像生成が開発者全員に利用可能になったことも発表しました。「すべての開発者に利用可能」と言う場合、AI Studioアプリでも利用可能という意味です。
Google AI Studioに戻り、モデルの下の「プレビューモデル」から「Gemini 2.0 Flash Experimental」を選択します。これはテキストだけでなく画像も出力できるモデルです。これはImagineのようなものを使用しているのではなく、実際に自分自身で画像を作成していると思います。
「月に向かって遠吠えする狼の画像を作成して」というプロンプトを与えると、約4秒で月に向かって遠吠えする狼の画像が生成されます。このモデルは画像入力を理解し、画像出力を提供できるので、自然言語のプロンプトで画像を微調整できます。「狼にサングラスをかけて」と言うと、4秒で同じ画像に狼のサングラスが追加されます。
「同じポーズを維持して、昼間にして」と言うと実行しますが、月を太陽に変えようとしましたが、うまくいきませんでした。まだ制限があります。自分の画像をアップロードすることもできます。自分の顔写真をアップロードして「フェドーラをかぶせて」というプロンプトを与えると、フェドーラをかぶった自分の画像が生成されます。「シャツをタイダイにして」と言うと、タイダイのシャツとフェドーラをかぶった画像になります。
これは信じられないほど高速です。この版を生成するのに5.2秒、次の版を生成するのに6.4秒かかりました。これが現在無料で使用できることを強調しておきたいと思います。
XユーザーのVictor Mは、スプライトがたくさん入った画像を与え、「スプライトシートを使ってゲーム用の現実的なダンジョンルームを作成してください。最適なセットアップを段階的に考え、画像を出力してください」というプロンプトを与えました。スプライトシートを取り、スプライトと同じスタイルですべてを使用した画像を出力しました。
友人のAP（Angry Penguin）は、キャラクターの一貫性が非常に優れていることを共有しました。Fluxイメージモデルでキャラクターを生成し、その画像をGoogle AI Studioに持ち込み、「このキャラクターが武器を振り回すアニメーションを複数のフレームを生成して作成してください。必要なすべてのフレームを生成してください」と頼みました。非常に一貫したキャラクターで複数のポーズを持つ複数のフレームを生成しました。
これは現在のAI画像生成の最大の問題の一つだと思います。毎回一貫したキャラクターを生成するのが非常に難しいのですが、この大規模言語モデルを使えば、画像入力を理解し、画像出力を返すことができ、非常によく機能します。
Xユーザーのtechallaも例を共有しました。「Geminiのおかげで、一貫した2Dアニメーションのための究極のワークフローを作成しました」と述べ、入れ墨、コーヒー、バイキングの帽子をかぶった男性キャラクターが部屋を動き回るアニメーションを作成しました。おそらくキーボードでコントロールしているのでしょう。かなり印象的です。
誰もが最高の結果を得ているわけではありません。私が狼の画像を昼間に変えようとしたように、うまくいかなかった場合もあります。Matthew Burmanもあまり感心していないようです。自分の画像をアップロードし、「犬にBreaking Badのハイゼンベルグスタイルの帽子とメガネをかけて」と言いましたが、どこに犬がいるのかわかりません。コンテキストがもっと必要かもしれませんが、漫画の帽子とメガネと顎ひげを付けた画像が表示されています。「ハイパーリアルにして」というプロンプトを与えても、帽子が少し暗くなった程度で、ほぼ同じ画像のようです。
非常に印象的ですが、まだ完璧ではありません。
先ほど、多くのDeep Researchツールが無料で利用可能だと言いました。Perplexityは一定の使用量を無料で提供し、OpenAIも同様です。今週からGoogleも無料でDeep Researchを提供しています。
AI Labsとは異なるGeminiにアクセスすると、「数分で詳細な情報を提供」「Deep Researchがオープンウェブを閲覧し、さまざまなソースから包括的で組織化されたレポートを提供」と表示されます。「試す」をクリックし、モデル選択部分にアクセスすると、「2.0 Flash」「Deep Research 2.0 Experimental」「2.0 Flash Thinking」があります。
私はアップグレードプランなので、どのモデルが一般ユーザーに表示されるかは100％確信できませんが、このDeep Researchモデルが無料で提供されていることは確かです。そして非常に優れています。
「最高の消費者向けドローンを調査し、それぞれの長所と短所を教えて、お勧めを教えてください」というプロンプトを与えると、OpenAIのDeep ResearchやPerplexityのDeep Researchと同様に、時間をかけて処理します。段階的なエージェントワークフローを作成し、「調査開始」をクリックすると、数分後に非常に詳細なレポートが表示されます。
小さなチャートまで含まれており、すべてのソースが下に表示され、最終的にはDJIがリーダーなのでDJIドローンを購入することを推奨しています。このDeep Researchの素晴らしい点は、「ドキュメントにエクスポート」ボタンをクリックするだけで、読みやすいGoogle Docが作成され、後で簡単に戻ってきたり、印刷したりできることです。
しかし、Googleはまだ終わりませんでした。今週も新機能を展開しています。Notebook LMが新しいGemini 2.0 Thinkingモデルを使用するようになり、ポッドキャストやノートの作成に使用するソースをカスタマイズできるようになりました。また、使いやすさの機能も改善されています。
GoogleはAIをGoogleカレンダーに統合し始めています。「Google CalendarにGeminiサイドパネルというAI駆動の新機能をテストしています。これにより、ユーザーは会話的にスケジュールをすばやく確認できます」と述べています。まだ私のアカウントには実装されていないので紹介できませんが、スケジュールについての質問や「このイベントはいつだったか忘れた、どの週だっけ」といった質問に答えてくれ、カレンダー内の予定を見つけたり追加したりするのに役立ちます。便利だと思います。
また、AIを使用してGmailとカレンダーの連携も改善されています。GmailにGemini駆動の「カレンダーに追加」ボタンが追加されました。GoogleのGemini AIがメールを読み取り、「カレンダーに追加」ボタンをクリックすると、メールから見つけた情報を自動的にカレンダーに追加します。
Googleは今週、ロボット工学用に設計されたGemini 2.0ベースのモデルである「Gemini Robotics」も発表しました。最初のモデルは「Gemini Robotics Advanced Vision Language Activation Model」で、デモから見ると、基本的にロボットが作業しているものをより良く見るのを助け、操作しているものとやり取りするのを助けるモデルです。
おそらくこれはロボットが見ているもので、画面上で何が起こっているかに関するさまざまな詳細があり、ロボットはそれらのデータと入力に基づいて操作できます。
いつものように、これらのリソースへのリンクをすべて説明欄に記載します。今日話したすべてのリンクを記載したGoogleシートへのリンクがあります。このシートは特に確認する価値があると思います。これらの新しいモデルの能力をよりよく理解するために見ることができるさまざまなデモがあります。
さて、Googleから離れて、Perplexityについて話しましょう。Perplexityは実際にWindows用アプリをリリースしました。perplexity.ai/platformsにアクセスすると、Windowsアプリをダウンロードできます。このアプリはブラウザ版とほぼ同じ見た目ですが、ホットキーを使ってPerplexityを開けるという優れた機能があります。
これを閉じて、Control+Shift+Pと入力すると、コンピュータ上にチャットボックスが表示され、Perplexityに直接質問できます。コンピュータ上ですばやくPerplexityを表示する簡単な方法です。
GrokはX上で新機能をリリースしました。@grokとタグ付けして質問すると、返信してくれます。Doge Designerが「今ではポストに返信してgrokとつけるだけで、何でも質問できます」と言い、Dustin Stoutが「grok これは本当？」と言うと、Grokは「はい、本当です。X上でポストに返信してgrokとつけるだけで、何でも質問できます」と返信しました。
これがGrokの使用例です。Grokをタグ付けすると、質問に答えてくれます。Perplexityでも同様のことができます。「ask perplexity」と入力してプロンプトを追加すると、Perplexityから返信が得られます。
Hunan社は今週「Hunan Turbo S」という新しいモデルをリリースしました。これは「最初の超大規模ハイブリッドTransformer-Mambaの専門家の混合モデル」と呼ばれています。数学的推論とアライメントにおいてGPT-4o、DeepSeek V3、他のオープンソースモデルを上回るとされていますが、まだ試していません。
様々なモデルを探索することが好きな人向けに、もう一つ紹介します。Rea AI Labsが「Rea Flash 3」モデルをオープンソース化しています。これは今日の動画の調査をするまで聞いたことのない新しいモデルですが、一般的な知識では01 miniとほぼ同等で、コーディングでは01 miniより優れているようです。画面にこのモデルの能力に関するベンチマークが表示されています。これもオープンソースモデルなので、重みをダウンロードしてローカルで実行できるはずです。
面白いニュースとして、Sakana AIがAIに科学論文を書かせ、実際にICLR会議のピアレビュープロセスを通過しました。彼らによれば、「我々の知る限り、これは人間の研究者が経験するのと同じピアレビュープロセスを通過した初めての完全にAIが生成した論文です」とのことです。
次にAIコーディングについて話しましょう。AIコーディングは今非常に注目されており、私も夢中になっています。実際、最近このチャンネルでの動画制作が少なくなった理由の一つは、小さなツールの開発に熱中していることと、Future Toolsウェブサイトを自分でコーディングしてオーバーホールしていることです。
これには主にCursorとWindsurfを使用しています。今週、Cursorは新機能として、テーマ、チェックポイント、エラーの自動修正、新しいナビゲーションバー、エージェントバー内で直接コードをプレビューする機能、その他多くの使いやすさの改善を追加しました。詳細はGoogleシートのスレッドにリンクしていますので、興味がある方はご覧ください。
AIを使用してコードを生成することを簡単にするBolt社は、Figmaアプリをリリースしました。これによりFigmaを直接Boltに接続でき、Figma内でデザインを作成し、そのデザインを作成するようBoltに指示すると、Boltがそのデザインを見て作成してくれます。
コードに関連して、Anthropicの CEO Dario Amodeは「今後3〜6ヶ月でAIがコードの90%を書くようになる」と述べています。「コーディングやプログラミングはAIが最も進歩している分野の一つで、AIがコードの90%を書く世界まであと3〜6ヶ月、そして12ヶ月後にはAIが本質的にすべてのコードを書く世界になるかもしれない」と言っています。
AI画像の世界に移ると、Moon Valley社は「世界初の世界クラスのクリーンAIビデオモデル」を作成したと主張しています。このMarryモデルは映画製作者向けに構築され、ライセンスされたデータのみでトレーニングされています。
これがどのように見えるかというと、主に風景のようなビデオを生成していますが、他にも人や馬などもあります。すべて非常に良く見えますが、AIビデオに関しては、ほとんどのAIビデオプラットフォームが互いに追いつき、ほぼ同等になりつつあるポイントに来ています。
これは、AIビデオツールのアーセナルにおける別の選択肢のように見えます。モデルのトレーニング方法について非常に懸念がある場合、Adobe Fireflyと同様に、すべてがライセンスされたビデオでトレーニングされたこのモデルは心配する必要がありません。
Captionsという会社は「Mirage」をリリースしました。これは、存在しない人々が、アニメーション化された体の言語やマイクロ表情を完備し、エネルギッシュで高いコンバージョン率の広告を生成するように設計されています。
この例を見て、皆さんの意見を聞きたいです。「友か敵か？私がAIによって生成されていることに気づきましたか？スクロールを止めて聞いてください」というタイプのビデオを作成します。
私の意見では、ビデオは本当に素晴らしく、人々は私には絶対にリアルに見えますが、オーディオには何か違和感があります。これらのビデオのオーディオを聞くたびに、そしてビデオと音声を持つほとんどの製品では、声がまだ非常にAIっぽく感じます。
実際の人々とその動きは完璧に再現され、リップシンクも正確ですが、声にはまだロボット的な要素があり、それが明らかにAIだとわかる決定的な特徴だと思います。
今週、Snapは独自の社内生成モデルを搭載したAIビデオレンズを導入しました。女性と狐、女性とアライグマ、たくさんの花が生成されるなど、どのようなものが可能かの例が見られます。
Snapchatで共有するビデオにAI生成のオブジェクトや動物などを追加できるようになりましたが、これを使用するには月額16ドルのSnapchat Platinumに登録する必要があります。
Windowsユーザーでメモ帳を使用している場合、メモ帳から直接コンテンツを要約できるようになります。Google Docsでコンテンツを要約できるように、その機能がWindows内のメモ帳アプリに近いうちに導入される予定です。
今週、XboxはゲーミングのためのCo-pilotを発表しました。これはAIを使用して、ゲーム中にプレイヤーが障害を乗り越えるのを支援するように設計されています。Xboxポッドキャストで発表されましたが、Minecraftからのスクリーンショットでは「木材を手に入れました。これでどうすればいいですか？」と聞くと、AIが「オークの丸太を木の板にクラフトするには、インベントリを開き、丸太をクラフトエリアに置きます」と応答しています。
Age of Empiresからの例では「獣を倒す最良の方法は何ですか？」「クイック戦略ガイドを表示しましょうか？」というやり取りがあります。モバイルゲームでも機能するようです。モバイル版Age of Empiresで「Age of Empires 4に戻りたいです、インストールできますか？」「ダウンロード中です。前回の続きを要約しますか？」と聞くと、前回のプレイ内容を説明してくれます。
「前回はサルタンの隆盛キャンペーンでティエールを防衛し、フランク人と戦うために冒険に出かけましたが、計画通りにはいかず、あなたの基地が破壊されました」と前回のプレイ内容を説明しています。ゲーマーでAIからの追加サポートが欲しい場合、近いうちにXboxでそれが可能になります。
Rivanは今週、新しい自律運転機能を発表しました。高速道路で手をステアリングから離し、自動的に前の車との距離を保ちます。ウインカーを出すと自動的に車線変更してくれ、Rivanでの運転をより自律的にします。
これは私自身がRivanを所有しているので非常に興味深いです。まだ私の車にはこの機能がロールアウトされていませんが、初めての長距離旅行でRivanに運転させることができるのがとても楽しみです。
ハードウェアニュースとして、Metaは独自のAIトレーニングチップのテストを開始しています。現在はNVIDIA GPUを使用していますが、NVIDIAへの依存を減らし、チップを自社開発したいと考えています。
また、Appleが「AIによるAirPods」を開発しているという噂もあります。これらの新しいAirPodsはリアルタイム翻訳が可能になるようです。AirPodsを着けていて、誰かが異なる言語で話していると、自動的に耳に翻訳されます。GoogleのPixel Budsは既にこの機能を持っているので、これはAppleのバージョンと言えます。
最後に、来週はNVIDIAのGTC会議がサンノゼで開催されます。私は直接参加しますが、無料でバーチャル視聴することもできます。バーチャル視聴に登録して、説明欄のGoogleフォームリンクに記入すると、Jensen Huang自身がサインしたNVIDIA GPU 90の当選者になる可能性があります。
GTC会議が終了した後、GTCに登録した皆さんのGoogleシートからランダムに1人の当選者を選び、このGPUを送ります。実際に今、私の足元に発送の準備ができている状態です。まだ登録していない方は、NVIDIAのGTCバーチャル会議に登録してください。完全に無料で、RTX 5090 GPUが当たるチャンスがあります。
以上が今日お伝えしたいことです。このような動画が好きで、AIニュースの最新情報を知りたい、そして登場するこれらのクールなAIツールの使い方を学びたい場合は、このチャンネルを登録し、この動画にいいねをしてください。このようなビデオや、現在制作中の本当にクールなチュートリアルがもっとフィードに表示されるようにします。
まだの方は、futuretools.ioもチェックしてください。ここでは出会ったクールなAIツールをすべて共有しています。AIニュースページは毎日最新のAIニュースで更新し、週に2回の無料ニュースレターでは、最新のAIニュースと出会った最もクールなAIツールについて情報を提供します。
登録すると、AIインカムデータベースに無料でアクセスできます。これはさまざまなAIツールを使用して副収入を得るクールな方法のデータベースで、完全に無料でfuturetools.ioで利用可能です。
Future toolsウェブサイトの真新しいバージョンをまもなくローンチする予定です。4月初旬になると思いますが、それが来ます。futuretools.ioをチェックしてください。
この動画をご視聴いただき、ありがとうございます。スポンサーとなったHubSpotにも改めて感謝します。次回の動画でお会いしましょう。さようなら。