OpenAIが格安プラン「ChatGPT Go」を展開し広告導入を発表する一方、AI支援による発見への収益分配を検討するなど、資金繰りの厳しさが露呈している。GoogleやAnthropicとの競争が激化する中、モデル性能が横並びになりつつある現在、ユーザー体験と価格が差別化要因となりつつある。また、RunwayやLTX Studioの動画生成機能強化、Alibabaのオープンソース音声合成モデル、Adobe製品へのAI統合など、各分野で技術革新が続いている。YouTubeはショート動画での自分の分身作成機能を予告し、Teslaはオースティンでロボタクシーのサービスを開始した。一方で、AI導入による労働市場への影響について、物価下落による労働力不足を予測する楽観的な見方も示されている。

OpenAIの新戦略と厳しい現実
今週のAI業界は膨大なニュースで溢れていましたので、皆さんの時間を無駄にせず、全てを整理してお伝えしていきたいと思います。では早速始めましょう。
まずはOpenAIのニュースからです。実は先週出たニュースなんですが、先週の動画では取り上げられなかったので今回お話しします。OpenAIが「ChatGPT Go」という新しいプランを展開しているんです。
ChatGPT Goは既にインドで展開されていました。ChatGPTを利用するための低価格プランで、無料版と比べて10倍のメッセージ送信、ファイルアップロード、画像生成が可能になります。料金は月額8ドルで、Plusプランの月額20ドルと比べるとかなり安くなっています。
さらに、メモリーとコンテキストウィンドウも長くなっているので、より多くのテキストを入力でき、入力したテキストもより多く記憶してくれるようになります。
今、OpenAIとそこで起きていることについて多くの議論が交わされています。というのも、OpenAIが苦境に立たされていると考える人が多いからです。より多くの人に課金してもらうために、低価格プランを展開しているわけです。
そして彼らは、無料版と月額8ドルのGoプランの両方に広告を導入すると発表しました。実際、広告へのアプローチについて詳細な記事も公開しています。多くの人が基本的に、OpenAIは今まさに自滅への道を急いでいると言っています。
OpenAIは年間数十億ドル規模で資金を流出させています。ですから、より多くの収益を生み出す方法を見つける必要があるんです。そして今の彼らの最善策は、月額20ドルや200ドルのプランに課金する人があまり多くないので、より安いプランを提供すること、そして広告を導入してMetaやGoogleのモデルに倣うことなんです。
ただ、彼らは広告がChatGPTの回答に影響を与えることはないと言っています。つまり、質問のようなプロンプトを入力したとき、その回答に広告が含まれることはないということです。広告はチャット画面の外側に表示されますが、チャットしている内容に関連したものになります。
会話の内容が広告主に渡ることはありません。つまり、広告主が実際にあなたのチャットを見ることは決してありませんが、そのチャット内容がOpenAIに対して、どんな広告をあなたに表示すべきかを知らせることになります。
一方でGoogleは、広告で収益の大部分を稼いでいることで有名ですが、チャットボット内に広告を入れる計画は実際のところないと言っています。まあ、その必要がないんでしょうね。検索やYouTube、その他の場所での広告ビジネスが、Gemini AI全体を支えているわけですから。
これは本当に興味深いことだと思います。というのも、人々はおそらく、最良の回答を提供してくれるチャットボットを使うでしょうし、同時に最高のユーザー体験を提供するものを使うからです。
大規模言語モデルそのものが非常に優秀になってきて、ある種のコモディティ化しているように感じられます。そしてそれらが互いに同等の性能を持っているなら、ほとんどの人は最も安価で、なおかつ最高のユーザー体験を提供するオプションを選ぶと思うんです。それが今のところ、ChatGPTではなくなってきているように見えるわけです。
OpenAIの収益化戦略への疑問
OpenAIと自滅への道を急いでいるように見えるという話について、さらに興味深いニュースがあります。どうやらOpenAIは、顧客のAI支援による発見から収益の一部を得る計画を立てているようなんです。
どういうことでしょうか?OpenAIのCFOはこう述べています。「例えば、同社が発見した医薬品のライセンスを取得することができる」と。
つまり、AIモデルを使っていて、そのモデルが新薬の発見に役立った場合、OpenAIはその一部を欲しがっているということです。ある記事でCFOはこうも述べています。「知的財産ベースのライセンス契約とアウトカムベースの価格設定により、創出された価値を共有することになる」と。
公平を期すために言うと、OpenAIだけがこれを考えているわけではありません。最近、彼らが最も公にこのことを話しているだけです。
The Informationのこの記事によると、「ライバルであるAnthropic、Google DeepMind、そしてGoogleのIsomorphic Labsは、創薬のためのAI活用に注力しており、データライセンスやパートナーシップについて初期段階のバイオテクノロジースタートアップと協議を行っている」とあります。
つまり、みんながこれを検討しているわけですが、今のところ、OpenAIが競争で遅れを取り始めているという物語が形成されつつあります。彼らのモデルは今や比較的似通ったものになっています。AnthropicやGoogle、OpenAIのモデル、そしてGrokでさえ、能力的にはかなり似通ってきているんです。
でもOpenAIだけが広告を展開し、自社のボットの結果として生まれる機会をどうライセンス化したいかについて公に話をしているんです。
どうなんでしょうね。全てが私にとって超興味深くて、OpenAIにとって今後どう展開していくのか見てみたいだけなんです。
OpenAIの話題が出たついでに、今週実際に展開された別の機能についてもお話ししましょう。ChatGPTで年齢予測機能の展開が始まり、アカウントが18歳未満の人物のものかどうかを判断するのに役立つようになりました。
これは彼らが以前から話していたことです。何週間も前にこれについての記事を公開していました。でもようやく展開されているようです。かなり興味深いことになりそうです。というのも、私たちの多くは時々子供のような精神状態になることがあるからです。だから、実際には大人なのに、私たちの一部が本当に子供だと思われるかどうか、面白いことになりそうですね。
AI動画生成の進化
今週、AI動画の世界でいくつか興味深い進展がありました。Runwayが Gen 4.5 で画像から動画への変換機能を導入しました。以前はテキストから動画のみだったと思いますが、今は画像から動画もオプションになっています。
Runwayのアカウントを見てみると、Gen 4.5 にいて、画像をドロップするオプションが利用できるようになっています。
この動画で大量のテストはしませんが、一つだけ動画を作ってみましょう。これは私がおもちゃのライトセーバーを持っているスクリーンショットです。「オフィスでの壮大なライトセーバーバトル」とプロンプトを入れてみて、何が出てくるか見てみましょう。
2分ほどかかりました。何ができたか見てみましょう。
悪くないと言いかけましたが、ちょっと変なところがありますね。この部分は実際とても良く見えます。でもライトセーバーが背中の後ろに行った瞬間があって、でもなぜか私の腕も背中の後ろに行ってしまっています。そこがちょっと変でした。
そしてここで私が別人に変わってしまっています。でも実はかなり印象的です。楽しいですね。うまくいきました。何をしているんでしょう?ああ、すごいですね。
これでもっと遊べますが、先ほど言ったように、カバーすべきことがたくさんあるので、次に進みましょう。これが Gen 4.5 の画像から動画への機能です。
AI動画の話をしているついでに、LTX Studioからもニュースが出ました。LTXで音声から動画への機能が導入され、11 Labsと提携してこれを実現しました。
基本的には音声ファイルをアップロードします。おそらく画像を提供するか、動画をどう見せたいか説明して、音声と動画を組み合わせて使うんだと思います。こちらがデモです。
「おそらくあなたは私がこんな声だとは思っていなかったでしょう。でもそれがイノベーションの素晴らしいところなんです。もう全部聞いたと思っているでしょう。あらゆるクリフハンガーやひねり、仕事のやり方のあらゆる革命を。でもそこで…」
まあ、悪くないですね。そして彼らは正しかったです。私は運転している女性から男性の声が出てくるとは思っていませんでした。
説明によると、「音声をアップロードし、画像とプロンプトを追加するか、プロンプトから直接生成して、ネイティブのリップシンクで動画を制作する」とあります。
今日まで、本当に感銘を受けるリップシンクツールにはまだ出会っていません。アニメーションやクレイアニメーション、変わったものの場合はまあまあうまくいくんですが、ほとんどの場合、正しく感じられないんです。完璧に同期しているようには決して感じられません。そしてこれも大きく優れているとは感じられません。
私はLTX Studioのファンです。ただ、本当に感銘を受けるリップシンクツールをまだ待っているところなんです。
テキストから画像生成の新展開
これらのAIニュース動画のリサーチをしているとき、よくクリックベイト的なAI生産性ハックの投稿に出くわします。だから、実際に本物のものを一つシェアしたいと思います。
多くの企業が知らないのは、彼らが通常データの金鉱の上に座っているということですが、それがPDFや契約書、フォーム、文書の中に閉じ込められていて、誰も手動で掘り起こす時間がないということなんです。
でもBoxの新しいツール「Box Extract」は、AIを使って必要な正確な情報を安全に抽出し、実際にビジネスに役立つメタデータに変換します。
通常のLLMとは異なり、契約書、製品仕様書、方針文書、チャートなど、あなた独自の文書を実際に理解するように構築されています。そして、様々な場所や形式にあっても、最も価値のあるインサイトを引き出すためにエージェント型AIを使用します。
Box ExtractはGoogle、Anthropic、OpenAIの最高のAIモデルと、高度なエージェント機能、そしてBoxのセキュリティとコンプライアンスチェックを組み合わせているので、ビジネスでの使用について心配する必要はありません。
データを活用できるようにして、文書がもう静的なファイルである必要はなく、代わりに迅速な意思決定とワークフローの自動化を支援できるようになります。
Box Extractがあなたのビジネスをどのように生産的にできるか知りたい方は、説明欄のリンクから詳細をご覧ください。今日の動画のこの部分をスポンサーしていただいたBoxに心から感謝します。
では、本題に戻りましょう。
テキストから画像へのモデルに移りましょう。というのも、今週この分野からもちょっとしたニュースが出たからです。
Blackforce Labsという会社が今週 Flux 2 Klein をリリースしました。これは、わずか13GBのVRAMという少ないハードウェアで実際にローカルで実行できるモデルです。
もちろん、テキストから画像へのモデルはたくさん見てきました。もう永遠に存在しているように感じられます。私はもう5年近く、いや5年以上テキストから画像へのモデルについて話してきました。だからこれは新しい技術ではありません。
では、何が新しいのでしょうか?先ほど言ったように、自分のコンピューターでローカルに実行できます。そして実行すると、1秒以内に画像を生成できます。非常にフォトリアリスティックな画像を作成でき、オープンウェイトなので、カスタマイズや微調整ができます。
デモが用意されています。リソースの下までスクロールすると、デモがあります。「月でサッカーボールを蹴りながらタコスを食べるスーパーヒーローの猿」とプロンプトを入れてみましょう。
彼らのデモは確実に1秒以内の生成ではありません。ローカルで実行する必要があるんです。これはクラウドに送信されるので、クラウドサービスに送信するためのラグや遅延があります。
そして安全性チェックなどを行います。だから彼らのデモを使っているとき、これはどれだけ速くできるかの良い例ではありませんが、どう見えるか見てみましょう。
それでもかなり速いですね。スーパーヒーローの部分は得られませんでしたが、確かに月でサッカーボールを蹴っているタコスを持った猿ですね。
でも一度起動して画像を読み込んだら、その後は毎回少し速くなります。だからここの再生成ボタンを押すと、新しい画像の生成が始まっているのが見えます。
これは全てリアルタイムでした。6枚の画像を生成したのが見えますね。全くスピードアップしていません。本当にしっぽであることを願います。
Crea AIという会社が今週、リアルタイム編集のデモ動画を公開しました。ウェイトリストに登録してベータ版に参加できます。私はまだこれにアクセスできていません。アクセスできたら絶対に試してみます。でもデモを見るだけで、何ができるかがわかります。
ここに車の画像があります。そして下部に、コインに埋もれた車に変えるというプロンプトが見えます。そして調整され、次は水中になります。これを動かすと、右側の画像がリアルタイムで更新されるのが見えます。
そしてプロンプトを入力すると、入力している間も右側の画像が実際にリアルタイムで更新されます。
かなりクールに見えますね。カメラモードにすることもでき、カメラから直接リアルタイムで画像を生成することもできます。
楽しいおもちゃに見えます。どれだけ役立つかはよくわかりませんが、望み通りの画像を正確に調整して、生成されている様子を見ながら本当に細かく微調整できると思います。それはかなりクールですね。
音声合成の革新
では、画像から動画、音声から動画、テキストから画像、リアルタイム画像生成と来ましたので、次はテキストから音声について話しましょう。
誰もが11 Labsについて知っています。素晴らしいテキスト読み上げモデルです。そしてAlibabaが今週、Quinn 3 TTS、つまりテキスト読み上げモデルをリリースしました。これは実際にコンピューターでローカルに実行できるオープンソースモデルで、かなり高速です。
そして私は少しテストしました。Hugging Faceでテストできます。このツイートを下にリンクします。でもこのツイートのHugging Faceリンクに行くと、ここに Quinn3 TTS デモが見えます。
中に入ると、音声デザイン、音声クローン、カスタム音声でのテキスト読み上げがあることがわかります。
ここに彼らが用意した例があり、入力したテキストが見えますが、その後、声をどのように聞こえさせたいかを実際に説明します。信じられないというトーンで話すが、声にパニックの気配が忍び込み始めている感じで、とあります。カスタム音声で生成してみましょう。約20秒かかります。
こういう音になります。「引き出しの上にあるわ。待って、空っぽよ。ありえない。そんなはずないわ。確かにそこに入れたのに」
途中でかなり息切れがありましたね。何だったんでしょう。バリエーションを試してみます。怒った男性が怒りで叫ぶ、とします。冗長なのはわかっていますが、何をするか見たいだけです。
新しい音声説明で得られるのはこちらです。「引き出しの上だ。待て、空っぽだと? ありえない。そんなはずはない。確かにそこに入れたんだ」
かなりクールですね。声の背後にある感情を実際にデザインできるんです。
音声クローン機能もあって、初めて試したときかなり印象的だと思いました。基本的には、クローンしたい音声のオーディオを提供し、あなたが言ったことの正確なテキストを提供し、そして新しいテキストを提供すると、その音声をクローンして新しいオーディオを生成します。
マイクに切り替えて、何か言っている自分の短いスニペットを録音しましょう。「私の名前はMatt Wolfで、あなたは私のYouTubeチャンネルを見ています。いいねとチャンネル登録を忘れずに」
そして、このオーディオサンプルで言った正確なテキストを入力し、新しいテキストを提供します。クローンして生成をクリックします。もう一度、約18秒かかります。
こういう音になります。私に聞こえるか教えてください。「これはAIが好きな人にとって最高のYouTubeチャンネルです。AIが嫌いな人にとっても最高のYouTubeチャンネルです」
無料のオープンソースモデルとしてはかなり良いと思います。つまり、私のより単調なバージョンという感じです。あまりイントネーションはありませんが、実際に私に聞こえると思います。
Claude Codeで動画制作
最後にもう一つお見せしたいことがあって、かなりクールだと思ったんですが、実際にClaude Codeや各種エージェントツールを使って動画を作成できるんです。
Remotionというツールがあって、これはClaudeのスキルです。文字通りClaude Codeを開いて、ここにあるコードの小さなスニペットを渡すと、スキルがインストールされ、動画のアイデアをプロンプトするだけでいいんです。
こちらは実際にClaude Code内のこのRemotionで私が作ったものの例です。「上昇して右に進むチャートを含む60フレーム毎秒の動画を作成してください。チャートは右にアニメーションしますが、完全な直線ではありません。上昇している株の株価チャートを考えてください。上昇して右に進みますが、完璧な直線ではありません。美しく見えるようにして、ラインチャートが上向きにアニメーションする際に、ドル記号とお金がラインチャートからアニメーションで出てくるようにしてください」というプロンプトを渡しました。
こちらが私のために作成されたアニメーションです。ここで再生を押します。
上昇して右に進む株価チャートが作成され、小さなドル記号やコインが出てきているのが見えますね。
私の名前をここに追加するために追加のプロンプトを渡しました。でもここに表示されているお金や「月へ」というのは、AI自身が決めたことです。そうするように指示していません。
他のテストもしました。文字通り「何か印象的なものを作って」というプロンプトを渡しました。何を作るか見たかっただけです。
これがRemotionで作った印象的なものです。「星の向こうには無限のものがある」
それが私のために作った印象的なものでした。「follow Mr. Eflow」と言うキネティック・タイポグラフィを作るようプロンプトを渡しました。青と紫のサイバーパンク風にするように言いました。これが作られたアニメーションです。
悪くないですね。でも手を振る人を作らせようとしたら、ちょっと変になりました。ひどくはありませんが、なぜか髪が目の後ろに行っています。そして手が間違った方向に折れていると思います。
とにかく、プロンプトを入力するだけでモーショングラフィック風の動画が得られるのはかなり印象的です。ただ、こういったオブジェクトに関してはまだあまり良くありません。
その他の重要ニュース
さて、お話ししたかった主なことは以上ですが、嘘はついていません。もっとたくさん話すことがあるんです。では、ラピッドファイアに入って、残り全部を駆け足で見ていきましょう。
Spotifyユーザーなら、今週新しいAI機能が追加されました。具体的には、プロンプト付きプレイリスト機能です。
「友達と出かける準備をするための気分を上げるインディーポップ、私の好みに合うヒット番組やリアリティ番組で最近フィーチャーされた曲と、今年まだ再生していない大好きな曲を含む」といったプロンプトを入れられます。
または「ゆっくりした日曜の朝のための温かいアコースティック曲に加えて、今世界的にトレンドになっているシンガーソングライターからの隠れた名曲とカバー曲」といったシナリオから始めることもできます。
以前からプレイリストのプロンプトは可能でしたが、今はもっと細かくなっています。ご覧のように、人気のテレビ番組などから選ぶことができて、本当に細かく、欲しいプレイリストを正確に調整できるようになっています。かなりクールですね。
GoogleのGeminiは、Gemini内で実際の練習テストを使って学生がSAT対策をするのを助ける機能を展開しました。
SAT受験が近づいている年代なら、テスト対策をして調整するための新しいリソースが手に入ったわけです。
Googleの話が出たので、AI モードでパーソナル・インテリジェンスを展開しています。数週間前のニュース動画でパーソナル・インテリジェンスについて話しましたが、AIがあなたのGmail、Googleカレンダー、Googleフォト、Google Driveにアクセスできます。
Googleエコシステムの様々な製品が利用可能で、Geminiを検索する際にGoogleがその情報にアクセスできるんです。以前はGeminiアプリ内で特に使う必要がありましたが、GoogleのProまたはUltraユーザーなら、Google検索のAIモード内で展開されています。
Googleのパーソナル・インテリジェンス機能を使える別の場所ができたということですね。
YouTubeのニュースに移りましょう。今週、CEOのNeal Mohanが2026年のYouTubeに何が来るかについての記事を公開しました。でもここの4番目のポイントまでスクロールします。創造性の強化と保護についてです。
何年もの間、AIは次の動画を推薦したり、違反コンテンツをプラットフォームから排除したりするような、最も重要なイノベーションの背後にある静かなエンジンでした。
彼らは、今年、自分自身の容姿を使ってショート動画を作成できるようになると発表しました。シンプルなテキストプロンプトからゲームを制作することもでき、これは過去の動画でお見せしました。そしてAI音楽を試すこともできます。
そう、彼らはSoraのようなことをやるようですね。Soraアプリを見ましたよね。自分の容姿でトレーニングして、自分が突飛でとんでもないことをしている動画を作れるんです。
それがYouTubeショートに来るようで、そういうおかしなミームを作れるようになるようです。個人的には、超ワクワクする機能ではありません。一つには、私自身があまりショート動画を見ないからですが、もう一つは、ランダムなAIアバター動画をもっと見たいとは思わないからです。
でもそれは私だけです。間違いを証明される可能性もあります。人々がこれで作るコンテンツの中に、私が本当に本当に楽しめるものがあるかもしれません。でも最初の直感としては、ファンかどうかわからないという感じです。
彼らはさらに「何が本物で何がAI生成なのかを見分けるのがますます難しくなっている」と述べています。だから、YouTubeのAI製品で作成されたコンテンツには明確にラベルを付けることを確実にするとのことです。
そしてクリエイターは、リアルで変更されたまたは合成されたコンテンツを作成した場合、開示しなければなりません。つまり、今でもYouTubeのバックエンドには、コンテンツがAI生成だったと言うためのチェックボックスがすでにあるんですが、AI生成コンテンツを作っている人のほとんどはそのボックスにチェックを入れていません。
だから、もしかしたらそれについてもっと厳しくなるのかもしれません。
AIスパム管理に関しては、「私たちは事実上どんなトピックについても客観的に議論できます。言論の自由を幅広く認めながら、YouTubeが人々が時間を過ごすのに良いと感じられる場所であり続けることを確保します」と言っています。
過去20年間、私たちはクリエイターエコシステムに先入観を押し付けないことを学んできました。低品質なAIコンテンツの拡散を減らすために、スパムやクリックベイト対策、低品質で繰り返しの多いコンテンツの拡散削減に非常に成功してきた既存のシステムを積極的に構築しています。
私の考えでは、これは実際には何も言っていません。「AIスパムがあることは知っているが、今やっていることを続ける」と言っているように聞こえます。
それが実際に彼らが言っていることかどうかわかりませんが、そのメッセージはそういう感じです。でも彼らのスタンスは好きです。AIコンテンツを一律に禁止すべきではないと思います。それは愚かです。
AIはあらゆるものに入っていくでしょう。その境界線はどんどん曖昧になっていきます。だからAIを禁止しようとするのは、YouTubeが決して追いつけないいたちごっこになるだけです。人々は回避する方法や、より良い偽装方法を見つけ出すでしょう。
だから戦いが大き過ぎるんです。YouTubeはそれと戦いたくないんだと思います。
Adobeのニュースに移りましょう。各種Adobe製品に新しいAI機能があります。Premiereには新しい動画編集ツールがあり、After Effectsにはモーションデザインのアップグレードがあります。
Premiereでは、たくさんの動きがある中でマスクをはるかに上手く作成できるようになるようです。彼らのAIがマスキングやロトスコーピングのようなことをより上手くできるようになっています。
Fireflyで作ったメディアを取り込みやすくしたり、その他の機能もありますが、これらが主なAI機能です。
ここにいるのはAIがどこに向かっていて、どの製品に実装されているかを学ぶためなら、これらがPremiereとAfter Effectsに実装されるAI機能です。
でもAdobeの話はまだ終わりません。新しいAdobe Acrobat機能が展開されています。PDFをポッドキャストに変換する機能です。
Notebook LMにかなり似ているように聞こえます。大量の情報を入力すると、その情報をポッドキャストに変えてくれるんです。ただ今回は、Adobe AcrobatにPDFファイルを渡すと、それをハイライトのポッドキャストのようなものに変えてくれるということです。
自動運転のニュースでは、史上初のTeslaロボタクシーがオースティンで自律走行しています。Waymoのように、実際に後部座席に乗り込むと、このTeslaがあなたを乗せて走行するんです。
完全自動運転機能の一部はTeslaにしばらく前からありましたが、これは迎えに来てあなたを乗せて運転してくれる初めてのケースのようです。
Waymoの話が出たので、マイアミエリアにいるなら、Waymoも利用できるようになりました。
今週、AMDは AMD Ryzen AI Halo という新しいミニスーパーコンピューターを発表しました。NvidiaのDGX Sparkのように見えます。基本的に同じようなものを目指して設計されていると思います。
机の上に置ける小さな箱のようなもので、インターネットに接続する必要なく、自宅でAI推論を実行できます。
NvidiaのDGX Sparkに精通しているなら、これはその直接の競合製品のようです。
ハードウェアの話が出たので、Appleも自らハードウェアゲームに参入しているようです。これはどちらかというと噂や憶測だと思いますが、どうやらAppleがAIウェアラブルピンを開発しているようです。
これはおそらく実際の画像ではありません。AirTagのサイズになり、複数のカメラ、スピーカー、マイク、ワイヤレス充電を搭載すると言われています。
これについてあまり多くのことは知られていませんが、今年はかなり多くのウェアラブルが登場する年になる可能性がありますね。
その話題で言えば、噂によるとOpenAIは今年中に物理デバイスを発売する予定だそうです。
このデバイスが何なのかについて、彼らはまだかなり口を閉ざしています。何らかのAIペン、つまりシャツに付けるピンではなく、このようなペンになるという噂が飛び交っていましたが、それが本当かどうかわかりません。どこから始まったのかわからないランダムな噂でした。
この記事によると、デバイスは机の上に置いたり、ポケットに入れて持ち運んだりして、静かに文脈を吸収し、ChatGPT搭載のコンパニオンのように質問に答えるとのことです。
2026年後半に登場すると予想できそうですが、デバイスが何なのか、どんな見た目なのか、何をするのかについて詳細を提供した人は誰もいません。だから、来る、約束する、という以外にはあまり頼りになるものがないんです。
Microsoftは今週、ロボットに搭載される新しいモデルをリリースしました。今週、彼らはロボットアルファを発表しました。これはMicrosoft FIシリーズから派生した初のロボットモデルで、自然言語コマンドを手作業での操作タスクを実行するロボットシステムの制御信号に変換できます。
基本的には、プロンプトから画像、プロンプトから動画、プロンプトから回答があるように、これはプロンプトからロボットの動作、という感じですね。
ここでプロンプトを与えています。「赤いワイヤーを引き抜いて」と。するとロボットは赤いワイヤーを探すことを知っていて、最終的には、最終的には、最終的には…
そう、最終的には… そう、そこだ、そこだ、赤いワイヤーを引き抜きます。
さて、あと数個、素早くお伝えします。Googleはまたこれらの奇妙なアクハイアのようなことをしました。規制を回避するために、実際に会社を買収することなく会社から全ての才能を吸い上げることに成功したんです。
そう、最近多くの会社がこれをやっていて、新しい会社に移らない多くの従業員を困らせることになると私はまだ思っています。
でも今回、GoogleはAI音声スタートアップのHume AIを獲得しました。Hume AIのCEOであるAlan Cohenが、主要な大型ライセンス契約の一環として、数名のトップエンジニアと共にGoogle DeepMindに加わります。
聞き覚えがあるなら、Windsurfで Googleがやったのを見ましたし、Grokで Nvidiaがやったのを見ました。実際に会社を買う必要なく、これらの会社から才能と知的財産を得るために、多くの会社がまさにこの手法を使っているのを見てきました。
Hume AIはかなり良い音声スタートアップです。多くの人が本当に感銘を受けました。私が試したときは、あまり期待に応えてくれませんでしたが、より感情的な音声の一つです。
イントネーションがたくさんあって、音声にもっと感情を込めようとします。その背後にいるチームは本当に本当に印象的なチームだと確信しています。
だから、GoogleとDeepMindがこの技術で何をするのか、見守る必要がありますね。
AI時代の労働市場への楽観的展望
最後に、Jonathan Rossからの少し楽観的な見解で締めくくりたいと思います。この動画は最近バイラルになっていて、big brain AIXというアカウントからのものですが、ちょっとイライラするのは、彼らが自分の動画として透かしを入れているからです。でも実際にはHarry Stebbingsとのこのインタビューから来ているんです。
実際のオリジナルソースからクリップを再生させてください。というのも、オリジナルソースは22万回の再生しかないのに、この人は130万回の再生があって、オリジナルのクリエイターに一切クレジットを与えていないからです。
でもこちらが近い将来の労働市場についてのJonathan Rossの考えです。
「私はAIが大規模な労働力不足を引き起こすと信じています。そう、全ての仕事を埋めるのに十分な人がいなくなると思います。
AIによって起こることが3つあります。第一に、大規模なデフレ圧力です。このコーヒーカップの値段が下がります。住宅費が下がります。全てが安くなるので、人々が必要とするお金が少なくなります。
なぜなら、ロボットがより効率的にコーヒーを栽培することになるからです。より良いサプライチェーン管理ができるようになります。サプライチェーン全体でそうなるでしょう。
コーヒーを遺伝子操作して、太陽光のワットあたりより多くのコーヒーが得られるようにできます。スペクトル全体でそうなるんです。だから大規模なデフレ圧力があることになります。
そしてそれが意味するのは、人々は働く必要が少なくなるということです」
そう、超興味深い見解です。基本的に彼が言っているのは、全てが作りやすく、安く作れるようになれば、人々にとってコストがはるかに下がり、あまり働く必要がなくなるので、労働力不足につながる可能性があるということです。
本当に本当に興味深い見解だと思います。コメント欄で皆さんの考えを聞きたいです。
でも今日お伝えできるのはここまでです。繰り返しますが、たくさんの情報でした。ここまで辿り着いた方、ColinとSamirが呼ぶところの「深い部分」まで来た方は、おそらくこの動画のスタイルが過去数週間のニュース動画から変わったことに気づいたでしょう。それは私が昔のやり方に戻ろうとしているからです。
土曜日ではなく金曜日にまたこれらの動画を出そうとしていますし、できるだけ多くのニュースを分解して、可能な限り価値あるものにしようとしています。
そうすれば、皆さんは全てのAIニュースについて100%完全に最新情報を得られます。それに興味があって、完全に最新情報を得続けたいなら、この動画にいいねをして、このチャンネルを登録してください。
こういった動画がもっとYouTubeフィードに表示されるようにして、最新のAIニュースに常に触れられるようにします。
また、まだの方は、futuretools.ioをチェックしてください。そこでは、私が見つけた最もクールなAIツールをキュレーションし、見つけたAIニュース全てをリアルタイムで共有しています。全てfuturetools.ioにあります。
視聴していただき本当にありがとうございました。今日私と一緒に時間を過ごして、一緒にオタク話をしていただき、本当に感謝しています。次回またお会いできることを願っています。


コメント