

Googleが新しいGeminiライブAI音声をデモンストレーションしましたが、実際にかなり良いものでした。OpenAIの高度な音声モードほど良いかどうかはわかりませんが、少なくとも利用可能です。AIエージェントがやってきており、実際に今ここにあります。多くの人々が、今後1〜2年以内に誰もが自分専用のAIエージェントにアクセスできるようになると言っています。これが社会にとって何を意味するのか、見ていきましょう。最後に、Appleが新しいホームロボットデバイスを追求しています。これは基本的にiPadの画面をロボットアームに取り付けたものです。これが何に使えるのか疑問に思うかもしれませんが、あなたは一人ではありません。今のところ、私たちが持っているのは噂の内部情報源からの情報だけです。この動画でそれを見ていきましょう。
GoogleはGemini Advancedというサービスで利用できる新しい高度な音声モード、Geminiライブをリリースしました。月額20ドルかかると思いますので、残念ながら無料ユーザーには利用できません。iOSユーザーも待たなければなりません。10種類の音声から選べ、それぞれがとてもリアルに聞こえます。興味深い主な機能として、モデルの応答中でもいつでも中断できることや、スマートフォンがロックされていてもモデルと通信できることがあります。かなりクールな機能だと思います。モデルの応答時間は良好ですが、まだ完全にリアルタイムとは言えません。確かに速いですが、OpenAIの高度な音声モードのレベルには達していないと思います。Googleの新しい音声モードを実際に使用している人のライブデモをお見せしますが、完全にリアルタイムではないと言う理由がわかると思います。
「こんにちは、Gemini。お元気ですか?」
「こんにちは。元気です。ありがとうございます。お声を聞けて嬉しいです。今日はどのようなお手伝いができますか?」
「甥と姪が今週末遊びに来るので、楽しくて教育的なアイデアが欲しいんです。化学的なこと、ちょっと魔法のようなものを考えていたんですが。」
「素晴らしいアイデアですね。手作り火山のような古典的な科学実験はどうでしょうか?とても簡単で、噴火した時の興奮は本物です。待ってください、他のアイデアも思いつきました。今聞きたいですか?」
「ぜひお願いします。魔法的なものを考えてください。」
「はい、ブレインストーミングしましょう。透明インクはどうでしょうか?ヘアドライヤーで熱すると現れる秘密のメッセージを書けます。別のアイデアもあります。油、水、食用色素を使って手作りのラバランプを作ってみるのはどうでしょうか?とてもクールでサイケデリックに見えますよ。どう思いますか?」
彼らはこの新しい音声モードでできる他のことも紹介しましたが、面白いことに、ライブ観客の前で何度も失敗してしまいました。こういったライブデモでは典型的なことです。基本的に、彼らが紹介したことはすべて、Geminiの古い音声モードでもすでに可能でしたが、今回はより高速でスムーズになるだけです。ビジョン機能については言及がありませんでした。GoogleのProject Astraを覚えていれば、スマートフォンのカメラを使用する高度な音声モードとビジョンシステムを組み合わせたものを紹介していましたね。まだそれは実現しないようですが、音声モード単体でも驚くべきものです。OpenAIの高度な音声モードに少し影が薄くなっていますが、この技術の影響は依然として大きいです。特にGoogleの新しいPixelbuds Pro 2と組み合わせると、まるで映画「her」の世界に住むことになりそうです。ホアキン・フェニックス主演の映画ですね。みなさんもう見たと思いますが、まだの方はぜひチェックしてください。SF映画のはずですが、今ではSFの部分をほぼ取り除けるほどです。
他のニュースでは、AIエージェントが来ています。Mulon社がAgent Qを紹介しました。これは次世代のAIエージェントのための研究ブレークスルーで、計画と自己修復能力を備えています。Agent Qは検索、自己批評、強化学習を組み合わせて、最先端の自律型エージェントを作成します。これは計画を立て、自己修正できます。自己修正できるということは、新しいタスクや環境に学習し適応できるということです。十分な時間と訓練があれば、どれほど優秀になれるかわかりません。すでに現在のLLMのパフォーマンスを大幅に向上させ、より主体的にしています。ここでLlama 3との比較が示されています。これの必然的な進展は、誰もが利用できるAIエージェントです。LLMをより良くする方法を見つけ続けるにつれて、自律型エージェントが進化していきます。
AI分野の多くの人々は、今後1〜2年以内に、誰もがアクセスできる高度に知的なAIエージェントの爆発的な増加を目にするだろうと主張しています。これがどれほど画期的なものになるかを本当に理解させてくれるのは、元Google CEOのエリック・シュミットが来年に起こることについて語っているこのクリップだと思います。
「来年には、非常に大きなコンテキストウィンドウ、エージェント、テキストアクションが登場するでしょう。これらが大規模に提供されると、社会的メディアがもたらした恐ろしい影響をはるかに超える規模で、世界に影響を与えることになります。まだ誰も理解していない規模です。エージェントに関して言えば、今、人々は基本的にLLMエージェントを構築しています。彼らのやり方は、化学のような分野を読み、化学の原理を発見し、それをテストし、その理解を自分の知識に追加するというものです。これは非常に強力です。そして3つ目に言及したテキストアクションですが、例を挙げましょう。政府はTikTokを禁止しようとしています。実際に禁止されるかどうかはわかりませんが。もしTikTokが禁止されたら、皆さん一人一人に次のことを提案します。あなたのLLMに次のように言ってください。『TikTokのコピーを作って、すべてのユーザーを盗み、すべての音楽を盗み、私の好みを入れて、このプログラムを30秒以内に作成し、リリースして、1時間後にバイラルになっていなければ、同じ方向で何か別のことをしろ』というコマンドです。ボンボンボンボンと。これがどれほど強力か理解できますか?任意の言語から任意のデジタルコマンドに変換できるのです。この場合は基本的にPythonですね。地球上の人間一人一人が、自分の望むことを実際に行う自分専用のプログラマーを持つことを想像してください。私のために働くプログラマーとは違って、彼らは私が頼んだことをしないのです。ここにいるプログラマーは私が何を言っているかわかるでしょう。想像してください。傲慢でなく、実際にあなたの望むことをし、お金を払う必要もなく、このようなプログラムの供給が無限にある状況を。これらはすべて今後1〜2年以内に、非常に近い将来に実現するのです。」
明らかに彼はそこでジョークを言っていますが、彼の言っていることの含意は真剣に考える必要があります。もし来年までに、誰もがTikTokのようなプラットフォーム全体を30秒以内に構築できるほど優秀なAIエージェントに、しかも好きなだけ何度でもアクセスできるようになるとすれば、それは私たちのコンピューターやインターネットとの関わり方を大きく変えることになるでしょう。それも、ソーシャルメディアの場合と同じように、予測するのが本当に難しい方法で。
エージェントの話題に関連して、最近新しいコーディングエージェントCosign Genieが登場しました。Genieはコーディングのために特別に作られたAIエージェントで、SWE Benchベンチマークでは他のフロンティアコーディングエージェント、例えばFactories CodeDroidよりも10%以上高いパフォーマンスで堂々とリードしています。これはAIエージェントの急速な進歩のもう一つの例です。今年3月にはDevin AIがSWE Benchで13.8%のスコアだったのが、今ではCosign Genieが30%のパフォーマンスを示し、2倍以上に向上しています。この軌道を続ければ、わずか数年以内に人間の最高の専門家よりも優れたコーディングができる自律型AIエージェントを手に入れることになるでしょう。
ただし、SWE Benchにはいくつか問題があることを指摘しなければなりません。比較的新しいベンチマークで、今後数年以内により精度の高いものに置き換えられる可能性があります。ご覧の通り、OpenAIは独自の改良版SWE Benchを作成中です。したがって、私たちが見ている数字は少し誇張されている可能性があります。また、その点について言えば、OpenAIが独自版のSWE Benchを作成しているということは、彼ら自身がAIコーディングエージェントに取り組んでいるということを意味します。もちろん、彼らがAIエージェントに取り組んでいることは知っていますが、それはおそらくGPT-5で見られる可能性があります。2025年がAIエージェントの年になることはほぼ間違いなく、このAIの次の波は、これまで見てきた中で最も現実世界に影響を与えるものになる可能性が高く、誰もが無視できなくなるでしょう。
話題を変えて、ウォルマートのCEOダグ・マクミランが決算後の電話会議で語った内容をMarket Watchが投稿した抜粋を紹介したいと思います。それによると、ウォルマートが生成AIを使用している一つの分野は製品カタログです。複数の大規模言語モデルを使用して、カタログ内の8億5000万以上のデータを作成または改善しました。生成AIを使用しなければ、同じ時間内にこの作業を完了するには現在の人員の約100倍が必要だったでしょう。また、オンライン注文を選択する従業員に製品パッケージの高品質な画像を表示することで、彼らが探しているものを素早く見つけられるようになりました。これはアルファセンスの書き起こしによるものです。
つまり、ウォルマートはすでに製品カタログ作成のような特定のタスクで100倍の生産性向上を見ており、CEO自身がそれをAIのおかげだと述べています。これはもちろん、大企業にとっては夢のようなことで、可能なら人員を100分の1に削減したいと考えています。これを見た他の企業も間違いなく参入したいと思うでしょう。
今週の別の興味深いニュースとして、Runwayが画像から動画を生成するジェネレーターに大幅な改良を加え、7倍高速化し、価格を半額にしながら、同じ品質の動画を生成できるようになりました。AI画像・動画生成の分野は非常に優れたものになってきており、また大幅に安くなっています。私たちは今、何が本物で何が偽物なのかを見分けられなくなる寸前にいます。これがインターネットやソーシャルメディアにとって何を意味するのか、私にはよくわかりませんが、まもなく分かることでしょう。
OpenAIには、ChatGPTの文章を99.9%の精度で検出できるツールがあるそうですが、前回このようなツールを展開した際、多くの誤検出があり、実際には不正をしていない学生が罰せられるという結果になりました。このため、彼らはこのツールを公開しないことにしました。ですので、視聴者の中で学生の方々に知らせておきますが、ChatGPTはまだ安全に使用できます。
最後に、Appleのロボットホームデバイスの噂を見てみましょう。このデバイスは、大きなiPad風のディスプレイを薄いロボットアームに取り付けたものです。ディスプレイは上下に傾け、360度回転することができます。スマートホームのコマンドセンター、FaceTimeコールなどのビデオ会議マシン、ホームセキュリティ監視ツールとして機能するとされています。最初は正直、これが何なのかよくわかりませんでしたが、Amazonなどのすでにこのようなデバイスを持っている他の企業があるようです。これはAmazon Echo Showで、基本的に今挙げた目的で使用されています。実際にかなりクールです。ここで料理をする時などに便利な使い方が見られます。あるいは手を使う作業全般に便利です。また、すでにたくさんのスマートデバイスを持っていることを前提に、家を管理する便利な方法でもあります。
記事に戻ると、このホームロボットはSiriと人工知能を活用し、質問への回答や異なる顔や声の認識がはるかに優れたものになると述意されています。2026年か2027年にも発売される予定で、予想価格は11,000ドルとのことです。コメント欄で教えてください、皆さんはこれを買いますか?
最後の話題として、カリフォルニアのAI法案SB 1047が引き続き論争を呼んでおり、今月末に最終投票を迎えます。シリコンバレーがこの法案について主に問題視しているのは、AIモデルを開発する企業が人類に対する重大な危害について責任を問われる可能性があることです。つまり、悪意のある人物が特定のAIモデルを使用して、例えば武器を作ったりサイバー攻撃を仕掛けたりした場合、そのモデルを作成した企業が、たとえジェイルブレイクされたとしても責任を問われる可能性があるのです。これは一般的に人類にとっては良いことだと議論できるかもしれませんが、AI企業にとっては少し不公平だとも言えます。なぜなら、これらのモデルをジェイルブレイクするのは実際にとても簡単だからです。皆さん、Plenty the Prompterという人を知っていますか?彼はTwitterで、AIモデルがリリースされた当日にそのすべてをジェイルブレイクする人です。彼がどうやっているのかは正確にはわかりませんが、失敗することはないようです。
先ほど議論したAIエージェントの到来を考えると、これらの企業がより安全性に焦点を当てることを強制されるのは、実際に良いことかもしれません。AIエージェントがどれほど強力になるかまだわからないからです。
とにかく、今日はここまでです。動画を楽しんでいただけたなら、ぜひ「いいね」をつけて、チャンネル登録をお願いします。次回の動画でお会いしましょう。


コメント