より良い人工音声のリアルタイム実現、自動運転車の速度記録、Operator Browserの登場

8,921 文字

MELHOR iA Para Voz Em Tempo Real, Recorde De Velocidade De Carro Autônomo, Browser Operator Vem Aí

Aprenda Inteligência Artificial! Vídeo do Recorde de Velocidade: ídeo da Primeira Corrida de iA:

皆さん、すでに人工知能を使った自動運転車のレース記録が317km/hに達しています。また注目を集めている音声アシスタント「Sesame」についても話しましょう。さらに、スーパーマリオを使って人工知能の知性を評価するベンチマークや、Operaによる初の統合型AI搭載ブラウザについても取り上げます。
いつもいいねをしてくれる皆さん、チャンネル登録してくれる皆さん、そして特にこのAIチャンネルをサポートしてくれるメンバーの皆さんに感謝します。
まず、Operaのブラウザ「Operator」について見てみましょう。もしご存知なければ、Googleのクロームやマイクロソフトのエッジ、Firefoxなどのブラウザがあり、Operaもそれほど有名ではないかもしれませんがずっと存在していたブラウザです。
彼らはこう言っています：「Operator Browserのプレビューをお見せしたいと思います。これはブラウザ内で作業を行うことができるAIエージェントです。現在テスト中のこの機能は、ブラウザがAIを使ってウェブ上のタスクを実行し、意味のある形で時間を使えるようにする初めての試みです。」
Claude、OpenAIはすでにComputerやOperatorを作っていますが、今度はOpera社がOperator Browserを開発しています。このOperator Browserはブラウザにネイティブに組み込まれており、サイトへの接続を維持しやすくしています。また、ログイン情報がサードパーティに送信されないためセキュリティも確保され、サーバーベースのソリューションよりも高速です。さらに効率的で直感的な体験を提供し、ユーザーが常に制御できるようになっています。
彼らが強調しているのは、ログイン情報を第三者に送信しないというセキュリティ面と、現時点では料金を請求する話がないという点です。「現在、ブラウジングとAIが意味のある形で融合するための分岐点にあります。このプレビューは、それがどのように実現するかを示しています。」
簡単に言えば、ブラウザ内でAIに何かを依頼できるというものです。例えば「ナイキのサイズ10の靴下を12組見つけて」と頼むと、左側に検索結果が表示され、右側で実際のブラウジングが行われ、価格を見つけて購入を行います。
また、複数のステップを含むタスクも実行できます。例えば「4月に行われるニューカッスルのホームゲームのチケットを2枚購入したい」と指定すると、Operator Browserが検索を開始し、様々なサイトを見つけ、チケットを見つけて購入するのです。480ポンドで完璧ですね。
フライトやホテルの検索も同様です。フライトやホテルに関する検索をして、場所や日付、制限事項（例えば犬を受け入れるかどうかなど）を説明すると、例えばBookingサイトで検索を実行し、価格やオプションを見つけて表示します。そしてそれが本当に欲しいものかどうかをチャットで確認できます。
Operator Browserはチャットボットの枠を超え、ブラウジングのフローに直接統合されています。これはブラウザのより広範な機能に沿ったもので、オンラインでウェブをブラウジングする際により強力にし、時間をより効果的に使用するためのツールを提供します。
これは素晴らしいと思います。特に単純な質問と回答だけでなく、いくつかのプロセスや操作が必要な検索をしたい場合に役立ちます。この場合、買い物をしたり、行動を起こしたり、クリックや手順を実行したりするので、非常に興味深いでしょう。
現在はフィーチャープレビューの段階ですが、Operator BrowserはOperaのサイドバーとコマンドラインからアクセスできます。使用するには、やってほしいことを書くだけです。例えば、オンラインで物を購入・注文したり、イベントのチケットを予約したり、サイトから情報を収集してスプレッドシートやドキュメントに入力したりできます。
ブラウザのOperatorにプロンプト形式でタスクを与えると、それを完了するために働きます。これはエージェントベースの人工知能システムの特徴で、目標を受け取り、様々な方法でその目標達成を試みます。時には完了するためにユーザーの入力が必要になることがあります。これは「ヒューマン・イン・ザ・ループ」と呼ばれる場合もあります。ウェブページと直接やり取りするか、ブラウザのOperatorのチャットを通じてさらに情報を提供することができます。
例えば、チャットが「購入手続きのためにサインインしてください。メール、電話番号、パスワードを入力してください。完了したら『続行』をクリックしてください」と表示し、ユーザーがそれを行うのを待ちます。キャンセルボタンもあります。
Operator Browserは、プロンプトとして与える指示とウェブページの関連情報という2つの情報だけを処理し、それ以上は何も処理しないため、データのプライバシーとセキュリティを確保しています。AIに知られたくない情報があれば、チャットで言わずに自分自身で入力すればいいのです。
「Operator Browserを使用する際に認証情報や電話番号、カード情報などを入力する必要がある場合はどうなるのか」という疑問があるかもしれません。重要なのは、使用時にはキー入力、画面キャプチャなどの情報がサーバーに送信されないように開発されていることです。Operator Browserがユーザーの介入を求めたり、ユーザーが操作を引き継いだりした場合、AIによって情報は処理されません。ユーザーが「再開」をクリックした時だけ、再びサイトの読み取りを開始します。
これは重要なポイントです。Operator Browserは画面のスクリーンショットを撮って何が起きているか確認しているので、何かを入力するように指示された時には、スクリーンショットは撮られていません。必要な情報を入力し、ログインなどを完了してから「再開」ボタンをクリックすると、タスクを続行し再びスクリーンショットを撮り始めるのです。
次のニュースは、人々がスーパーマリオを使ってAIを評価しているというものです。ポケモンがAIにとって難しいベンチマークだと思っていましたが、研究者グループはスーパーマリオブラザーズはさらに難しいと主張しています。
カリフォルニア大学サンディエゴ校の研究組織「How AI Lab」は金曜日に「スーパーマリオブラザーズにおけるAI」をライブで発表しました。AnthropicのClaude 3.7が最も優れたパフォーマンスを示し、次いでClaude 3.5が続きました。GoogleのGemini 1.5 ProとOpenAIのGPT-4oは苦戦していました。
これは非常に興味深いことで、私がいつも言っていることです。エージェントを作成して失敗できない自動化を行う場合、例えばOperatorのように購入を行う必要があり失敗できない場合と、クリエイティブなプロセスを行う場合では異なります。後者では失敗しても問題ありません。この点でClaudeは常に注目を集めています。
元々の1985年のスーパーマリオブラザーズではなく、エミュレーター上で動作し、「Game Agent」というフレームワークと統合してAIにマリオをコントロールさせていました。これは後で試してみたいですね。スーパーマリオ、2048、テトリスなどの様々なゲームがあります。AIがこれらのゲームを使用する方法についても説明されています。
私はすでにAIがMinecraftをプレイする動画やGTAをプレイする動画、さらにはAmong Usをプレイする動画シリーズも作成しました。特にAmong Usのプロジェクトは気に入っていて、リメイクして続けたいと思っています。しかし、これらの動画はあまり視聴されなかったため、リストから外れてしまいました。興味があれば、コメントやいいねをお願いします。
How AI Labの投稿では、Claude 3.7がポケモンレッドでテストされましたが、スーパーマリオのようなリアルタイムゲームではどうなるかを知りたかったそうです。Claude 3.7、Claude 3.5、Gemini、GPT-4oがプレイする様子が示されています。黒い画面になっているのは失敗した時です。上部のClaudeたちは上手くプレイしているようです。
How AI Labが内部で開発したGame Agentは、「障害物や敵が近づいたら左に動いたりジャンプしたりして避ける」などの基本的な指示をAIに与え、ゲーム画面をキャプチャします。AIはPythonコードの形で入力を生成してマリオを制御します。それでも、複雑な操作を学び、ゲーム戦略を開発する必要がありました。
興味深いことに、OpenAIのow Oneのような「推論モデル」（問題を段階的に考え解決策に到達するモデル）は、通常ほとんどのベンチマークでより強力であるにもかかわらず、推論なしのモデルよりも性能が低かったことが発見されました。リアルタイムゲームでは、モデルが決定に時間がかかるほど悪いのです。モデルが何かを結論付けて決定するまでに、ゲームはすでに進行しています。
「推論モデルがこのようなリアルタイムゲームをプレイする際に問題がある主な理由の一つは、行動を決定するのに数秒かかることです」と研究者たちは述べています。スーパーマリオブラザーズでは、時間が全てであり、1秒の差が成功したジャンプと落下死の違いを意味します。
これが私が経験していた問題です。そのため、ターン制のような単純なゲームをプレイする方が良いのです。画面が止まったままで考える時間がある、そしてあなたが行動を起こした後にゲームが続行されるからです。しかし、それでは面白くありません。私たちはリアルタイムゲームを見たいのです。
ゲームは数十年間AIを評価するために使用されてきましたが、一部の専門家はAIのゲームスキルと技術的進歩との間に関連性を見出すことに疑問を投げかけています。現実世界と異なり、ゲームは抽象的で比較的単純であり、AIがトレーニングするための理論的に無限のデータを提供します。
AIがスーパーマリオのような単純なゲームをプレイできないうちは、現実と対話できるとは考えられないという批判はあまり意味がありません。AIがスーパーマリオを非常に上手くプレイできるようになった時点で、現実世界でのタスクに取り組ませる準備が整います。少なくとも単純化された制御された世界ではうまくいくという確信があるからです。これはロボット工学の典型的な手順です。ロボットがシミュレートされた世界で生き残れない場合、現実世界では全く可能性がありません。
最近のゲームベンチマークは、OpenAIの創設メンバーである研究者のAndre Carpathが「評価の危機」と呼んだものを指摘しています。「今、これらのモデルがどれだけ優れているのか本当にわからない」と彼はXの投稿で書いています。
評価は次のようになります：Carpathが言うように、AIがゲームをクリアできればOK、AIがプレイできればOK、AI対戦できるゲームで対戦相手に勝つことができればOKです。この評価は主観的に見えるかもしれませんが、そうではありません。子供の頃、友達と遊んでいた時、評価テストをしなくても誰が上手いか下手かわかりました。幸いなことに、AIがうまくプレイしているかどうかを理解するために、学術的になる必要はありません。
次のニュースは「Sesame：私が一度以上話したいと思った初の永続的な音声アシスタント」です。Oculus共同創設者Brandon ItreとYが会話を可能にしています。
「毎日のようにAlexaに黙るよう言っています。最初の奇妙なチャットの後、Geminiと話す興味はほとんどありません。AIとの会話におけるつまずき、誤解、遅延は、テキストメッセージを送ることができるのに話すことに時間を無駄にしていることを意味します。」
これは、アシスタントと会話しようとすると変な会話になってしまい、最終的にタイピングすることになるという話です。タイピングすれば確実に機能すると保証できるからです。
「しかし、Oculus VRをFacebookに売却した人物が率いる新しいスタートアップの2つの声の1つであるMaiaと話すことは、もっと話したいと思った初めての経験でした。まるで本当に彼女と話せるか、少なくともMicrosoftがその不安定なパーソナリティを抑制することを決める前のBingのように、その限界をテストする本当に楽しいゲームができるかのようでした。」
彼は続けて「説明する必要はありません。自分で試して、下の私の最初の会話を聞くことができます。公平な警告として、新しい音声アシスタントに直面したオタクとして、ダンジョン＆ドラゴンズスタイルの冒険を夢見るように頼み、小さなAndroidフォンについてのテストをするでしょう」と述べています。
会話は英語で行われていて、これは私たちブラジル人にとって依然として問題であり、ハードルです。チャットボットの一部のナンセンスが漏れ聞こえていても、簡単に中断して、Maiaに自分自身を彼女が描写していた冒険に挿入するよう頼むことができ、彼女は問題なくすぐにそれを行いました。迫り来るオークの侵入者から私の城を守るための致命的な罠を仕掛けるMaiaという名前のノームエンジニアとして現れました。AIの自然な間と相まって、これまで体験したどの会話よりも本物の会話のように感じました。昨年のChat GPTの高度な音声モードとの同僚Kelly Robsonの会話と比較すると、私たちははるかに魅力的な場所にいるようです。
Sesameのウェブサイトでは「Crossing the uncanny valley of conversation（会話の不気味の谷を越える）」という説明があります。この「uncanny valley（不気味の谷）」という表現はロボット工学から来ている興味深い概念です。
例えばWALL-Eのようなかわいいおもちゃのようなロボットを想像してください。それが人間に似ていないおもちゃのロボットやぬいぐるみのような存在であれば、人間はそれを好み、遊びたいと思います。WALL-Eを見て、とてもかわいいと思います。しかし、それが人間に近づき、より人間に似ようとするにつれ、「不気味の谷」と呼ばれる状態に陥ります。奇妙な顔や醜い外観を持つロボットに対して人々が嫌悪感を持ち始める瞬間です。そして、人間との類似性が非常に高くなると、この不気味の谷を超え、人々はその新しい技術やロボットを受け入れ始め、それが奇妙なものだと思わなくなります。
音声に関しても同様です。全く自動化されたロボット的なGoogleの音声を聞くと、すぐにそれがアシスタントだとわかり、批判的な目が緩みます。それが人間らしさに近づくにつれ、私たちは調整し始め、ある時点で受け入れ始めます。「これは本当に人間のようだ、チューリングテストに合格した」と言い始めます。
Sesameが「不気味の谷を超えた」と提案するのは、彼らの技術が本当に優れているということです。テストをしたい場合、英語でしか話せないことを言わねばなりません。ポルトガル語で話して会話しても、アシスタントは理解しますが、英語で返答します。
[セサミとの会話の様子が続く]
彼女は私がポルトガル語で言ったことをすべて理解しただけでなく、「Obrigado（ありがとう）」「tchau（さようなら）」などのいくつかの単語を話し、学びたいと言っています。会話が別のレベルにあることが本当に感じられます。音声クリップをダウンロードして後で聞くこともできます。
次のニュースは「自動運転レースカーが新しい速度記録を樹立」です。完全自動運転のMaserati MC20クーペが先週ケネディ宇宙センターで317.7km/hに達しました。
新しい世界最速のロボットに注意してください。ドライバーシートに誰も座っていないMaserati MC20クーペが、先週ケネディ宇宙センターで開催された自動車イベントで時速197.7マイル（318km/h）に達し、自律型地上車両の新たな速度記録を樹立しました。
このMaseratiはイタリア最大の科学技術大学であるミラノ工科大学によって開発された自律走行ソフトウェアを実行していました。このチームはまた、2025年のCESの期間中にラスベガスモータースピードウェイで最近開催されたAutonomous Challengeにも取り組みました。
これは本当に素晴らしいと思います。動画を見ると、実際に起きていることは直線を走っているだけだということがわかります。左上隅のマップを見ると、直線上を走っていることがわかります。基本的には前に進んだ車で、おそらく自律である必要さえないかもしれません。彼らは自律性のテストを行っていません。例えば、犬が走って横切った場合に轢くかどうかはテストしていません。ただ単に車を走らせ、ピストの終わりに近づくと減速して前に飛び出さないことを証明しなければなりませんでした。
これは飛行機の滑走路のようなピストですが、明らかに彼はブレーキをかけており、時速が下がっています。全て順調でした。これが彼らが行ったテストであり、これによって彼らは世界最速の自律走行車を作ることができました。
直線上で自律走行車を高速で走らせることに大したことはないと思うかもしれません。部分的に同意しますし、この批判を理解します。確かに直線上で車を走らせることに面白みはありませんが、ポイントは彼らがその車が自律的であると言っており、単純であっても記録を更新することは常に祝うべきことです。
NASAの象徴的なスペースシャトルの影で、このレースカーは2.8マイルのトラックを記録的な速度で飛ばし、2022年4月21日にIAC AV-21レースカーによって樹立されたIndy Autonomous Challengeとポリムーブが保持していた時速192マイルの記録を超えました。
この偉業は、自律走行レースカーが以前の自律走行車よりも速かっただけでなく、自律走行システムを支えるアルゴリズムの信頼性をテストし、極端な速度をどのように管理するかを決定するという点でも注目に値します。限界を押し広げることで、記録的なレースを監督するチームは、地方道路で運行する自律走行路上車両に学びを適用することで安全性を向上させることを期待しています。
これは興味深いことです。例えば、シーンや動きを評価するウェブカメラを考えると、速度を上げると画像全体が変化します。相互作用の形式が変わり、トラックがより速くなります。そのため、カメラのブラーや高速での歪みをテストし、速度を上げることで生じる可能性のある安全上の問題に対処する必要があります。
ここにはこの車で走行している人々の写真や、他の自律走行車の写真、そして「スーパーパワー速度」の芸術的な写真があります。このカメラのブラーが見えますか？確かにこのブラーは実際には発生していないはずで、彼らはこの高速に対応できるカメラを使用しているはずです。しかし、これこそが速度を上げ始めると完璧なAIアルゴリズムを台無しにする可能性のある典型的な詳細です。
「これらの世界速度記録は、未来の技術のショーケース以上のものです」とIndy Autonomous ChallengeのCEO、Mitchell氏は述べています。「AIドライバーソフトウェアとロボット工学ハードウェアを絶対的な限界まで押し進めています。これを集団で行うことは、自律走行の学びを移行させ、安全で保護され、持続可能で高速な高速道路の自律走行モビリティを可能にするのに役立っています。」
このビデオを見た後に私がしたことの1つは、「AIで行われた最初のレースは実際には大混乱だった」というこのビデオを見ることでした。ここには多くの興味深いことがあります。直線を走っていた車が突然曲がったり、カーブを曲がろうとして芝生に直進して急ブレーキをかけたりする貴重な瞬間があります。
しかし、この最後のシーンでは、2台の自律走行車が道路の真ん中で突然停止し、後ろの車も停止しました。この青い車がしなければならなかった唯一のことは彼らを追い越し、レースを終えて勝つことでした。見ての通り、両側に十分なスペースがあります。彼は彼らを追い越して先に進むだけでよかったのです。唯一起きたことは、彼らが停止していたということです。
しかし、青い車が近づいてくるにつれて何が起こるか見てください。ガルヴァン・ブエノ（ブラジルの有名な実況者）がこれを実況している様子を想像してください。追い越すだけなのに…停止！
人々がこの馬鹿げた光景を見つめている様子を見てください。自律走行車の世界があり、そのうちの1台が停止すると全員が停止し、何もできなくなることを想像してください。そのため、発展させるべきことがまだたくさんあります。私たちはまだ始まったばかりですが、これらのテクノロジーは進化し、いつか成功すると確信しています。
これについてどう思うか、自律走行車も作りたいか、いつかブラジルで北から南まで運転席に触れることなく旅行できる車を運転したいかどうか、コメントしてください。このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはWhatsAppグループや先行公開ビデオにアクセスできます。いいねを押すのを忘れないでください！