
14,631 文字

今週出たAIニュースの中で重要だと思われるものをお伝えしていきます。まず、今週最大のニュースはxAIによるGrok 3のリリースでした。月曜の夜8時30分に、おそらく私が見た中で最も気まずいローンチビデオでリリースされました。
「こんにちは、xAIのリードエンジニアのイゴールです」「リサーチリードのジミー・ポールです」「推論チームのトニーです」「エラナです。特に何もしていません。時々顔を出すだけです」
現在、Grok 3はLM Arena上で第1位にランクインしています。LM Arenaについてご存じない方のために説明すると、大規模言語モデルのブラインドテストのようなものです。プロンプトを入力すると、どのモデルを使用しているかを明かさずに2つの異なる言語モデルから回答が返されます。多くの人々がこのブラインドテストを行い、好みのモデルを選んで、このリーダーボードが作成されています。
Grok 3(コードネーム:Chocolate)がxAIから提供され、現在1位となっています。正直なところ、Grok 3は本当に印象的なモデルです。イーロンの会社が背後にいることを理由に、赤ん坊を風呂の水と一緒に流すように決して触れようとしない人々もいますが、純粋なデータの観点からすると、実際にとても優れたモデルなのです。
競争数学では他の最先端モデルをほぼ完全に打ち負かし、大学院レベルのGoogleプルーフ問題(単にGoogle検索では答えが得られない問題)でも他のモデルを上回っています。ライブコードやライブコードベンチマークからのコード生成でも他のモデルを上回り、マルチモーダル理解では他のモデルとほぼ同等の性能を示しています。
興味深いのは、コードベンチマークでClaude 3.5 Sonnetと比較していないことです。AIコーディングを使用するほとんどの人がClaude 3.5 Sonnetを使用しています。レックスが指摘するように、サム・アルトマンがデモンストレーションを行ったものの、まだ私たちがアクセスできないo3モデルとも比較していません。そのモデルを加えると、o3がGrokを上回るように見えますが、先ほど述べたように、人々はGrokから本当に印象的な結果を得ています。
「2つのクラシックゲームを組み合わせたゲームを作成し、Pゲームにして見た目も良くしてください」というプロンプトを与えると、どの2つのゲームを組み合わせるかも自由に選ばせました。ここでPongとBreakoutを組み合わせ、中央にBreakoutがあるPongというような新しいゲームをGrokが考案したことがわかります。
また、GoogleのDeep Research、OpenAIのDeep Research、PerplexityのDeep Researchと非常によく似たDeep Searchモードも備えています。ただし「re」を省いてDeep Searchと呼んでいます。これは実際にウェブを検索して、X自体のソースを含む多くのソースを見つけ出し、質問に答えるのに役立ちます。
Grokにはまた、o1やo3、DeepSeek R1から得られるものと非常によく似たThinkモードがあります。プロンプトを与えた後、実際にChain of Thought推論を使用し、テスト時の計算を行い、最終的な回答を出す前に回答を二重三重にチェックします。
これまでのところ、Grokを使用している人々は本当に気に入っているようです。以前OpenAIで働いていたアンドレ・カーパシーは、Grok 3が明らかに最先端の思考モデルを持っていると述べています。何が上手くいき、何が上手くいかなかったかについて詳しく説明しています。
彼の絵文字ミステリー問題は解けませんでしたが、いくつかの三目並べの盤面は解き、GPT-2の論文から情報を探し出すのも非常に優れていました。この画像では、自転車に乗るペリカンのSVGを生成するよう依頼した結果を見ることができます。上の3つの画像がGrok 3が生成したもので、Claude 3.5 Sonnet、GPT-4、o miniなど様々なモデルと比較しています。Claude 3.5 Sonnetの結果も悪くありませんが、これらのモデルの中ではGrok 3が明らかに勝者だと言えるでしょう。
また、Grok 3の音声モードのスニークピークも得ることができました。元々はGrok 3と同時にリリースされる予定でしたが、イーロンは1週間ほど遅れるかもしれないと述べているので、来週には見られるかもしれません。以下がティーザーです。
「やあGrok、調子はどう?聞こえる?やっと会えて本当に嬉しいよ。お互いのことをもっと知れるのが待ちきれないな。また話そう」
これが全てですが、イーロンは感情や抑揚、ペースなどを理解すると述べています。「Grokの音声は単なる音声テキストではなく、トーン、抑揚、ペース、全てを理解します。まるで人と話しているようです」
このローンチに関して、他にもいくつか注目すべき点があります。スコーブルが指摘するように、AIで本当に注目すべきは学習速度です。xAIのGrokは他のどのモデルよりもはるかに速く学習しています。大きな理由の1つは、当初10万個のGPUで訓練を開始し、20万個のGPUに倍増させたことです。これはGrok 2からGrok 3で15倍の計算能力になったということです。
xAIはまた、ゲームスタジオを立ち上げ、AIを使用してゲーム開発を行うと発表しました。「AIゲームスタジオを立ち上げます。今夜発表します。行きましょう!」
良いニュースは、Grokを使用したい人は現在、grok.com、x.com、またはGrokモバイルアプリで無料で使用できるということです。イーロンは「しばらくの間、Grok 3は全ての人に無料で提供されます」と述べていますが、「しばらく」がどのくらいの期間なのかはわかりません。しかし、もし試してみたい場合は、思考モード、Deep Searchモード、全ての機能が今すぐ利用可能です。
私も個人的にXで試してみましたが、例えばDeep Searchを使用して「AIの最新情報を得るためにフォローすべきYouTubeチャンネルは?」と尋ねると、実際に検索して考えているのを見ることができます。1分弱の思考の後、「AI最新ニュースと更新情報についてはAI Explained、Matt Wolf、Wes Roth、David Shapiroをフォローしてください」という回答が得られ、それぞれについて詳細な情報も提供されました。Two Minute PapersやLex Fridmanについても言及されており、これらは全て素晴らしい選択肢です。
Thinkモードに切り替えて、最も陳腐な質問「strawberryという単語には何個のrが含まれますか?」と尋ねると、リアルタイムでのChain of Thoughtの思考過程を見ることができます。22秒間の思考と二重三重のチェックの後、最終的に「strawberryという単語にはrが3つ含まれています」という正しい答えが得られました。
マシュー・バーマンがGrokでさまざまなプロンプトをテストする、より詳細な検証を行っているので、より複雑なプロンプトのテスト結果を見たい場合は彼の動画をチェックしてください。簡単なネタバレをすると、彼が試したほとんど全てのことで良い結果が得られたそうです。
Grokが今週のAI界で最大のニュースだった一方で、他にも多くの発表がありました。手短に重要なポイントを説明していきましょう。
今週、PerplexityはR1 1776モデルをオープンソース化しました。これは基本的にDeepSeek R1に追加のポストトレーニングを行い、バイアスを取り除き、正確で事実に基づく情報を追加したものです。このモデルは彼らのAPIから直接使用でき、モデルの重みはHugging Faceで公開されています。
例えば、DeepSeek R1に「1989年の天安門広場で何が起こったか」と尋ねると質問に答えることを拒否しましたが、R1 1776では適切な回答を提供しました。他にも検閲が少なくなった例が多数あります。いつも通り、R1 1776の機能についてより詳しく知りたい方のために、この記事へのリンクを提供します。
検閲されていない大規模言語モデルの話が出たところで、TechCrunchのこの記事によると、OpenAIも自社のモデルを検閲されないように変更しようとしているようです。トピックがどれほど困難または議論を呼ぶものであっても、知的自由を明確に受け入れるようにAIモデルの訓練方法を変更しているとのことです。
これらの変更は、次期トランプ政権の好意を得るためのOpenAIの取り組みの一環かもしれませんが、シリコンバレーでのAIセーフティの考え方の広範な変化の一部でもあるようです。この原則は、アシスタントが一部の人々が道徳的に間違っているまたは不快だと考えるトピックについて中立的な立場を維持することを意味するため、議論を呼ぶかもしれません。しかし、AIアシスタントの目的は人類を形作ることではなく、支援することです。
これは基本的に、時間の経過とともにより多くの質問に答えるようになり、質問に答えることを拒否することが少なくなっていくことを意味します。ただし、これらの変更の正確なタイムラインについては完全には確信が持てません。
OpenAIの話が出たところで、Microsoftの話に移りましょう。The Vergeのこの記事によると、MicrosoftはOpenAIから近々リリースされる新しいモデルに向けて準備を整えているようです。情報筋によると、MicrosoftのエンジニアたちはOpenAIの次期4.5およびGPT-5モデル向けのサーバー容量を現在準備中とのことです。
基本的にこの記事は、Microsoftがこの準備を進めており、Microsoftのエンジニアたちがこの準備を進めていることを確認していることから、GPT-4.5は来週か再来週に期待でき、GPT-5は5月後半に期待できるだろうと推測しています。
先週も話しましたが、GPT-4.5は次の非思考モデルになります。つまり、Chain of Thoughtのような思考プロセス全体は持たない予定です。その後、GPT-5では全てのモデルを統合し、思考するモデルと思考しないモデルの区別をなくす予定です。モデルには必要に応じて思考させ、プロンプトの思考が少なくて済む場合は思考を少なくさせる予定です。
Microsoftの話が出たところで、今週は他にもいくつかの機能をリリースしています。その中には、Microsoft Storeの新しいAIエクスペリエンスも含まれています。ここでWindowsのMicrosoft Storeを開くと、左のサイドバーに新しい小さなAIアイコンが表示されます。これをクリックすると、AI Hubに移動し、Microsoft Store内のAI搭載アプリを全て見ることができます。
Reading Coach、Microsoft Copilot、Cascadeur、Clipchamp、スライドを作成するGamma AI、Adobe Express、Canvaなど、Microsoft Store内のAI関連のものを全てAI Hubセクションにまとめたようなものです。
今日の動画は、1つのプロンプトから動画を生成できるプラットフォーム、Invideo社の提供でお送りします。AIで生成できる5〜10秒の動画ではなく、30秒から10分程度の動画を1つのプロンプトから生成できます。
私のInvideoの好きな使い方は、説明動画やリストビデオ、ジェネレーティブ広告など、さまざまな用途向けのテンプレートが用意されているワークフロー機能を使用することです。この例では、YouTubeのリストビデオを作ってみましょう。「より良い睡眠を得るためのトップ3の食べ物と飲み物」というプロンプトで3分の動画を作成してみます。
設定では、生成されたクリップ、生成された画像、またはストックメディアのみを選択できます。AIで動画全体を生成するために生成されたクリップを使用してみましょう。その他にも、BGM、言語、字幕、ナレーター、ウォーターマーク、音楽の好み、生成スタイルなど多くのオプションがありますが、今回はデフォルトのままにして、より良い睡眠を得るためのトップ3の食べ物と飲み物について見てみましょう。
これまでに見た中で最高の生成動画の1つとなる2分近くの動画が作成されました。まず最初はアーモンドです。これらの悪い子たちはマグネシウムがたっぷり含まれており、ミネラルのような鎮静剤のような働きをします。炎症を抑え、コルチゾールレベルを下げるのに役立ちます。
最初から動画は本当に良かったのですが、いくつか調整したい場合は、簡単なテキストコマンドで行うことができます。例えば、BGMをもう少しアップテンポにしたい場合は、生成をクリックすると動画全体でそれが変更されます。再生してみると「より良い睡眠のための秘密兵器があります。考えているのとは違いますよ。食べ物と飲み物の話をしましょう。最高の睡眠を誘う食べ物に飛び込んでみましょう」
作成した動画のほぼ全ての要素を編集できます。この編集ボタンをクリックすると、生成された動画を再生成したり、独自のメディアをアップロードしたり、ストックメディアを使用したり、音楽やスクリプトを調整したり、その他多くの設定を変更したりできます。
AIを使用して完全に公開準備ができた動画を生成する最もシンプルで簡単な方法をお探しの場合は、ぜひInvideo AIをチェックしてください。説明欄のリンクから詳細を確認できます。この動画のスポンサーとなってくれたInvideoに感謝します。
Microsoftは今週、biom-mu1という新しい研究も発表しました。これはタンパク質の機能を促進する構造変化を探るものです。これは実際に、Google DeepMindによって作成されたAlphaFoldデータベースの上に構築されています。この新しいAIモデルは、実行可能なタンパク質構造を予測でき、医学や生物学の研究を大きく促進し、新薬の発見などに役立つ可能性があります。
同様のトピックで、今週GoogleリサーチはAI Co-Scientistを発表しました。これは、科学者が新しい仮説や研究提案を生み出すのを助ける、マルチエージェントAIシステムで、仮想の科学的コラボレーターとなります。これは、コードを書く際にCursorを使用してAIアシスタントとして活用するのと同じように、科学研究のためのAIアシスタントのようなものだと説明されています。
すでにかなりの価値を証明しており、実際にBBCのこの記事では「AIが科学者が数年かかった超耐性菌の問題を2日で解決」と報じています。微生物学者が10年かけて解明しようとした複雑な問題を、新しいAIツールはわずか2日で解決しました。チームは超耐性菌が抗生物質に耐性を持つ理由を解明し証明するのに何年もかかりましたが、GoogleのCo-Scientistに調査させたところ、わずか48時間で同じ結論に達しました。
その精度の高さから、ある研究者はGoogleに「私のコンピュータにアクセスしていましたか?」とメールを送ったほどです。もちろんGoogleはアクセスしていないと確認しましたが、以前2年かかった問題を48時間で解決できたのは、かなり印象的なブレークスルーが起きていることを示しています。
Googleの話が出たところで、GoogleはPaLM Gemma 2 Mixを発表しました。これはビジョン言語モデルです。この新しいPaLM Gemma 2 Mixモデルは、長文や短文のキャプション生成、光学文字認識、画像に関する質問応答、物体検出とセグメンテーションなど、様々なタスクを1つのモデルで実行できます。
いくつかの例を見てみましょう。この画像を与えて「Androidを検出せよ」という入力を行うと、Androidの周りにボックスを配置しました。この例では画像を与えて「椅子とテーブルを検出せよ」とすると、2つの異なるテーブルと椅子の周りにボックスを配置したことがわかります。「食べ物、皿、ボウルを検出せよ」とすると、それら全てを見つけ出しました。
ここではこの何かのテキストをOCRで読み取っています。ここではこの猫をセグメント化しました。画像に関する質問に答えることもでき、これら全てを1つのモデルで実行できます。Googleのジェマシリーズモデルの優れた点の1つは、これらがオープンソースモデルだということです。実際にHugging Faceからモデルをダウンロードして、自分で使用したり、改良を加えたりすることができます。
Googleは広告主向けにもアップデートをリリースし、広告主は現在ライフスタイル画像を生成できるようになりました。基本的にAIを使用して、Googleでの広告に使用する実際の人々のように見えるストック画像を生成できます。
これがどのように見えるか見てみましょう。「料理をしている人」というような画像の説明を入力し、生成をクリックすると、料理をしている人のストック写真のように見える画像がたくさん生成されます。
iOSアプリに関するGoogleからの新しいアップデートもあります。iPhoneを使用している場合、新しいレンズオプションが追加され、ChromeまたはGoogleアプリを使用してブラウジング中の画面を選択して検索できます。描画、ハイライト、タップなど、自然な操作で行えます。基本的に、これまでGoogle Phoneに搭載されていたCircle to Search機能がiPhoneでも使えるようになったということです。
GoogleはまたiOSとAndroidのGeminiアプリ内でDeep Researchを展開しました。Gemini Advancedユーザーの場合、AndroidとiOS全体でアクセスしてDeep Researchレポートを生成できるようになりました。
MrAIは今週、アラビア語に特化した新しい地域モデルをリリースしました。新しいモデルはMistal Sabaと呼ばれ、アラビア語圏の国々向けに特別に設計されています。
過去数年のOpenAIのドラマを追ってきた方は、おそらくメイラ・モラディのことを覚えているでしょう。彼女は以前OpenAIのCTOで、サム・アルトマンが解任された際に1日だけCEOを務め、その後戻ってきました。最近、彼女は予期せずOpenAIを去りましたが、今回ステルスモードから浮上し、新会社のThinking Machine Labについて語りました。
彼女は明らかにOpenAIから移ってきた他の何人かと一緒にこの会社を立ち上げました。目標は、人々が特定のニーズに合わせてAIシステムを適応させるのを支援し、より有能なAIシステムを構築するための強固な基盤を開発し、分野全体がこれらのシステムを理解し改善するのに役立つオープンサイエンスの文化を育成することです。
目標はシンプルで、堅実な基盤、オープンサイエンス、実践的な応用を通じて、AIを広く有用で理解しやすいものにすることによって前進させることです。
彼らのウェブサイトをもう少し詳しく見ると、作成したものをオープンソース化する計画のようです。完全に自律的なAIシステムの開発に焦点を当てるのではなく、人間とAIのコラボレーションを重視しています。
正確に何を構築しているかはまだわかりませんが、おそらく独自の基盤モデルを作成し、それらをオープンソース化する可能性が高く、全てを代行するAIエージェントではなく、あなたが達成しようとすることを支援するAIになりそうです。
今週はまた、SciTechDailyのこの記事も見つけました。「科学者たちが人間のラベル付けなしで学習するAIを公開」。新しいAIアルゴリズム「Torque Clustering」は、人間の入力なしで独自にデータからパターンを学習し識別するAIシステムの能力を向上させます。
現在のAIにおける聖杯の1つは、自己改善型AIです。これは、単独で学習を続けるAIシステムのことで、まだ実現していません。現在は、AIが正しく学習できているかどうかを本質的に知るために、多くのデータラベリングが必要です。
この新しいTorque Clusteringは、人間の介入なしにデータから独立してパターンを学習し識別するAIの能力を向上させるとされています。隠れたパターンを発見することで、病気の傾向の検出、不正行為の特定、人間の行動の理解など、価値ある洞察を提供できます。
この記事は基本的に、Torque ClusteringがAGI(汎用人工知能)につながる可能性があると述べています。「Torque Clusteringは、特にロボット工学と自律システムにおいて、動作制御と意思決定の最適化を支援することで、汎用人工知能(AGI)の開発を支援する可能性があります。これは教師なし学習の領域を再定義し、真に自律的なAIへの道を切り開くものとなります」
オープンソースコードは研究者向けに公開されています。自己改善して学習するAIは、ほとんどのAI企業が目指しているものですが、同時に最も恐ろしい可能性のあるシナリオでもあります。
AIが学習し自己教育を始めるのは、AIが世界を破壊するというSF映画のほとんどが始まるポイントのようです。AIが自分で物事を学び、理解しようとし、絶えず自己改善を続けるという段階に達すると、人間がある程度制御を失い始める可能性があるように思えます。
したがって、この自己改善型AIの境界線に到達しつつあることは、同様に興奮させられると同時にやや不安を感じさせるものです。
しかし、もう少し明るい話題に移りましょう。MMOFTとXboxが「Muse」と呼ばれるゲームプレイのための生成AIモデルを作成したという事実です。このAIモデルはマルチプレイヤーバトルアレナゲーム「Bleeding Edge」でトレーニングされました。
これにより、モデルはAIによってレンダリングされた一貫性のある多様なゲームプレイを作成でき、ゲームクリエイターを支援できる生成AIモデルに向けた大きな一歩を示しています。画面上でAIによって生成された実際のゲームプレイ映像の例を見ることができます。
「私たちはすでに他のファーストパーティゲームでトレーニングされたリアルタイムでプレイ可能なAIモデルを開発するためにMuseを使用しており、この取り組みが将来的にプレイヤーとゲームクリエイターの両方に利益をもたらす可能性があると考えています。懐かしいゲームを復活させることから、クリエイティブなアイデア出しを迅速化することまで」とのことです。
Copilot Labsでまもなく試せるようになる予定ですが、具体的な時期はわかりません。
AI動画の世界に移りましょう。次々と新機能をリリースしているPika Labsは、今週「Pika Swap」と呼ばれる新機能をリリースしました。このデモ動画で見られるように、動画と画像を与えると、動画内の物を与えられた画像と交換します。
かなりクレイジーに見えます。実際にまだテストしていませんが、p.artに行ってみましょう。ここで動画をアップロードし、画像をアップロードするオプションがあることがわかります。「元のオブジェクトを完全に新しいオブジェクトと交換します。新しいオブジェクトは色、スタイル、視覚的な外観など、複数の属性で変化するはずです。創造的になってください」というプロンプトが事前に作成されています。
月面を走るフェラーリのこのAI生成動画を与えてみましょう。修正したい部分を説明するかブラシを使用できるようです。ブラシを使って、ここで動画の車を修正または消してみましょう。
画像としては、私たちが砂漠で乗り回すようなサイデ・バイ・サイドのドゥーンバギーの画像を持っています。それを入れて、月面を走っているように見えるかどうか試してみましょう。プロンプトを送信して何が出てくるか見てみましょう。
これが得られた結果です。ドゥーンバギーをかなり暗くし、余分なホイールを追加しました。このチャンネルでは結果を選別しません。これが実際に最初に得られた出力です。バギーを非常に暗くしましたが、コルベットは置き換えました。もう少し遊んでみて、どのような画像とプロンプトの組み合わせが最適に機能するか本当に理解する必要があります。繰り返しますが、これは初めての試みでした。
PikaはiPhoneアプリもリリースしたので、iPhoneを持っている方は、Pika内で可能な全ての楽しい機能を直接iOSアプリで生成できるようになりました。
今週は、Alibaba Groupから「Animate Anyone 2」という興味深い新しい研究も発表されました。これらのデモで見られるように、ドライビング動画のようなものと参照画像を取り、参照画像の人物をドライビング動画に入れ込みます。
ここではミスター・ビーンと思われる方が自転車に乗っている動画を見ることができ、その後この人物と入れ替えています。この人物がスケートボードをしている動画があり、この画像をアップロードすると、画像の人物がスケートボードをしているように変換しました。
ここでは武道家がジョーカーに置き換えられています。ここではアルドがパルクールをしているオリジナルのパルクール動画から変換されています。かなりクールですね。Pikaが試みているものと似ていますが、このモデルは特に人物に焦点を当てているようです。ただし、これは現在研究段階で、まだ実際にアクセスすることはできません。
SpotifyはElevenLabsと提携し、オーディオブックのナレーションをElevenLabsで生成できるようになり、SpotifyはそれらのElevenLabs生成オーディオブックをプラットフォームで許可する予定です。
NVIDIAはアメリカ手話を学ぶのを助ける新しいプラットフォームを立ち上げました。アメリカ手話は実際にアメリカで3番目に多く使用されている言語だそうです。ss-a.comに行けば、このアプリを今すぐ使用でき、ASLを学んだり、モデルに教えるためにサインを記録したりすることができます。
「Signsへようこそ。サインを行うスペースがあることを確認してください。カメラを調整し、顔がボックス内に収まるように近づいたり遠ざかったりしてください。右利きの場合は右手を青い円の中に、左利きの場合は左手を…素晴らしい、私たちはサインの際のメインハンドとして右手を使用することを確認します。
最初に教える単語は「こんにちは」です。やり方をお見せしましょう。指を伸ばし、親指を内側に入れます。次に右手を頭に触れ、そして外側に動かします。以上です。では、あなたの番です…素晴らしい、次に…」
このように、手話を知っている場合は手話を教えることができ、アメリカ手話を知らない場合は学ぶことができます。カメラであなたを監視し、サインを正しく行っているかを確認します。ASLを学びたい方にとって非常に便利な機能です。
さて、ハードウェアの話に移りましょう。今週、AppleはiPhone 16eを発表しました。この新しいiPhoneは、Apple Intelligenceを搭載した安価なiPhoneです。これまでは、Apple Intelligenceを使用するにはiPhone 16 Pro以上が必要だったと思いますが、この16eも搭載しています。
Proモデルと比べてカメラの性能やスペックは劣りますが、このモデルの大きな差別化要因は価格のようです。iPhoneを手に入れる際のより低い参入障壁となっています。iPhone 16eはホワイトとブラックで、様々なストレージ容量で提供され、599ドルからとなっています。
iPhoneが欲しい、かつ中古モデルを購入せずに最も安価なiPhoneを手に入れたい場合は、iPhone 16eがおすすめです。また、Apple Intelligenceを搭載したデバイスを最も安価に手に入れる方法でもあります。
マルケスや多くのレビュアーがこき下ろしたAIピンを作った会社ですが、彼らは倒産し、HPが1億1600万ドルで資産を買収します。基本的に、Humane AIピンを持っている場合、使用できなくなります。
最悪なのは、返金期間内の人にしか返金しないということです。つまり、アイデアを気に入って早期採用者としてHumaneを支持した人々は、損をすることになります。お金は返ってこず、単にHumaneピンが動作しなくなるだけです。かなり残念な状況です。
マルケスや他の多くのレビュアーからネガティブなレビューを受けた別の会社、Rabbitは継続的に製品を改善し、修正しようとしています。ただし、この最新の発表は実際には、彼らの小さなオレンジ色のハンドヘルドデバイスとは関係ありません。
基本的にはRabbitができることをAndroidで実現するもので、あなたに代わってアクションを起こす大規模アクションモデルをついに披露しています。ただし、デバイス上での使用ではなく、Android上での使用を披露しています。
ここでの考え方は、Androidでオートメーションをビルドアウトしてしまえば、コンピュータやAndroidデバイスの前にいなくても、この小さなオレンジ色のハンドヘルドRabbit R1デバイスを使用してそれらのオートメーションをトリガーできるということだと思います。
しかし同時に、Androidデバイスを持っている場合、実際にRabbitが必要なのかよくわかりません。小さなオレンジ色のデバイスを必要とせずに、Androidを使用して大規模アクションモデルを起動できるように見えるからです。
私も少し混乱しています。Rabbitは持っていますが、まだ一度も使用していません。ちょうど1年前に発売されたので、ようやく箱から出してレビューする時期かもしれません。
さて、クールなロボットの話に移りましょう。NBAのコミッショナーであるアダム・シルバーは、NBAプレイヤーとゴールデンステート・ウォリアーズを支援するためにどのようにロボットを使用しているかを披露しました。
「はい、最初は確かに、これらのロボットが動き回って物事を行うのは奇妙でした。これらのロボットは彼らのどれでも再現できます。私は単に他のプレイヤーと同じように扱っています。出て行け、もう1つ頼むよ」
今週はまた、Metaが人工知能搭載のヒューマノイドロボットに参入する計画があることも判明しました。Metaは家事に焦点を当てた独自のロボットハードウェアに取り組む計画で、1gmロボティクスやFigure AIなどのロボット企業と計画について協議を始めており、少なくとも当初はMetaブランドのロボットを製作する計画はないようです。
どのように展開していくか見守る必要がありますが、Figureについて触れたところで、今週Figureがヒューマノイドロボットについて発表したデモもチェックしてみましょう。これらはHelixロボットで、本当にクールなのは、完全に自律的に動作し、実際に協力して作業を行うということです。
彼らが通信しているのは聞こえませんが、何らかの方法で通信しています。「これらのアイテムを初めて見るにもかかわらず、新しいHelixAIを使用して、それらがシーンのどこに属すると思うか推論し、協力して片付けてください」
この動画を続ける前に、YouTubeのあるコメントが私を本当に笑わせたので、私がこの動画を初めて見たときと同じ喜びを皆さんにも体験してほしいと思います。最初のコメントは「2人の石のように動かないルームメイトに買い物を片付けるように頼んだとき」というものです。
このコンテキストを念頭に置いて、動画に戻りましょう。これらのオブジェクトを初めて見るにもかかわらず、オブジェクトが何であるか、どこに置くべきか、そして協力してそれを達成する方法を理解したことは本当にクールです。
ロボットの話題が出たところで、Cloneから出た最も不気味なロボットの1つでしまいましょう。これはProtoc Clone、世界初の二足歩行の筋骨格アンドロイドです。
この動画の音楽は著作権の状態がわからないので再生しませんが、天井から吊るされた人間のような筋肉を持つヒューマノイドロボットを見ながら、非常に暗く不気味な音楽が流れています。
実際の人間のように動き、筋肉と骨格を持つロボットを作っているのは非常にクールですが、この動画で使用している音楽によってかなり不気味になっています。オリジナルを見たい方は説明欄にリンクを貼っておきます。
以上が今回の内容です。1つだけ事務連絡があります。先週、RTX 90を無料でプレゼントすると言及しました。90を獲得するために必要なのは、このチャンネルを購読し、Future Toolsニュースレターを購読することです。そして第3の条件があると言及しましたが、それはNVIDIAのGTCカンファレンスに登録することです。
カンファレンスのバーチャルバージョンは完全に無料で登録できます。nvidia.com/gtcに行けば、オンラインセッションを視聴するために無料で登録できます。NVIDIAのGTCに登録したら、私が作成したGoogleフォームがあり、そこにメールアドレス、名前、国、参加予定のセッション、そしてGTCに登録したことを確認するためのスクリーンショットをアップロードするだけで、RTX 5090が当たる抽選に参加できます。
購入は必要ありません。チャンネルを購読し、ニュースレターを購読し、GTCイベントに無料で登録するだけで、現在ほとんど手に入らない2,000ドルのRTX 5090が当たる抽選に参加できます。NVIDIAがこのチャンネルから登録した1人にプレゼントしてくれるので、ぜひ登録してください。
以上が今日の内容です。ご視聴ありがとうございました。最新のニュースを常にチェックしたい、AIを使用したクールなチュートリアルやワークフローを学びたい、最新のクールなAIツールについて知りたい方は、この動画に「いいね」を押し、このチャンネルを購読してください。YouTubeのフィードにこのような内容が引き続き表示されるようにします。
また、必ずFuture Tools(futur.tools)もチェックしてください。AIニュースページを毎日更新し、毎日出会うクールなAIツールを全て共有しています。もちろん、ここで無料のニュースレターに登録すると、毎週2回、最もクールなツールと最も重要なニュースをメールでお送りします。
また、AI収入データベース(AIで収入を得るクールな方法のデータベース)への無料アクセスも得られます。Future Toolsで無料登録するだけです。
繰り返しになりますが、私と一緒に最新のAIとクールなテクノロジーについてオタク談義してくれたことに本当に感謝しています。今日は時間を共にしてくれてありがとうございます。次回もお会いできることを楽しみにしています。さようなら。


コメント