この動画では、OpenAIが他社製品を模倣している可能性について議論し、Googleの新しいAIモデル、Alexa Plusの準備状況、Grokの新機能、ChromebookのAI統合、そしてAIが数学的推論を学習するための革新的なゲームベースアプローチについて解説している。特に注目すべきは、SnakeやTetrisといった古典的なゲームがAIの数学的能力向上に効果的であるという研究結果である。

OpenAIの商標問題とIOデバイス論争
皆さん、OpenAIが同じ製品を作っている企業を真似している可能性があることをご存知でしょうか。しかもまったく同じ名前で、たった一文字の違いしかありません。何が起こっているのか理解していきましょう。
また、Googleが発表している新しいモデルの情報、AlexaがAlexa Plusのローンチ準備を進めていること、GrokやそれからChromebookに到来している新機能についても見ていきます。
いつものように、チャンネル登録してくださった皆さん、いいねを押してくださった皆さんに感謝いたします。特に、この人工知能チャンネルをスポンサーしてくださっているチャンネルメンバーの皆さんに特別な感謝を申し上げます。
メンバーの方々は、プログラミングについて全く知識がない方にゼロから教えるエージェント作成の独占動画にアクセスできます。WhatsAppとの統合方法、PDF読み取り、MCP統合など多くの機能について学べますし、先行公開動画にもアクセスできます。
IOデバイスの商標争い
今日のニュースはこちらです。この方をご覧ください。IOという名前の会社を持っています。少し変わった書き方をしますが、基本的にはここに見えるイヤホンとマイクロフォンを持っていて、会話をするためのものです。
これはOpenAIのIOと全く同じことを、あのAppleの方と一緒にやっています。では、起こっている論争を理解していきましょう。
何が起こったかというと、OpenAIはIO Audioとの商標紛争の後、自社のIOプロジェクトへの言及をすべて削除しました。IOと書かれているのが見えますね。
OpenAIのIOは、IOと発音されるIO Audioと実質的に同じ製品です。OpenAIは、Sam AltmanとAppleのJohnny Iveによる計画されたコラボレーションであるIOデバイスのプロジェクトへの言及をすべて削除しました。このデバイスは元々IOという名前で発表されましたが、IO Audioが異議を申し立て、法的措置を取ったのです。
商標権の重要性
類似したAI製品を開発しているIO Audioは、2024年のTEDトークでその製品を発表し、その名前に対する権利を主張しています。
著作権問題で重要なことは、例えばIOという名前のパン屋があり、Sam AltmanがIOという人工知能デバイスを作っているとしましょう。この場合、製品が大きく異なるため、パン屋とは関係がないので、商標問題では「ニッチが違う、焦点が違うので、両社とも同じ名前で続けても問題ない」と言われる可能性が高いでしょう。
しかし、この場合は実質的に同じ製品なのです。OpenAIはIO Audioの商標主張に同意せず、選択肢を検討していると述べています。
申し訳ありませんがOpenAI、相手が既に名前を登録していれば、あなたたちは負けるでしょう。Iveが正式なパートナーシップ発表前に設立されたハードウェアスタートアップをOpenAIが買収した後も、IOという名前を使い続けるつもりだったかは明確ではありません。変更するつもりがなかったとしても、今は変更することになるでしょう。
TEDトークでの先行発表
なぜなら、この方が13分間のTEDトークで発表した製品はまさに同じものだからです。彼はこう言っています。「私は携帯電話を取り出すことにうんざりしている。スクリーンを見ずに人工知能と対話したい」と。
Sam Altmanが話しているアイデアは全て、彼が既に話し、既に実行していたものです。Sam Altmanが非常に創造的で、これとは本当に大きく異なる何かを考えたのでない限り(私はそうは思いませんが)、この方の影から脱出してその名前を取得できる可能性は低いと思います。同じ名前で同じ製品という状況では、法廷で弁護するのは困難になります。
Y CombinatorでのSam AltmanによるOpenAIの未来とChatGPT、そして彼らが構築しているハードウェアについてのプレゼンテーションで、彼はまさにこの方が話していることを説明するでしょう。
彼はここでコメントしています。「最初の新しいデバイスを発売する際には、ここにはるかに多くのものがあるでしょう」。そして基本的に同じアイデアについてコメントしています。持つ必要がないもの、自然に対話ができるもの、スクリーンのある携帯電話とは違うもの。同時に、必要な機能をすべて実行するものです。
おそらく同じもので、一文字違いのほぼ同じ名前でしょう。彼らがコピーしたと思うかコメントしてください。これらの偶然の一致は非常に奇妙です。これは新しい「Her」の瞬間で、Sam Altmanが誰かをコピーしようとしながら、コピーしていないと言っているのでしょうか。
Alexa Plusの展開状況
次のニュースです。100万人以上の人々がAI技術を搭載したAlexa Plusにアクセスできるようになりました。これは、デジタル加入者向けのAlexa Plus利用への招待が増えていることを意味します。
正式にはまだリリースされていませんが、早期アクセスがますます利用可能になっていることを意味します。ジェネレーティブAI革命前に既にアシスタントを持っていた企業が最後列にいることは興味深いことです。
Alexaは後から来ており、Siriはまだ到着していません。Googleのアシスタントも最後の方でした。例えば、Geminiアシスタントの音声は今でも古いロボット的な音声です。彼らは既に高度な音声を開発していますが、まだアプリケーションに統合していません。
技術変化における興味深いパターン
これは技術の変化に関して非常に興味深い考察点です。このパターンは何度も繰り返される面白い現象です。その分野で最も経験のある人が、新しい技術が到来したときに動くのが最も遅いのです。
彼らは古いパターンや何かに慣れ親しんでおり、それが変わらないと思って時間をかけて、そこでぐずぐずしています。既に経験したことへの多くの心配や懸念を持っていて、突然GrokやChatGPTが現れ、何も気にしない他の企業が完全に恐れることなく前を走り抜けていきます。これを認識するのは非常に興味深いです。
Amazonによると、このサービスには既に100万人以上のユーザーがいますが、Alexa Plusはまだ公開されていません。つまり、今インストールして使おうとしてもできませんが、ウェイティングリストに登録して、いつか呼び出されるのを待つことができます。
最近数週間で、多くの人がAlexa Plusを試すための招待を受け取ったとソーシャルメディアでシェアしています。一般的に、多くの人が招待され始めるこのようなことが起こると、最終テスト段階にあり、おそらく実際にリリースされることを意味します。
Alexa Plusの料金体系
このサービスは早期アクセス中は無料で利用できます。早期アクセスを獲得した人は何も支払わず、その後Prime会員には無料になりますが、Prime会員でない人は月額19.99ドルの一般向けサブスクリプションになります。
一方で、Prime会員でない場合は少し安いサブスクリプションもあります。彼らは現在約6億台のAlexaがあると言っているので、その100万人は大海の中の一滴に過ぎませんね。
もしAlexaをお持ちでしたら、既にこの早期アクセスを獲得したか、まだ待っているかコメントしてください。
Grokのスプレッドシート編集機能
次のニュースです。リークによるとGrokが間もなくスプレッドシートを編集できるようになるかもしれません。これはとても良いニュースです。
とても興味深いですね。スプレッドシートがあり、Grokですべてが美しく表示され、会話があり、ここでスプレッドシートが開かれ、横にこのスプレッドシートと会話できるアシスタントがあります。
これはとても興味深いようです。Geminiに依存してスプレッドシートと会話する必要がなくなるからです。おそらく多くの人が同じ道を歩み、この種のローンチと統合を行うでしょう。
リークされたコードは、xAIがGrok用の高度なファイルエディターを開発していることを示唆しており、スプレッドシートをサポートし、OpenAI、Google、Microsoftと競争する同社の取り組みを示しています。
Grokと話し、ファイルを編集しながら同時にヘルプを求めることができます。これは非常に興味深いですね。
xAIの戦略的方向性
xAIはインタラクティブでマルチモーダルなAIワークスペースの検索スペースに対する戦略を明確に詳述していませんが、同社がこれらのツールについて考えていることを示す一連の発表を行いました。
ご存知のように、Grok StudioというAIとの協働ワークスペースがあり、おそらくスペースも作成して、ファイルと会話を一箇所で整理できるようにするでしょう。
基本的なアイデアは、GoogleのGemini WorkspaceでGoogleスプレッドシートを使用しているとき、すべてがGoogleでのみ機能するのに対し、ここではよりオープンなもののようです。
ただし、ここで言っています。「xAIのエディターがスプレッドシート以外にどのような種類のファイルをサポートできるか、またはxAIがGoogle Workspaceと競争できる完全な生産性パッケージを作成する計画があるかは明確ではありません」。
すべてが確認されれば、明らかにXが完全なアプリケーションになるでしょう。
Xを使用しているか、これについてどう思うかコメントしてください。個人的に、Xの無礼なボイスモードは素晴らしいと思います。まだ試していない方は、使い方を説明したこの動画をご覧ください。
Chromebook PlusのAI機能強化
次のニュースです。GoogleがChromebook PlusデバイスにAI機能を追加しました。例えば、テキストをマークして検索に投げることができるようになりました。
このような機能の一部が現れ始めており、基本的にGoogleは画像を検索に変換して何らかの販売を行おうとしています。基本的に、彼らが長い間ローンチしようとしているこの種の製品です。
彼らはコメントしています。「新しいスクリーン選択ツールはGoogle Lensと同様に機能します。これは検索のために写真を投げるときのものです。Google検索にこれが存在することにお気づきでしょうか。
これはスマートフォンのChrome用のサークル検索機能のリソースです。ホームボタンを長押しするか、スクリーンキャプチャツールを使用して画面上のものを選択すると、Googleが瞬時に検索します」。
これは非常に良いですね。すべてがますます統合され、ますます多くの新機能が実現されています。
Googleの新しい音楽生成モデル
次のニュースです。GoogleがMagenta Real Timeというオープンウェイトのリアルタイム音楽モデルをローンチしました。
そうです、音楽生成のために完全に無料です。Lab Real Timeを既に使用したことがある方は、楽器を調整してリアルタイムで音楽生成を開始するGoogleのミュージックジェネレーターNewに既に慣れ親しんでいるでしょう。
これは何分間の音楽全体を生成して後で聞くSunoとは少し異なります。この場合、音楽は無限に再生され続けます。
例えば、ここにニューラルネットワークのクリエイティビティの選択肢がありますが、下の方でシンセサイザーとフラメンコギターを設定し、音楽でどの程度重要にしたいかを調整します。
フラメンコギターが聞こえますが、間もなくビートが始まります。彼がここでフラメンコギターを下げると、ビートがより関連性を持つようになったからです。今度は再びギターを上げます。
そして他の楽器をマークします。興味深いのは、少し時間がかかり、一定のラグがありますが、いずれ3つの楽器すべてが機能し始めることです。
より多くの楽器を追加し、ミキシングを行います。興味深いのは、その機能がトークンのように動作することです。ただし、トークンの代わりに音楽スタイルです。
音楽生成の技術的仕組み
例えば、これが「何時ですか」という3つの単語の文だったとすると、各単語にはエンベディングに対応するトークンがあります。これらの小さなベクトルの一つです。3つの単語を混合すると、すべてを一つのエンベディングに結合するようなものです。
ここではスタイルなので、スタイルの混合になります。このスタイルの混合が次のクリップを生成します。再生中の音楽を取り、このエンベディングを取って音楽の生成を開始します。
調整すると、エンベディングの色が変わります。ここでは、次のスタイルセクションが異なる色を持ち、複数の音楽セクションを生成するようなものです。これが基本的にその生成の動作原理であり、だからこそストリーミングでリアルタイムで、無限に再生され続けるのです。
4分、1分、30秒の音楽を生成するのではありません。無限に再生され続けます。
テストと実験をしたい場合は、GitHubでオープンソースコードがあります。また、Colabでのデモンストレーションもあります。
実際に実行してみたところ、機能しました。それで嬉しくなりました。ビデオを録画しようとしたとき、まったく同じ手順で再実行しようとしても、うまくいきませんでした。
セッションを再起動したり、すべてを再インストールしたりしても、彼らがローンチ中にいじっていたため、何かが起こってエラーが出続けると思います。
Colabでの実行手順
自分で試したい場合は、このデモンストレーションを実行してみてください。3つの非常にシンプルなステップです。
最初のステップは、このセルを実行して依存関係をインストールします。約5分かかります。ここでプレイをクリックすると、これらすべてのファイルがインストールされ、最後に「セッションを再起動しますか」と聞かれます。ここで「runtime restart session」でセッションを再起動し、その後これを実行します。
また、ランタイムタイプをT4 TPUに設定する必要があります。すべて完了すると動作するはずですが、ここでは仕方がありません。
正しく再起動し、すべてがインストールされ、すべてが美しく表示されていますが、このregisterライブラリでエラーが続いています。
言ったように、一度だけ機能し、今はもう機能しません。おそらく皆さんには機能するでしょう。最初は常にうまくいくからです。
実行できたかコメントしてください。いずれにせよ、プロジェクトはオープンで無料で、誰にも料金を支払うことなく音楽を生成できます。
これを使用する予定か、役に立たないと思うか、ただの音楽ジェネレーターで他により良い選択肢があると思うかコメントしてください。
ゲームを通じたAIの数学学習
この非常に興味深いニュースをご覧ください。人工知能が数学データセットを使用する代わりに、SnakeやTetrisのようなゲームをプレイして数学的推論を学習しています。
これは非常に面白いです。このことを考えたことはありませんでしたが、彼らが話すことが完全に理にかなっていることに既に気づいていました。ゲームを作っているときにプレイヤーの座標や位置を修正する必要があるとき、「30度回転」「45度回転」「この方向またはあの方向に回転」などを話す必要があります。
計算に直接関連するわけではないが、計算に関連する多くの数学的参照があることは常に興味深いです。
研究者たちは、マルチモーダルLLMが数学的推論を学習するための予想外の方法を発見しました。数学データセットでトレーニングする代わりに、SnakeやTetrisのようなシンプルなアーケードゲームをプレイすることです。
SnakeとTetrisがAI教育において歴史的な機能を持つなんて誰が想像したでしょうか。
従来、AIモデルは大量の専門データを処理してドメインの専門知識を獲得してきました。しかし、Rice University、Johns Hopkins University、Nvidiaの新しい研究では、Vigal(Visual Game Learning)と呼ばれる方法を提示し、Qwenをベースとして使用しています。
興味深いことに、昨日のゲームについて話したビデオでは、Qwenが最悪の結果の一つでしたが、何らかの理由でここではQwenを使用しています。
ゲーム学習の科学的根拠
ゲームはモデルが転移可能なスキルを獲得するのに役立ちます。アイデアは非常にシンプルです。彼らは認知科学の発見に基づいており、ゲームが一般的な問題解決スキルを促進できることを示しています。
ゲームがAIにとってこれほど重要になるなんて誰が想像したでしょうか。
研究者たちは、SnakeとTetrisに基づく2つのカスタムゲーム環境を作成し、それぞれ異なる種類の推論をトレーニングするように設計しました。
10×10のSnakeゲームでは、2匹のヘビがリンゴを競い合いながらコントロールします。Tetrisに着想を得た回転ゲームでは、モデルが3Dオブジェクトをさまざまな角度から見て、90度または180度回転後にそれらを認識する必要がありました。
これは心理学でも行うテストの一つです。人にオブジェクトを配置して、何が起こるか、回転すると何が起こるかを予測させます。私たち人間もオブジェクトの回転理解レベルがあるからです。
彼らは各ゲームに36,000のトレーニング例を生成し、調整可能な難易度を設定しました。3Dオブジェクトには、チームがBlender 3Dを使用しました。
Snakeでのトレーニングは、座標と2D表現問題でのモデルの性能を向上させ、一方で回転ゲームは角度と長さの推定能力を改善しました。
素晴らしい、本当に驚くべきことです。ここでは2匹のヘビが互いに対戦している様子と、AIの推論がここで何が起こっているかを理解しようとしている様子が見えます。これは非常に面白いです。
このMario Brothersのロボットは、私が言ったことです。カーレースゲームでカートを回転させたり、プレイヤーが逆さまに現れたり飛んでいたりするとき、座標について話す必要があり、時々まさにこれを話す必要があります。「私のスーパーマリオが横を向いている、90度回転して解決するか、180度回転する」。まさにそれです。
ゲーム学習の実証結果
興味深いことに、Snakeゲームはいくつかの分野で数学データセットを上回ります。SnakeとRotation問題でのトレーニングにより、ベースモデルは数学データで特別にトレーニングされた7BパラメータのMathCoinモデルを少し上回り、数学ベンチマークで50.1%対50.6%でした。
あまり顕著ではありませんね。彼らは続けます。「幾何学問題では利益がさらに顕著で、性能がほぼ倍増しました」。
これは確かです。これの一部は、幾何学ベンチマークGeo3Kでの弱い結果によるものです。
結果はここにあります。例えば、これらの小さなモデル、Vigal Snake、Rotation、Snake + Rotationは、Geo3Kですべて60%以上を達成しました。ここの以前のすべての人々はすべて60%未満だったので、Geo3Kで大きな進歩を示しました。
ここではそれほどでもありませんね。良好ですが、それほど良くはありません。MathVistaでも同様です。ここでは70%の正解率で、基本的にすべてを上回ったか、Gemini Flashにのみ負けました。
このSnake + Rotationのアイデアは興味深いようです。Snake + Rotationが違いを生みました。この進歩を見るのは非常に良いことです。ロボティクスがAIの知能指数を向上させるという別のビデオも作成しましたが、まさにこの理由です。
すべてを行った後、彼らはVigalにトレーニング環境のデータとは大きく異なるAtariゲームをプレイさせてテストしました。ここで彼らは次のように言っています。「ベースモデルのスコアがほぼ倍増しました」。
これは非常に興味深いです。今年末までに、きっとゲームをプレイするAIが登場するでしょう。
学習方法論の重要な洞察
結論です。強化学習はファインチューニングよりもはるかに優れています。段階的推論指示が不可欠であることが判明しました。
Snakeでは「マンハッタン距離を計算して最も近いリンゴを見つける」、Rotationでは「重要な対称軸を特定する」などの指示により、精度が1.9ポイント向上しました。つまり、プロンプト調整です。
報酬関数の設計も重要でした。モデルは理想的な動きと最悪の動きを特定する必要があり、この対照的学習により1.8%向上しました。
ゲームの難易度調整も、例えばヘビの長さを1から5セグメントに変更することで、トレーニングをさらに安定化させました。
全体として、報酬付き強化学習は性能を12.3%向上させましたが、同じデータでの標準的な教師ありファインチューニングは結果を悪化させ、精度を1.9%低下させました。
データ拡張の効果と将来の方向性
トレーニングデータの拡張も効果的でした。データを倍増させると結果が1.3ポイント以上改善しました。
結果はAIトレーニングの新しい方向を示唆しており、昨日のAIでのゲームに関するビデオでも、ADIのアイデアやロボティクスについて話したビデオでも述べたことです。
高価で人間によりラベル付けされたデータセットに依存する代わりに、合成ゲームは一般的な推論スキルを教えるスケーラブルなトレーニングタスクを提供できます。
研究者たちは、将来の研究がより広範囲のゲームベース学習を探求して、より堅牢なAIを構築できると述べています。
ゲーム学習の革新的メカニズム
なぜ彼らがこれを言っているのでしょうか。あのヘビゲームを思い出してください。ヘビゲームでは、AIを互いに対戦させることができます。これは強化学習に最適です。一方のヘビが他方を圧倒的に打ち負かすと、モデルの学習により多くのデータが得られるからです。
このデータを取得してAIに教えます。より知的になれば、次のゲームプレイでヘビがさらに高いレベルに到達することを意味します。これが成功し、実際により高いレベルに到達すれば、より多くのデータが得られることを意味します。
もうループを理解しましたね。より多くのデータがより良い結果を生成し、より良い結果がより良いプレイを生成し、より良いプレイがより良い結果を生成し、ヘビゲームのスーパープレイヤーを生成します。まさにAIが自分自身と対戦できるからです。
素晴らしい、この件が気に入りました。今年中にゲーム革命があるか、2026年まで待つことになるか、コメントしてください。
チャンネルをサポートして、このような動画を見続けたい場合は、メンバーになってください。メンバーはエージェント専用動画と先行公開動画にアクセスできます。それでは、いいねを押してください。ありがとうございました。


コメント