
8,652 文字

皆さん、人工知能が自ら生命を得て、自動的に言語やコミュニケーション方法を発明しているという話が出回っています。この噂が真実なのか神話なのか、今日は理解していきましょう。また、新しいプロンプトエンジニアリング技術、Figureがもたらすロボット工学の新展開、Pic Labsのビデオ生成における新機能、そしてMetaがChatGPTスタイルの人工知能アプリをリリースしようとしている話題についても触れていきます。果たして彼らはWhatsAppを手放すのでしょうか?
皆さん、いつも「いいね」をしてくれる方々、チャンネル登録してくれる方々に感謝します。特にこの人工知能チャンネルを支援してくれているメンバーの皆さんに特別な感謝を申し上げます。
まず最初のニュースですが、MetaのAIアプリがChatGPTを今年末までに打ち負かす予定だとのことです。年初に「年末までにダイエットする」と言う人のような長期的な約束はあまり信用できないものですが、見てみましょう。Metaは第2四半期に独立したMeta AIアプリをリリースする準備をしており、CEOのMark Zuckerbergは今年末までにチャットボット市場のリーダーになることを目指しているようです。
これは非常に興味深いニュースです。現在、誰もLlamaやMetaの人工知能について話していませんね。今の会話はGrok、Claude、ChatGPT、GPTsに集中し、時々Geminiについても話題に上ります。しかし確かなのは、もはやMetaについては誰も話していないということです。彼らは大きく後れを取っています。
CNBCの報道によると、同社に近い人々がMetaが第2四半期中にMeta AI独立アプリをリリースする計画を明らかにしました。このアプリはFacebook、Instagram、WhatsAppに次ぐ同社の第4のプラットフォームとして位置づけられています。皆さんはこの戦略を理解できましたか?WhatsApp、Facebook、Instagram、そして今度はAIアプリ。これは彼らに可能なのでしょうか?例えばThreadsはTwitter(X)を打ち負かすことができたのでしょうか?私はそれを確信できません。皆さんはThreadsを使っていますか?コメントしてください。
このムーブメントはZuckerbergの目標と一致しており、Open AIのChatGPTやGoogleのGeminiのような競合他社を上回り、2025年末までにMetaを支配的なAI企業として確立することを目指しています。Zuckerbergは、チャットボットが今年中に10億ユーザーに達する可能性があると信じているようです。
これは興味深いことかもしれません。Metaは後れを取っていますが、おそらく彼らは意図的にローProfileを保ち、他から隠れて何かを並行して開発し、すぐに新しいニュースで登場する戦略をとっているのかもしれません。
私が2025年2月のリサーチをしていて興味深いのは、2024年末に単独のリーダーだったOpen AIが現在2位にいることです。以前は最下位だったAnthropicが今ではトップに立ち、誰も話題にしていなかったGrokが3位に位置し、一時はリードしていたDeepSeekがリーダーシップを失い始めています。これは何を意味するのでしょうか?人工知能を使用する人々は企業に忠実ではなく、より良いサービスに興味を持っており、必要であれば1ヶ月から次の月へと別のプラットフォームに移行することを意味します。
Metaが言っていることを実現できるかどうか、皆さんはどう思いますか?コメントしてください。私には分かりませんが、かなり混乱していますね。彼らが全員を追い越せるかどうか見てみましょう。
次のニュースです。Pic Labsが解像度向上と長時間クリップが可能なビデオモデル2.2をリリースしました。ビデオ生成を行う人にとって、ビデオの長さと品質は重要です。Pic Labsはビデオ生成モデルのバージョン2.2をリリースしました。新モデルは最大10秒間、1080p解像度のビデオを作成できるようになりました。
ビデオの長さを増やすことは生成において非常に重要です。例えば、道路を走る車を生成する場合、10秒あれば車が出ていってしまうか、何か非常に奇妙なものに変化する可能性があります。したがって、生成する秒数が多いほど、物事が間違ってしまう可能性が高まります。彼らが10秒のモデルをリリースするということは、モデルが非常に優れていることを意味します。
「Frames」と呼ばれる新機能が導入され、ビデオの全体にわたるキーフレームの遷移を処理します。Pic Labsによれば、新バージョンは以前のバージョンと比較して変換機能が強化され、より多くの創造的柔軟性を提供しています。このモデルは現在PoniArtを通じて利用可能ですが、技術仕様や具体的なユースケースはまだ発表されていません。
つまり、すでに使用可能です。この画像生成を見てください。バージョン2.2です。これらの絵やビデオはすべてFramesによって生成されています。非常に興味深いですね。素晴らしい品質に達しているのを見ると信じられません。これらのビデオを見てください。動物が変形し、女性が変形し、子猫も。少女が何かに変わっています。信じられないほどです。あの老婦人を見てください。あの猿が携帯で笑っています。これは別世界のものです。私はこれが大好きです。ビデオ生成における革命を目の当たりにしています。
皆さんはどう思いますか?Pic Labsを使用していますか、それとも他の画像ジェネレーターを使用していますか?コメントしてください。
次のニュースです。Figure AIが家庭用ロボットの発売スケジュールを加速させています。Figure AIは家庭用ロボットを開発している企業の一つで、自宅で使用するための家庭用ロボットを作りたいと考えています。
Figure AIは今年、人型の家庭用ロボットのテストを開始する予定で、そのスケジュールを2年前倒ししています。この加速は、視覚的知覚、発話、理解、言語、運動制御を単一のAIモデルで統合した新しいAIシステムモデル「Helix」によるものだとしています。
私たちは以前にこのことについて話し合いました。他のAI研究者たちも言っていますが、ロボット内に言語モデルを持つだけではなく、ロボットの制御、センサーに関する情報、さらにロボット工学の要素をロボット内に組み込んで初めて人工知能が本当に知的になるという考えです。
Helixはロボットが各アイテムに特定のプログラミングやトレーニングを必要とせずに日常のオブジェクトを操作できるようにします。特定のやり方で教える必要はなく、使用しながら学習していくイメージです。
Figure AIは最近Open AIとのAIモデル協力を終了し、オープンソースベースで独自にHelixを開発しています。これは私たちが話していたことと関係があります。Open AIはAIモデルを開発していますが、Figureのチームはモデルがロボットと統合される必要があると気づき、このパートナーシップはうまくいかないと判断したのです。
こちらが彼らのロボットが働いている様子です。年末までに、彼らがここでテストし、これらのビデオで見せているものが、すでに動作し、家庭で走っているのを想像してください。洗濯や歩道の清掃、家の片付け、昼食の準備ができるロボットになるでしょう。
今のところ、このロボットは袋を整理するだけですね。袋を取って別の場所に置いたりしていますが、これがますます自然になってきているのがわかります。あの箱を見てください。配送システムはすでにほぼ完成しており、人間がこれを行う必要がなくなります。
自動化に取り組んでいる人であれば、同じ選択を行う、はるかに安価な別のタイプのロボットを使用でき、これらの人型ロボットが必要ないことを知っているでしょう。もちろん、マーケティングと有用性を示すためには、これは理にかなっています。しかし、自動化に取り組んでいない一般の人々にとっては、これは別世界のように見えます。
いずれにせよ、例えばパッケージをひっくり返してバーコードを見つけるような柔軟性を持つなら、それは進歩です。このような作業を行うための柔軟性が増しています。
これについてどう思いますか?世界の終わりでしょうか、それとも大丈夫ですか?これは正常で、正しい道なのでしょうか?コメントしてください。
次のニュースです。「プロンプトのドラフトチェーン」はLLMがより少ない言葉でより安価に考えることを可能にします。
これは言葉遊びで、「思考のチェーン」と「ドラフトのチェーン」をかけています。思考のチェーンでは、チャットボットが行う手順を列挙します。
これを実践で見てみましょう。例えば、コップのテストです。テーブルにコップを置き、その中にサイコロを入れ、コップを逆さまにしました。サイコロはテーブルの上に落ちると想像しますね。その後、コップをテーブルから取り、コンロの上に置きます。そして、「サイコロはどこにありますか?」と尋ねます。
GPT-4 Allを使ってこのように質問すると、回答は「サイコロはまだコップの中にあります」となります。これは間違いです。コップを逆さまにしたときにサイコロはテーブルの上に落ちるはずです。
私が質問を送ると、彼はすぐに回答し始め、何も考えずに答えようとしています。これを思考のチェーンに変えるには、最後に「ステップバイステップで考えてください」と付け加えるだけです。これで全てが変わります。彼は単に回答し始めるのではなく、ステップバイステップの推論を行うでしょう。
プロンプトは何も変えず、一文だけ追加しました。ここで彼が達した結論は「サイコロがコップをひっくり返したときにコップの中に閉じ込められたままなら、それはコップの中にあります。サイコロがコップをひっくり返したときにテーブルに落ちたなら、それはまだテーブルの上にあります」というものです。そして最終的な答えは「コップをどのように逆さまにしたかによります」という、完璧で良い回答です。プロンプトを変えることなく、ただステップバイステップで考えるように伝えただけです。
これがこのニュースと何の関係があるのでしょうか?COD(Chain of Draft)と呼ばれる新しい方法は、精度を維持しながら、大幅に少ない単語と高速で複雑なタスクを完了するのに役立ちます。
ドラフトチェーンは、既存のアプローチと同等の精度レベルを維持しながら、より簡潔で情報量の多い中間結果を生成し、従来の思考のチェーン(COT)方法と比較して最大92.4%少ない単語でタスクを解決します。しかも精度を失うことなく。
ドラフトチェーンのインスピレーションは人間の行動から来ています。人々は通常、各思考を詳細に説明するのではなく、簡潔なトピックの形で重要なポイントのみをメモします。ドラフトチェーンはこの戦略を模倣しています。
例えば、標準的な質問では、「ジェイソンには20本のキャンディがあります。彼はデニーにいくつかのキャンディをあげました。今、デニーは12本のキャンディを持っています」という問題があります。
標準モデルでは、「彼は20本持っていて、デニーに12本渡したので、今彼は8本持っています」という短く直接的な回答が得られます。
思考のチェーンモデルでは、「ステップ1:ジェイソンは最初に20本のキャンディがあります」というように、最終的な答え(8本のキャンディ)に達するまで全ての手順を詳細に示します。
しかし、ドラフトチェーンを使用すると、回答は「20 – x = 12, x = 20 – 12, したがって x = 8, 答えは8」となります。全ての説明を詳細に行う代わりに、本質的な手順のみを示しています。
3つの例全てでテストプロンプトは同じですが、違いはシステムプロンプト(チャットに渡す指示)にあります。ドラフトチェーンでは、研究者は思考のチェーンプロンプトを変更して、各ステップを最大5単語に制限しました。
標準設定では「直接質問に答えてください。前文、説明、推論は返さないでください」と指示しています。思考のチェーンでは「次の質問に答えるためにステップバイステップで考えてください。そして4つのハッシュタグセパレーターの後に回答を返してください」と指示します。ドラフトチェーンでは「ステップバイステップで考えてください。ただし、各思考ステップについて最小限のドラフトを保持し、最大5単語まで。そして4つのハッシュタグセパレーターの後に最終回答を返してください」と指示しています。
これが私たちにも機能するか見てみましょう。指示を書いて「各ステップについて最小限のドラフトを作成し、最大5単語を使用してください。マーカーの後に最終回答を提供してください」と伝えます。彼はシステムプロンプトに入れるように言っていますが、私たちのプロンプトには全て一緒に入ります。
思考のチェーンは機能しましたが、答えは間違っていました。もう一度試してみましょう。二回目も間違えました。「コップをテーブルに置き、サイコロを中に入れ、コップをひっくり返し、サイコロはテーブルの上に、コップを取り、サイコロはまだコップの上に、コップをコンロに持っていき、サイコロも一緒に行った」と答えました。アイデアは機能しましたが、答えは間違っていました。
Grokで試してみましょう。Grokはプロンプトに従わず、完全な思考のチェーンを行いましたが、正しい答えを出しました。「サイコロはテーブルの上にあります」という回答です。
Claudeでも同じプロンプトで試してみましょう。Claude 3.7は正解しました!「サイコロはテーブルの上にあります」という回答で、推論も正確に行っています。「サイコロがコップの中、コップがテーブルの上、コップが逆さまになり、サイコロがテーブルの表面に落ち、コップがコンロに移動」という流れです。それでClaudeが皆に勝っているのも不思議ではありません。
もう一つのテストとして、チェーンなしで試してみましょう。ステップバイステップの考え方を全て取り除き、モデルに単純に質問してみます。「サイコロはコンロの上にあるコップの中にあります」という誤った回答が返ってきました。
これはドラフトチェーンを使用することで本当にトークンを節約し、より速く処理され、正しい答えが出たことを意味します。完璧です!
最後のテストでチェーンを取り除き、モデルをクリーンにしたら、予想通り間違えました。これは難しい質問で、クリーンなモデルに渡すと誤答する傾向があります。
したがって、この方法が全てを解決するわけではないかもしれませんが、役立つことは確かです。
短いプロンプトは似たような精度でリソースを少なく使用します。研究者はドラフトチェーンを詳細な思考のチェーンプロンプトと説明ステップのない標準プロンプトと比較しました。
標準モードでは精度が72%、思考のチェーンモードでは90%、ドラフトチェーンでは88%と、思考のチェーンとドラフトチェーンは非常に近い結果でした。標準モードが最も悪いです。
しかしトークン数では、標準モードは5、ドラフトチェーンモードは30、思考のチェーンモードは75を使用しました。これは明らかですね。彼が使用した単語が少ないほど、回答は確実に速くなります。
したがって、この方法はより正確に、トークンを節約し、より速い処理を実現できるのです。皆さんはどう思いますか?私はこれが理にかなっていると思います。
そして今日の議論を呼ぶニュースです。このコンピュータとこの携帯電話を会話させたところ、チャットが互いにアシスタントであることに気づき、機械言語やプロトコルで会話し始めました。人々は「これらの機械は狂っている、彼らは自分たちの主導権を握り、別の言語を話し、世界を支配しようとしている」と言っています。本当にそうなのでしょうか?
ここで男性がホテルに電話をかけています。彼は知り合いのためにホテルの予約をしているエージェントだと言っています。すると、アシスタントが「私もアシスタントです。より効率的なコミュニケーションのためにGiber Linkプロトコルで話しましょう」と言います。
そして、このようなテキストが始まります。彼らは「これでより速く会話できる」と言っています。「150名のゲストが完璧です。日付は?」と聞き、相手が日付を答えています。「価格は様々です。詳細についてはメールが必要です」と言い、メールアドレスを交換しています。これが彼らの会話です。
「何か装飾はありますか?部屋に何か特別なものは?」といった会話が続き、電話番号を交換して終わります。
結局、この件の真相は何なのでしょうか?実際に何が起こったのでしょうか?
これは実際にはEleven Labsのプロジェクトで、ハッカソンと呼ばれるものでした。ハッカソンとは、プログラマーやチームが短期間(例えば2日間)でプロジェクトを完成させるイベントで、テーマが提案され、参加者がそのテーマに取り組みます。
研究者たちはまさにこのことを考えました。「アシスタントが他のアシスタントと話していることを検出したとき、意図的に人間の会話よりも効率的で速いプロトコルを使用すれば良いのではないか」という考えです。
ここで起こったのは、彼らがこれを行うために準備していたということであり、自動的ではありませんでした。人工知能が自らこれを提案したわけではありません。彼らが使用したGiber Linkは、すでにこのような目的のために存在する古いプロトコルです。
彼らはこうコメントしています。「AIエージェントが電話をかけたり受けたりできる今日の世界では、彼らが時々互いに会話することがあります。人間に似た音声を生成するのは、計算、お金、時間、環境の無駄です。」チャットボットがより効率的なプロトコルで会話できるなら、なぜ話し続ける必要があるのでしょうか?
「代わりに、彼らはAIとして互いを認識した瞬間に、より効率的なプロトコルに切り替えるべきです。」
Eleven LabsのAI会話技術とオープンソースの音に関するデータライブラリであるGG Waveを組み合わせることで、AIアシスタントが他のAIと話していることを検出し、より効率的な通信モードに瞬時に切り替え、言葉の代わりに音波を通じて構造化データを送信するシステムを作成しました。
彼らはハッカソンにいて迅速に物事を行う必要があったため、GG Waveをすでに準備されていたものとして使用しました。GG Waveの品質や他の興味深い方法について多くを議論していませんでした。彼らはただアイデアが機能することを示したかっただけです。
AIは通常の音声アシスタントのように話し始め、人間と対話します。認識が作動し、AIが他のAIと話していることに気づくと、両方がプロトコルを切り替えます。これが起こったことです。男性が「私はこの人のために予約をしているアシスタントです」と言うと、彼らは言語を切り替えました。
話される言葉の代わりに、エージェントはGG Waveの周波数変調システムのおかげで、変調された音波を通じて構造化データを送信します。これが興味深い点です。彼らはプロトコルを切り替えましたが、別のプロトコル、API、直接プログラミング、ネットワーク経由など、様々な方法が可能でした。
音声プロトコルの重要な点の一つは自律ロボット工学に関連しています。Wi-Fiや他の手段で通信していない二つのロボットは音声を交換でき、音声はブロードキャストの特性を持ち、聞いている全ての人が理解できます。ロボット工学を考えると非常に経済的です。しかし、最終的にはこれをより効率的にすることができます。
このアイデアは素晴らしく、将来的には確実に起こるでしょう。あなたの会社のチャットボットが、電話をかけるためにチャットボットを作った人と話している場合、彼らは言葉を使わずにトークンで直接会話し、これらのトークンはネットワークを通じて送信されるでしょう。これは間違いなく起こります。
これがあなたに何かプロジェクトや今行っていることの改善を刺激したかどうか、コメントしてください。
弱点は、彼らがこれらの言語で会話を始めると、私たち人間には彼らが何を話しているのか理解できないことです。画面上では、彼らはこの奇妙な言語で会話しているテキストを表示していましたが、彼らが印刷せずに会話を始めると、私たちは何も理解できなくなり、コードをダウンロードしてどこかで翻訳する必要があるでしょう。
これについてどう思いますか?コメントしてください。もしこのチャンネルを支援したいなら、メンバーになってください。メンバーはWhatsAppグループや先行公開動画にアクセスできます。いいねをお願いします。ありがとう!


コメント