
5,825 文字

イーロン・マスクのAGI(汎用人工知能)に関する予測から始めましょう。マスクは時期や予測に関してはあまり正確とは言えない人物ですが、多くの人々がAGIの実現は2026年までという一般的なタイムラインだと考えているようです。皆さんはどう思いますか?2026年までというのは正確だと思いますか?
次に、ヒューマノイドロボットの話題に移りましょう。フィギュアロボティクスのCEOであるブレット・アドコックが新しいビデオアップデートを公開しました。その内容は驚くべきものでした。これらはBMW工場で稼働しているフィギュアO2ロボットで、動きの速さと精度が大幅に向上しています。ブレットによると、フィギュア2は現在、自律型フリートとして400%速く、成功率は7倍高くなっているとのことです。
実際のBMW工場で働くフィギュアロボットの様子をご覧ください。3台のロボット全ての動きを正確に見ることができます。とても素晴らしい出来栄えだと思います。明らかにこの映像は早送りされていますが、これらは現在、現場で実際に稼働しているロボットです。ロボットの動作速度を大幅に向上させることに成功したことは明らかです。
ロボットの速度には、使用しているハードウェア、アクチュエーターなどに基づく物理的な制限があるだけでなく、安全上の制限もあります。なぜなら、速すぎる動きは何か間違いがあった場合に非常にコストがかかるからです。これは本当に素晴らしいと思います。以前も言いましたが、私は自宅で家事をしたり手伝ってくれるヒューマノイドロボットを持つ日が待ち遠しいです。そのような未来に向けて準備ができています。
ここで少し、新しい懸賞についてお知らせしたいと思います。Dellの34インチUltrasharpモニターをプレゼントします。DellとNVIDIAが提供してくれたものを、皆さんにプレゼントします。必要なのは、Forward Futureニュースレターを購読し、下のリンクから懸賞に応募するだけです。今回の懸賞は北米限定ですが、将来的には変更するかもしれません。
最新のAIニュースを常にキャッチアップし、AIトピックスの深い考察を得て、トレンドの最先端に立ちたい方は、ぜひForward Futureニュースレターをチェックしてください。そして今なら、購読する理由がさらに増えました。
ロボットの話題から、次はテキストから画像を生成するモデルの話題に移りましょう。ブラックフォレストラボが新しいツールをリリースしました。彼らの投稿によると、「Flux.1ツールスイートのリリースを発表できることを嬉しく思います。これは、ベースとなるテキストから画像生成モデルであるFlux.1に制御性とステアリング性を追加し、実際の画像や生成された画像の変更と再作成を可能にする一連のモデルです」とのことです。
これは、一から画像を作成するだけでなく、画像を編集できることを意味します。そして覚えておいてほしいのは、Fluxはオープンソースなので、ダウンロードして自分のコンピュータで試すことができ、また多くの異なるモデルプロバイダーのテキストから画像生成機能を支えているということです。例えば、MissTWやGroもFluxを使用していると思われます。
最初にリリースされるツールは、Flux.1 FILです。これは最先端のインペインティングとアウトペインティングのモデルで、テキストの説明とバイナリマスクを使って、実際の画像や生成された画像の編集と拡張を可能にします。例として、誰かの目の小さな画像があり、それを拡張して顔全体を得ることができます。
次に、Flux.1デプスモデルがあります。これは入力画像とテキストプロンプトから抽出された深度マップに基づく構造的なガイダンスを可能にするように訓練されています。画像から深度を抽出できることがわかります。
Flux.1キャニーモデルは、入力画像とテキストプロンプトから抽出されたキャニーエッジに基づく構造的なガイダンスを可能にするように訓練されています。猫の顔の輪郭や着ている服など、すべてのエッジを見ることができます。
最後に、Flux.1 Reduxは、入力画像とテキストプロンプトを混ぜ合わせて再作成することを可能にするアダプターです。ここでは、元のカートゥーン風のアヒルがあり、それが棚の上の細かいガラス彫刻、シンプルな3Dモデル、机の上の実際のアヒル、そして雲を飛び交う壮大なアニメアートとして表現されています。本当に素晴らしいです。
私はまだFluxの完全なチュートリアルを作成していません。コメントで見たい方は教えてください。これらすべてはオープンソースで、現在Hugging Faceで利用可能です。
テキストから画像の話題から、今度は大規模言語モデルに移りましょう。Quenは最近急速な進歩を遂げており、現在コンテキストウィンドウを100万トークンに拡張し、さらにそれらの100万トークンの推論速度を大幅に向上させました。そして今日、彼らはQuen 2.5 Turboを発表しました。
128Kから100万トークン(約100万の英単語に相当)のコンテキストウィンドウに拡張され、それらの100万トークンからの情報検索で100%の精度を達成しています。また、100万トークンの推論速度が約5分から68秒に短縮され、4.3倍のスピードアップを実現しました。しかも、コストは同じままです。
次にテキストから音声の話題です。11 Labsが会話エージェントの作成を可能にしました。11 Labsは音声のクローン作成やAIによる音声作成を可能にするサービスです。TechCrunchの記事によると、ユーザーは11 Labsの開発者プラットフォームで、声のトーンや応答の長さなどのカスタマイズ可能な変数を持つ完全な会話エージェントを構築できるようになりました。
ユーザーは、会話ボットを動かすために、ファイル、URL、またはテキストブロックなど、自分の知識ベースを追加できます。さらに、ボットに独自のカスタムLLMを組み込むこともできます。ChatGPTのアドバンスドボイスモードを、LLMと11 Labsの新しいボットを組み合わせて簡単に再現できるでしょう。ぜひチェックしてみてください。
次に、過去10年以上にわたって大人気のゲーム、ポケモンGOを手がける会社が、ユーザーから収集したすべてのデータを使用して地理空間AIモデルを公開したようです。おそらくポケモンGOプレイヤーはそのようなことが行われるとは思っていなかったでしょうが、それがゲームをプレイする代償というわけです。
The Vergeの記事によると、ポケモンGOとIngressからの世界のスキャンデータが、ChatGPTがテキストを生成するように世界をナビゲートすることを目指すNianticのAIモデルの基盤となっています。地理空間モデルは少数しかなく、テスラは自社の自動車からのすべての映像データを持っているため、主要企業の一つです。
しかし、もちろん今や誰もがポケモンGOで写真やビデオを撮影しているため、そのゲームを手がける会社であるNianticは、モデルを訓練するためのすべてのデータを持っています。Nianticのブログ投稿によると、過去5年間、Nianticは視覚的位置決めシステムの構築に焦点を当ててきました。これは、電話からの単一の画像を使用して、ゲームやスキャンで人々が興味深い場所をスキャンして構築された3Dマップを使用して、その位置と方向を決定するものです。
彼らはそのすべてのデータで実際に何をするつもりなのでしょうか?おそらく売却するのでしょうが、誰にもわかりません。コメントで皆さんの考えを教えてください。
次に、Sunno V4がリリースされました。彼らのブログ投稿によると、「V4が到着しました。より良い音声、シャープな歌詞、よりダイナミックな曲構成で、想像できるあらゆる曲を作ることができるV4の導入を大変嬉しく思います。sun.comで今すぐお試しください」とのことです。
V4による新機能は以下の通りです:
リマスター:トラックをV4品質にアップグレード
歌詞:作詞のためのより高品質な歌詞
カバーアート:音楽の雰囲気に合わせた新鮮なデザイン
このビデオを見てみましょう。(音楽が流れる)正直なところ、これは現在のどのポップソングにもなり得ます。ビリー・アイリッシュの曲のように聞こえます。本当に素晴らしいですね。このチャンネルでは音楽生成についてあまり深く触れていません。私自身それほど興味がある分野ではないのですが、それでも非常に興味深いと思います。Matt VidPro AIがその完全なテストを行っていますので、ぜひ彼のチャンネルをチェックしてください。
次に、Geminiがアップデートを受けています。Geminiモデルで切実に不足していた機能の一つは、物事を記憶する能力でした。ChatGPTとの会話を考えてみると、将来の会話をより関連性の高いものにするために、あなたに関する重要な事柄を記憶して活用します。
そして今、Geminiも同じことができるようになりました。会話をする中で、コンテキストに基づいて、そして将来関連性があると思われる事柄に基づいて記憶を作成します。彼らの投稿によると、「本日からロールアウトを開始し、Gemini Advanceにあなたの興味や好みを記憶させ、より役立つ関連性の高い応答を得ることができます。共有した情報を簡単に表示、編集、削除でき、それがいつ使用されたかを確認することができます」とのことです。
簡単な注意点として、私たちはちょうどGeminiについて取り上げたばかりですが、それはLMISリーダーボードでトップに立ったからです。明らかに彼らは品質と機能セットで大きな進歩を遂げています。Geminiに関してGoogle、素晴らしい仕事ぶりです。
次は簡単なアップデートです。ChatGPTも取り残されてはいません。OpenAIから新機能のアップデートです。デスクトップでChatGPTを使用している場合、アドバンスドボイスモードが利用可能になりました。小さなアップデートですが、大歓迎です。
私自身はアドバンスドボイスモードをそれほど使用していません。実際、かなりバグが多く、自身の言葉を繰り返すことがありますが、時々使用すると楽しいです。しかし誤解しないでください。私は毎日一日中、ChatGPTとPerplexityを使用しています。小さなアップデートですが、よくやりました。
次に、ついにオープンソースの思考モデルが登場しました。思考とは、テストタイム計算のことを指します。つまり、このモデルは考え、時間をかけ、反省し、思考の連鎖を行い、そして可能な限り最良の回答を提供できるということです。そして繰り返しになりますが、これはすべてオープンソースで、すべて無料で、Deep Seekによって提供されています。
私はすでにこれについての完全なビデオを作成したので、ここでは深く掘り下げませんが、オープンソースの思考モデル?はい、絶対にそうです。今すぐ無料で試すことができますが、まだダウンロードすることはできません。近日中に公開される予定とのことです。
LLMsの話題から離れて、今度はGoogle DeepMindからの大きなアップデートです。彼らはAlpha Cubitをリリースしました。これは量子コンピューティングにおけるエラーを予測する方法で、考えるだけでも信じられないようなものです。私はこれについて完全なツイートスレッドを書きました。リンクは下に貼っておきます。
要点を言えば、量子コンピューティングを実世界のアプリケーションで使用する際の最大の障壁の一つは、非常に敏感だということです。わずかなノイズでもエラーを引き起こしてしまいます。しかし、それらのエラーを正確に予測できれば、明らかにそれらを回避するか、少なくとも考慮に入れることができます。そしてそれこそがAlpha Cubitが約束することです。人工知能を使用して量子コンピュータ内のエラーを予測するのです。
これは、量子コンピュータを日常生活で見るために必要な最後のブレークスルーかもしれません。もちろん、量子コンピュータのロックを解除し、実際に世界のアプリケーションで使用できるようになることには、多くの結果が伴います。
このチャンネルでは量子についてあまり触れていません。なぜなら、必ずしも人工知能と重なるわけではないからです。しかし、私にとっては魅力的なトピックです。実際、IBMの量子部門の責任者とインタビューを行う予定です。IBMは、Googleと共に量子コンピュータの最前線にいる企業の一つです。そのインタビューは数週間以内に公開される予定ですので、ぜひチェックしてください。
量子からGPT-4.0への大きなアップデートです。これは非常に歓迎すべきもので、人々はこれがどれほど素晴らしいものになるか理解していないと思います。GPT-4.0が大きなアップデートを受け、文章作成能力が大幅に向上します。
彼らの投稿によると、「モデルのクリエイティブな文章作成能力が向上し、より自然で魅力的で、関連性と読みやすさを改善するためにカスタマイズされた文章が書けるようになりました。また、アップロードされたファイルの扱いも向上し、より深い洞察とより詳細な応答を提供できるようになりました」とのことです。
大規模言語モデルについて私が常に持っていた最大の不満の一つは、文章があまり上手くないということです。通常は非常に退屈で、多くの無駄な言葉を使用します。実際、Mattは「深く掘り下げることを楽しみにしています」と応答しましたが、これは大規模言語モデルが「掘り下げる(delve)」という言葉を必ず使用するという例です。
これが私たちが話している内容です。彼らは非常に繰り返しが多く、退屈です。今、これをテストできることを楽しみにしています。
今日はこれで終わりです。このビデオを楽しんでいただけたなら、いいねと購読をご検討ください。次回お会いしましょう。


コメント