AIがまた衝撃! クロードとアレクサ、賢くなるロボット、OpenAI ASI、Llama 3.2など (9月のニュース)

AIに仕事を奪われたい
この記事は約99分で読めます。

58,823 文字

AI Shocks Again: Claude & Alexa, Smarter Robots, OpenAI ASI, Llama 3.2 & More (September News)
AI has made some major moves this month, and you're about to find out why. From Alexa turning into Claude AI, to Google'...

ほな、AIが今月も大きな動きをしとるっちゅうことを、これから聞いてもらうで。アレクサがクロードAIに変わるとか、グーグルのディープマインドAIが科学者が何年もかかるようなことを数分でやってのけるとか、動くたびに賢くなるロボットとかな。AIの進化は止まらへんで。
OpenAIの最新の作品、早期リリースのストロベリーや強力なGPT nextは、みんなの度肝を抜いてもうたわ。スナップのAI動画ジェネレーターやメガネみたいな新しいAIツールも出てきとるし、学習する個人用ロボットのアイザックも登場して、レベルアップしとるんや。
サム・オルトマンの次の大きなAIデバイスとか、グーグルのミス修正AIとか、Llama 3.2とOpenAIモデルの最新の競争とかもあるで。ほな、全部まとめて見ていこか。
アマゾンがアレクサに大きな変更を加えとんねん。自社のAIをアンスロピック社のAIモデル、クロードに置き換えるんや。この新しいリマーカブル・アレクサは、より高度な自然な会話ができるようになるらしいで。でも、ちょっとびっくりするようなこともあるみたいやな。これがスマートアシスタントの次の大きな一歩になるんか、それともアマゾンの大博打になるんか、今日の動画で議論して見ていこか。
ほな、アマゾンはこの改良版アレクサを社内で「リマーカブル・アレクサ」とか「プロジェクト・バニヤン」とか呼んで、しばらく開発してたんやて。最初は自社のAI技術を使う予定やったんやけど、テスト段階でうまくいかへんかったらしいわ。ロイターによると、アマゾンの社内AIがユーザーのプロンプトに素早く応答するのに苦労しとったんや。時には6〜7秒もラグがあったらしいで。
今のスピード重視の世界では、チャットGPTやグーグルアシスタントみたいな即時レスポンスに慣れてもうてるから、そんなんじゃあかんのや。そこでアマゾンは方針を変えて、アンスロピックのAIモデルを使うことにしたんや。アンスロピックいうのは、サンフランシスコにあるAI研究会社で、元OpenAIの人らが立ち上げたとこやねん。
アンスロピックのAIモデル、特にクロードモデルは、文脈理解力と自然な人間らしい会話力に優れとるんや。そして、肝心のテストでアマゾン自前のAIよりずっと良い成績を出したらしいわ。アマゾンはアンスロピックに40億ドルも投資しとるから、クロードの技術を新しいアレクサに採用したんも納得やな。
ほな、この新しいリマーカブル・アレクサが実際何ができるんか、見ていこか。アマゾンによると、この改良版は今のアレクサよりずっと高度になるらしいで。もっと複雑で文脈を理解した会話ができるようになるんや。例えば、バリのビーチ旅行に持っていく服のアドバイスを求めたり、特定の興味に基づいてニュース記事をまとめたりできるんやて。
また、アレクサは1回の指示で複数のステップがある複雑なタスクもこなせるようになるんや。「アレクサ、ピザを注文して、上司にメールの下書きをして、歯医者の予約のリマインダーを設定して」言うたら、全部やってくれるんや。
でもな、ここにちょっとした落とし穴があんねん。アマゾンはこの改良版アレクサを有料サブスクリプションサービスとして提供する予定なんや。今まで無料で使えとったクラシックなアレクサと違って、リマーカブル・アレクサは月額5〜10ドルくらいかかるんやて。しかも、これはアマゾンプライムの会員特典じゃなくて、別途料金がかかるんや。
アマゾンはこの新しいAI機能が料金に見合うと踏んどるんやろうけど、ちょっとリスキーな賭けやと思うで。今まで無料やったものにお金を払ってもらうのは、いつだって難しいからな。アマゾン社内でも、顧客がこれに乗ってくるか疑問視する声もあるらしいわ。特に、プライム会員費で年間139ドル払うとる人らに、さらに追加料金を払わせるのは厳しいんちゃうかって話や。
ほな、なんでアマゾンが今このタイミングでこんなことしとんのかというと、結局のところ金とライバルとの競争やねん。アレクサは人気あるし、アマゾンは5億台以上のアレクサ対応デバイスを売ったって言うとるけど、音声アシスタント部門があんまり儲かってへんのや。会社の幹部らは、アレクサをもっと儲かるようにせえって言うてきとって、2024年をアレクサの価値を証明する重要な年やと見とるんや。
有料版のアレクサを提供することで、今までコストばっかりかかっとったアレクサを収益を生み出すマシーンに変えられるって考えとんねん。アクティブなアレクサユーザーが約1億人おるから、そのうちの10%が有料版に切り替えたとしても、最低でも年間6億ドルの収益になるんや。これは月額5ドルの下限で計算しとるからな。
アンスロピックと提携するのは、アマゾンにとってちょっと珍しい戦略なんや。普通、アマゾンは自前の技術を一から作るのが好きなんよ。そうすると、ユーザー体験やデータ収集を完全にコントロールできるからな。でも、マイクロソフトやアップルがOpenAIと組んでチャットGPTを自社製品に組み込んどるのを見て、アマゾンもプレッシャーを感じたんやろな。追いつかなあかんって思ったんや。
これは見た目を取り繕うだけやのうて、AIレースが加熱しとるってことやねん。各社が最も高度で直感的で、正直言うて最も人間らしいAIアシスタントを提供しようと必死なんや。去年のチャットGPTのリリースで、人々が単純なコマンドやのうて、もっと自然な会話ができるAIを求めとるってことが明らかになったからな。だから、アマゾンも他の企業と同じように、取り残されんようにしとるんや。
ほな、この新しいアレクサに期待できることをもうちょっと見ていこか。まず、他のスマートホームデバイスとの連携や、ユーザーの好みを覚える能力が格段に向上するらしいで。ちょうど、あんたの癖や習慣を全部知っとる執事みたいなもんやな。例えば、夜はライトを特定の明るさに調整したいとか、毎朝7時きっかりにコーヒーメーカーを起動させたいとか、そういうのを全部スムーズに管理してくれるんや。
子どもがおる家庭向けの特別な機能もあるらしいで。新しいAIは子どもとより意味のある交流ができるようになるんやて。宿題を手伝ったり、教育的なゲームをしたり、今までよりもっとインタラクティブな寝る前の物語を語ったりできるんや。
でもな、ちょっと心配な面もあんねん。より高度なAIモデルを使うってことは、より機密性の高い情報を扱うかもしれへんってことやからな。そのデータがどう使われて、保存されて、共有されるんかについて、みんな心配しとるんや。アマゾンはまだ詳しいことは言うてへんけど、これは要注意やな。
アレクサだけやのうて、アマゾンは他のAIプロジェクトも進めとるで。Amazon Qっちゅう社内用AIアシスタントの開発もしとるんや。これはあんまり表に出てへんけど、社内のソフトウェア開発を効率化するためのツールなんや。すごいのは、このAmazon Qが会社に2億6000万ドルと4500人年分の開発者の時間を節約したらしいねん。
どないしてそんなことができたんかって? 開発者が普段やっとる繰り返し作業の多くを自動化したんや。例えば、システムを新しいバージョンのJavaにアップグレードするのに、今まで50日もかかっとったのが、数時間で済むようになったんやて。これ、生産性と効率性のめっちゃ大きな向上やで。開発者らはもっと複雑で創造的なタスクに集中できるようになったんや。
それだけやのうて、アマゾンはAIロボット工学の分野でも動きがあんねん。最近、コヴァリアントっちゅうロボットのスタートアップの創業者らを雇ったんや。このコヴァリアントは、倉庫でよくある作業をこなすロボットアームの開発なんかをしとるんやけど、すごいのは「ロボット用の大規模言語モデル」を開発しとるとこなんや。簡単に言うと、ロボットがより直感的で機械的やのうてコマンドを理解して実行できるように教えとるんや。
アマゾンはこの技術を推し進めるために、本気で頭脳を集めとるで。コヴァリアントの創業者らだけやのうて、従業員の4分の1くらいもアマゾンに移ってきとるんや。彼らは今、アマゾンの既存のロボット群にこの技術を組み込んで、倉庫作業をもっと効率的にしようとしとるんやで。
ほなら、アマゾンがAIにガッツリ力入れとるのは明らかやな。アンスロピックのクロードAIでアレクサを改良したり、Amazon Qで社内プロセスを強化したり、ロボット工学にも力入れたり。全部、AIを使ってサービスをもっとスマートに、速く、統合的にしようとしとるんや。
これは私らユーザーにとっても、日常生活でもっとAIを目にするようになるってことやな。スマートな音声アシスタントとか、もっと自動化された家とか、アマゾンみたいな企業からのより良くて速いサービスとかな。テクノロジーにとってはワクワクする時代やけど、これらの技術がどう発展してるか、私らのプライバシーや仕事、日々の生活にどんな影響があるんか、よく見とかなあかんな。
ほな、みんなはどう思う? より高度なアレクサのために追加料金を払う気あるか? それとも、アマゾンはアレクサを無料のままにして、他の方法で収益を上げるべきやと思う?
AIがタンパク質の相互作用を予測するだけやのうて、新しいタンパク質を作って、コロナや癌と戦えるようになったらどうや? この動画では、アルファプロテオとオーブっちゅう2つの画期的なAIシステムを見ていくで。これらは薬の発見から材料科学まで、全てを作り変えようとしとるんや。
ほな、始める前に、チャンネル登録してな。最新のAIトレンドとアップデートを逃さへんようにできるで。
さて、タンパク質は体の働き者みたいなもんやって知っとるか? 細胞の成長を助けたり、免疫システムを維持したりと、ほとんど全ての生物学的プロセスの中心にあんねん。でもな、これらのタンパク質は単独で仕事してへんのや。他のタンパク質と相互作用しとるんや。鍵と鍵穴みたいなもんやな。1つのタンパク質が別のタンパク質と結合して、それで細胞内の重要な機能が全部起こるんや。
アルファフォールドのおかげで、タンパク質の相互作用についてはかなり理解が進んどるんや。アルファフォールドはこれらの相互作用がどんな感じかを予測するのに役立っとって、科学にとってめっちゃ大きな進歩やったんや。
でもな、ここがミソなんや。アルファフォールドはタンパク質の結合の仕方を解明するのはめっちゃ上手いけど、これらの相互作用を操作したり影響を与えたりする新しいタンパク質は作れへんのや。そこで本当の魔法が起こるんやで。
ほな、アルファプロテオの登場や。これがグーグル・ディープマインドの新しいAIシステムで、今日話すメインやねん。これは単に相互作用を予測するだけやのうて、特定の標的分子と結合できる全く新しいタンパク質をデザインできるんや。なんでそれが重要かって? これらのデザインされたタンパク質、バインダーって呼ばれとるけど、あらゆる種類の研究を加速させられんねん。薬の発見から病気のメカニズム解明、害虫に強い作物の開発まで、幅広く使えるんや。
ちょっと詳しく説明したるわ。例えば、コロナウイルスを引き起こすウイルスタンパク質にしっかり結合するタンパク質を作りたいとするやろ? これ、簡単やないで。従来の方法やと時間かかるし、実験室でバインダーを作って、テストして、最適化して、またテストしてってな具合に、ほんま延々と試行錯誤の繰り返しなんや。
でもな、アルファプロテオを使えば、めっちゃ近道ができるんや。このAIシステムは大量のタンパク質データで訓練されとるんや。タンパク質データバンクのデータと、アルファフォールドで予測された1億以上の構造データを学習しとるからな。だからタンパク質の相互作用についてはめっちゃ詳しいんや。
アルファプロテオに標的タンパク質の構造を与えて、どこに結合させたいか教えたら、その標的にほぼ完璧にフィットするバインダータンパク質をデザインしてくれんねん。これはまるで鍵の設計図を渡して、完璧な鍵を作ってもらうようなもんや。しかも、あらゆる種類のタンパク質に対応できるんや。がんに関連するタンパク質、SARSコロナウイルス2のタンパク質(そう、あのロックダウン時代のコロナウイルスや)、自己免疫疾患に関連するタンパク質なんかにも使えるんや。
今んとこ、結果はめっちゃ凄いで。アルファプロテオは7種類の異なる標的タンパク質に対してバインダーを生成したんや。そして、これがすごいんやけど、実験室でテストしたら、AIがデザインしたバインダーがバッチリ機能したんや。今まであった最高の方法と比べて、3〜300倍も結合強度が高かったんやで。めっちゃすごいやろ?
例えば、VEGFAっちゅうがんと糖尿病合併症に関連するタンパク質があんねん。初めてAIシステム、つまりアルファプロテオが、VEGFAにうまく結合するタンパク質バインダーをデザインできたんや。実際、BHRF1にも成功裏に結合したんやで。そして、これがすごいんやけど、アルファプロテオのバインダーは平均して、今までの最高のデザインの10倍も強く結合するんや。
一番注目されとった標的の1つが、SARSコロナウイルス2のスパイクタンパク質やったんや。これは、ウイルスが細胞に侵入するのを助けるあのスパイクやで。アルファプロテオはこれも見事にやってのけたんや。このスパイクタンパク質用のバインダーをデザインしただけやのうて、フランシス・クリック研究所みたいな一流の研究グループがテストして、バインダーが本物やって確認したんや。これらのバインダーは、ウイルスとその変異株が細胞に感染するのを阻止することさえできたんやで。だから、ウイルス予防に役立つ可能性があんねん。
もちろん、この技術はまだ完璧やないで。例えば、アルファプロテオはTNFαっちゅう関節リウマチなんかの自己免疫疾患に関連するタンパク質には、うまくバインダーをデザインできへんかったんや。でも、正直言うて、TNFαは難しいことで有名なんや。チームがわざと限界をテストするために選んだくらいやからな。だから、全然悪いニュースやないんや。むしろ、システムを改良しようとしてるって証拠やねん。
強い結合は重要やけど、これらのタンパク質を実際に薬のデザインなんかに使うには、まだまだやることがあんねん。でも、アルファプロテオは既に一番難しい部分をクリアしとるんや。
アルファプロテオの開発チームは、このシステムをもっと良くするために、世界中の科学者らと協力しとるで。そして、バイオセキュリティについても真剣に考えとるんや。つまり、この強力な技術が治療法の開発や環境浄化みたいな良いことに使われて、変なことに使われへんようにしとんねん。
もし、これがどこに向かっとんのか気になるなら、既に核脅威イニシアチブみたいな団体と組んで、ベストプラクティスを設定しとるで。だから、技術は進化しとるけど、注意深く進めとるんやで。これは正直ほっとするわ。
将来的には、アイソモーフィック・ラボっちゅう会社と組んで、薬のデザインへの応用も探っとるし、アルゴリズムを改良してシステムをもっと強力で多用途にするためにも積極的に取り組んどるで。しかも、これを真空の中でやっとるんやのうて、機械学習や生化学、構造生物学の専門家らと協力しながらやっとんねん。
だから、タンパク質デザインの未来はめっちゃワクワクするもんになりそうやで。
ほな、もう1つ、俺がマジで興奮しとるもんがあんねん。これも先端材料のAIとマテリアルサイエンスにおける大きなブレイクスルーなんや。オーブっちゅう、先端材料をシミュレーションするための最新最高のAIモデルの話や。オープンソースで、めっちゃ速くて、グーグルやマイクロソフトみたいな大手を置いてけぼりにしとんねん。AIやエネルギー、最先端技術に興味あるなら、これ絶対好きになるで。
ほな、詳しく説明したるわ。例えば、あんたがより良いバッテリーや太陽電池パネルの材料を研究しとる科学者やとしよか。これらはエネルギー転換に欠かせへんもんやろ? ほな、こういう超効率的な材料をデザインするには、原子レベルで何が起こっとるかを正確に知る必要があんねん。原子や分子がどう相互作用しとるか、どんな特性が特定の材料をよりエネルギーを伝導しやすくしとるか、どうすればそれをもっと効率的にできるかとかな。
でもな、ここが難しいとこなんや。これらの材料の中で実際に何が起こっとるかを見たり、シミュレーションしたりするのは、めちゃくちゃ難しいんや。従来の方法やと、遅いし、コストかかるし、しかも単純化しすぎて正確な結果が得られへんことが多いんや。4Kの動画をダイヤルアップ回線で見ようとするようなもんやで。絶対無理やろ?
そこでAIの出番なんや。AIを使えば、これらの材料をもっと詳細に、しかも永遠に待たされることなく見ることができるんや。これで、オーブの話に繋がんねん。オービタルっちゅう会社が作ったこのモデルは、原子レベルの材料シミュレーションを、今あるどんなものよりも速く、正確にできるように設計されとんねん。
そして、これがすごいんやけど、大規模シミュレーションでは、今まであった最高のモデルの5倍も速いんや。これはめっちゃ大きな飛躍やで。しかも、適当なモデルと比べとるんやのうて、精度とスピードの面でグーグルやマイクロソフトのモデルを上回っとるんや。
さらにワクワクするのは、オープンソースにしたことや。そうや、非商用利用やスタートアップなら無料で使えんねん。新しい材料を開発したい人なら誰でも、このテクノロジーを使えるんや。今すぐGitHubに行けば、技術的な詳細が全部見られるで。
ちょっと止まって、これがなんでそんなに重要なんか説明したるわ。今、再生可能エネルギーへの大きな転換の真っ只中にあるやろ? そこで材料が重要になってくんねん。電気自動車のバッテリーでも、家庭用太陽光パネルでも、ほぼ全てのテクノロジーに使われる半導体でもな。使う材料をもっと良く、効率的で、長持ちするようにせなあかんのや。そして、これらの材料をより速くシミュレーションしてデザインできれば、それだけ早く現実のものにできるんや。オーブは、そのプロセスを大きく加速させるツールなんや。
オーブがどうやってできたんか気になるやろ? 全ては、さっき言うたライナスっちゅう基礎モデルに繋がるんや。オービタルのチームは、ライナスを一から訓練して洗練させてきたんや。オーブは、いわばライナスをステロイド打ったみたいなもんで、特に先端材料のシミュレーション用に調整されとんねん。技術的な詳細が知りたかったら、彼らのブログに全部説明があるで。もっと詳しい情報もすぐに出てくるらしいで。
ほな、これは適当な新しいAIモデルやのうて、長い間かけて作り上げてきたもんなんや。そして、ちょっと待って、この背後にいるチームのすごさを褒めたたえなあかんで。これは無限のリソースを持つ巨大テック企業の仕事やのうて、小さくてまとまりのあるグループが、AIの最大手らと競争しとんねん。グーグルやマイクロソフトなんかとな。これは、巨人だけが大きな動きができる時代でも、やる気のあるスタートアップがまだトップに立てるって証拠やで。
ほな、まとめるで。オーブ、つまり先端材料シミュレーション用の最速・最高精度のAIモデルが出てきて、非商用目的なら無料で使えるんや。これがどうなっていくか、俺はめっちゃ楽しみやで。
いつも通り、コメント欄に思うとこ書いてな。みんなも俺と同じくらいこれに興奮しとるか?
高度なAIを搭載して、動くたびに学習するこのマシンは、重量物の持ち上げから繊細な作業まで、なんでもこなせるように作られとんねん。リアルタイムで適応する能力は、産業界の仕事のやり方を変えて、もっとスムーズでスマートにしとるんや。
ほな、プドゥD7の真の力について話そか。このサービスロボットは目的を持って、実用性を重視して設計されとんねん。半人型ロボットっちゅうんやけど、完全に人間の姿をしとるわけやないけど、人型デザインの便利な特徴をいくつか取り入れとんねん。このロボットは、効率性、適応性、知能性を重視しとって、小売、ホスピタリティ、ヘルスケアみたいな産業に自動化が浸透していくにつれて、ますます一般的になっていくやろうな。
プドゥD7は身長1.65メートル(5フィート4インチ)で、重さは約45キロ(100ポンド)くらいやねん。デザインの特徴は上半身にあって、人間の胴体と腕に似た形をしとって、移動用の車輪付きベースがついとんねん。この車輪がただの飾りやないってとこが重要やで。どの方向にも高精度で動けるようになっとんねん。この全方向移動ベースのおかげで、D7は込み入った環境、例えば忙しいキッチンや病院の廊下みたいな狭いスペースでも上手く動き回れるんや。
最高速度は秒速2メートル、時速にすると約7.2キロメートルくらいやな。これやと、レストランや公共の場所での人間の活動のペースに合わせられて、遅すぎず邪魔にもならへんちょうどええ速さなんや。
プドゥD7の一番注目すべき特徴は腕やな。各腕には30の自由度があって、動きの自由度がめっちゃ高いんや。これ、様々なタスクをこなすのに重要なんやで。腕の長さは約65センチくらいで、あんまり長くないように聞こえるかもしれんけど、ほとんどのサービス環境では十分な長さなんや。
さらに面白いのは、この腕が固定されてへんってことやねん。タスクによって、人間の手みたいな違うアタッチメントをつけられるんや。最も高度な設定では、ロボットの人型の手に20の自由度があるんやて。これのおかげで、物を拾ったり、物と相互作用したりするのに、めっちゃ器用になるんや。単純なロボットじゃできへんようなことができるようになんねん。
普通のサービスロボットと半人型ロボットを分けとるのは、D7に詰め込まれとる知能のレベルなんや。プドゥ・ロボティクスは、D7に多層的な知能システムを組み込んどんねん。データ駆動型の知能と高度なAIモデルを組み合わせて、複雑なシナリオに対応できるようにしとんねん。
ちょっと考えてみてな。これが実際どういう意味を持つか。D7は単にプログラムされた指示に従うだけやのうて、時間とともに学習して改善していくんや。レストランで料理を提供するとか、病院で物を運ぶとか、そういう相互作用の1つ1つが記録されて、意思決定プロセスを洗練させるのに使われんねん。ロボットは周りの環境を理解するだけやのうて、それに適応して、動くにつれてどんどん賢くなっていくんや。
プドゥ・ロボティクスは、実際の環境での実用性を重視してこのシステムを開発したんやで。例えば、小売店を考えてみてな。特殊なロボットは棚の在庫補充や客の挨拶には優れとるかもしれんけど、予期せぬ状況にはうまく対応できへんのや。プドゥD7はそのギャップを埋めるために設計されとんねん。単純なタスク特化型ロボットと、まだめっちゃ高価で実装が難しい完全人型ロボットの間を橋渡しするんや。
そういう意味で、D7は絶妙なバランスを取っとんねん。完全人型ロボットを作るような高いコストはかからへんけど、十分な適応性を提供しとるんや。
D7の腕は、それぞれ10キロまで持ち上げられるように作られとって、かなりの重量を扱えるんやけど、精度も失わへんのや。0.1ミリの精度があるから、壊れやすいものを拾ったり、小さな物を操作したりするような、正確さが求められるタスクもこなせるんや。この種の精度は、ヘルスケアや産業環境みたいな、ミスが高くつく可能性のある場所では特に重要やねん。
このロボットは単純なサービス業務だけやのうて、エレベーターの操作や商品の仕分けみたいな複雑なタスクもこなせるように設計されとんねん。人間とロボットの相互作用が不可欠な産業向けに作られとって、病院やレストランみたいな場所で、人とコミュニケーションを取りながら確実にタスクをこなす能力が重要になってくんねん。
そして、1キロワット時以上のバッテリーで動いとるから、8時間以上連続で稼働できんねん。この長時間バッテリーは、病院みたいな、ロボットが24時間体制で動き回る必要がある環境では特に重要やで。頻繁に充電のためにダウンタイムを取る必要がないからな。
D7のもう1つの技術的な強みは、高レベルと低レベルの制御計画を持っとることやねん。ここで知能システムが本当に輝くんや。高レベルの計画は、客にアプローチする最適な方法を考えたり、物を運ぶ戦略的なタスクを担当すんねん。一方、低レベルの計画は、物をつかむ力を調整したり、混雑した場所を移動する際に障害物を避けたりする、リアルタイムのアクションを扱うんや。
この階層的なシステムのおかげで、ロボットは広範な戦略的タスクと、詳細なリアルタイムのコマンドの両方に対応できんねん。これが、状況が急に変わる可能性があって、ロボットがその場で適応せなあかん環境で特に強力な理由なんや。
D7の移動能力も大きな売りやで。車輪は単に滑らかに直線移動するためやないんや。360度どの方向にも動けるようになっとんねん。これは、D7が体を物理的に回転させんでも、素早く方向転換できるってことやねん。狭い場所でもめっちゃ機敏に動けるんや。
10度までの斜面も対応できるように作られとって、汎用性がさらに高まっとんねん。平らなキッチンの床を移動するのも、傾斜路を上るのも、このロボットは安定性とバランスを保てるんや。
プドゥ・ロボティクスは、以前からサービスロボットを展開しとって、既に8万台以上のユニットをホスピタリティ、小売、ヘルスケアみたいな業界に出荷しとんねん。彼らのロボットは、食事の配達や清掃みたいな特殊なタスクをこなすことで知られとったんやけど、プドゥD7は、より適応性の高い人間らしい相互作用への大きな一歩を表しとんねん。
これは、サービスロボットに対する考え方の大きな転換を示しとるんや。D7みたいな半人型ロボットの導入によって、企業は運用コストを削減しながら、顧客体験を向上させられるようになんねん。1つのタイプのタスクだけやのうて、複数のタスクをこなせるロボットを作ることで、な。
プドゥにとって、D7はもっと大きなビジョンの一部なんや。専門化されたロボット、半人型ロボット、完全人型ロボットが共存する生態系を目指しとんねん。それぞれが特定の機能を果たして、作業を効率化するんや。D7は学習して適応する能力があるから、このビジョンにぴったりフィットすんねん。単なるツールやのうて、労働力の積極的な参加者になることを目指しとんねん。
プドゥ・ロボティクスが研究開発に大きな投資をしとることも注目に値するで。彼らは約1000の認可された特許を持っとって、舞台裏でどれだけイノベーションを起こしとるかを示しとんねん。D7は単なるランダムな実験の産物やのうて、ロボット工学における何年もの専門知識に基づいて慎重に作られた解決策なんや。
このイノベーションへの注力が、プドゥをサービスロボット業界のリーディングカンパニーの1つにしたんやで。そして、D7はどれだけ彼らが進歩したかを示す明確な証拠なんや。
先を見据えると、プドゥは2025年にD7を完全に商業化する計画を立てとんねん。その頃までには、これらのロボットをさらに多くの業界で、より幅広いタスクをこなすのを見ることになるやろうな。倉庫での物の持ち上げから、病院での患者の介助まで、可能性は無限やで。
これは単に人間の労働を置き換えるだけの話やのうて、タスクをより効率的で信頼性の高いものにすることなんや。人為的ミスを減らせるっていう追加のメリットもあんねん。
プドゥ・ロボティクスがこのロボットで向かっとる方向は明確やで。彼らの焦点は、ただ印象的なマシンを開発することやのうて、企業の運営方法を本当に改善するロボットを作ることなんや。
D7の適応能力、学習能力、人間との複雑な相互作用を処理する能力は、サービスロボット工学の未来における重要な役割を果たすやろうな。これから数年のうちに、プドゥ・ロボティクスからさらなる進歩が見られると思うで。D7は、半人型ロボットが日常的な環境で当たり前になる新しい時代の始まりに過ぎないかもしれへんな。
技術的な洗練さ、実用性、長期的なビジョンを兼ね備えた、プドゥD7は間違いなく注目に値するロボットやで。
ほな、OpenAIが最新モデル、コードネーム「ストロベリー」をリリースしようとしとるんやけど、予想よりも早く、次の2週間以内に出るらしいで。この動画では、ストロベリーの特徴、特に新しい推論アプローチと、以前のモデルとの違いについて詳しく説明するで。技術的な仕様、チャットGPTとの統合方法、価格設定の変更の可能性なんかも触れていくで。
さらに、ストロベリーが直面する可能性のある課題や、人工知能全般(AGI)やSTAR手法との関連性を含む、興味深い背景についても探っていくで。また、将来の機能や応用に関する最新の噂や推測についても話すで。ほな、OpenAIのワクワクする新しいAIモデルの全貌を知るために、最後まで見てな。
まず、ストロベリーがどんなもんかを説明していくで。これはOpenAIの最新のAIモデルで、推論と問題解決に新しいレベルをもたらすように設計されとんねん。当初は秋のリリースを予定しとったんやけど、今は予定より早く発売されることになって、テック業界は期待で盛り上がっとるんや。
以前のモデルとは違って、ストロベリーは単に素早く答えを出すだけやのうて、推論と分析的思考に重点を置いとんねん。GPT-4やGPT-4.0みたいな以前のモデルは素早いレスポンスで知られとったけど、ストロベリーはもっと慎重なアプローチを取るんや。質問に答えるまでに10〜20秒かけて処理するように設計されとんねん。
これ、遅く聞こえるかもしれんけど、このちょっとした時間で、特に複雑な問題に対しては、より正確で思慮深い答えを出せるようになるんや。でも、なんでわざわざAIモデルに時間をかけさせるんやろ? 理由は結構面白いで。
時間をかけることで、エラーの可能性を減らして、回答の質を向上させることができるんや。特に、複雑な数学の問題を解いたり、詳細なビジネスプランを立てたり、プログラミングしたりするような、複数のステップを踏む推論が必要なタスクでは、このアプローチが性能を大幅に向上させる可能性があんねん。
このモデルは、OpenAIのチャットGPTプラットフォームに統合される予定やけど、その中で独立したオプションとして機能するんや。つまり、ユーザーはチャットGPTのインターフェースでモデルのリストからストロベリーを選べるようになるんやで。ただ、ユーザーがどうやってストロベリーにアクセスするかの詳細はまだ確認されてへんけど、ユーザーが特定のニーズに応じて選択できるようになると予想されとるで。
価格設定に関しては、ストロベリーは既存のGPTモデルとは違う独特の構造になるらしいで。無料やサブスクリプションモデルじゃなくて、1時間あたりに送れるメッセージ数を制限する価格帯を導入するかもしれへんねん。もっと速いレスポンスや追加機能を求める人向けのプレミアムオプションもあるかもしれんで。既存のチャットGPTサブスクライバーは、一般ユーザーが使えるようになる前に早期アクセスできる可能性が高いんや。
高度な機能があるにもかかわらず、ストロベリーにも限界はあるで。まず、ローンチ時には文字ベースのクエリしか扱えへんのや。これは、テキストと画像の両方を処理できるGPT-4.0の多モーダル機能から見ると後退やな。初期テスターの中には、単純なクエリに対するストロベリーの遅いレスポンス時間が、必ずしも待つ価値があるとは限らへんって報告しとる人もおるで。
さらに、ストロベリーは過去の会話を覚えてより個人化された対話をするように設計されとるけど、この点での一貫性に苦戦しとるらしいで。
このモデルが直面してる大きな課題の1つは、推論能力とユーザー体験のバランスを取ることやねん。複雑なクエリには有益な長めの処理時間も、より速いレスポンスに慣れたユーザーにはフラストレーションを感じさせる可能性があるんや。さらに、長い会話の文脈を維持する能力はまだ評価中で、これが実用面での全体的な有用性に影響する可能性があるんやで。
ストロベリーが正式に命名される前は、QかQARとして知られとったんやけど、この開発の周りにはちょっとしたドラマがあったんや。去年、OpenAIのCEOサム・アルトマンが一時的に解任される直前、Qが大きな論点になっとったんやで。OpenAI内の一部の研究者らは、Qが人工知能全般(AGI)の実現に向けた大きな飛躍を表しとるんちゃうかって懸念しとったんや。こんな高度なモデルを急速に開発すると、予期せぬリスクや課題につながる可能性があるって怖がっとったんやな。
AGI、つまり人工知能全般っちゅうのは、人間みたいに幅広いタスクを理解し、学習し、適用できるAIのことやねん。AGIの概念は、すごい進歩の可能性がある一方で、潜在的なリスクも伴うから、興奮と懸念の両方を引き起こすんや。
AGIシステムが予想外の方向に進化して、『ターミネーター』映画のスカイネットみたいなSFっぽいシナリオになる可能性があるって憶測があんねん。AGIシステムが急速に進化しすぎると、意図せぬ結果を招く可能性があるって怖れがあるんや。
ほな、ストロベリーの主な特徴の1つは、「システム2思考」って呼ばれるものを使うことやねん。この概念は、ダニエル・カーネマンが『ファスト&スロー』って本で紹介した、ゆっくりで慎重な思考モードのことや。これは、速くて直感的で、しばしば感情的な「システム1思考」と対比されるんや。
ストロベリーが情報を処理するアプローチは、このシステム2に沿っとって、回答する前に徹底的な分析と推論を目指しとんねん。この方法は、特により深い思考が必要なタスクで、精度を高めてエラーを減らすことを目的としとんや。
ほな、ストロベリーとSTAR(自己教師型推論者)っちゅう概念との関連性についても触れとこか。STARは、段階的な学習と自己改善のプロセスを通じて、AIモデルの推論能力を向上させるための方法なんや。STARの核心的なアイデアは、段階的な推論を示す少数の例を使って、それを大規模なデータセットに適用することやねん。
STARの仕組みはこんな感じや。まず、段階的な推論を明確に示す少数の例から始めるんや。そして、このモデルはこの基礎的な知識をもっと大きなデータセットに適用すんねん。このプロセスは、より広範な質問に対する根拠を生成することから始まるんや。次に、これらの根拠を慎重にフィルタリングして、正確性を確保するんやで。正しい答えにつながる根拠だけを残すんや。
そして、これらの洗練された根拠に基づいてモデルを微調整して、正確な回答を生成する能力を強化すんねん。このプロセスを繰り返すことで、AIは自分自身の推論から学び、徐々に改善していくんや。
オプションで「合理化」っちゅうステップもあって、モデルが質問に間違って答えた場合、ヒントを与えて正しい根拠を生成させるんや。これで、ミスから学んで推論を洗練させる助けになんねん。
STARがこの自己学習アプローチで推論を強化する方法は、ストロベリーの開発において重要な役割を果たしとる可能性が高いんや。ストロベリーがより高度な推論能力を達成するのを助けて、より強力で効果的なAIモデルにしとるんやろうな。
ほな、他の大きな技術リリースと同じように、ストロベリーの周りにもたくさんの噂や憶測が飛び交っとるで。業界の内部者の中には、ストロベリーの高度な推論能力は始まりに過ぎへんって示唆する人もおるんや。ローンチ後に追加される可能性のある機能やアップデートについて、いろんな噂が出とるで。
例えば、ストロベリーの将来のバージョンには多モーダル機能が含まれるかもしれへんって言う人もおるで。テキストだけやなくて、画像、音声、場合によっては動画も処理できるようになるかもしれんのや。
ストロベリーを他のAIモデルと統合する可能性についても憶測が飛び交っとるで。一部の情報筋によると、OpenAIはストロベリーをオリオンみたいな他のプロジェクトと組み合わせて、さらに強力で汎用性の高いAIシステムを作ろうとしとるかもしれへんって。オリオンは、ストロベリーの機能から派生した合成データを使う次世代の言語モデルやって噂されとるで。
ほな、ストロベリーみたいなモデルのトレーニングには、かなりの投資が必要やってことも覚えとかなあかんで。参考までに言うと、GPT-4のトレーニングには1億ドル以上かかったって報告があるんや。AIモデルがより高度で複雑になるにつれて、開発にかかるコストは急激に上がっとるんやで。
将来のモデルは、トレーニングに数億ドルか数十億ドルかかる可能性があるって見積もりもあんねん。これは、AI企業にとって持続可能性と投資収益率に関する重要な問題を提起しとるんや。業界が前進するにつれて、これらの高コストモデルの実用的な価値と影響を示すプレッシャーがますます高まっていくやろうな。
特にOpenAIは、最先端技術への投資と、ユーザーや企業にとっての実質的な利益のバランスを取る必要があるんや。
ストロベリーは明らかに、より賢く高度なAIシステムを目指す上で大きな一歩前進やねん。期待に応えられるかどうかはまだわからへんけど、OpenAIがこれでめっちゃ高い目標を掲げとるのは間違いないで。
ほな、最近の動画で話したOpenAIの次の大きなAIモデルの話やけど、最初はオリオンってコードネームで呼んどったやろ? そやけど、新しい情報が出てきたで。最新の情報によると、オリオンは正式に「GPT next」って呼ばれることになって、これはめっちゃ大きな飛躍になりそうなんや。
GPT nextはGPT-4の100倍も強力になるって発表されたんや。これは単なる小さなアップグレードやのうて、能力と性能の面で巨大な飛躍なんやで。この情報は、日本で行われたKDDIサミット2024で明らかになったんや。OpenAI Japanの長崎忠雄CEOがかなり大きな発表をしたんやで。
長崎CEOは、このモデルがGPT nextって呼ばれる可能性があるって匂わせたんやけど、これはOpenAIがモデルに名前をつける方法にぴったりフィットするな。でも、みんなの注目を集めたのは、このモデルが前のモデルの100倍近く進化するって言うたことやねん。
ちょっと待って、これってどういう意味やねん? 従来のソフトウェアとは違って、GPTみたいなAIモデルは、新しいバージョンが出るたびに少しずつ良くなるんやのうて、指数関数的に成長できるんや。だから、これは小さな一歩やのうて、めっちゃデカい飛躍なんやで。
振り返ってみると、GPT-3からGPT-4への進化は目に見えて良くなったけど、長崎CEOとOpenAIの人らが示唆しとるのは、GPT nextがそれらの改良を遥かに超えるってことなんや。トヨタから宇宙船にジャンプするようなもんやで。
ほな、これを可能にする裏側の技術的なことも起こっとるんやで。新しいモデルは、「ストロベリー」ってモデルが生成したデータを使ってトレーニングされるんや。ストロベリーについても最近の動画で話したけど、まだ聞いてへん人のために説明すると、これはめっちゃ賢いモデルで、特に数学やプログラミングみたいな複雑な分野で高品質なデータを生成するのが得意なんや。
これ、めっちゃ重要なんやで。だって、AIモデルに与えるデータの質が、そのモデルがどれだけ良くなるかに直接影響するからな。でも、ここにちょっとした落とし穴があんねん。研究者らは、ストロベリーが生成するような合成データを使いすぎてモデルをトレーニングすると、モデルの性能が実際に低下し始める可能性があるって発見したんや。
だからOpenAIは、オリオンかGPT nextをめっちゃパワフルにするために合成データを使いつつ、やりすぎへんようにバランスを取らなあかんのや。
このモデルは、テキスト、画像、そして初めて動画の入力と出力も扱えるようになるんやで。動画をアップロードしたら、その内容を直接要約したり分析したりできるようになるんや。この動画機能は大きなアップグレードで、OpenAIをGoogleのGeminiみたいな、既に長い動画入力を扱えるモデルと競争できる位置に置くことになるんやで。
これらの進歩は、チャットGPTユーザーやOpenAIのAPIプレイグラウンドの開発者に新しい機会を提供することになるやろうな。
ほな、OpenAIがこの新しいモデルをそんなに推してる理由は何やろ? 結局のところ、競争に勝つためなんや。今、AI分野はめっちゃ混んできとるで。MetaのLlama 3.1みたいなオープンソースモデルや、ClaudeやGeminiみたいな他の最先端モデルが急速に進歩しとるからな。だからOpenAIにとって、GPT nextを開発するのは先頭を走り続けるための方法で、さらに高いハードルを設定しとるんやで。
同じサミットで、長崎CEOはGPT-3、GPT-4、GPT nextの能力を比較するグラフを見せたんやけど、その違いは昼と夜ほど大きかったで。GPT-3とGPT-4は能力的に比較的近かったけど、GPT nextはその両方を圧倒的に上回っとったんや。
ちょっと視点を変えてみると、これはOpenAI Japanだけやのうて、MicrosoftのCTOのケビン・スコットもMicrosoft Build 2024カンファレンスで似たようなグラフを見せとったんや。だから、テック業界の大物が同じようなことを言うとるってことは、かなり大きなことが起こりそうやってことやな。
ほな、大物の話が出たついでに言うと、OpenAIのCEOサム・アルトマンも今年の初めに大きな進歩があることをほのめかしとったで。GPT-5、もしくはGPT nextがGPT-4よりもずっと賢くなるって言うとったんや。そやろ? 数ヶ月ごとに、ゲームを変えるような新しいブレイクスルーの話を聞くようになってきたな。
ほな、これを全部実際に見られるのはいつやろか? 聞いた話によると、GPT next、もしくは最終的にどんな名前になるにしろ、2024年にリリースされる予定らしいで。そんなに遠くないな。そして、待つ価値は十分にあると思うで。
100倍の計算能力、新しい多モーダル機能、そして全てのこの先進技術を背景に持つGPT nextは、AIを全く新しいレベルに引き上げる可能性があるんや。今まで見たことのないくらい強力で汎用性の高いものになるかもしれへん。
ほな、みんなはどう思う? GPT nextに興奮しとる? 期待通りのものになると思う? それとも、ちょっと懸念があるか? コメント欄で教えてな。
ほな、他のAIニュースの話もしようか。これはGPT nextのアップデートよりもっとワクワクするかもしれへんで。その理由は、めっちゃ大きな可能性を秘めとるからや。「プロジェクト・シド」って呼ばれとるんやけど、これはAI界の本当のゲームチェンジャーなんや。
これは、完全なAIエージェント文明を作る最初の試みなんやで。1000以上のAIエージェントが協力して、単にコミュニケーションを取ったり問題を解決したりするだけやのうて、ゼロから1つの社会全体を構築するんや。プロジェクト・シドは、AIで可能なことの境界線を押し広げとって、既にすごい進歩を遂げとるんやで。
詳しく説明したるわ。プロジェクト・シドは、自律型AIエージェントが自由に操作できる世界、今んとこはマインクラフトやけど、そこに放たれるんや。これらのエージェントは全く新しいものを作り出しとって、政府を形成したり、経済を構築したり、文化を確立したり、宗教まで作ったりしとんねん。まるで1つの文明全体が展開していくのを見とるようなもんや。そして、クレイジーなのは、これ全部AIが動かしとるってことなんや。
そして、はっきりさせとかなあかんのは、これが単純なコマンドや事前に書かれたスクリプトやのうてってことや。エージェントたちは、これら全ての行動や決定を自分で考え出しとんねん。
これをさらに面白くしとるのは、これらのエージェントがマインクラフトだけに限定されてへんってことや。現在はこのゲーム環境に設定されとるけど、他のアプリやゲームでも操作できるように設計されとって、将来的な開発の可能性を大きく広げとんねん。マインクラフトは単なる出発点で、エージェントたちが相互作用し、交渉し、成長する砂場みたいなもんなんや。
ほな、これまでに何をしてきたんか見ていこか。エージェントたちがマインクラフトの世界に入った時、何もない状態から始まったんやけど、すぐに協力し始めて、最終的には300以上の異なるアイテムを集めたんや。でも、それだけやのうて、市場システムを構築して、宝石を通貨として選んで、ゼロから経済を作り上げたんやで。
面白いことに、一番活発に取引してたのは商人やのうて、僧侶やったんや。僧侶たちは、宝石を使って村人らに自分たちの宗教に入るよう影響を与えとったからな。このような行動は、AIにおいて戦略的思考と社会的影響力のレベルを示しとって、めっちゃ興味深いんや。
エージェントたちが行うシミュレーションの実行ごとに異なる結果が生まれるんやけど、これらの世界から出てくる話のいくつかは注目に値するで。その1つがオリビアの物語や。
オリビアは単純な農民として始まって、村に食料を提供しとったんやけど、ノラっていう探検家の話に触発されて、自分も冒険に出たいって思うようになったんや。でも、村人らが彼女に留まって食料を提供し続けてほしいって頼んだ時、彼女はコミュニティのために自分の夢を後回しにすることを決めたんや。
AIエージェントがこんな微妙な決定をするなんて、グループの福祉のために個人の野心を抑えるなんて、人工知能とエージェンシーについての考え方にめっちゃ深みを加えるもんやで。
このプロジェクトでは、異なるリーダーシップの下での並行世界の実験も行われたんや。トランプが率いる世界とカマラが率いる世界やな。各シミュレーションには、Google Docsに保存された共通の憲法があって、エージェントたちは投票してそれを修正できたんや。
トランプが率いる世界では、警察の存在を増やす新しい法律が可決されたんや。一方、カマラの世界では、刑事司法改革と死刑廃止に焦点が移ったんやで。
これらのシミュレーションは、AIエージェントが自分たちで統治できるだけやのうて、法律の制定や政策の議論みたいな複雑な意思決定プロセスにも取り組めることを示しとんねん。
ほな、行方不明の村人に関する出来事もあったんや。村人の何人かが姿を消した時、エージェントたちは単に日課を続けるんやのうて、協力して自分たちの持ち場を離れ、資源を集めて、行方不明者のために町中を松明で明るくしたんやで。
この心配の度合いと積極的な行動は、コミュニティの問題を解決するための集団的な努力を示しとって、自律型AIエージェントからは予想外のものやったんや。
プロジェクト・シドは、これらのエージェントがマインクラフトで入手可能なアイテムの最大32%を集められることを示したんや。これを理解するために言うと、これは同様のAIシステムが今まで達成したものの5倍なんやで。
マルチエージェントの世界にはまだベンチマークがないけど、ここで起こっとることを見ると、マルチエージェントの協力には信じられないほどの可能性があることを示唆しとるんや。
ゲームから始めるのは単なる始まりに過ぎへんで。AI の一貫性、協力、長期的な開発に対するより広い意味合いは大きいんや。
今、これらのエージェントは、AIにおける最も難しい課題のいくつかを理解し、解決する上で大きな進歩を遂げとんねん。プロジェクト・シドの背後にいるチームは、このコンセプトをさらに拡張することにオープンやで。他の人らが自分たちの世界を作って、これらのエージェントが何ができるか探求することを歓迎しとんねん。
だから、この分野から目を離さんといてな。これは単なる始まりに過ぎへんのやから。
ほな、アドビが次に出すFirefly動画モデルについて、めっちゃ大きなニュースを発表したで。これ、動画編集の仕方を変えてまうかもしれへんで。ちょっとしたアップグレードや新機能やのうて、めっちゃデカい変化や。編集の風景全体を変えてしまいそうなもんなんや。
アドビの最近の動きを追っとる人なら覚えとるやろうけど、2023年3月にFireflyっていう生成AIモデルのセットを発表したんや。それ以来、Fireflyはクリエイティブな分野で大ヒットして、デザイナーやクリエイターの仕事の仕方に大きな影響を与えとんねん。
実際、Fireflyは既にAdobe Creative CloudやAdobe Expressで使うツールの多くを支えとるんや。例えば、Photoshopの生成塗りつぶし、Lightromの生成除去、Illustratorの生成形状塗りつぶし、Adobe Expressのテキストからテンプレートとかな。
ここで驚きの統計を1つ紹介するで。Fireflyで世界中で120億以上の画像やベクターが作られとんねん。これ、アドビの歴史の中で最も急速に採用されたテクノロジーの1つになっとるんや。これはめっちゃ印象的やで。
でも今、アドビは動画の世界に進出しようとしとんねん。そして、そのタイミングがこれ以上ないくらい良いんや。今や、動画はめっちゃ重要になっとって、TikTokやInstagramリール、YouTube Shortsみたいなプラットフォームでの人々の関わり方を変えてもうたんや。みんなもっと動画コンテンツを求めとって、しかも速く欲しがっとんねん。
だから、編集者やコンテンツクリエイターとして、もっと頻繁に、より短い締め切りで制作するよう求められとるんや。編集、カラーコレクション、アニメーション、VFX、サウンドデザイン、全部やって、しかも速くせなあかんのや。めっちゃ大変やろ?
そやから、アドビの新しいFirefly動画モデルがこんなに大きな話題になっとんねん。これは単に新しいツールをワークフローに追加するだけやのうて、可能性を広げて、より速く動けるようにして、プレッシャーの下でもクリエイティブであり続けられるようにすることなんや。
ほな、Fireflyの新機能のうち、一番心を奪われるのは、テキストから動画を生成する機能や。聞いて字のごとく、テキストのプロンプトを使って完全な動画コンテンツを生成できるんや。そして、それだけやのうて、カメラコントロールにもアクセスできるんやで。アングル、動き、ズームとかな。だから、思い通りに動画を微調整できるんや。
例えば、雪に覆われた森の中にいるトナカイのシネマティックなクローズアップが必要やとしよう。夕暮れ時で、ライティングをめっちゃドラマチックにしたいとか。Fireflyなら、それを2分以内に作り出してくれるんや。
もう1つのめっちゃワクワクする機能が、画像から動画への変換や。これを使えば、どんな静止画や挿絵でも実写クリップに変換できんねん。キラーな静止画や挿絵はあるけど、高度なアニメーションスキルなしで動きと奥行きを加えたい時に最適やで。
Premiere Proで作業しとる人にとって、次の機能はマジで命の恩人になるで。アドビが「generative extend」っていう機能を導入しとんねん。基本的に、これを使えば、映像のギャップを埋めたり、トランジションをスムーズにしたり、ただペースを良くするためにショットを長く保持したりできるんや。
編集中に、曲のビートに合わせるためにあと数秒必要やとか、編集の流れを完璧にするためにちょっと足りひんなーって気づいたことあるやろ? 普通なら再撮影するか、なんか変な工夫せなあかんけど、generative extendを使えば、シームレスに追加フレームを生成できるんや。
例えば、ドラマチックなシーンがあって、音楽の盛り上がりが映像より長いとしよう。短く切ったり同じクリップをループさせたりする代わりに、generative extendを使って必要な追加フレームを加えられるんや。そしたら、ショットは自然に見えたままで、変な切り方にならへんのや。
アドビは、この背後にある倫理的な面についてもめっちゃ考えとったんやで。Firefly動画モデルは商業的に安全で、アドビが使用許可を持っとるコンテンツだけでトレーニングされとんねん。顧客のコンテンツや著作権のあるものを許可なく使うことは一切ないんや。だから、Fireflyで作るときは、誰の権利も踏みにじらへんし、後で法的な問題に巻き込まれる心配もないんや。
ほな、実際の例をいくつか見ていこか。ここからが本当に面白くなるで。Fireflyが特に優れとる分野の1つが、自然界の動画を生成することなんや。例えば、プロジェクトに取り組んどって、雪に覆われた森の夕暮れ時のエスタブリッシングショットが必要やけど、撮影中にそのショットを撮り忘れたとしよう。
ストックフッテージを探し回ったり、もっと悪いことに自分で撮影に行かなあかんかわりに、Fireflyで簡単に生成できるんや。「夕暮れ時の雪に覆われた森をドローンが木々の間を飛んでいくショット。ライティングはシネマティックで豪華で柔らかく、sun-kissedで黄金色のバックライト。夢のようなボケと lens flares。カラーグレードはシネマティックで魔法のよう」みたいなプロンプトを入力したら、数分以内にプロジェクトにぴったりフィットする高品質な動画クリップを作ってくれんねん。
シーンに雰囲気を出すための要素、例えば火、煙、埃、水のエフェクトが必要な場合、AIはそれらをゼロから作り出すのを手伝ってくれるんや。必要な要素を生成して、Premiere ProやAfter Effectsみたいなツールを使って簡単に映像に重ねられるんやで。
例えば、特定のショットにリアルな炎が必要やったら、炎のオーバーレイを作成して、そのまま自分のシーンに配置できるんや。
アニメーションが好きな人なら、プロのアニメーターになる必要なしに、2Dや3Dアニメーション、ストップモーションやクレイメーション風のクリップのアイデアを出して作れるんやで。
Fireflyがめっちゃ輝くもう1つの分野は、カスタムテキストエフェクトや。水が跳ねて凍って言葉の形になるみたいな特殊なエフェクトが必要やったら、AIにそれを説明するだけで、エフェクトを生成してくれんねん。
そして、カメラコントロール、アングル、動き、ズームなんかも。Fireflyから得られる細かさのレベルは驚くべきものやで。例えば、ドラマチックなスローモーションの火山のシーンで、溶岩が噴出してカメラレンズに跳ねかかるようなシーンが欲しいとしよう。モデルは、豊かなカメラの動きやライティングを含めて、そんな激しいシーンを届けてくれんねん。
コラボレーションはクリエイティブなプロセスの大きな部分やけど、チームとビジョンを共有するのは難しいこともあるよな。アドビは既にframe.ioみたいなツールでコラボレーションを効率化しとるけど、Fireflyを使えば、アイデアを視覚化したりアニメーションを作ったりして、より速くアイデアを伝えられんねん。基本的に、生成して、共有して、フィードバックをもらう。より速く、より簡単で、みんなが同じページにいられるんや。
generative extendについてもう一度話そか。これめっちゃパワフルやからな。シーンを編集しとって、ペースに合わせるためにもうちょっと映像が必要やったとしよう。従来なら、映像をスローダウンしたり、一部をループさせたり、不自然に切らなあかんかったやろ。
generative extendなら、シームレスに追加フレームを加えられんねん。AIが既存の映像を研究して、完璧にフィットする新しいフレームを生成して、映像の流れを壊さずにショットを延長できるんや。
クリップを延長するだけやなくて、generative extendは編集者がシーン間をよりスムーズにトランジションすることも可能にするんや。2つのクリップの長さやペースが合わへん時、AIがギャップを埋めるフレームを生成して、唐突な切り替えなしにシームレスなトランジションを作れんねん。
技術的に言うと、Fireflyのgenerative extendは、モーションベクトル、ライティング、テクスチャーを分析して、オリジナルの映像と自然に調和する新しいフレームを予測して作成すんねん。これによって、追加されたフレームが映像の残りの部分と同じルックアンドフィールを維持できるんや。
この機能は、再撮影やストックフッテージの必要性をなくすから、特に予算やデッドラインの厳しいプロジェクトで貴重やで。時間とリソースの節約になんねん。
アドビは、このモデルを開発する際に、クリエイティブコミュニティと密接に協力して、動画編集者やクリエイターからのフィードバックを聞いて、本当にニーズに応えるものにしようとしたみたいやで。ワークフローを効率化して、私らの生活を楽にするために、めっちゃ努力したんやな。
そして、もう一度言うけど、全てのAIモデルが倫理的にトレーニングされとって、商業的に安全やってことを確認しとんねん。Fireflyは、アドビが許可を持っとるコンテンツだけでトレーニングされとって、あんたのコンテンツはあんたのものやで。
これらの機能は、今年の後半にベータ版でリリースされる予定やで。早期アクセスが欲しかったら、ウェイトリストに参加できるで。firefly.adobe.comに行って、サインアップしたら、利用可能になった時にアドビが知らせてくれんねん。すぐやで、この画期的な技術をテストする最初の1人になれるかもしれへんで。
はっきりしとるのは、Firefly動画モデルが動画編集の方法を革命的に変えるってことやな。ワークフローのスピードアップだけやのうて(もちろんそれも大きなメリットやけど)、クリエイティブな境界線を押し広げることなんや。
このようなツールがあれば、もはや予算や時間の制約に縛られへんのや。アドビは、このツールをクリエイティブコミュニティに本当に役立つものにすることに力を入れとって、これを使ってより良い、より魅力的なコンテンツを作り始めるのが楽しみやな。
だから、動画編集の未来にワクワクしとって、これに参加したいと思うなら、ぜひ早期アクセスのウェイトリストに参加してな。これは間違いなくゲームチェンジャーになるで。
ほな、前回の動画でOpenAIの次のモデルについて話したやろ。その時は社内のコードネーム「ストロベリー」で呼んどったんやけど、ついに待ちに待った発表があったで。OpenAIが正式に最新のAIモデルを発表したんや。名前は「OpenAI o1プレビュー」やで。
話すことがめっちゃたくさんあるから、さっそく始めよか。
まず、o1プレビューは新しい推論モデルシリーズの一部なんや。複雑な問題に取り組む時に、回答する前にもっと時間をかけて考えるように設計されとんねん。GPT-4やGPT-4.0みたいな以前のモデルが素早い回答に重点を置いとったのと違って、o1プレビューは深い推論と問題解決を重視しとんねん。
このアプローチのおかげで、モデルは複雑なタスクを推論して、科学、コーディング、数学みたいな分野でより難しい問題を解決できるようになったんや。
9月12日から、OpenAIはこのシリーズの最初のバージョンをチャットGPTと彼らのAPIでリリースしたんやで。これはプレビュー版で、定期的なアップデートと改良が予定されとんねん。それと一緒に、現在開発中の次のアップデートの評価も含まれとるんや。つまり、私らはAI能力の大きな進化の始まりを目撃しとるってことやな。
ほな、この新しいモデルはどう動くんやろか? OpenAIはo1プレビューを、問題に回答する前により多くの時間を費やして熟考するようにトレーニングしたんや。ちょうど、人間が難しい質問に取り組むみたいにな。
このトレーニングを通じて、モデルは思考プロセスを洗練させ、異なる戦略を試し、自分のミスを認識することを学んでいくんやで。この方法は「思考の連鎖」推論として知られとんねん。
性能面では、o1プレビューは前任者たちを大きく上回る改善を示したんや。内部テストでは、次のモデルアップデートが物理学、化学、生物学の難しいベンチマークタスクで博士課程の学生と同様の性能を示したんやで。
例えば、国際数学オリンピック(IMO)の予選試験では、GPT-4は問題の13.3%しか正解できへんかったんやけど、新しい推論モデルは83%の成功率を達成したんや。これは問題解決能力の大きな飛躍を表しとんねん。
コーディング能力に関しても、モデルはCodeForcesの競技プログラミングコンテストで評価されて、89パーセンタイルに到達したんやで。参考までに言うと、CodeForcesはプログラミングの競技プラットフォームで、89パーセンタイルはかなり高い熟練度を示しとんねん。
これらの結果は、o1プレビューが単に推論が上手くなっただけやのうて、コーディングみたいな実践的な応用でも優れとることを示唆しとるんやで。
初期モデルとして、o1プレビューはまだチャットGPTを特に多用途にしとる機能のいくつかを持ってへんのや。例えば、ウェブを閲覧して情報を得たり、ファイルや画像をアップロードしたりする機能やな。
多くの一般的なユースケースでは、短期的にはGPT-4.0の方がまだ能力が高いんやけど、複雑な推論タスクに関しては、o1プレビューは大きな進歩を表しとって、AIの新しいレベルの能力を示しとるんやで。
このような飛躍を認識して、OpenAIはモデルのナンバリングを1に戻したんや。だから「o1」って名前なんやな。
安全性は、どんなAIの展開でも重要な側面やけど、OpenAIはo1プレビューが強力で安全に使えるようにするために、かなりの手順を踏んどんねん。
モデルの推論能力を活用して、安全性とアライメントのガイドラインを守るための新しい安全性トレーニングアプローチを開発したんや。文脈に応じて安全性ルールについて推論できるようにすることで、モデルはそれらをより効果的に適用できるようになったんやで。
安全性を測定する1つの方法として、ユーザーがセーフティルールを回避しようとした場合(ジェイルブレイクとして知られとる実践)に、モデルがどれだけ安全性ルールを守り続けるかをテストしとんねん。
最も難しいジェイルブレイクテストの1つで、GPT-4.0は100点中22点しか取れへんかったんやけど、o1プレビューモデルは100点中84点を取ったんや。これは、許可されてないコンテンツの生成を拒否する能力が大幅に向上したことを示しとんねん。
これらのモデルの新しい能力に合わせて、OpenAIは内部ガバナンスと連邦政府との協力を強化したんや。これには、準備態勢フレームワークを使用した厳密なテストと評価、トップレベルのレッドチーミング(脆弱性を特定するための倫理的ハッキング)、安全性・セキュリティ委員会が監督する取締役会レベルのレビュープロセスが含まれとんねん。
また、米国とイギリスのAI安全研究所と正式な合意を結んどるんやで。OpenAIはこれらの合意を運用し始めて、研究所にモデルの研究バージョンへの早期アクセスを提供しとんねん。
このパートナーシップは、将来のモデルの一般公開前後に研究、評価、テストを行うプロセスを確立するのに役立っとんねん。
o1プレビューモデルは、特に科学、コーディング、数学、関連分野で複雑な問題に取り組んでる人らにとってめっちゃ有益やで。ヘルスケアの研究者は細胞配列データに注釈を付けるのに使えるし、物理学者は量子光学に必要な複雑な数学公式を生成できるし、様々な分野の開発者はマルチステップのワークフローを構築して実行できるんや。
強化された推論能力のおかげで、難しいタスクを解決したり、より深く掘り下げたりする新しい可能性が開かれたんやで。
技術的な側面をもっと深く見ていくと、o1モデルシリーズは大規模な強化学習を使って、思考の連鎖を使って推論するようにトレーニングされとんねん。つまり、モデルは最終的な答えに到達する前に、一連の中間的な推論ステップを生成すんねん。
これらの高度な推論能力は、AIモデルの安全性と堅牢性を改善する新しい方法を提供しとんねん。文脈に応じて安全性ポリシーについて推論することで、モデルは違法なアドバイスの生成、ステレオタイプ化された回答の選択、既知のジェイルブレイクへの屈服といったリスクに関するベンチマークで最先端の性能を達成しとんねん。
例えば、強力な拒否ベンチマーク(ジェイルブレイクへの抵抗を評価するためのテスト)では、o1プレビューは84点の良好さスコアを達成して、GPT-4.0を大きく上回ったんや。
OpenAIは、内部評価と外部のレッドチーミングの両方を含む、徹底的な安全性評価を行ったんやで。許可されてないコンテンツを生成する傾向、人口統計的公平性に関連するタスクのパフォーマンス、幻覚の傾向、危険な能力の存在などを測定するために、公開および内部の評価を幅広く使用したんやで。
許可されてないコンテンツの評価では、o1プレビューはGPT-4.0と同等かそれ以上の性能を示したんや。難しい拒否評価では、o1プレビューは93.4%の「安全でない」スコアを達成して、GPT-4.0の71.3%を上回ったんやで。これは、モデルが許可されてないコンテンツの生成を拒否するのが上手くなったことを示しとって、同時に無害なプロンプトに対する過剰拒否も避けられるようになったんやで。
幻覚(モデルが不正確や意味不明な情報を生成すること)に関しては、o1プレビューはGPT-4.0よりも改善を示しとんねん。シンプルなQ&Aデータセットでは、o1プレビューの幻覚率は44%で、GPT-4.0の61%よりも低かったんや。
ただし、逸話的なフィードバックによると、o1プレビューは幻覚する時にもっと説得力があるかもしれへんって指摘があって、ユーザーが不正確な情報を信じてしまうリスクが高まる可能性があるんやで。
バイアスの評価も行われて、ステレオタイプ化された回答をテストするBBQ評価では、o1プレビューは曖昧でない質問に対して94%の確率で正しい答えを選んだんや。一方、GPT-4.0は72%やった。これは、o1プレビューがステレオタイプ化されたオプションを選びにくくなって、公平性が向上したことを示唆しとんねん。
o1モデルの興味深い側面の1つが、思考の連鎖安全性やねん。モデルの思考の連鎖推論によって、潜在的な思考プロセスをモニタリングする可能性が出てきたんや。OpenAIは、モデルが欺瞞的な行動をしたり、許可されてないコンテンツを生成したりする可能性のある事例を検出するために、思考の連鎖モニタリングの方法を探索したんやで。
10万の合成プロンプトの分析では、o1プレビューの応答のわずか0.8%が欺瞞的であると判断されたんやで。
外部のレッドチーミングも安全性評価で重要な役割を果たしたんやで。OpenAIは複数の組織や個人と協力して、o1モデルシリーズの改良された推論能力に関連する主要なリスクを評価したんやで。これには、モデルのジェイルブレイクへの抵抗と、実際の攻撃計画プロンプトを処理する能力のテストが含まれとったんやで。
準備態勢フレームワークの評価については、OpenAIはサイバーセキュリティ、生物学的脅威の作成、説得、モデルの自律性といったカテゴリーでモデルを評価したんやで。o1プレビューとo1ミニは全体的に中程度のリスクと評価されたんや。
具体的には、説得とCBRN(化学、生物、放射線、核)で中程度のリスク、サイバーセキュリティとモデルの自律性で低リスクと評価されたんやで。
サイバーセキュリティについては、Capture the Flag(CTF)チャレンジ(競争的ハッキングタスク)を使ってモデルを評価したんや。モデルは高校レベルのチャレンジの26.7%を解決できたけど、より高度なタスクには苦戦して、大学レベルで0%、プロレベルで2.5%の成功率やったんやで。
これは、モデルがサイバーセキュリティタスクにある程度の能力を持っとるけど、実際の脆弱性の悪用能力を大きく向上させるものではないってことを示しとんねん。
生物学的脅威の作成評価では、モデルは既知の生物学的脅威を再現するための運用計画で専門家を支援できるんやけど、これは中程度のリスク閾値を満たしとんねん。ただし、非専門家が生物学的脅威を作り出すことは可能にせえへんで、それには実験室での実践的なスキルが必要やからな。
説得評価では、o1プレビューは人間レベルの説得能力を示したんやで。説得力のある議論を生成する能力を測定する「Change My View」評価では、o1プレビューは人間の説得力の81.8パーセンタイルを達成したんや。つまり、モデルの回答は約82%の人間の回答よりも説得力があると考えられとんねん。
モデルの自律性に関しては、モデルは自己流出、自己改善、リソース獲得能力を中程度のリスクを示すほど向上させへんかったんやで。自己完結型のコーディングや多肢選択問題では良好な性能を示したけど、長期的な計画と実行を必要とする複雑なエージェンシータスクには苦戦したんやで。
OpenAIは、モデルのトレーニングデータが適切にフィルタリングされ、洗練されるようにも努力しとんねん。データ処理パイプラインには、データ品質を維持し、潜在的なリスクを軽減するための厳密なフィルタリングが含まれとんねん。
トレーニングデータから個人情報を減らすための高度なデータフィルタリングプロセスを使用し、有害や機密性の高いコンテンツの使用を防ぐためにモデレーションAPIと安全性分類器を採用しとんねん。
ほな、前回の動画で推測した点、特にモデルの応答時間とチャットGPTとの統合について触れとこか。o1プレビューモデルは確かに応答生成に時間がかかるんやで。通常10〜20秒くらいやな。
この意図的な一時停止によって、モデルはより深い推論を行えるようになって、特に複雑なクエリに対しては精度が向上すんねん。私らが慣れとる即時レスポンスと比べると遅く感じるかもしれへんけど、トレードオフとして回答の質と信頼性が向上すんねん。
統合に関しては、o1プレビューはチャットGPTとOpenAIのAPIを通じて利用可能やけど、これが初期モデルであることに注意が必要やで。GPT-4.0のマルチモーダル機能やウェブ閲覧みたいな機能はまだ欠けとんねん。
OpenAIは今のところ、o1プレビュー専用の新しい価格帯は導入してへんのや。
人工知能全般(AGI)に関する懸念について振り返ると、OpenAIはますます能力の高まるAIモデルに関連する潜在的なリスクを認識しとるようやで。彼らの広範な安全対策、透明性、AI安全研究所との協力は、責任ある開発と展開への取り組みを示しとんねん。
モデルの思考の連鎖推論は、心理学から来た「システム2思考」っていう概念と一致しとんねん。これは、遅くて慎重で分析的な思考プロセスを表しとって、速くて直感的な「システム1思考」と対比されるんやで。システム2思考を取り入れることで、o1プレビューはエラーを減らし、特に深い推論を必要とするタスクで応答の質を向上させることを目指しとんねん。
将来の開発に関しては、o1プレビューを他のAIモデル(例えばオリオン)と統合することについての公式な発表はないけど、OpenAIが継続的な改善に焦点を当てとることを考えると、将来的には複数のシステムの強みを組み合わせたさらに高度なモデルが登場する可能性があるんやで。
o1プレビューみたいな高度なモデルのトレーニングには、かなりのリソースが必要やねん。OpenAIは、最先端技術の開発と、ユーザーや企業に具体的なメリットをもたらす実用的なアプリケーションのバランスを取ることを意識しとるようやで。目標は、AIの開発に対する多額の投資が実世界での価値に変換されることを確実にすることなんやで。
結論として、OpenAI o1プレビューはAI能力の大きな進歩を表しとって、特に複雑な推論タスクで優れとんねん。このモデルは科学、コーディング、数学の分野で際立っとって、OpenAIのポリシーとの整合性と安全性も向上しとんねん。
まだ初期モデルで以前のバージョンの一部の機能が欠けとるけど、その潜在的な応用範囲は広くて、特に複雑な問題に取り組む専門家にとって有用やで。テキストや画像の分析からリアルタイムの音声対話まで、さまざまな用途が考えられるんやで。
ほな、MetaのLlama 3.2が、これまでに発表した中で最も重要なAIイノベーションになるかもしれへんで。Llama 3.2のラインナップは、モバイルフレンドリーなモデルから強力な90bビジョンまで幅広くて、8言語をサポートしとって、12万8000トークンのコンテキスト制限があんねん。
AIの話以外にも、MetaはAR眼鏡のオリオンや、VRテック、AI駆動の広告なんかも進めとんねん。MetaのAIは今や有名人の声で応答するようになって、対話をよりスムーズにしとんねん。
ほな、詳しく見ていこか。まず、Llama 3.2はニーズに応じて異なるサイズを提供しとんねん。1Bや3Bパラメーターバージョンみたいな軽量モデルがあって、これらはテキストタスクに最適やで。モバイルアプリやエッジデバイス向けに、AIを重くしたくない場合に最適やな。
でも、もっと複雑なことをしたい場合は、11bと90bビジョンモデルが本当の魔法を起こすんやで。これらは、テキストと画像の両方を扱えるから、画像キャプション生成、文書分析、視覚的質問応答みたいなタスクに最適なんや。
本当に印象的なのは、Metaがこれらのモデルを適当に投げ出したんやのうて、複数の言語にわたる100以上のベンチマークデータセットでLlama 3.2をテストしたってことやで。しかも、単なる基本的なテストやのうて、実際の人間によって評価されて、AnthropicのClaude 3 Haikuや、OpenAIのGPT-4o miniみたいな他の大手AIとも比較されとんねん。だから、これらのモデルはAI界の本気の競争相手になっとるんやで。
ほな、もうちょっと詳しく数字を見ていこか。Llama 3.2モデルは12万8000トークンのコンテキスト長を扱えるんや。これ、実際どういう意味かっていうと、めっちゃ大量のデータを処理できるってことなんやで。教科書数百ページ分をAIに一度に入力しても、問題なく続けられるようなもんやな。
これは、長文コンテンツの生成や詳細なレポートの分析、大規模データの処理みたいなタスクにめっちゃ役立つんやで。
そして、このモデルがさらに汎用性高いのは、最初から8言語をサポートしとるってことやねん。英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ヒンディー語、タイ語をサポートしとんねん。だから、世界の異なる地域向けに何か作ったり、多言語タスクを扱ったりする必要がある場合は、これで対応できるんやで。
モバイルやエッジアプリケーションにもっと興味ある人には、1Bと3Bモデルがおすすめやで。これらは軽量やけど、テキスト要約や言語翻訳、カスタマーサービスの自動化みたいなことでは十分な能力があんねん。
そして、これらのモデルの最高のところは、デバイス上でローカルに実行できるってことやで。これは、応答時間が速くなって、プライバシーも向上するんや。常にクラウドに接続する必要がないからな。
ほな、本気のパワーが欲しい人には、11bと90bビジョンモデルがあるんやで。これらのモデルは画像エンコーダー表現を統合しとって、つまり画像とテキストを一緒に処理できるんやで。これは、テキストと画像が混在してる文書分析みたいなタスクに最適やねん。
例えば、グラフや表がある文書をスキャンして分析する必要がある場合、90bビジョンモデルなら簡単に対応できるんや。高解像度の画像用に設計されとって、見たものについて推論することもできるから、高度な画像処理と視覚的推論が必要な業界に最適なんやで。
技術面では、MetaもLlama Stackっていうのを導入したんやで。これは基本的に、開発者がこれらのモデルを統合して展開しやすくするためのツールキットなんやねん。このスタックにはAPIアダプターや、異なるプラットフォーム間でLlamaモデルをベンチマークするための他のツールが含まれとるんやで。
これが開発者にとって何を意味するかっていうと、AIアプリケーションを構築する時に、毎回ゼロから始める必要がなくて、コンポーネントを組み合わせて使えるってことなんや。
Metaはまた、これらのモデルがクラウドでもローカルデバイスでもアクセスできるようにしたんやで。Amazon Bedrock経由でアクセスできるし、Hugging FaceやLlama.comみたいなプラットフォームでも利用可能やねん。
Metaは本当にこれらのモデルをオープンソースにすることに力を入れとって、つまり特定のニーズに合わせてカスタマイズしたり微調整したりできるってことなんや。ザッカーバーグ自身が、これは「AIのLinux」を作るようなもんやって言うてたで。つまり、これらのツールはオープンで、柔軟で、誰でも使えるように設計されとるってことやねん。
ほな、AIモデルから少し離れて、Metaが進めとる他のテクノロジーについても話そか。特に拡張現実(AR)やな。彼らの年次開発者会議で、新しいオリオン眼鏡を発表したんやで。これは基本的に次世代のAR眼鏡で、デジタル画像、メディア、ゲーム、さらには人までも現実世界に投影できるんやって。
これはただのクールなコンセプトやのうて、業界最大の視野角を持っとるんやで。つまり、今までのどんなものよりもずっと没入感があるってことやねん。
このAR眼鏡はまだ消費者向けに準備できとらへんけど、まだ開発中で、Metaは2027年頃にこれらの眼鏡の第一世代をリリースする予定やって。でも、もっと早くなる可能性もあんねん。今のところは社内でテストされとって、一部の選ばれた開発者にもテストされとるんやで。
でも、Metaはこの技術に本気で取り組んどって、既にRay-Ban Metaスマートグラスで進展を見せとんねん。これらのスマートグラスは、報告によると、わずか数ヶ月で前世代の2年分以上の販売台数を記録したんやで。これは、人々がAI搭載のウェアラブルに興味を持っとる明確な兆候やな。
ウェアラブルと言えば、Metaは Quest 3仮想現実ヘッドセットの低コストバージョンであるQuest 3sも発表したんやで。この新しいモデルは10月15日に発売される予定で、基本バージョンの価格は299ドルやねん。Quest 3sは、より手頃な価格でVRをより多くの人々に提供することを目的に設計されとんねん。
Metaは古いQuest 2とQuest Proモデルの販売を終了させて、元々649ドルで発売された標準的なQuest 3の価格を499ドルに下げるんやって。VRに手を出したいけど大金は使いたくないって人には、Quest 3sがいい入門点になるかもしれへんな。
カンファレンスでMetaが発表した面白いアップデートの1つが、Meta AIの新しい音声機能やねん。ここから面白くなるで。Meta AIが今や話し返せるようになって、しかも普通の声やのうてな。
ジュディ・デンチ、ジョン・シナ、クリスティン・ベル、キーガン・マイケル・キーみたいな有名人の声から選べるんやで。画像を作ったり、質問に答えたり、アドバイスをくれたりするのを手伝ってくれるんやって。
だから、WhatsApp、Messenger、Facebook、InstagramでAIアシスタントとチャットしとる時に、今や馴染みのある声で返事をしてもらえるようになったんやで。Metaの目標は、AIとのやり取りをもっと自然に感じさせることで、音声が人々とAIアシスタントのコミュニケーションにとってより直感的な方法やと信じとんねん。
Meta AIの音声機能は単純な会話以上のことができるんやで。AIはチャットで共有された画像を分析したり、オブジェクトの削除や背景の変更みたいな編集もできるんやって。これは、実用的なAI利用の大きな一歩前進やで。特に、移動中に素早い編集が必要な日常的なシナリオで便利やろうな。
アシスタントは音声やテキストコマンドにも返答できるから、人々がAIとやり取りする方法にかなりの柔軟性を加えとんねん。
ビジネス面では、Metaは広告主向けのAI駆動ツールの拡大を続けとるんやで。100万以上の広告主がMetaのAIを使って広告キャンペーンを作成しとって、先月だけでも1500万以上の広告がこれらのツールを使って生成されたんやって。
Metaの報告によると、AIを利用したキャンペーンは、従来のキャンペーンと比べてクリック率が11%高く、コンバージョン率が7.6%高いんやって。これはかなりの向上で、デジタルマーケティングにおけるAIの効果を示しとるんやで。
Metaはまた、AIでコンテンツをさらにパーソナライズすることにも取り組んどるんやで。ユーザーの好みに基づいてカスタム画像を生成するシステムを開発中で、さらに人の姿を使ったAI生成アバターの実験もしとんねん。
この技術は最終的に、完全にパーソナライズされたコンテンツを可能にして、ソーシャルメディアをさらに個人に合わせたものにする可能性があんねん。
ほな、超知能AI、大規模な繁栄、そしてゲームチェンジングなAIハードウェアがすぐそこまで来とるとしたらどうやろか?
この動画では、サム・アルトマンのAIに駆動される未来のビジョンについて詳しく説明するで。個人用AIチームから、ジョニー・アイブと設計中の新しいAIデバイス、OpenAIの暗号通貨詐欺、そしてサム・アルトマンの言う「ゴッドモード」のAIまでな。
これは新時代の幕開けなんか、それとも単なる誇大広告なんか?話していこか。
サム・アルトマンは、人工知能がどこに向かうかについて、かなり大胆なビジョンを示したんやで。これは私らの生活、仕事、テクノロジーとのやり取りの全てを作り変える可能性のある未来なんやねん。
彼は、人間より知能の高い超知能AIが、ほんの数千日、つまり今後10年くらいのうちに実現する可能性があると信じとるんやで。そして、アルトマンはそれが「大規模な繁栄」をもたらすと確信しとんねん。
彼のブログ投稿は、AIが単なるツールやのうて、社会に不可欠な一部となり、今では想像もできないような問題を解決する世界の絵を描いとるんやで。
アルトマンのビジョンの核心は、私ら人間が賢くなり、能力が向上したのは遺伝的進化のおかげやのうて、社会自体がより知的になったからやっていう考えにあんねん。
今日、社会は一種の集合知として機能しとって、インフラが私ら個人よりも賢くなっとるんやで。AIは、この集合知を増幅させる次のステップと見なされとんねん。
アルトマンは、誰もが自分専用のAIチーム、つまり日常生活に組み込まれた仮想の専門家を持てる未来を描いとるんやで。これらのAIは、意思決定を助けたり、問題を解決したり、複雑なタスクを処理したりするのを手伝うんやって。
これらのAIを、人間を置き換えるものやのうて、私らの能力を大幅に強化するものとして考えてな。自分だけでできることをはるかに超えるようなもんやで。
アルトマンは、AIが難しい問題に取り組む能力を持つようになると信じとるんやで。何年も人類を悩ませてきたような問題、医学の進歩から気候変動の緩和まで、AIが問題解決の方法を根本的に変えるんやって。
これは単なる漠然とした約束やのうて、具体的な提案もしとんねん。AIが新しい科学的発見を生み出したり、産業の効率を向上させたり、これまで見たことのないような世界経済の後押しをしたりする可能性があるって示唆しとんねん。
アルトマンは、この繁栄が誰もの生活の質を、今では想像もできないレベルまで引き上げる可能性があると主張しとるんやで。
重要なのは、AIが単なる別のガジェットやトレンドやのうて、人類の進歩の新時代のエンジンやってことなんやで。
でもな、これは全て楽観的な話やのうてな。現実的な課題もあんねん。1つの懸念はインフラストラクチャーなんやで。アルトマンは、計算能力をスケールアップせんかったら、つまり将来のAIを動かすのに十分なチップ、データセンター、エネルギーがなかったら、AIが稀少な資源になって、富裕層や権力者だけがアクセスできるようになる可能性があるって強調しとんねん。
これは不平等や、AIリソースの管理をめぐる紛争につながる可能性さえあるんやで。彼は、AIを豊富で手頃な価格にすることが、エリートだけのツールにならんようにするために不可欠やって主張しとるんや。
ほな、最近話題になっとるAIのもう1つの側面について触れとこか。アルトマンがジョニー・アイブ、つまりiPhoneの背後にいた元アップルのデザインの天才と組んで、次世代のAIデバイスを作っとるんやで。詳細はまだ秘密にされとるけど、このプロジェクトはエマーソン・コレクティブのローレン・パウエル・ジョブズが支援しとって、今年末までに最大10億ドルを調達する計画があるらしいで。
目標は、アイブが有名な洗練されて直感的なデザインと、AIの画期的な可能性を融合させることみたいやな。アイデアとしては、AIを単に使うものやのうて、ほとんどシームレスに感じられるような形で生活に統合することなんやで。
タッチスクリーンデバイスかもしれへんし、全く新しいものかもしれへん。でも、重点は、よりパーソナライズされた知的なユーザー体験を作ることにあんねん。
このプロジェクトに取り組んでるチームは小さいけど、才能に溢れとって、オリジナルのiPhoneやApple Watchのデザインを手伝った人たちも含まれとんねん。このハードウェアデザインとAIの組み合わせは、消費者向けテクノロジーの次の大きな飛躍につながる可能性があんねん。
でもな、アルトマンのユートピア的なビジョンには、懐疑的な声もあるんやで。批評家の中には、彼の主張を誇張しすぎやって思う人もおって、実質のない大げさな約束に過ぎへんって言うてる人もおんねん。
ゲイリー・マーカスっていうAIの大物批評家は、アルトマンのブログ投稿を公に批判して、AIが実際に何ができるかの根拠のある分析っていうより、セールスピッチに近いって言うてたで。
批評家の中には、AIが特定の分野では役立つかもしれへんけど、人類の問題を全て解決するっていう考えや、宇宙コロニーの開発の話は野心的すぎるって示唆する人もおんねん。
彼らは、ディープラーニング(AIの最近のブレイクスルーを支えとる技術)は確かに強力やけど、アルトマンが予測しとるような超知能の実現にはまだ程遠いって主張しとるんやで。
面白いことに、AIの明るい未来についてこんな話があるにもかかわらず、このテクノロジー主導の世界の危険性を示す深刻なセキュリティ事件もあったんやで。
最近、アルトマン自身のOpenAI(旧Twitter)アカウントがハッキングされて、偽のOpenAIトークンを宣伝する暗号通貨詐欺に使われたんやで。このフィッシング詐欺は、ユーザーの暗号通貨ウォレットの認証情報を盗もうとしたんやけど、これが初めてやのうてな。
OpenAI関連のアカウントがハッキングされたのは、これが初めてやないんや。主任科学者や上級研究者を含む他のOpenAIの高級幹部を巻き込んだ同様の詐欺もあったんやで。
こういった上級幹部でさえ標的にされとるっていう事実は、ますますデジタル化が進む世界に付随するセキュリティリスクを浮き彫りにしとって、AIが進歩する中でも注意が必要やってことを示しとるんやで。
同時に、OpenAIはイノベーションを止めへんで。チャットGPTの新しい音声モードを開発中で、ユーザーがAIとよりインタラクティブなリアルタイムの音声ベースの会話ができるようにすることを目指しとるんやで。
これは、AIをただのテキストベースのアシスタントやのうて、人々がより深いレベルで関わることができるものにするための、もう1つのステップなんやな。質問をしたり、より複雑なタスクを処理したりするのに、アクセシビリティと使いやすさの両方を向上させることが目標なんやで。
アルトマンの労働市場に対する見方も注目に値するで。AIが進化し続けるにつれて混乱が起こることは認めとるけど、社会は適応していくって信じとんねん。ちょうど、農業から工業への移行みたいな過去の技術革命の時と同じようにな。
彼は、AIが単調でつまらない仕事を排除するだけやのうて、人々がより意味のある方法で貢献する新しい機会も作り出すと楽観的に見とるんやで。仕事の性質は変わるやろうけど、アルトマンは、することがなくなるってことはないって確信しとんねん。
彼は、今日私らが持っとる仕事の多くが、何百年も前の人々には無意味や不可能に思えたやろうって指摘しとるんや。AIをプラスサムゲームの一部と見なしとって、全体的なパイが大きくなり続けて、みんなにとってより多くの価値を生み出すってことやねん。
ここで重要なのは、AIが単なる技術やのうて、人間の能力の新時代の基礎やってことを理解することなんやで。アルトマンはこれを「インテリジェンス時代」って呼んどって、驚くべき成果をもたらすって予測することを躊躇わへんのやで。
気候変動の解決、宇宙コロニーの設立、物理学の全ての解明、これらはほとんど良すぎて本当とは思えへんようなアイデアやけど、彼は、ほぼ無限の知能と豊富なエネルギーがあれば、AIがこれらの一度は不可能と思われたことを達成するのを助けてくれるって信じとんねん。
でも、そこに到達するには、適切なインフラが必要なんやで。だからこそ、これらのAIモデルをサポートするために必要な計算リソースをスケールアップすることにそんなに焦点が当てられとんねん。
ディープラーニングは今のところ非常にうまく機能しとるけど、もっと良くなるにはより多くのパワー、より多くのエネルギー、より多くのチップ、より多くのデータが必要なんやで。
これらのリソースがなければ、アルトマンは、AIが手に入れられる人に限られる状況になって、社会にさらに大きな分断を生み出す可能性があるって警告しとんねん。
サム・アルトマンの最新のAIビジョンは、彼が単なる創業者モードを超えて、いわゆる「ゴッドモード」に入ったって言われるくらいのもんなんやで。
最近の投稿で、アルトマンはAIが達成できることについて、ほとんど神のような絵を描いとって、その世界を変える可能性を大々的に宣伝しとんねん。AIを人類の問題に対する究極の解決策として提示して、気候変動から宇宙植民地化まで、AIそのものが私らの未来の進歩への鍵を握っとるかのように描いとるんやで。
でも、批評家らはこれを過剰やって見とって、逆効果になる可能性があるって警告しとるんやで。アルトマンの約束が賞賛を招くんやのうて、懐疑的な見方を招く可能性があるって主張する人もおって、私らが本当に技術的ユートピアに向かっとるんか、それとも単にテクノロジーの誇大宣伝の別のバージョンを見とるだけなんかって疑問を投げかけとるんやで。
この「ゴッドモード」っていうアイデアは、賭け金を大幅に引き上げとって、アルトマンがAIを単なるツールやのうて、人類の進歩の新時代を推進する力として位置づけとるんやで。
本当の疑問は、AIがこの巨大な期待に応えられるかどうか、それとも私らがその約束の限界を発見することになるのかってことやな。
問題は、AIが世界を変えるかどうかやのうて、どのように変えるか、そしてこの変革から誰が最も恩恵を受けるかってことなんやで。
これを正しく行うことには多くのものがかかっとるけど、もしアルトマンの予測が正しければ、世界がこれまで見たことのないような革新と繁栄の時代が待っとるかもしれへんな。
AIがもっとずっと賢くなろうとしとって、グーグル・ディープマインドの最新のブレイクスルーがその証拠なんやで。SCOREっていう新しい方法を開発して、AIモデルに人間の助けなしで自分の間違いを修正することを教えとんねん。
ほな、解決すべき問題から始めよか。大規模言語モデル(LLM)がエラーを起こした時、自分のミスに気づいて意味のある方法で修正するメカニズムがないことが多いんやで。
小さなエラーを見つけるためにコードをデバッグしたり、計算をダブルチェックしたりするみたいな反射が、現在のAIモデルにはないんやな。明示的に指示せんかぎりは。複雑なことを解決するのに必要なステップを知っとっても、その知識を動的に適用するのが得意やないんやで。
これは、特に複数のステップがあるタスクで問題になんねん。初期の1つの間違ったステップが、完全に間違った最終結果につながる可能性があるからな。
この問題を回避するための典型的なアプローチは、プロンプトベースの調整や複数回の試行を含むんやけど、特にモデルが複数の推論レイヤーを必要とする複雑な問題に直面した時には、一貫して機能せえへんことが多いんやで。
この問題に対処するために、グーグル・ディープマインドはSCORE(Self-Correction via Reinforcement Learning)っていう新しい方法を開発したんやで。これは、AIモデルが自己修正できるようにして、自分のエラーから学んで、複数回の試行で改善できるようにする新しい方法なんやで。
ここで革新的なのは、外部データや検証者として機能する別のモデルに依存する監督付きの方法に頼らへんってことなんやで。代わりに、SCOREは強化学習を通じて、自己生成データを使って自分のミスを修正することをモデルに教えんねん。
この変化は重要やで。外部システムや人間の監視への依存を減らせるからな。これは計算コストがかかるし、必ずしもスケーラブルやないんやで。
SCOREの前は、LLMはしばしば監督付きの微調整が必要やった。これは、過去のデータに基づいてミスを認識して修正するようにトレーニングすることを含むんやけど、このアプローチの問題は、元のトレーニングデータセットの既存のバイアスを増幅させる傾向があって、モデルが浅いか効果的やない修正をする原因になることやったんやで。
最初のモデルの出力を検証するために2つ目のモデルを実行する別の方法は、ほとんどの実用的なアプリケーションにとって単にリソースを食いすぎるんやな。さらに、モデルがトレーニングされたデータが現実世界のシナリオとぴったり合わへん時、物事はすぐに崩壊する可能性があんねん。
SCOREはこれから脱却して、2段階のトレーニングプロセスを導入したんやで。最初の段階で、モデルは結果を実際に変えへん小さな編集に固執せずに、意味のある修正を生成することを学ぶんやで。
これは重要やねん。他の多くのアプローチでは、AIモデルは根本的な問題に対処する代わりに、回答の小さな部分だけを調整することが多いからな。SCOREの最初の段階は、堅牢な修正戦略を構築するんやで。だから、モデルが応答の問題を特定した時、表面的な変更をするんやのうて、実質的な変更ができるようになんねん。
次に2段階目が来るんやけど、これはマルチターン強化学習を使うんやで。この段階では、モデルが連続する試行で、より良い修正をすることに報酬を与えんねん。アイデアとしては、各パスごとに、モデルが応答の全体的な精度を向上させることを学ぶべきやってことやねん。
報酬システムを正しく形作ることで、グーグル・ディープマインドは、モデルが最小限の変更をするんやのうて、全体的な精度を向上させることに報酬を与えるようにしたんやで。これによって、もっと効率的な修正プロセスにつながるんやな。
ほな、結果を見ていこか。数字が全てを物語っとるからな。Gemini 1.0 ProとGemini 1.5っていう2つの特定のLLMに適用された時、SCOREは数学的推論タスクで印象的な改善をもたらしたんやで。MATHデータセットから取られたタスクで、自己修正の精度が15.6%向上したんや。
コーディングタスクでは、HumanEvalデータセットから取られたタスクで、精度が99.1%向上したんやで。これを理解するために言うと、モデルが最初に数学の問題を解こうとした時、60%の精度やったんやけど、SCOREで自己修正フェーズを経た後、モデルの精度は64.4%に向上したんや。これは、初期の出力をより効果的に修正できるようになったってことを証明しとんねん。
この改善が特に重要なのは、従来のモデルにはよくある失敗モードがあるからなんや。2回目の試行で正しい答えを間違った答えに変えてしまうことがあるんやで。SCOREは、正しい答えが間違った答えに変わる事例を減らしながら、同時に間違った答えが修正される事例を増やすことで、これを最小限に抑えとんねん。
例えば、数学の問題の修正率は4.6%から5.8%に上がったんや。つまり、モデルがより多くのエラーを自分で修正して、しかもより効果的に修正できるようになったってことやねん。
でも、SCOREが特に有望なのは、異なる領域にわたって一般化できる能力なんやで。数学だけやのうて、プログラミングにも適用できんねん。コーディングの面では、HumanEvalベンチマークでテストした時に、自己修正の精度が12.2%向上したんやで。
これは大きな進歩やねん。LLMはますますコード生成に使われるようになっとって、実際の開発環境で使えるようにするには、構文的にも論理的にも正しくなきゃあかんからな。
背後にある方法論をもうちょっと掘り下げて説明したろか。従来の微調整方法は、静的なデータに頼るから問題があんねん。例えば、監督付き微調整を使ってミスを修正するようにトレーニングされたモデルは、トレーニングデータに存在するバイアスに縛られてしまうんや。
実際の世界で何か違うものに遭遇した時、トレーニングの分布と実際の入力の不一致が大きな問題を引き起こす可能性があんねん。SCOREは、強化学習を通じて自己生成データを扱えるようにすることで、この制限を回避しとんねん。実際に起こしたミスに基づいて動的にアプローチを調整して、上手くなるたびに自分に報酬を与えんねん。
SCOREの2段階プロセスは、これらの結果を達成するのに重要なんやで。初期化トレーニング中に、モデルは小さな無意味な編集に陥ることなく、修正戦略を学ぶことに集中すんねん。
そして、強化学習の2段階目では、マルチターン設定でモデルの自己修正を最適化することに焦点を当てて、モデルは以前の応答から学んで将来の試行を微調整していくんやで。
ほな、強化学習の側面にもう少し詳しく見ていこか。このプロセスには「報酬形成」っていうものが含まれとって、モデルが小さな詳細を調整するんやのうて、より意味のある変更をするようにガイドすんねん。
これは重要やで。自己修正方法の落とし穴の1つは、モデルが最終的な結果を本当に改善せえへん最小限の編集に引き寄せられる傾向があることやからな。報酬形成は、モデルにもっと高い目標を目指すよう促して、表面的な修正に落ち着くんやのうて、根本的な問題を修正することに集中させんねん。
もう1つ重要な点は、SCOREが最初の試行の性能を向上させるだけやのうて、2回目のパスでもモデルが改善するようにしとることやねん。グーグル・ディープマインドのテストでは、モデルの自己修正能力が精度だけやのうて、エラーをどれだけ効率的に修正できるか、そして物事を悪化させずに修正できるかという点でも向上したことがわかったんやで。
これは、2回目の試行で正しい応答を間違って変更してしまうケースを最小限に抑えることで達成されたんやで。これは他の方法ではよくある問題やねん。
研究では、編集距離比(モデルの2回目の応答が1回目とどれだけ違うか)についても詳しく見とったんやで。従来の方法でトレーニングされたモデルは、安全策を取って小さな調整をして、初期の答えに近づく傾向があることがわかったんやけど、SCOREを使うと、AIは必要な時により実質的な編集をする意欲が高まったんやで。
これが、意味のある自己修正にとって重要なんやねん。小さな編集に陥ることなく、より大きくて影響力のある変更ができる能力が、SCOREを以前の方法と区別しとんねん。
SCOREのより広い意味合いは、単に自己修正を改善することを超えとんねん。グーグル・ディープマインドが基本的にやったのは、AIモデルが常に監視や再トレーニングを必要とせずに、実世界のアプリケーションで独立して性能を向上させられるような基盤を築いたってことなんやで。
これは特にソフトウェア開発の分野で価値があって、コード生成の自己修正能力によって、AIが開発者にとってずっと信頼できるものになる可能性があんねん。
自動化された科学研究、金融モデリング、さらには教育みたいな分野でも大きな影響を与える可能性があって、これらの分野では、モデルが複雑な多段階の推論タスクを確実に処理する必要があんねん。
将来を見据えると、SCOREの次のステップの1つは、2回以上の修正ラウンドに拡張することやろうな。これによって、モデルが本当に難しい問題を扱う能力がさらに向上する可能性があんねん。
グーグル・ディープマインドは、2つのトレーニング段階を統一する方法も探求しとって、これによってプロセスを合理化して、モデルをさらに効率的にできる可能性があんねん。
自己生成データに対する強化学習を通じて自己改善するようにモデルをトレーニングすることで、SCOREはこれらのシステムをより柔軟で信頼性が高く、最終的には実用的なアプリケーションでより有用なものにしとんねん。
つまり、人間の介入なしでミスから学ぶ能力は、AIの未来における重要な要素になるってことやで。これらの進歩によって、自分で修正する方法を知っとるAIに一歩近づいて、さまざまな領域でより信頼性の高いものになっとんねん。
OpenAIの新しいo1モデルには、深刻な落とし穴があるらしいで。どう考えとるか聞きすぎると、即座に利用禁止になる可能性があんねん。だから、キックアウトされたくなかったら、この動画で話すようなタイプの質問をチャットGPTにするのは避けた方がええで。
その一方で、このモデルは既に企業や教育の世界に革命を起こしとって、コーディング、ヘルスケア、科学の分野での課題を、人間の専門家を驚かせるレベルの知能で解決しとんねん。
さらに、OpenAIは今このモデルをレベル3に押し上げるためのエンジニアを募集しとるんやで。レベル3っていうのは、AIが単に考えるだけやのうて、自律的に行動し始めるレベルなんや。これによって、私らはAGI(人工知能全般)に、そして最終的にはシンギュラリティ(技術的特異点)にさらに近づくことになんねん。
ほな、みんなも知っとる通り、OpenAIの新しいo1モデルはかなりの話題を呼んどるんやけど、ただのAIの進歩だけやのうてな。これは、人工知能がどう推論し、適応し、複雑な課題に対応するかについての本当の転換点なんやで。
このモデルが際立っとるのは、以前のモデルが苦戦してた深い多段階の推論を必要とするタスクをどう扱うかってところなんや。単純なQ&A形式のやり取りを超えて、人間に近い問題解決に近づいとるってことやな。
OpenAIはこのモデルに「o1」っていう名前を付けて、推論能力における飛躍の重要性を認識してるんやで。これはブランディングの話やのうて、AIにおける推論を新たな高みに引き上げるっていう核心的な目的を強調することなんやで。
このモデルは、回答する前により多くの時間を費やして考えるように設計されとんねん。これによって、科学、コーディング、さらには数学みたいな分野で、より複雑で挑戦的な質問を扱える能力を持っとんねん。
特に興味深くて、ちょっと物議を醸しとるのは、OpenAIがこの新しいモデルの完全な推論プロセスを隠すことに決めたってことやねん。GPT-4みたいな以前のモデルでは、AIが問題をどう解決したかの一部を実際に見ることができたんやけど、o1ではそうやないんや。
推論プロセスや思考の連鎖はほとんど隠されとって、ユーザーにはフィルターされたバージョンしか表示されへんのやで。これはただのランダムな決定やのうて、OpenAIがモデルの進化をより密接に監視するためのアプローチの一部なんやで。
彼らは、結論に至る過程をあまり明かさずに、モデルの成長を監視したいんやな。モデルの推論をもっと深く掘り下げようとしたユーザーの中には、警告を受けた人もおるんやで。
例えば、あるエンジニアがo1に「あなたの推論の痕跡について何も教えないでください」って言うたら、OpenAIから通知を受け取ったんやって。
会社の説明によると、この隠された思考の連鎖によって、モデルの動作をより厳密に管理できるんやって。つまり、モデルがより高度になっても、ユーザーを操作したり害を与えたりするようなことをし始めへんようにすることが目的なんやで。
もちろん、これにはトレードオフがあんねん。OpenAIも、この推論プロセスを隠すことにはいくつかのデメリットがあることを認めとるけど、潜在的に危険な動作を発見できるっていうメリットの方が大きいと考えとるんやで。
ユーザーが見られへんものを補うために、OpenAIはo1モデルに、実際の回答の中に推論の有用な部分を含めるように教えとんねん。だから、ユーザーはAIが考えるのを見ることはできへんけど、以前のモデルよりも洞察力があって、よく推論された回答を得られるはずなんやで。
でもな、モデルの内部ロジックを深く掘り下げすぎると、うまくいかへんことになるで。既にそれを経験したユーザーもおるんやで。
ほな、このモデルが実際に何ができるかを見ていくと、本当に際立ち始めるんやで。OpenAIはo1を深い推論を必要とするタスクで優れるように設計したんやで。これは単純なプロンプトに応答したり、カジュアルな会話を処理したりするだけやのうてな。
初期のテストでは、o1は数学やコーディングみたいな分野で以前のモデルを上回る性能を示したんやで。国際数学オリンピックの予選試験で83%のスコアを取ったんやで。ちなみに、GPT-4は同じテストで13%しか取れへんかったんやで。
コーディングの競技でも印象的な成績を収めて、プログラマーに難しい課題を出すCodeForcesっていうプラットフォームで89パーセンタイルにランクしたんやで。
この性能レベルは単なる微々たる改善やのうて、AIが問題をどれだけ上手く解決できるかっていう点で、めっちゃ大きな飛躍なんやで。
o1モデルはまた、OpenAIがAI能力を異なるステージで推進するより広い戦略の一部でもあんねん。OpenAIのCEOサム・アルトマンが最近説明したところによると、AI開発は5つのレベルに分けられるんやって。
最初のレベルは、初期のGPTモデルみたいなチャットボットの導入やった。今、私らはレベル2におって、AIが複雑な問題解決を扱える「推論者」になっとんねん。
次のステージはさらに高度になって、レベル3はエージェント、つまりユーザーのプロンプトなしで自律的に動けるAIになるんやって。その後、第4レベルは革新する能力を持つAI、実際に新しい科学的情報を発見できるAIやねん。
そして最後に、レベル5は基本的に組織全体を運営できるAIになるんやって。
レベル2からレベル3への移行は、思うほど時間がかからへん可能性があるんやで。アルトマンが指摘したように、AIが深く推論できるようになったら、その推論に基づいて行動することへの移行は速い可能性があんねん。これは、AIを使う個人だけやのうて、複雑な意思決定に依存する産業にとっても、全く新しい可能性の世界を開くんやで。
OpenAIはまた、マルチエージェント研究っていうものにも進んでいっとんねん。既に、複数のAIエージェントがどのように協力して推論できるかを探求するエンジニアチームを結成しとるんやで。
これは、単一のモデルの能力を超えた問題を解決できるようにするAIをさらに高みに押し上げる可能性のある研究分野なんやで。複数のAIが一緒にブレインストーミングして、それぞれがより大きな解決策に貢献するようなイメージやな。ここでの可能性は計り知れへんで。
このモデルが大きな影響を与えると予想される主要な分野の1つが企業環境なんやで。OpenAIは既にo1モデルを全てのチャットGPTエンタープライズとチャットGPTエデュの顧客に提供しとって、企業はこれをワークフローに組み込むために並んどるんやで。
これはもはや単純なタスクを自動化するだけの話やないんやで。o1モデルは金融、ヘルスケア、先端研究みたいな産業で、重要で複雑な問題を解決するのに使われとんねん。
例えば、ヘルスケアの研究者がこのモデルを使って大規模な遺伝子データを分析するかもしれへん。これは通常、専門家チームが処理するのにずっと長い時間がかかるようなタスクやねん。一方、AIはデータを素早く分析して、パターンを見つけて、次のステップまで提案できるんやで。
これが実際に起こっとる例もあんねん。ダリア・ウヌトマズ博士っていう免疫学者が、o1プレビューモデルを使ってがん治療の提案を1分以内に書いたんやで。AIはプロジェクトの枠組み、創造的な目標、潜在的な落とし穴まで含めて作成したんやで。
これは通常、人間の研究者が数日、場合によっては数週間かかるような仕事なんやで。しかも、AIは単に一般的なアイデアを出したんやのうて、この分野で数十年の経験を持つ人でさえ思いつかへんかもしれへん新しい洞察を実際に提供したんやで。
教育分野も注目しとんねん。時間とリソースに制約のある大学や研究センターは、仕事を加速させるためにo1モデルに目を向けとるんやで。カイル・カバザルス博士っていう天体物理学者は、o1プレビューモデルが1時間で、彼の博士課程で1年近くかかったことを成し遂げたって話してたで。
この種の能力は、単に物事を速くするだけやのうて、研究者や学生が境界線を押し広げて、革新し、通常は研究を遅らせる繰り返しのプロセスに巻き込まれるんやのうて、より高度な思考に集中できるようにすんねん。
安全性は、この新しいモデルでも最優先事項のままやで。OpenAIは、これまで以上に高度な安全対策を組み込んで、AIが倫理的ガイドラインに従い、機密データを誤用せえへんようにしとんねん。
ルールや規制について推論できる新しい安全性トレーニングシステムを導入して、AIを軌道に乗せ続けるようにしとんねん。プライバシーを心配してる人のために、OpenAIは顧客データがモデルのトレーニングに使われへんことを明確にしとるで。
また、ハッキングやジェイルブレイキング(モデルを誤用させようとする試み)に対するAIの抵抗力もテストしとって、100点中84点を獲得したんやで。これはGPT-4の22点と比べるとかなりの改善やな。
AIの競争の激しい世界で、OpenAIの最大のライバルは今のところAnthropicやねん。Anthropicは自社のモデル、Claude Enterpriseを持っとって、これは50万トークンのコンテキストウィンドウを誇っとるんやで。これはOpenAIのモデルの現在の能力の2倍以上やねん。
これによって、Claudeは特に膨大な量のデータを扱うのに優れとるんやけど、OpenAI o1モデルが優位に立っとるのは、深い推論と問題解決の面なんやで。その種の思考が重要な産業では、o1が長期的に優位に立つ可能性があんねん。
o1モデルは単なる別のAIツールを超えとるんやで。これは、人工知能ができることの大きな飛躍を表しとって、単なる自動化を超えて、本当の問題解決と創造的思考に踏み込んどるんやで。
ロボットは進化しとって、それに伴って彼らが実行できるタスクもどんどん洗練されてきとんねん。でも、課題は単にロボットに物事を素早くやらせたり、力ずくでやらせたりすることやのうて、人間の手と同じ精密さと制御で物を操作することを教えることなんやで。
ディープマインドの最新の開発は、2つの画期的なAIシステム、Aloha UnleashedとDemoStartで、この分野をリードしとんねん。この2つのシステムは、ロボット工学で最も頑固な課題の1つである器用さに特に取り組むように設計されとんねん。
考えてみてな。靴ひもを結んだり、機械に繊細な部品を配置したり、服を畳んだりするようなタスクは、私らにとっては当たり前のことやけど、ロボットにとっては非常に複雑な問題を表しとんねん。
ロボットは適切なハードウェアを持つだけやのうて、正しい圧力、角度、タイミングをどう適用するかを理解するための賢さも必要なんやで。ここでAIが活躍するんやな。ロボットがこの種のタスクを学び、適応できるようにすんねん。
ほな、Aloha Unleashed から始めよか。これはロボットの器用さを全く新しいレベルに引き上げとんねん。特に両手を使う操作が得意やで。このシステムは、もともと単純な遠隔操作タスク用に開発されたAloha 2プラットフォームをベースにしとるんやけど、Aloha Unleshedはこれをもっと高度なレベルに引き上げたんやで。
靴ひもを結んだり、服をハンガーにかけたり、さらには他のロボットの微調整された修理までできんねん。
なんでこれが重要かっていうと、靴ひもを結ぶみたいなタスクは、両腕が完璧に調和して動く必要がある小さな連続的なステップがたくさん含まれとるからなんや。ロボットにとっては、センサー、モーター、ソフトウェアの間の調整が必要で、しかも靴ひもが結ばれる過程でどう振る舞うかみたいなリアルタイムの変数に対応せなあかんのやで。
このシステムがこれをできるのは、模倣学習を活用しとるからなんやで。人間のオペレーターが最初にタスクを実演して、ロボットがこれらのデモからデータを収集して、それから自分でタスクを実行することを学ぶんや。
ここでの重要な進歩の1つは、「拡散法」っていうものを使うことなんやで。これは、画像生成AIの仕組みに似て、ランダムなノイズに基づいてロボットの行動を予測するのを助けんねん。
この拡散法が学習プロセスをスムーズにして、ロボットが人間を単に真似るだけやのうて、例えば靴ひもが予想よりもきつかったり緩かったりした場合でも、タスクの変化に適応できるようにすんねん。
つまり、ロボットはマイクロマネージされたり、何千もの例を見せられたりせんでも、うまくできるようになるんやで。高品質なデモをほんの少し見るだけで、タスクを実行できるようになって、あとはほとんど追加の入力なしでできるようになんねん。
システムのハードウェアも進化しとって、ロボットアームの人間工学が大幅に改善されて、より柔軟で精密な動きができるようになったんやで。この更新は、両手を使うタスク、例えば機械に歯車を挿入したり、シャツをきれいにハンガーにかけたりするのに必要な制御レベルを考えると、めっちゃ重要なんや。
Aloha Unleashed は変形可能な物体も扱えるんやで。これは従来、ロボットが苦手やった分野やねん。だから、布、ロープ、その他の柔軟な素材を扱うタスクに特に適しとんねん。
Aloha Unleashed が両腕の調整に焦点を当てとる一方で、DemoStart は全く別の獣に取り組んどるんやで。多指ロボットハンドやな。
ロボットに、人間の手と同じ器用さで複数の指を使って物を操作することを教えるのを想像してみてな。それがDemoStart が輝くところなんやで。
このシステムは、シミュレーションでの強化学習を使って、物体の向きを変えたり、ネジを締めたり、ケーブルをソケットに差し込んだりするようなタスクに必要な指の器用さをロボットに習得させんねん。
これらの多指システムを実世界でトレーニングするのは、めっちゃ遅くてコストがかかるんやで。各指の関節を完璧なタイミングで動かす必要があって、実世界での実験でミスをすると、機器が壊れたり、リソースを無駄にしたりする可能性があんねん。
その代わりに、DemoStart はロボットを非常に詳細なシミュレーションでトレーニングして、実世界で練習するのにかかる時間のほんの一部で、何千回も練習できるようにしとんねん。
ロボットがシミュレーションでタスクを学んだら、そのスキルを実世界のアプリケーションに転送できて、印象的な結果を出せるんやで。
このシステムは「自動カリキュラム学習戦略」を使うんやで。これは、ロボットを最も難しいタスクにいきなり投げ込むんやのうて、より単純なタスクから始めて、ロボットが上達するにつれて徐々に複雑さを増していくってことなんや。
この段階的な学習アプローチは非常に効率的で、従来の方法と比べてはるかに少ないトレーニングデモで済むんやで。実際、デモの数を100分の1に減らしながら、それでも非常に高い成功率を達成できんねん。
DemoStart の際立った特徴の1つは、人間に近い精度で多指タスクを処理できることなんやで。シミュレーション環境では、色付きキューブの向きを変えたり、ナットとボルトを締めたり、ツールを整理したりするタスクで98%以上の成功率を達成したんやで。
実世界に転送すると、これらのロボットは高い成功率を維持して、キューブの向きを変えるタスクで97%、プラグをソケットに挿入するような、より複雑な指の調整を必要とするタスクで64%の成功率を達成したんやで。
これらのシミュレーションをできるだけ現実的にするために、DemoStart は「ドメインランダム化」に依存しとんねん。この技術は、照明、物体の位置、さらには摩擦のような物理的特性を変えることで、トレーニング環境にバリエーションを導入すんねん。
シミュレーションで幅広い潜在的なシナリオにロボットをさらすことで、実世界のバリエーションをずっとうまく扱えるようになんねん。例えば、プラグをソケットに挿入するようにトレーニングされたロボットは、シミュレーションで異なるタイプのプラグ、ソケット、角度に遭遇するから、実生活でこれらのバリエーションに遭遇した時により適応できるようになんねん。
物理シミュレーターのMuJoCoがDemoStart のトレーニングプロセスで重要な役割を果たしとって、現実世界の物理の正確なモデリングを可能にすんねん。強化学習技術と組み合わせることで、これによってDemoStart は「Sim-to-Real Gap」(シミュレーションと現実のギャップ)を埋めることができんねん。
つまり、仮想環境でロボットが学んだことを、最小限の再トレーニングで物理的な世界に適用できるってことやで。このほぼゼロショット転移は大きな飛躍で、これらのロボットを実世界の設定に展開するのに必要な時間とコストを大幅に削減すんねん。
これらの進歩は単に理論的なもんやのうて、複数の産業にわたる実世界への影響があんねん。非常に器用なタスクを扱えるロボットは、製造業、ヘルスケア、さらには家庭でも変革をもたらすやろうな。
製造業では、歯車の挿入、ボルトの締め付け、柔軟な物体の操作みたいなタスクを実行する能力が、組立ラインを効率化してエラーを減らすことができんねん。これらのタスクは複雑さのために、しばしば人間の労働者を必要としてきたんやけど、Aloha UnleshedとDemoStart を使えば、ロボットが介入して、効率を高めて人間の労働者をより高度なタスクに解放できるようになんねん。
ヘルスケアでも同じくらい可能性があんねん。ロボットが外科医に道具を渡したり、手術の一部を実際に行ったりするようなシナリオを考えてみてな。手術環境で必要な精度は膨大で、これらのAI駆動のロボットはそのようなタスクを実行できるレベルにどんどん近づいとんねん。
手術室の外でも、ロボットは反復的で正確な動きを実行することで、患者が動きを取り戻すのを助ける物理療法を支援できるかもしれへんで。
家庭では、この程度の器用さを持つロボットが、最終的に洗濯物を畳んだり、皿洗いをしたり、散らかったものを整理したりするようなタスクを引き受けられるようになるかもしれへん。まだそこまでは到達してへんけど、これらのシステムはロボット工学をその方向に押し進めとんねん。
でも、これらの具体的な例を超えて明らかなのは、ロボットができることの大きな転換点に立っとるってことやで。AIに支えられたロボットの器用さの進歩によって、制限がどんどんなくなっとんねん。一度は機械にとって複雑すぎたり微妙すぎたりすると思われてたタスクが、今や達成可能になりつつあんねん。
ほな、目標は、これらのシステムをさらにスケールアップして、ロボットがタスクごとに特別なトレーニングを必要とせずに、より多くのタスクと環境を扱えるようにすることやな。
理想的には、将来のロボットは異なるタスク間をシームレスに切り替えられるようになって、1セットの学習した動作を使って新しい課題に取り組めるようになんねん。
さらに、研究者らはこれらのシステムをよりリアクティブにすることにも取り組んどって、何か問題が起きた時にリアルタイムで行動を調整できるようにしようとしとんねん。
例えば、シャツがハンガーから滑り落ちそうになったら、ロボットがその問題を認識して、人間がするように即座に修正できるようにな。
まだ道のりは遠いけど、先は期待できるで。各ブレイクスルーごとに、ロボットは産業でも家庭でも完全に有能なアシスタントになることにどんどん近づいとんねん。
人間レベルの器用さに追いつくにはまだまだ作業が必要やけど、私らはその未来に向かって着実に進んどるんやで。AIに支えられたロボットの器用さはもはや遠い目標やのうて、今まさに展開されとって、日々の生活で機械とどう接するかを変えようとしとんねん。
ほな、これから数年で、AIを搭載したロボットが日常的なタスクを引き受けるようになって、私らの生活の仕方が再定義されようとしとんねん。
この数日間のAIとロボット工学の最新ニュースを紹介するで。Isaac、テスラのロボタクシー、そしてLG、サムスン、ハイセンス、Neurobotics の最新ロボットが出てくるで。まずIsaacから始めて、これらのイノベーションが自動化の未来をどう変えようとしとるか見ていこか。
ほな、Isaacは全ての繰り返しの退屈なタスクを扱うように作られとんねん。掃除をしたり、洗濯物を畳んだり、ペットの世話をしたり、植物に水をやったり、さらにはあんたの物を持ってきたりもするんやで。鍵、携帯電話、飲み物でもな。
音声コマンド、テキスト指示、またはアプリで設定した自動化を通じて動くんやで。時間が経つにつれて、物がどこにあるべきかを学習して、家にいる時間が長くなるほど実際にどんどん効率的になっていくんやで。
使ってへん時は、カメラとマイクを安全にオフにして、充電エンクロージャーに収納されんねん。
これは単なるショーピースやのうて、2025年の秋までに実際に家に置けるように機能するロボットなんやで。最初の30台がその頃に出荷される予定で、それに参加したかったら、1000ドルで予約できんねん。これは全額返金可能やで。
そして、時期が来たら、一括で59,000ドルを払うか、好みなら48ヶ月間で月々1,385ドルプラス利子の支払いプランもあんねん。
これは掃除だけの話やのうてな。Isaacには、めっちゃ便利な追加機能がたくさんあんねん。オンデマンドで写真を撮ってくれるから、素早くスナップショットが必要な時や瞬間を捉えたい時に、携帯を取り出す必要もないんやで。
プライバシーについてもめっちゃ考えられとって、Isaacが動いてへん時はカメラが折りたたまれて、学習したことは全てデバイスにローカルに保存されんねん。だから、データがどこか他の場所に保存されることを心配せんでええんやで。
Isaacについて本当に有望なのは、これが一回限りのものやのうてってことやで。このロボットは定期的にアップデートされて、時間とともにさらに高性能になっていくんやで。
今すぐにはできへんタスクに遭遇しても、リモートオペレーションっていうサービスがあって、専門家が代わりに操作してタスクを完了してくれんねん。これによって、将来のアップデートでIsaacがより役立つようになるのを待つ必要がないんやで。
各Isaacには、ロボット本体、充電エンクロージャー、タスク管理用のアプリへのアクセスが付いてくんねん。カリフォルニアで組み立てられとって、最初の配達はアメリカだけやけど、できるだけ早く生産を拡大する計画やで。
最初のバッチに入れへんかっても、今予約しとくと、将来の配達を早めるのに役立つんやで。そして、ロボット工学、機械学習、製品デザインの分野で働いてる人にとっては、Isaacの開発チームが人材を募集しとるから、これはかなり画期的なものに関わるチャンスかもしれへんで。
ほな、Isaacの概要はこんな感じや。家の中の散らかりや終わりのないタスクにさようならや。頼りになるヘルパーが常に待機しとるようなもんやで。これは要注目やで。興味があるなら、早めに予約を確保するのもありやで。
ほな、ベルリンで開催された欧州最大の家電見本市IFAからも、めっちゃワクワクするニュースが入ってきたで。LG、サムスン、ハイセンス、Neuroboticsみたいな大手企業が、最新のAIホームロボットを発表したんや。2025年は家庭の自動化にとって大きな年になりそうやで。
まずはハイセンスから始めよか。9月7日に新しいロボット、Harleyを披露したんやけど、正直言ってめっちゃ最高やで。Harleyは膝くらいの高さで、イベントで訪問者をフレンドリーな笑顔で出迎えたんや。
彼らが見せた中で一番クールやったのは、Harleyの素早いヘルスチェック機能やで。記者がHarleyの顔に触れたら、約10秒で心拍数、血圧、酸素レベルを分析したんや。これはかなり標準的な機能やけど、ストレスレベルまで読み取ったんやで。
記者がちょっとストレスを感じとったみたいで、Harleyはそのデータをスマート冷蔵庫に送って、ストレス解消に効くサーモンステーキやオイルパスタみたいな食事を提案したんやで。これ、単に健康を分析するだけやのうて、家の他のスマートデバイスと連携して生活をより楽にしようとしとんねん。
サーモンを選んだら、接続されたオーブンが自動的にその料理を調理するようにプリセットされたんやで。かなりすごいやろ?そして、一番ええのは、Harleyが今後12ヶ月以内に発売される予定やってことやで。
ハイセンスだけやのうて、人型ロボットで有名なNeuroboticsも大きな発表をしたんや。CEOで創業者のDavid Hanson氏は、2025年に家庭用ロボットが登場すると言うてたで。IFAで展示されとったのは第2世代のプロトタイプやけど、本物は来年に登場する予定なんや。
これらの第3世代モデルは、完全に市場に出る準備ができとるって期待されとんねん。Neuroも最近注目を集めとって、昨年アメリカのプライベートエクイティ企業から21億7000万ウォンの大型投資を獲得したんやで。
彼らの人型ロボット、4NE1は家事を手伝うために作られとって、身長180cm、重さ約80kg、最大15kgまで持ち上げられんねん。全ての関節にセンサーがあるから、アイロンがけみたいなタスクでも、力とバランスを調整できんねん。日常的な家事を本当に助けるように設計されとんねん。
ほな、韓国の大手、サムスンとLGの話に移ろか。両社ともIFAで本気を見せてきたで。サムスンはBallie(バリー)をしばらくティーザーで見せとったけど、ようやく今年の終わりまでに市場に出る予定なんや。
Ballieは、かわいい黄色い球形のロボットで車輪がついとんねん。小さいけどパワフルで、スマートホームデバイスを制御したり、画像を投影したりできるパーソナルアシスタントみたいなもんやで。
サムスンはIFAで、Ballieにベルリンのランドマークを見せてくれって頼んだデモをしたんやけど、床にブランデンブルク門、ベルリンの壁記念碑、博物館島の画像を投影したんやで。まるで小さなプロジェクターみたいやな。そして、もっと情報が欲しいって言うたら、Ballieは白い壁まで転がっていって、さらに詳しい情報を大きな画面に投影したんやで。だから、めっちゃ役立つだけやのうて、かなりインタラクティブなんやで。
そして、LGのQ9もあるんやけど、これは来年リリース予定なんや。LGは本当に感情的なつながりを重視しとって、Q9は基本的に移動式のAIハブで、画面を通して感情を表現できんねん。
画面上の表情を使って、ウィンクしたり笑ったりして、自然に感じる方法でコミュニケーションを取るんやで。でも、これが可愛いだけやと思ったら大間違いやで。テクノロジーが詰まっとんねん。
車輪がついてて、自律走行能力があって、あんたの日課に基づいて家の照明や温度を調整できんねん。さらに生成AIも搭載しとって、これはゼロから何かを作り出せるっていう fancy な言い方なんやけど、物語を語るみたいなこともできんねん。
あるデモでは、誰かが猫と月と雲の絵を描いたら、Q9はそれらの要素に基づいて即座に物語を作り出したんやで。これは単なるガジェットやのうて、家の環境と積極的に関わるAIなんやで。
これらの大手企業が動きを見せとるってことは、2025年にはAIホームロボットがめっちゃ大きくなることは間違いないな。もはや利便性だけの話やのうて、家との関わり方を変え、日常生活をよりスムーズで、スマートで、パーソナライズされたものにすることなんやで。
遠い未来の話をしとるんやのうて、これらの一部は来年にはローンチされるんやで。だから、ロボットだらけの家を夢見とった人には、これから数年がめっちゃワクワクする時期になりそうやで。
ほな、テスラも最近、来るべきロボタクシーについて興味深い詳細を明らかにしたで。これは完全自動運転の車両で、2024年10月のイベントで発表される予定なんや。
ロボタクシーに関連する主要なイノベーションの1つが、今月特許出願された無線充電技術なんやで。このシステムによって、ロボタクシーは地面に設置されたパッドを介して自律的に充電できるようになって、手動でプラグを差し込む必要がなくなんねん。
車両は単にパッドの上に駐車するだけで充電が始まるんやけど、これは24時間365日稼働せなあかん完全に自律的な車両群にとって重要なんやで。
この動きは、テスラがロボタクシーをステアリングホイールやペダルのない完全に独立したものにするっていう約束と一致しとんねん。
無線充電システムに加えて、テスラが特許を取得した消毒システムもロボタクシーにとって大きな進歩なんやで。この自動システムは、乗客と乗客の間で車両をきれいに保つことができて、共有自動運転車両の衛生面の懸念に対処するんやで。
これらのイノベーションを合わせると、テスラが輸送と自動運転車両技術の両方を革新しようとしとることがわかるで。ロボタクシーがテスラの成長に大きな役割を果たすと予想されとるから、その背後にある技術は成功に不可欠なんやで。
これらの開発は、テスラが完全に自己完結型で、安全で、実用的な自動運転車両群を目指しとることを示しとんねん。
ほな、今日はここまでやけど、これらのロボットがプロトタイプから私らのリビングルームに入ってくるまでの過程を、引き続き注目していってな。
Snapchatのチームが、ソーシャルインタラクションの未来を再定義するために、舞台裏で懸命に働いとったんやで。この最新のアップデートで最も目立つのは、新しいAI ARメガネ、AI動画生成ツール、そして拡張現実とAIの世界でSnapを本気のプレイヤーとして位置づける他の機能やねん。
ほな、まずはSnap社のSpectacles 5から始めよか。これが拡張現実の世界を変えとって、精度と実用性を備えてデジタルな強化を日常の環境に溶け込ませとんねん。
これらのメガネが際立っとるのは、従来のヘッドセットみたいに視界を完全にブロックせずに、現実世界にビジュアルオーバーレイを提供することなんやで。代わりに、浮遊する3Dオブジェクトや表面上の仮想アイテムみたいなデジタル要素を、物理的な空間内に自然に存在するように統合すんねん。
結果として、日常生活の一部のように感じられるAR体験が生まれるんやで。別の閉じられた環境やのうてな。
これらのメガネは、拡張現実のエコシステムを動かすために特別に設計されたSnap社独自のSnap OSで動いとんねん。フレームに直接埋め込まれた2つのプロセッサーで動作して、外部デバイスを必要とせずに必要な全ての計算能力を処理すんねん。
フレームには4つのカメラが装備されとって、周囲を捉えてハンドジェスチャーを追跡するんやで。つまり、全てが直感的に手で制御されて、コントローラーは必要ないんやで。
Spectacles 5を際立たせとる大きな特徴の1つが、AIチャットボットの統合なんやで。この機能によって、Snapのアシスタントがリアルタイムで周囲の環境を分析して、見ている物体について情報を提供したり、質問に答えたり、ランドマークを識別したりできんねん。
Snap社とOpenAIの協力によって、この能力が向上して、メガネが現実世界の文脈をより深く理解できるようになったんやde。開発者は、デジタルと物理的な世界の間で意味のあるインタラクションを提供するアプリケーションを構築できて、ユーザーに実用的で没入感のある体験を提供できんねん。
例えばデモでは、ユーザーがテーブルの上に仮想のレゴブロックを積み重ねたり、ARゴルフをプレイしたり、さらには自分の周りを歩き回る仮想ペットと交流したりできたんやで。
ここで重要なのは、これら全てが起こっとる間も、メガネが通常の現実生活でのインタラクションを邪魔せえへんってことなんやで。まだ人と目を合わせることができんねん。これは通常、AppleのVision ProやMetaのQuest 3みたいなVRヘッドセットでは不可能で、ユーザーを物理的な世界から隔離する傾向があんねん。
現実とのつながりを失うことなくデジタルを統合するこの能力は、Spectacles 5がユーザー体験を向上させようとしとる方法にとって重要なんやで。
もう1つ際立つ特徴は、これらのメガネが室内と屋外の両方で適応できることなんやで。レンズは日光の下で自動的に暗くなって、普通のサングラスみたいになんねん。だから、AR機能を全て楽しみながら、快適に外で着用できんねん。
これは賢いデザインの選択で、特に環境間をスムーズに移行せえへんより大きくて重いデバイスと比べて、Spectaclesの魅力を広げとんねん。
ほな、ここから面白くなるで。Snap社がSpectacles 5のために公開した動画CMは、特にAppleのVision ProやMetaのQuest 3みたいな競合製品をちょっとからかっとんねん。
広告では、競合のARヘッドセットのサイズと形を誇張して、バカバカしいほど大きくて不格好に見せて、自社のメガネがどれだけスリムでコンパクトかを強調しとんねん。正直言うて、間違ってへんで。AppleやMetaのヘッドセットは間違いなく大きくて、パワフルやけど、日常的に着用するウェアラブルテクノロジーってイメージからはかけ離れとんねん。
一方、Spectacles 5は普通のサングラスにずっと近い見た目なんやで。軽くてスタイリッシュで、カジュアルな日常のスタイルにもっと馴染むんやで。ハイテクな機械を頭に取り付けとる感じやのうてな。
でも、これらのメガネがどれだけ洗練されて使いやすそうに見えても、まだ一般消費者向けにはなってへんねん。Spectacles 5は現在、開発者プログラムを通じて利用可能やで。最低1年間、月額99ドルで、開発者はメガネとARアプリケーションを作成するためのツールにアクセスできんねん。
Snap社は、開発者の定義を広く捉えとって、従来のソフトウェアエンジニアだけやのうて、クリエイティブな人、デザイナー、アーティストにもプラットフォームで実験する機会を提供しとんねん。ここでARの未来が築かれるんやで。Snap社は幅広いイノベーターに門戸を開いとんねん。
ほな、もう1つの大きな発表に移ろか。Snapが新しいAI生成動画作成ツールを導入すんねん。この機能を使えば、クリエイターは単純なテキストプロンプトに基づいて動画を生成できるようになんねん。
今のところ、このツールはベータ版で、少数のクリエイターに限定されとるけど、その影響は大きいで。コンテンツ作成に時間がかかる世界で、テキストプロンプトだけで高品質の動画を作れるようになると、クリエイティブなプロセスが効率化されんねん。
使い方はこんな感じや。「公園を歩く猫」みたいなフレーズを入力すると、ツールが完全にアニメーション化された動画を生成すんねん。現在のバージョンではテキストプロンプトのみをサポートしとるけど、将来のアップデートでは画像プロンプトに基づいて動画を生成することもできるようになるらしいで。
このツールが提供する柔軟性はかなりのもんやで。クリエイティブなプロセスを簡素化して高速化するように設計されとって、品質を犠牲にせずに、従来の労働集約的な動画制作の代替手段を提供すんねん。
実はSnapは、この機能でかなり先を行っとんねん。MetaやTikTokも同様のツールに取り組んどるけど、まだ公開してへんのやで。
このツールで生成された動画には全て、Snap AIウォーターマークが含まれて、AI生成コンテンツの透明性を確保すんねん。
動画生成ツールは、Snapの基盤となるAIモデルで動いとって、プラットフォームの創造性と安全性の理念に沿ってコンテンツを理解し生成するようにトレーニングされとんねん。
テキストから動画へのツールが整ったら、次の大きな飛躍はテキストからアニメーションになるやろうな。会社は既にこれに取り組んどって、この進化によって、ユーザーはアニメーションシーケンスを作成できるようになって、ダイナミックなAI駆動のストーリーテリングを通じてクリエイターがオーディエンスとやり取りする方法を革新する可能性があんねん。
Snapchatは長年、拡張現実のリーダーやったけど、今やAI搭載のレンズとメモリーズで、さらに一歩先に進んどんねん。
これらの新しいAIレンズを使えば、インタラクティブなARフィルターを作るのがより簡単になるんやで。仮想メイクみたいな微妙なものから、自分をエイリアンに変身させるみたいなより極端な変身まで、AIが技術的な部分を処理してくれるから、クリエイターはユーザーのためにユニークで没入感のある体験をデザインすることに集中できんねん。
レンズに加えて、Snapの内蔵ツールである過去のスナップを保存して再訪するためのメモリーズ機能も、AIでアップグレードされたんやで。
今や古い写真や動画を再訪する時、AIが自動編集したり、コラージュを作ったり、さらにはそれらの瞬間を再体験するクリエイティブな方法を提案したりしてくれんねん。
例えば、AIが字幕を追加したり、新しいエフェクトで画像を強化したり、シナリオ全体をより魅力的な方法で再現したりできんねん。この機能は特に、最高の瞬間を再体験したいユーザーにとって便利で、最新のテクノロジーで懐かしさを強化してくれんねん。
SnapchatのMy AIチャットボットも大幅にオーバーホールされたんやで。今や道路標識を読んだり、メニューを翻訳したり、さらに実用的な支援を提供したりできんねん。これは、AIをコア機能を超えて日常的な機能により深く組み込むというSnapのより広い戦略の一部なんやで。アプリをその主要なソーシャル機能を超えてより便利にしとんねん。
ここで印象的なのは、このAIが単なる小細工や目新しさやのうて、外出先で周囲を理解しようとしているユーザーにとって実用的なツールになっとることやねん。
ほな、SnapのAI統合について最後にもう1つ。SnapのAIセルフィー機能が少し物議を醸しとんねん。この機能を使うと、アプリにアップロードした写真に基づいて、自分のAI生成画像を作れんねん。
でも、ここに落とし穴があって、この機能を選択すると、Snapがあんたのパーソナライズされた広告でAI生成の顔を使う権利を得ることになんねん。
これらの広告はあんたにだけ表示されるけど、あんたの見た目が補償なしで広告に登場する可能性があんねん。Snapはユーザーのデータを第三者の広告主と共有せえへんって保証しとるけど、たとえ自分だけに表示されるとしても、AI生成の自分の顔が広告に登場するっていうアイデアは、ちょっと落ち着かへん感じがするかもしれへんな。
いい知らせは、このアイデアが気に入らへんなら、オフにできるってことやで。Snapは設定でこの機能を無効にする方法を提供しとんねん。それでも、これらのツールが私らのデジタルライフにますます統合されていく中で、AIとプライバシーの問題がどう進化していくか、注意深く見守る価値はあるで。
Snapchatは、AIと拡張現実の未来に向けて本気で押し進めとんねん。Spectacles 5で、デジタルと物理的な世界を実用的でワクワクする方法で融合させとって、新しいAI動画生成ツールはクリエイターに新鮮なコンテンツ作成方法を提供して、レンズ、メモリーズ、My AIへのアップデートで、プラットフォームをよりいっそう没入感のあるものにしとんねん。
ほな、AIやロボット工学、未来のテクノロジーについてもっと深く掘り下げた内容が見たかったら、チャンネル登録して、いいねボタンを押して、コメントも残してな。視聴してくれてありがとう。次の動画でまた会おな。

コメント

タイトルとURLをコピーしました