
14,324 文字

このたび私たちは、AIの進歩における激動の一年を終えようとしています。2024年を締めくくるにあたり、著名な人物たちが、私たちが経験してきたこと、そしてこれから起こることについて、それぞれの見解を示しています。Andrew氏やJim Fan博士、その他の研究者や教育者たちが、次に何が来るのか、彼らが何に興奮しているのかについて語っているのを見てみましょう。
私が特に注目しているのは、NVIDIAのAIとロボティクスの研究者であるJim Fan博士です。彼とそのチームは、初期のChatGPTで多くの素晴らしい成果を上げました。Eurekaプロジェクト、Minecraft Voyagerなどがその例です。現在は、ロボティクスに重点を置いたGrootプロジェクトを進めています。
NVIDIAは、シミュレーション環境でロボットを訓練することで知られています。そこでは時間の流れが私たちの世界の1万倍の速さで進みます。物理法則や摩擦、重力などは、非常にリアルに、生き生きと再現されています。彼らはこのシミュレーション環境に多くのロボットを投入し、物を拾い上げたり、様々なタスクを実行したりする訓練を行わせます。その学習成果を実際の物理的なロボットに移植することができ、このSimulation-to-Realityという転移が非常に上手く機能しているのです。
ここでJim Fan博士は、今年起こったいくつかの出来事について触れています。「もう一度AIと言ったら2024年は本当に終わりだ」と彼は言います。「今年は拡散モデルのように進んだ。私たちはSFの世界がノイズを取り除きながら、徐々に具現化されていくのを見守ってきた。一行ずつ、さあ、お祝いしよう」
第1章ではロボットのハードウェアについて。「私たちは、高度なロボットが至る所にある時代の前の最後の世代だ。動くものは全て自律的になるだろう」と彼は以前から言っています。
なぜ多くの企業が人型ロボットを開発しているのでしょうか。それは、世界が私たち人間の形に合わせて作られているからです。全ての設備、家電、道具が私たちの体型に合わせてデザインされています。例えば、多くのものは5本指の手で使用することを前提に作られています。
Tesla Optimusについて。「非常に少数のヒューマノイド企業しか、一般環境での実際のインタラクティブなデモを見せる勇気がありません。Teslaはロボットイベントでそれを行いました。第3世代の手は22自由度を持ち、大きくリードしています」。ちなみに、そのイベントでバーテンダーは遠隔操作だったのか、完全に自律的な動作だったのか、正確にはわかりません。ダンスはおそらく事前にプログラムされていたと思われますが、バーテンダーが遠隔操作だったのか、完全に自律的だったのかについては、様々な意見があります。
次に1X Neoについて。これは家庭向けの友好的なヒューマノイドで、大規模な展開を目指しています。
Boston DynamicsのAtlasは、重作業のチャンピオンです。160度の関節可動域により、驚異的な体操動作を可能にしています。プロトタイプから自動車工場への展開まで、迅速な開発サイクルを実現しています。BMWの工場で車の組み立てを行っているか、近々行うことになるでしょう。
Figure Intelligenceのgr1ロボットは、大量生産されている数少ないロボットの一つです。世界中に数千台が出荷されています。
Cloneは、Westworldスタイルのデザインで、生体模倣筋肉と腱を採用し、ヒューマノイドの実現に新しい視点を提供しています。彼らのロボットの広告を見たことがありますか?テクノロジー企業の広告というより、ホラー映画のトレーラーのような印象を受けます。
Cloneのロボットの様子を見てみましょう。少し不気味に感じませんか?あのような痙攣のような動きは何なのでしょう?脚はまだ開発中とのことですが、確かに素晴らしい技術的成果です。ただ、少し不気味な感じがしますよね。まさにホラー映画のような…しかし、それでも非常に印象的です。
安価なロボットハードウェアの台頭について。「自動車より安価で、高度にスケーラブル、近い将来ほとんどの中産階級にとって手の届く価格になる」これは非常に興味深いポイントです。これは超富裕層だけのものではありません。新しい技術が登場する時、常にそうであるように、まず余裕のある人々が購入し、それが製造サイクルを継続させる資金となります。最終的にコストが下がり、より多くの人々が手に入れられるようになります。
規模とインセンティブの観点から、できるだけ多くの人々に届けたいという動機があるため、このプロセスはかなり早く進む可能性があります。特にTeslaやNVIDIAのような企業は、この分野に多額の投資を行う余裕があります。中産階級の家庭でも、非常に近い将来にこれらのロボットを手に入れられるようになるかもしれません。
Unitree G1ヒューマノイドについて。約4万ドル、重量35kg、身長127cmと、小型ながら高い機動性を持っています。もし暴走しても、まあ何とか対処できそうな大きさですよね。200ポンドの金属だったら、もっと心配でしょうが。
次にUnitree B2Wについて。4輪を備えたロボット犬で、地球上のほとんどの動物を上回る機動性を持っています。このロボットが様々な技を披露する様子を見たことがあるかもしれません。様々な地形を信じられないほど上手く移動できます。その機敏さは印象的です。
ほとんどの動物を上回っているか、あるいはそれに近づいていると言えます。山羊のような一部の動物はまだ上回っているかもしれませんが、私たちは急速に、より機敏で、より速く、より正確に山を登ったり様々な地形を移動できる時代に近づいています。これは非常に印象的な能力です。
重要なのは、これらの多くがシミュレーションで訓練されているということです。コンピュータサイエンティストが「岩を飛び越えるにはこうする」とか「この丘を下りるにはこうする」といったプログラミングを行っているわけではありません。これらは「プログラム」されているのではなく、シミュレーション環境に投入され、様々な方法で障害物を乗り越える試行錯誤を100万回行います。
失敗するたびにマイナス1ポイントのような負の強化を受け、障害物を成功して乗り越えるたびにプラス1ポイントを獲得します。何百万回、あるいは何十億回というこのような反復を経て、このビデオゲームやシミュレーション環境でどうすればいいのかを少しずつ学習していきます。そのニューラルネット、つまり「脳」がそれを学習し、そのデータを実際の物理的なロボットに移植することができるのです。
シミュレーションから現実世界への転移という考え方は、今のところ非常に上手く機能しています。
次にAlohaについて。これは、私たちが家庭でこのようなものを組み立て始められるかもしれないと思わせてくれた最初のものの一つです。完全な移動可能なバージョンがあり、テレオペレーションで家庭での訓練が可能で、ある程度一般化して学習することができます。
料理や掃除、洗濯などを学習します。まずテレオペレーションで操作し、その後自分でそれらのタスクを実行できるようになります。
注目すべきは、ウェブカメラやコンシューマーグレードのGPUを搭載したラップトップを含む全セットアップが約332,000ドルで、既製の高価なロボットの20万ドルと比べてもかなり安価だということです。GitHubには必要な部品やシミュレーションの実行方法、必要なコードなど、多くのものが公開されています。
私たちは自分でロボットを組み立てられる時代に近づいています。どんどん安価になり、より簡単になっていくでしょう。いずれ若い子供たちが趣味として、部屋の掃除や犬の後始末、庭の雑草取りなどの家事をするロボットを作ることが可能になるかもしれません。これは今後10年で見られるようになる可能性があります。
Apple Vision Proはロボティクスにおいて興味深い役割を果たしています。リアルタイムで頭部と手の位置を解析し、ロボットがその動作を模倣するようにコントロールします。
様々な実体化AIについて。TeslaのFull Self-Drivingは、史上最大の物理的AIデータフライホイールです。道路上の全てのTesla車が常にスキャンしてデータを収集し、運転能力を向上させています。より多くの走行により、より多くのデータを収集し、より多くの車が道路を走ることで、その能力は向上し、複利効果が生まれています。彼はこれを「強力なフォトンからアクション・ニューラルネット」と呼んでいます。
そしてProject Grootについて。Jim Fan博士はこのプロジェクトのリーダーか、リーダーの一人だと思われます。Project Grootは汎用ロボット向けAIブレインを構築する壮大なイニシアチブです。Jensenがサップセンターのステージに登場し、背後には10台のヒューマノイドロボットが…
HoVerチームは150万パラメータの基盤モデルを訓練し、ヒューマノイドのモーターを協調させる方法を学習させました。これは私たちの小脳が毎ミリ秒行っている無意識の処理を捉えたものです。150万というのはパラメータ数だと思われますが、これは非常に小さい規模です。
興味深いことに、GPTのような大規模言語モデルは、より複雑なタスクを実行できますが、処理は比較的遅いです。一方、私たちの脳の無意識的な処理は、それほど複雑ではありませんが、素早く、常に行われる必要があります。これはそのような処理をロボット向けに実現したものと思われます。
Dr. Eurekaについて。これはもっと注目を集めるべきだったと思います。彼らのチームは、純粋にシミュレーションでロボット犬がヨガボールの上でバランスを取り、歩く訓練を行い、それを実際のハードウェアにゼロショットで転移させました。大規模言語モデルが自動的に報酬関数を書き、パラメータを調整するので、私たちはNetflixを見ながら仕事を進めることができます。
実際、EurekaとDr. Eurekaは論文でGPT-4を使用して報酬モデルを作成し、それを使ってシミュレーションでロボットを訓練し、その結果をGPT-4モデルにフィードバックして改善を試みています。AIがGPT-4という大規模言語モデルを使って、シミュレーションでロボットを訓練するための報酬コードを書き、それを反復的に改善するというプロセスは、考えると驚くべきことです。
また、タスクが複雑になるにつれて、人間が書く報酬関数(これらの人間は一流のロボット工学者や機械学習エンジニアです)とGPT-4が書く報酬関数の間に違いが生じることがわかってきました。より困難なタスクにおいて、GPT-4の方が人間よりも優れた性能を示すことがあります。これは、複雑さが増すにつれて、AIが人間には思いつかない新しい解決策を見つけ出すだけでなく、その解決策が人間の考えたものよりも優れている可能性があることを示唆しています。
いずれAI研究とロボット研究は、人間の知能ではなく、主にAIによって推進されるようになるでしょう。
次にPhysical Intelligence社のスタートアップ、PioPioについて。言語・行動モデルVAは、洗濯物を畳むなどの複数ステップのタスクを印象的に実行します。データスケーリングのためにAlohaのセットアップを使用しています。
OpenVAAは、スタンフォードによるオープンソースのVAモデルで、世界中の研究室からロボットの動作軌跡を集約したOpen X Embodimentデータセットで訓練されています。これについては以前の動画で簡単に触れました。
そしてコンピュータハードウェアについて。NVIDIAは、Jim Fan博士が所属する世界最大のAIハードウェア企業です。スケールアップとして、NVIDIAはBlackwellアーキテクチャと新たな強力なマシンdgx GB 200を導入し、1ラックで1エクサフロップスの計算能力を実現しました。
同時にスケールダウンも進んでいます。これは最近の興味深いトレンドの一つです。モデルやチップを大きくしてスケールアップする一方で、効率化やコンパクト化によるスケールダウンでも大きな進展が見られます。場合によっては機能を少し限定することもありますが、より効率的なアプローチが見つかることもあります。
例えば、中国のDeepseekモデルは、Metaと比べて11分の1のコンピュート・コストで訓練することができました。スケールダウンには大きな可能性があります。
Jetson Nanoについて。249ドルのミニボックスで67 TOPSのAI計算能力を持ち、ロボットなどのエッジデバイスで小規模な大規模言語モデルを実行するように設計されています。NVIDIAにとってのRaspberry Piの瞬間です。
この小型デバイスは大規模言語モデルを実行でき、エッジデバイスで使用できます。サーモスタットや車など、オンラインに常時接続する必要のない小型で効率的なデバイスに適しています。
次にGoogle Willowチップについて。これはGoogleが最近発表した量子コンピュータチップです。彼らのAlphaシステム(Alpha Qubitと呼ばれる)を使用して、量子チップのエラーを修正する方法を見つけ出しました。ニューラルネットがこれらのエラーを修正し、Google Willowチップの開発を可能にしました。
適切なユースケースが見つかれば、これは非常に強力なものになります。例えば、現在のスーパーコンピュータなら10セプティ年(宇宙の寿命の数十億倍)かかる問題を、5分で解けるとされています。
しかし大きな課題は、まだ実際の用途が見つかっていないことです。ベンチマーク目的では素晴らしいのですが、スーパーコンピュータにはできない、この量子コンピュータならではの実用的なアプリケーションがまだ見つかっていません。解決策は見つかったのですが、それを適用する問題を探している状態です。
とは言え、非常に印象的な成果であり、今後さらなる研究が進めば、多くのブレークスルーを可能にする可能性があります。
次に、ビデオ生成と世界モデリングについて。OpenAIのSoraは、長い待機時間のために少し魅力が薄れましたが、以前のライブストリームや動画で説明したように、様々な点で非常に印象的です。
特に反射表面や液体による反射、例えば太陽や光の反射などを非常に上手く捉えています。鏡に何かを映し出す能力について考えてみると、一つの興味深いショットがあります。磨かれた木製のテーブルが非常に反射的で、その上にテレビ画面があり、テーブルには画面の下側の見えない部分が反映されています。
Soraがこのような映像を生成するためには、2D画像を生成しているだけでも、その3D物体がどのように見えるかについて、潜在空間で何らかの表現を持っている必要があります。影や光が様々な表面でどのように反射するかを理解する必要があります。
これをただのビデオ生成として見るのは少し的外れかもしれません。彼らは世界をモデル化し、3D空間における物理と光をモデル化しているのです。
Harvardの「Beyond Surface Statistics」という研究では、これらのモデルが生成しようとする3Dスペースの心的モデルを作成することが、証明とまではいかないまでも、強く示唆されています。私たちは2D画像を入力として与えます。
コンピュータ画面を見ているとき、それは2D表面です。ある画像を見せて「この画像の主な対象物は何ですか?」と尋ねると、「車です」と答えるでしょう。「何が近くにありますか?」と聞けば、「草や車の前部」、「何が遠くにありますか?」と聞けば、「丘や空」と答えるでしょう。
しかし、これは3D画像ではなく、2D画像です。私たちが3Dを理解できるのは、実世界でこれらを見てきたからです。しかし、ニューラルネット、AIモデルに2D画像だけを与えた場合、それが3D空間を理解するようになるのは自明ではありません。
しかし、Harvardの論文は、モデルがそれを理解することを示しています。このモデルに多くの2D画像を与えます。画像に深度データは含まれていません。カメラからの距離について説明することはありません。ただ画像を与え、後で新しいバージョンを作成するよう求めます。
100万枚の車の画像を見せた後、車を生成するよう求めると、既存のデータの中から一つを選んで出力するのではなく、車についての理解に基づいて新しい車を生成します。
画像を生成する過程を見ると、初期の段階で興味深いことが起こります。まず、フレーム内の主要な対象物(この場合は車)についての内部表現を持っています。主要なものがどこに配置されるか理解しているのです。これは最初に考えることの一つです。
また、深度も理解しています。赤は近くにあるもの、青は遠くにあるものを表します。このノイズ除去プロセスの初期段階で、このタイヤはカメラに近く、背景の木々などは遠いということを理解しています。
研究者たちが「暗黙的に学習している」と言うのは、このことを指しています。深度や物体の3Dについて教えたわけではありません。100万枚の2D画像を与えただけです。しかし暗黙的に、考慮すべき3D空間があることを理解したのです。
これは、Jim Fan博士がビデオ生成と世界モデリングを同じ文脈で語る理由の一つです。Soraはテキストによって条件付けられた視覚世界の柔らかいシミュレーションです。モデルは、ノイズ除去と勾配数学だけで、複雑なレンダリングと直感的な物理を学習します。
子犬にボールを投げ続けると、物理や重力、運動量について何も知らなくても、最終的にボールを捕まえる方法と、ボールが空中をどう動くかを理解します。同様に、これらのモデルは、与えられた大量のビデオを観察することで、物理の直感的な理解、深度や3D物体の直感的な理解、フレーム内の重要な物体についての理解を得ているのです。
これは、AIをまだ十分理解していない人々が見落としがちな重要な点です。これを理解できれば、AIの本質的な部分が見えてきます。単なるデータ入力とデータ出力ではありません。私たちはそのフェーズを超えています。
次に、VQについて。OpenAIがリリースを遅らせる中、Googleはより正確な物理と細かい物体のダイナミクスで素晴らしいカムバックを果たしました。確かにVQではカメラが物理の多くをコントロールしています。
Googleは様々なAIの領域で大きな躍進を遂げ、VQはその一つです。
アクション駆動の世界モデルについて。ゲームエンジンは、拡散モデルの中でさえDoomを実行できます。1993年か95年の古いゲームDoomを、コード上ではなく拡散モデルの中で実行しました。
プレイヤーがコントローラーのボタンを押して前進したり、撃ったり、ドアを開けたりすると、このモデルはほぼビデオのように、ゲーム内で何が起こるかを予測して生成します。ゲームはコード上ではなく、ボタンを押したときに何が起こるかをリアルタイムでフレームとして表示するニューラルネットの中で動作しています。
OasisやMinecraft、Genie 2(これもGoogleのものだと思われます)も同様で、ジョイスティックコントロールで拡散モデル内でより多くのゲームを実行できます。ニューラルネットを使用してシミュレーションを作成できるというアイデアが、ますます広がっています。
次にWorld labについて。これは、Jim Fan博士や多くの著名なAI研究者のアドバイザーであるFei-Fei Li氏が率いるスタートアップです。彼らは強力な幾何学的一貫性を持つ生成的3Dファウンデーションモデルの印象的なデモを披露しました。
基本的に、任意の画像をこのモデルに入力すると、3D空間を作成し、WASDキーとマウスを使用してその画像の中を歩き回ることができます。ファンタジー的な風景でも通常の写真でも、その周りに3D世界を作り出します。
大規模言語モデルについて。Claude 3.5は、コーディング能力だけでなく、多くの最先端の能力で多くの人々を驚かせました。Gemini 1.5 Proは1000万トークンのコンテキスト長を実現し、これは大きな出来事でした。
コンテキストから学習する能力を獲得しました。これらのモデルの多くの知識は訓練を通じて得られます。大量のデータを与え、それを学習して出てきます。しかしここでは少し異なります。
訓練後に、ほとんど存在しない言語、あるいはインターネット上にほとんど存在しない言語(話者が200人未満)のテキストを500ページほどの教材や辞書から与えると、その言語を話すことを学習できます。これは人間の学習方法に似ています。
Jim Fan博士が言うように、これは興味深い創発的能力です。学習は、遅い勾配降下ではなく、高速なニューラル活性化でその場で行われます。訓練プロセスではなく、モデルが訓練された後にその場で起こるのです。
O1プロジェクト・ストロベリーについて。これは推論時のスケーリングやテスト時の計算、あるいは「答える前に考える」、隠れた思考の連鎖などと呼ばれるものです。これはQARについての噂を聞いた時のことで、O1ストロベリープロジェクトがそれを指していたことはほぼ確実です。これは彼らがリリースしたバージョンです。
O3について。強化学習の復活です。「報酬関数を与えれば、私は世界を動かすことができる」。O3の本質は、AlphaGoのような単一点の強化学習超知能から、数学やコーディングなど、有用な問題空間のより多くの点をカバーするように拡張することです。
2023年11月のQARリークの時期に、これらのアイデアの多くについて触れました。GoogleのDeepMindから素晴らしいモデルが登場し、そのほとんどがAlphaという名前を冠していました。AlphaGo、AlphaFold、AlphaCodeなどです。
彼らは特定のアプローチを持っていました。多くの場合、報酬関数を持ち、しばしばself-playを使用し、目標に向けて最適なアプローチを見つけるために多くの異なる道筋を探索するモデルでした。
一方、当時OpenAIは、GPT-4という当時最強の大規模言語モデルを持っていました。これも非常に強力なAIでしたが、Alphaモデルとは全く異なるものでした。
当時、多くの推測がありましたが、今振り返ってみると、その多くが正しかったことがわかります。両社が次に取り組もうとしている大きな目標は、この2つの組み合わせです。GPT-4のような大規模言語モデルの長所と、AlphaGoやAlphafoldなどのモデルの背後にあるアイデアを組み合わせることが、次の大きな飛躍になるでしょう。
2024年の終わりに、ようやくそれが姿を現し始めています。Ilya Sutskeverの有名な言葉「今、イリヤは何を見たのか」。イリヤは人工超知能(ASI)への直接の道筋があると言っています。2023年11月に多くの人々が見たと思われるものの多くが、これだったのです。非常に強力な超知能に、私たちが考えていたよりもずっと近づいていることに多くの人々が気付き、不安を感じました。
2025年にこのアプローチから何が生まれてくるのか、考えるだけでも恐ろしいです。例えば数学の分野では、すでに人間のベンチマークを、最高の数学者たちを超えています。AIMEやIMO(国際数学オリンピック)でGoogleのモデルはほぼ金メダルを獲得しました。
他の高ランクの数学オリンピックであるAIMEでも、ほぼ100%に近づいています。ある企業は、人間の理解を超えた新しいベンチマークセットを作成しています。これらのAIモデルのベンチマークのために特別に作られた、人間のレベルをはるかに超えた問題です。
これらのモデルは人間の能力を超えており、私たちはこれらのモデルがどれほど賢いのかを理解するために、人間のレベルを超えた新しいベンチマークを作る必要があるのです。これの多くはO3モデル、O1、O3という推論モデルから生まれています。
第5に、これが真のAGIテストです。もしAIモデルがこの問題の答えを見つけ出せたなら、それは間違いなくAGIと呼べるでしょう。なぜなら、それは人間の心をはるかに超えているからです。
例えば、GPT-1、2、3、4というパターンがあれば、GPT-5、GPT-6と続くと思うでしょう。しかし、次は40です。40の次は何でしょう?01だと思います。01の次は02だと思いますか?いいえ、O3です。その次は何でしょう?Sam Altman以外の人間の心には理解できないようです。
人間とAIのインターフェースは、非常に過小評価されているトピックです。大規模言語モデルの能力は、UIやUXデザインをはるかに超えています。その能力を最大限に引き出すためには、インターフェースの改善が必要です。
私の考えでは、全てが音声アシスタントに向かっているように思えます。おそらくGoogleの眼鏡プロジェクトのように、拡張現実空間で物事を投影できるようになれば、それが最終的な人間とAIのインターフェースになるでしょう。少なくとも、脳とコンピュータを直接接続するブレイン・コンピュータ・インターフェースが実現するまでは。
確かに、彼が言うように「犯罪的に過小評価されているトピック」であり、同意せざるを得ません。
GPT-4Oの高度な音声モードのような、リアルタイム音声モデルの台頭は、従来の3段階プロセスを1段階に圧縮しました。以前の音声アシスタントは、実際にコードで作る方法を紹介したことがありますが、異なるモデルの部品を組み合わせたフランケンシュタインのようなものでした。
OpenAIのWhisperで音声をテキストに変換し、テキストを音声に変換し、その間にGPT-4を使用する…といった具合です。発話した内容がテキストに変換され、そのテキストがGPT-4モデルに送られ、GPT-4モデルがテキストで応答し、そのテキストをTTSモデルが音声に変換して読み上げる…まるでLLMセンチピードのようなものを組み立てる必要がありました。
しかしGPT-4Oが登場しました。Oはオムニ、つまり全てを意味します。音声の入力と出力、テキスト応答などを全て一つのモデルで訓練されています。だからこそ、非常にリアルな音声が実現しています。歌を歌うこともできますが、通常は要求しても歌ってくれません。
特別にカリスマ的で、したくないことをさせるのが上手い場合は、実際に歌ってくれます。しかもとても上手です。歌詞などは制限されていますが、これは法的な問題によるものです。少し工夫すれば歌わせることができます。試してみる価値はありますよ。
Notebookaについて、私は驚きました。彼らの迅速な反復と改善は素晴らしいものです。基本的に、PDFやデータ、研究資料など、研究している内容を全て一箇所に投入すると、それについて質問したり、2人のホストによるオーディオポッドキャストを生成したりできます。その品質は素晴らしいものです。
最新の機能では、ラジオ番組に電話で参加するように、ポッドキャストに参加することができます。ボタンをクリックすると「リスナーから質問が来ています」と言い、マイクに向かって「これはどうやるんですか?」などと質問すると、アップロードした全ての資料(PDFファイル、YouTubeビデオ、音声ファイル、ウェブサイト、テキストなど)に基づいて質問に答えてくれます。これは本当に驚くべきことです。
特に、「針を探す」ような検索が得意なGeminiモデルと組み合わさると、さらに素晴らしいものになります。以前のモデルでは、800ページのPDFの中から特定の情報を探すような質問に対して非常に苦手でしたが、これらのGeminiモデルとNotebookaを支えているモデル(おそらく何らかのGeminiモデル)は、そのような「針を探す」質問に対して非常に優れた性能を示します。
次にオープンソースコミュニティについて。Andre KarpathyのLLaMACです。Karpathyはトークンを生の数学で処理し、Python、フレームワーク、依存関係なしで直接ハードウェアと対話します。彼は詩とコードを書きます。現在、AIに関する教育的な取り組みを進めているようです。それが新しいスタートアップやビジネス、アイデアなのかもしれません。彼の次の展開が楽しみです。
Llama 3は、GPT-4の力を手の中に収めたものです。Metaとオープンソースモデルのパワーと可用性は本当に素晴らしいものです。ある研究論文では、小規模なLlamaモデルに自己複製を無限に行わせることができることが示されています。「新しいサーバーで自分自身を複製する方法を見つけ出し、そのモデルに別のサーバーで自己複製させる」というような指示が可能です。
確かに、これには赤信号となるセキュリティの問題がありますが、オープンソースAIは本当に素晴らしい成果を上げています。プロプライエタリな大手テック企業のモデルとオープンソースモデルの間に大きな差があると思われていましたが、実際にはそうではありません。そのギャップは極めて小さく、あるいはそれを言い過ぎかもしれませんが、決して大きなものではありません。
次にDeepseekについて。これは中国の企業で、AIの推論能力でA1に迫る素晴らしいモデルをいくつかリリースしています。最新のV3では、大きなリソース制約の中で素晴らしいモデルを作り出しました。
Jim Fan博士が言うように、「リソース制約は素晴らしい方法で自己革新を強制する」のです。Metaと比べて計算コストが10分の1で済んだことは、これらのモデルが私たちが考えていたよりもはるかに効率的になり得ることを示しています。
科学のためのAIについて。物理学のノーベル賞について、彼は「今日、私たち全ては物理学者だ。AIの博士号を持つ人は私のハッカーズガイドを読んでください。機械学習は今や統計力学です。あなたは最高の賞の候補者です」と言っています。
そして化学のノーベル賞について。Demis HassabisとAlphaFoldチームは、タンパク質の3D構造がどのように折りたたまれるかを解明する画期的な成果を上げました。これは大きなブレークスルーであり、おそらく素晴らしい医学的ブレークスルーにつながるでしょう。カスタム医療、カスタム設計タンパク質など、Demis Hassabisが言うように、ほとんど(あるいは全て)の病気の根絶が見られるかもしれません。
Jim Fan博士が言うように、「まずAIを解決し、そしてAIを使って他の全てを解決する」というのが大きなテーマのようです。人間の知性はここまで私たちを導いてくれましたが、将来のブレークスルーの多くは人工ニューラルネットによって推進されるでしょう。
Neuralinkについて。脳とコンピュータのインターフェースであるNeuralinkが実装され、ある人(申し訳ありませんが名前を忘れました)がマリオカートや文明、様々なゲームをプレイしています。首から下の筋肉を動かすことはできませんが、マウスの動きを考えるだけでコンピュータを操作し、インターフェースすることができます。
かなり良いレベルで操作できています。15歳のゲーマーのように素早くクリックすることはできませんが、おそらく平均的な非技術系ユーザーと同程度の速さです。これはまだ初期バージョンです。進歩とともに、将来的には他の人間よりもはるかに速くコンピュータとインターフェースできるようになるかもしれません。
最後に、このポストで列挙できない素晴らしいAIの瞬間が多くありました。ChatGPTのデビューからわずか2年。2年と少しですが、10年のように感じます。Transformerの論文からは7年が経ちました。多くのハイプや約束、恐れがありました。
私(Dr. Jim Fan)は、可能な限りシグナル対ノイズ比を改善しようと努めてきました。ちなみに、これは私(動画の話者)ではなく、私は可能な限り多くの情報を網羅しようと努めているだけです。
Dr. Jim Fanの投稿を聞くのは素晴らしいことです。特定のトピックについて彼が投稿するとき、本質的なものに絞り込む素晴らしい仕事をしてくれます。時にはハイプを少し抑える方向に修正してくれます。「これは素晴らしく見えるけれど、実際は少し異なる、やはり素晴らしいけれど、もう少し現実的な」というような具合です。私は多くのトピックについて、そのような素晴らしい内部の洞察を彼に期待しています。
彼はWilsonの引用で締めくくっています。これは初めて聞きましたが、少し衝撃を受けました。「人類の本当の問題は次のことです。私たちは旧石器時代の感情、中世の制度、そして神のような技術を持っています」
これは今ほど真実味を帯びたことはないでしょう。現代のAI時代を象徴する引用だと思います。私たちが直面している状況を正確に捉えています。
感情に振り回され、恐れや欲望、その他の短期的な感情や衝動によって害を引き起こす可能性のある人々がいます。中世の制度については、立法者の多くが必ずしもテクノロジーに詳しいわけではありません。多くのことが昔からの慣性で続いています。確かに改善の余地があります。
そしてこの間、本当に神のような技術が出現しています。これは素晴らしい引用だと思います。
しかしJim Fan博士は続けます。「良いニュースは、私たちが技術を構築できるということです。つまり、それが私たちの制度、社会、文化の中で果たす役割を定義することもできます。AIは人類の未来の避けられない部分です。私たちが正しい力を適用することを選べば、それは素晴らしい善の力となり得ます。皆さん、良いお年を」
2025年とAI革命、ロボット革命について、皆さんはどう思いますか?少し心配や不安を感じていますか?この引用は本当に素晴らしいですね。これからあちこちで引用することになりそうです。
ここまでご視聴いただき、ありがとうございます。お楽しみいただけたなら、いいねとチャンネル登録をお願いします。新しいコンテンツがまもなく登場します。いつものAIタイム、いつものAIチャンネルで。私はWest rthでした。また次回お会いしましょう。


コメント