アンドレイ・カルパシー:ソフトウェアは(再び)変化している

LLM・言語モデル
この記事は約23分で読めます。

元Tesla AI責任者であるAndrej Karpathyによる講演で、AIの時代におけるソフトウェア開発の根本的な変化について論じている。彼は70年間で初めてソフトウェアが根本的に変化していると主張し、従来のコード(ソフトウェア1.0)、ニューラルネットワーク(ソフトウェア2.0)、そして英語でプログラムできる大規模言語モデル(ソフトウェア3.0)という3つのプログラミングパラダイムについて説明する。LLMを新しいオペレーティングシステムとして捉え、部分的自律性を持つアプリケーションの重要性、そしてエージェント向けのソフトウェア構築の必要性について詳しく解説している。

講演の開始とソフトウェアの変革

皆さん、元Tesla AI責任者のAndrej Karpathyをお迎えください。

こんにちは、たくさんの方にお越しいただいてありがとうございます。今日はAIの時代におけるソフトウェアについてお話しできることを嬉しく思います。聞くところによると、皆さんの多くは学部生、修士課程、博士課程の学生とのことで、これから業界に入ろうとしていらっしゃいますね。実際、今は業界に入るには極めてユニークで非常に興味深い時期だと思います。その根本的な理由は、ソフトウェアが再び変化しているからです。

「再び」と言うのは、実は私は以前にもこの話をしたことがあるからです。しかし問題は、ソフトウェアが変化し続けているということです。ですから、新しい講演を作るための材料がたくさんあるのです。そして、それは極めて根本的に変化していると思います。大まかに言うと、ソフトウェアは70年間、こうした根本的なレベルでそれほど変化していませんでした。そして、ここ数年で2回ほど、非常に急速に変化したと思います。ですから、やるべき仕事が膨大にあり、書き直すべきソフトウェアも膨大にあります。

ソフトウェアの領域を俯瞰する

ソフトウェアの領域を見てみましょう。これをソフトウェアの地図として考えるなら、これは「map of GitHub」と呼ばれる非常にクールなツールです。これは基本的に書かれたすべてのソフトウェアです。これらは、デジタル空間でタスクを実行するためのコンピュータへの指示です。ここをズームインすると、これらはすべて異なる種類のリポジトリで、これが書かれたすべてのコードです。

数年前、私はソフトウェアが変化していて、新しいタイプのソフトウェアが登場していることに気づきました。当時、私はこれをソフトウェア2.0と呼びました。アイデアは、ソフトウェア1.0がコンピュータのために書くコードである一方、ソフトウェア2.0は基本的にニューラルネットワーク、特にニューラルネットワークの重みだということでした。このコードを直接書くのではなく、データセットを調整し、オプティマイザーを実行してニューラルネットワークのパラメータを作成するのです。

当時、ニューラルネットワークは決定木のような異なる種類の分類器として見られていたと思います。しかし、この枠組みの方がはるかに適切だったと思います。今では、ソフトウェア2.0の領域におけるGitHubの同等物があります。Hugging Faceがソフトウェア2.0におけるGitHubの基本的な同等物だと思います。Model Atlasもあります。

要約すると、ソフトウェア1.0はコンピュータをプログラムするコンピュータコードであり、ソフトウェア2.0はニューラルネットワークをプログラムする重みです。

ソフトウェア3.0の登場

これまで私たちが慣れ親しんできたニューラルネットワークは、画像からカテゴリーへの変換のような固定機能コンピュータでした。変化したのは、大規模言語モデルによってニューラルネットワークがプログラマブルになったことです。これは非常に新しくユニークなことで、新しい種類のコンピュータだと思います。私の考えでは、ソフトウェア3.0という新しい名称を与える価値があります。

基本的に、プロンプトはLLMをプログラムするプログラムになりました。そして驚くべきことに、これらのプロンプトは英語で書かれています。これは非常に興味深いプログラミング言語です。

例えば、感情分析を行う場合を考えてみましょう。Pythonで感情分析を行うコードを書くことも、ニューラルネットワークを訓練することも、大規模言語モデルにプロンプトを出すこともできます。これは短いプロンプトの例で、これを変更してコンピュータを少し異なる方法でプログラムすることができます。

基本的に、ソフトウェア1.0、ソフトウェア2.0があり、GitHubのコードがもはやただのコードではなく、コードに散りばめられた英語がたくさんあることが分かると思います。ですから、新しい種類のコードの成長カテゴリがあると思います。

プログラミングパラダイムの革命

新しいプログラミングパラダイムであるだけでなく、私たちの母国語である英語で行われていることも驚くべきです。数年前にこれが私の心を打ったとき、私はこれをツイートしました。これは現在私のピン留めツイートです。驚くべきことに、私たちは今、英語でコンピュータをプログラミングしているのです

Teslaにいたとき、私たちは自動操縦に取り組んでいました。車を運転させようとしていました。当時、このスライドを見せたのですが、車への入力が下部にあり、ソフトウェアスタックを通してステアリングと加速を生成していることを想像できます。当時、自動操縦にはソフトウェア1.0のコードであるC++コードがたくさんあり、画像認識を行うニューラルネットワークがいくつかありました

時間が経つにつれて自動操縦を改善していく中で、基本的にニューラルネットワークが能力とサイズにおいて成長し、さらにすべてのC++コードが削除され、元々1.0で書かれていた多くの機能が2.0に移行されました。例えば、異なるカメラからの画像間や時間を通じた情報の統合の多くはニューラルネットワークによって行われ、多くのコードを削除することができました。

ソフトウェア2.0スタックが文字通り自動操縦のソフトウェアスタックを食い尽くしました。当時、これは本当に驚くべきことだと思いました。そして、新しい種類のソフトウェアがあり、それがスタックを食い尽くしているという同じことが再び起こっていると思います。

私たちには3つの完全に異なるプログラミングパラダイムがあり、業界に入る皆さんがそれらすべてに堪能であることは非常に良いアイデアだと思います。なぜなら、それらにはそれぞれわずかな長所と短所があり、1.0、2.0、3.0のいずれかで何らかの機能をプログラムしたいと思うかもしれないからです。ニューラルネットワークを訓練するのか、LLMにプロンプトを出すだけなのか、これは明示的なコードの一部であるべきなのか、などです。

LLMの本質を理解する

LLMラボがLLMを構築するために資本支出を費やし、これはグリッドの構築に相当します。その後、APIを通じて私たち全員にその知性を提供する運営費があります。これは、百万トークンごとに支払うような従量制アクセスを通じて行われます。

この新しいコンピュータの特徴は、LLMが故障すると、実際に世界の知性停電のようなものになることです。これは、グリッドの電圧が不安定なときのようなもので、惑星が単に愚かになるのです。これらのモデルへの依存度はすでに非常に劇的で、今後も成長し続けると思います。

しかし、LLMはユーティリティの特性だけでなく、ファブの特性も持っています。LLM構築に必要な資本支出は実際にかなり大きいからです。単に発電所を建設するようなものではありません。膨大な金額を投資しており、技術の技術ツリーは非常に急速に成長していると思います。

私が最も理にかなっていると思うアナロジーは、LLMがオペレーティングシステムに非常に強いアナロジーを持っているということです。これは単に蛇口から出る商品としての電気や水ではありません。これらは今やますます複雑なソフトウェアエコシステムです。

LLMは新しいオペレーティングシステム

エコシステムは非常に似たような方法で形成されており、WindowsやMac OSのような少数のクローズドソースプロバイダーがあり、Linuxのようなオープンソースの代替があります。LLMに関しても、少数の競合するクローズドソースプロバイダーがあり、llamaエコシステムは現在、再びLinuxのようなものに成長する可能性のあるものに近い近似だと思います。

LLMを新しい種類のコンピュータとして見ると、これは新しいオペレーティングシステムのように見えます。LLMは新しい種類のコンピュータで、CPU相当として座っています。コンテキストウィンドウはメモリのようなもので、LLMはこれらすべての機能を使って問題解決のためにメモリと計算を調整しています。

アプリをダウンロードしたい場合、例えばVS Codeに行ってダウンロードし、Windows、Linux、またはMacで実行できるのと同じように、CursorのようなLLMアプリを取って、GPT、Claude、またはGeminiシリーズで実行できます。ドロップダウンメニューなので、同じような方法です。

現在の状況:1960年代の再現

私たちは、この新しい種類のコンピュータにとってLLM計算がまだ非常に高価な1960年代のような時代にいます。これにより、LLMはクラウドで一元化されることを余儀なくされ、私たちは皆、ネットワーク越しにそれと対話するシンクライアントです。私たちの誰もこれらのコンピュータを完全に利用しておらず、したがって、クラウドでコンピュータを実行している際にバッチの一次元である時分割を使用することが理にかなっています。

コンピュータがこの時期にどのようなものだったかというと、オペレーティングシステムはクラウドにあり、すべてがストリーミングされ、バッチ処理がありました。パーソナルコンピューティング革命はまだ起こっていません。経済的でないからです。

LLMと直接テキストでやり取りするとき、私はターミナルを通してオペレーティングシステムと話しているように感じます。テキストで、オペレーティングシステムへの直接アクセスです。一般的な方法でGUIはまだ実際に発明されていないと思います。例えば、ChatGPTにテキストバブル以外のGUIがあるべきでしょうか。確かに、これから取り上げるアプリの一部にはGUIがありますが、すべてのタスクにわたる一般的なGUIはありません。

LLMの独特な特性

LLMには初期のコンピューティングとはかなり独特な方法で異なる側面があります。私が非常に異なると思う特に一つの特性について書いたことがあります。LLMは技術普及の方向を逆転させます

通常、電気、暗号化、コンピューティング、飛行、インターネット、GPSなど、多くの新しい変革的技術において、これまで存在しなかったものは、新しくて高価であるなどの理由で、通常は政府と企業が最初のユーザーになり、その後消費者に普及します。

しかし、LLMは逆転しているように感じます。初期のコンピュータではすべて弾道計算と軍事利用でしたが、LLMでは「卵をどうやって茹でるか」のようなことです。これは確かに私の使用の多くです。新しい魔法のコンピュータがあり、それが卵を茹でるのを手伝ってくれているのは本当に魅力的です。政府が何か本当にクレイジーなことをするのを手伝っているわけではありません。

実際、企業や政府は、私たち全員がこれらの技術を採用することに遅れをとっています。これは逆転しており、この技術をどのように使用したいか、最初のアプリがどこにあるかなどに情報を与えると思います。

LLMの心理学を理解する

LLMをプログラムする前に、これらのものが何であるかを考える時間を費やす必要があります。特に、それらの心理学について話すのが好きです。

LLMを考える方法は、それらが人々の精神のようなものだということです。それらは人々の確率的シミュレーションです。この場合のシミュレータは自己回帰トランスフォーマーです。トランスフォーマーはニューラルネットワークで、トークンレベルで進行し、チャンク、チャンク、チャンク、チャンクと進み、すべてのチャンクにほぼ等量の計算があります。

このシミュレータは基本的に重みが関与しており、私たちがインターネット上に持っているすべてのテキストなどにフィットさせ、この種のシミュレータになります。人間で訓練されているため、人間のような創発的心理学を持っています

最初に気づくのは、LLMが百科事典的な知識と記憶を持っていることです。それらは多くのことを覚えることができ、個々の人間よりもはるかに多くのことを覚えることができます。なぜなら、非常に多くのものを読んでいるからです。

これは実際に映画「レインマン」を思い出させます。これは本当に素晴らしい映画で、皆さんに見ることをお勧めします。ダスティン・ホフマンは自閉症のサヴァンで、ほぼ完璧な記憶を持っています。電話帳を読んで、すべての名前と電話番号を覚えることができます。LLMは非常に似ていると感じます。SHAハッシュやさまざまな種類のものを非常に簡単に覚えることができます。確かにいくつかの点でスーパーパワーを持っています。

しかし、認知的欠陥もたくさんあります。かなり幻覚を見ますし、物事を作り上げ、自己知識の十分な内部モデルを持っていません。少なくとも十分ではありません。これは改善されましたが、完璧ではありません。

ギザギザした知性を示します。一部の問題解決領域では超人的になりますが、基本的に人間が犯さない間違いを犯します。9.11が9.9より大きいと主張したり、strawberryに2つのRがあると主張したりします。これらは有名な例ですが、基本的につまずく可能性のある粗い部分があります。

順行性健忘症にも苦しんでいます。組織に参加する同僚がいる場合、その同僚は時間をかけて組織を学習し、組織について膨大な文脈を理解し、獲得し、家に帰って眠り、知識を統合し、時間をかけて専門知識を開発します。LLMはネイティブにこれを行わず、これはLLMのR&Dで実際に解決されていないことです

コンテキストウィンドウは実際にワーキングメモリのようなもので、デフォルトでより賢くなるわけではないため、ワーキングメモリを非常に直接的にプログラムする必要があります

実用的なLLMアプリケーション

部分的自律性アプリについて最初に興奮しています。例えば、コーディングで作業してみましょう。確かにChatGPTに直接行って、コードをコピーペーストし始めたり、バグレポートなどをコピーペーストしてコードを取得し、すべてをコピーペーストすることもできます。なぜそんなことをするのでしょうか。なぜオペレーティングシステムに直接行くのでしょうか。専用のアプリを持つ方がはるかに理にかなっています。

多くの皆さんがCursorを使用していると思います。私もそうです。CursorはChatGPTに直接行く代わりに欲しいもので、Cursorは初期のLLMアプリの非常に良い例です

Cursorが持つ特性の中で、すべてのLLMアプリで共有され、有用だと思うものを指摘します。第一に、LLMが基本的に大量のコンテキスト管理を行います。第二に、複数のLLMへの呼び出しを調整します。Cursorの場合、すべてのファイルの埋め込みモデル、実際のチャットモデル、コードに差分を適用するモデルがあり、これがすべて調整されています。

本当に大きなもので、常に完全に評価されていないかもしれないのは、アプリケーション固有のGUIとその重要性です。オペレーティングシステムに直接テキストで話したくないからです。テキストは読み、解釈し、理解するのが非常に困難で、また、これらのアクションをテキストでネイティブに取りたくありません。赤と緑の変更として差分を見る方がはるかに良く、何が追加され、何が削除されているかを見ることができます。受け入れるためにcommand Y、拒否するためにcommand Nをする方がはるかに簡単です。テキストで入力する必要はありません。

GUIは人間がこれらの誤りやすいシステムの作業を監査し、より速く進むことを可能にします

最後に指摘したい特徴は、自律性スライダーと呼ぶものがあることです。例えば、Cursorではタブ補完をすることができ、主にあなたがコントロールします。コードのチャンクを選択してcommand Kでそのチャンクだけを変更することも、command Lでファイル全体を変更することも、command Iで好きなようにさせ、リポジトリ全体で何でもすることもできます。これが完全な自律エージェント的バージョンです。あなたは自律性スライダーをコントロールしており、手元のタスクの複雑さに応じて、そのタスクに対して放棄する自律性の量を調整できます

人間とAIの協力

私たちは今、AIと協力しており、通常はAIが生成を行い、人間として私たちが検証を行っています。このループをできるだけ速く進めることが私たちの利益になります。そうすれば、多くの仕事を成し遂げることができます。

これを行う主要な方法が2つあると思います。第一に、検証を大幅に高速化できます。例えば、GUIは非常に重要だと思います。なぜなら、GUIは私たちの頭のコンピュータビジョンGPUを利用するからです。テキストを読むのは努力が必要で楽しくありませんが、物を見るのは楽しく、脳への高速道路のようなものです。GUIは監査システムと視覚的表現全般に非常に有用だと思います

第二に、AIを手綱で繋いでおく必要があります。多くの人がAIエージェントに過度に興奮していると思いますが、リポジトリに10,000行のコードの差分を得ることは私には有用ではありません。その10,000行が瞬時に出てきても、私はまだボトルネックです。この物がバグを導入していないか、正しいことをしているか、セキュリティ問題がないかなどを確認する必要があります。

基本的に、この2つの流れを非常に速くすることが私たちの利益になり、AIが過度に反応的になるため、AIを手綱で繋いでおく必要があります

教育とAIの統合

教育において、今私たちがAIとLLMを持っている中で、教育がどのようなものになるかに興味があります。私の考えの大部分は、AIを手綱で繋いでおく方法に向けられています。ChatGPTに行って「物理学を教えて」と言うだけではうまくいかないと思います。AIが迷子になってしまうからです。

私にとって、これは実際に2つの別々のアプリです。例えば、コースを作成する教師用のアプリと、コースを取得して学生に提供するアプリがあります。どちらの場合も、今、監査可能なコースという中間アーティファクトがあり、それが良いか、一貫しているかを確認でき、AIは特定のシラバス、特定の進歩、プロジェクトなどに関して手綱で繋がれています。これがAIを手綱で繋ぐ一つの方法で、うまくいく可能性がはるかに高いと思います

自動運転の教訓

私は部分的自律性を見知らぬものではありません。Teslaで5年間これに取り組んだと思います。これも部分的自律性製品で、多くの同じ特徴を共有しています。例えば、計器パネルにはオートパイロットのGUIがあります。ニューラルネットワークが見ているものなどを示しています。自律性スライダーがあり、私の在任期間中、ユーザーのためにますます多くの自律的タスクを行いました。

私が語りたい話は、実際に初めて自動運転車を運転したのは2013年でした。Waymoで働いている友人がいて、パロアルトをドライブしてくれることを申し出てくれました。当時、Google Glassを使ってこの写真を撮りました。皆さんの多くは若すぎて、それが何かさえ知らないかもしれませんが、当時は大流行でした。

この車に乗り込み、パロアルトの高速道路、街路などを約30分間ドライブしました。この運転は完璧で、介入は一切ありませんでした。これは2013年、つまり今から12年前でした。私がこの完璧なドライブ、完璧なデモを体験したとき、「わあ、自動運転が差し迫っている。これはただ動いた。これは信じられない」と感じました。

しかし、ここにいる私たちは12年後で、まだ自律性に取り組んでいます。まだ運転エージェントに取り組んでおり、今でも実際に問題を解決していません。Waymoが走り回っているのを見て、運転手なしに見えるかもしれませんが、まだ多くの遠隔操作と多くの人間がこの運転のループにいます。まだ成功を宣言していませんが、この時点で成功すると確信していますが、単に長い時間がかかりました。

ソフトウェアは本当に複雑で、運転が複雑なのと同じように思います。「2025年はエージェントの年だ」のようなことを見ると、私は非常に心配になり、「これはエージェントの10年で、これにはかなりの時間がかかる」と感じます。人間をループに入れ、これを慎重に行う必要があります。これはソフトウェアです。ここで真剣になりましょう

Iron Manスーツのアナロジー

私がいつも考えるもう一つのアナロジーはIron Manスーツです。Iron Manが大好きです。技術とその展開に関して多くの点で正しいと思います。Iron Manスーツについて私が愛しているのは、それが拡張でもあり、Tony Starkがそれを運転でき、同時にエージェントでもあることです。映画の一部では、Iron Manスーツは非常に自律的で、飛び回ってTonyを見つけたりできます。

これが自律性スライダーです。拡張を構築することも、エージェントを構築することもでき、両方を少しずつやりたいのです。しかし、この段階では、誤りやすいLLMなどで作業していると言えば、Iron Manロボットというよりも、Iron Manスーツを構築したいと思います。自律エージェントの派手なデモを構築するよりも、部分的自律性製品を構築する方が良いです

英語プログラミングの民主化

私が話したい他の次元に少し話題を変えたいと思います。ソフトウェアに自律性を可能にする新しいタイプのプログラミング言語があるだけでなく、言及したように、それは英語でプログラムされており、これは自然なインターフェースです突然、誰もが英語のような自然言語を話すため、誰もがプログラマーになりました

これは私にとって非常に強気で非常に興味深く、また完全に前例のないことです。以前は、ソフトウェアで何かをするために5年から10年何かを勉強する必要がありました。これはもはやそうではありません。

バイブコーディングについて聞いたことがある人はいますか。これがそれを紹介したツイートですが、これが今や大きなミームになっていると聞いています。面白い話は、私はもう15年ほどTwitterをやっていますが、どのツイートがバイラルになり、どのツイートが消えて誰も気にしないかをまだ全く見当がつきません。

これは後者になると思いましたが、これは完全なミームになり、今やWikipediaページまであります。HuggingFaceのTom Wolfがこの美しい動画をシェアしてくれました。これはバイブコーディングをしている子供たちで、私はこの動画がとても健全だと思います。この動画を見て、未来について悪く感じることができるでしょうか。未来は素晴らしいです。これはソフトウェア開発への入門薬になると思います

実際のバイブコーディング体験

私も少しバイブコーディングを試してみました。とても楽しいからです。バイブコーディングは、存在しないように見える超カスタムなものを構築したく、土曜日だから適当にやりたいときに素晴らしいです

このiOSアプリを構築しましたが、実際にはSwiftでプログラムできません。しかし、超基本的なアプリを構築できたことに本当にショックを受けました。これは1日の作業で、その日の後には私の携帯電話で動いていました。「これは素晴らしい」と思いました。始めるためにSwiftを5日間読む必要がありませんでした。

また、Menu Generatorというアプリもバイブコーディングしました。これはmenu.appでライブで試すことができます。基本的に、レストランに現れ、メニューを読み、何も分からないという問題がありました。写真が必要でした。これは存在しないので、「バイブコーディングしよう」と思いました。

これがどのように見えるかです。menu.appに行き、メニューの写真を撮ると、menuが画像を生成します。サインアップすると誰でも5ドルのクレジットを無料で取得できるため、これは私の人生の主要なコストセンターです。これは負の収益アプリです。今、膨大な金額を失いました。

Menu Generatorについて私にとって魅力的なのは、バイブコーディング部分、コードは実際にMenuをバイブコーディングする簡単な部分でした。実際に難しかったのは、それを本物にしようとしたときです。実際に認証と支払い、ドメイン名、Vercelデプロイメントを持てるようにすることです。これは本当に困難で、これらすべてはコードではなく、すべてこのdevopsのものはブラウザでクリックするものでした。これは非常に遅く、さらに1週間かかりました。

私のラップトップでMenu Generatorデモが数時間で動作するようになったのに、本物にしようとしたために1週間かかったのは本当に魅力的でした。これは本当に迷惑だったからです。

エージェント向けの構築

例えば、ウェブページにGoogleログインを追加しようとすると、これは非常に小さいですが、このClerkライブラリがこれをどのように統合するかを教えてくれる膨大な指示です。これはクレイジーです。このURLに行き、このドロップダウンをクリックし、これを選択し、それに行き、それをクリックすることを教えてくれています。コンピュータが私に取るべき行動を教えているようなものです。あなたがやって、なぜ私がこれをやっているのですか。すべてのこれらの指示に従わなければなりませんでした。これはクレイジーでした。

したがって、私の話の最後の部分は、エージェント向けに構築できるかに焦点を当てています。この作業をしたくありません。エージェントがこれをできるでしょうか。

大まかに言うと、デジタル情報の新しいカテゴリの消費者と操作者があると思います。これまではGUIを通した人間かAPIを通したコンピュータだけでしたが、今や完全に新しいものがあります。エージェントはコンピュータですが、人間のようでもあります。インターネット上の人々の精神です

例として、ドメインにrobots.txtを置き、ウェブクローラーにウェブサイト上でどのように振る舞うべきかを指示または助言できます。同じように、lm.txtファイルを持つことができ、これはLLMにこのドメインが何についてかを教える単純なマークダウンです。LLMがあなたのウェブページのHTMLを取得してそれを解析しようとしなければならない場合、これは非常にエラーが起こりやすく困難で、台無しになり、動作しません。LLMに直接話すことができます。それは価値があります。

膨大な量のドキュメントが現在人々のために書かれているため、リストや太字、写真があり、これはLLMによって直接アクセスできません。いくつかのサービスが、LLM専用にドキュメントの多くを移行しているのを見ています。VercelとStripeが早期採用者として例ですが、すでにいくつか見ています。マークダウンでドキュメントを提供しており、マークダウンはLLMが理解するのが非常に簡単です。これは素晴らしいです。

ドキュメントのLLM対応

皆さんの一部がthree blue one brownを知っているかもしれません。YouTubeで美しいアニメーション動画を作っています。彼が書いたManimというライブラリがあり、私は自分のものを作りたいと思いました。Manimの使い方に関する広範なドキュメントがあり、実際にそれを読みたくなかったので、全体をLLMにコピーペーストし、欲しいものを説明しました。そして、それは箱から出してすぐに動作しました。LLMは私が欲しかった通りのアニメーションをバイブコーディングしてくれました。「わあ、これは素晴らしい」と思いました。

ドキュメントをLLMにとって読みやすくできれば、膨大な量の使用を解除し、これは素晴らしく、もっと起こるべきです

残念ながら、ドキュメントを取ってマークダウンで表示させるだけではありません。それは簡単な部分です。実際にドキュメントを変更しなければなりません。なぜなら、ドキュメントが「これをクリック」と言うたびに、それは悪いからです。LLMは現在この行動をネイティブに取ることができません。例えば、Vercelは「クリック」のすべての出現を、LLMエージェントがあなたの代わりに取ることができる同等のcurlコマンドに置き換えています。

また、Anthropicのモデルコンテキストプロトコルもあり、これもデジタル情報のこの新しい消費者と操作者としてのエージェントと直接話すもう一つの方法です。私はこれらのアイデアに非常に強気です

LLMフレンドリーなツール

私が本当に好きな他のことは、LLMフレンドリーな形式でデータを取り込むのを助ける小さなツールがここそこにあることです。例えば、私のnanoGPTリポジトリのようなGitHubリポジトリに行くとき、これをLLMにフィードして質問することはできません。これはGitHub上の人間インターフェースだからです。URLをGitHubからgitingestに変更すると、これは実際にすべてのファイルを単一の巨大なテキストに連結し、ディレクトリ構造などを作成します。これはお気に入りのLLMにコピーペーストする準備ができています。

さらに劇的な例は、これらのファイルの生の内容だけでなく、DevonによるGitHubリポジトリの分析も行うDeep Wikiです。Devonは基本的にあなたのリポジトリのためだけに全体的なドキュメントページを構築し、これをLLMにコピーペーストするのにさらに役立つと想像できます。

基本的にURLを変更するだけで何かをLLMにとってアクセス可能にするすべての小さなツールが大好きです

未来の展望

将来、LLMが周りに行って、物をクリックしたりできるようになることは絶対に可能です。これは将来ではなく、今日でもそうです。しかし、それでもLLMと中間地点で会い、彼らがこのすべての情報にアクセスしやすくすることは非常に価値があると思います。これを使用するのはまだかなり高価で、はるかに困難だからです。

要約すると、業界に入るには素晴らしい時期です。膨大な量のコードを書き直す必要があり、膨大な量のコードが専門家とコーダーによって書かれるでしょう。これらのLLMはユーティリティのようなものでもあり、ファブのようなものでもありますが、特にオペレーティングシステムのようなものです。しかし、それは非常に初期で、オペレーティングシステムの1960年代のようなものです。

これらのLLMは、私たちが一緒に働くことを学ばなければならない誤りやすい人々の精神のようなものです。それを適切に行うために、私たちはそれに向けてインフラストラクチャを調整する必要があります。

これらのLLMアプリを構築するとき、私はこれらのLLMと効果的に作業する方法と、それを可能にするツールのいくつか、このループを非常に速く回転させ、基本的に部分的トンネリング製品を作成する方法について説明しました。

Iron Manスーツのアナロジーに戻ると、今後10年間でスライダーを左から右に取ることになると思います。それがどのようなものになるかを見るのは非常に興味深く、皆さんと一緒に構築することを楽しみにしています。ありがとうございました。

コメント

タイトルとURLをコピーしました