BlockのCTOであるDhanji Prasannaが、同社が開発したオープンソースAIエージェントGooseについて語るインタビューである。Gooseはユーザーのコンピュータ上で実際に作業を実行できる拡張可能なエージェントであり、Model Context Protocol(MCP)を活用して既存のシステムと連携する。非エンジニアによるバイブコーディングから、Goose自体のコードベースの大部分をGooseが書くという再帰的な開発まで、幅広い用途で使用されている。Prasannaは、AIが企業にもたらす変革について、特にツール使用、エージェントミドルウェア、そしてBlockがどのようにAIファーストな企業へと変貌を遂げているかについて詳しく解説している。

Gooseの哲学:過剰な設計を避ける
私たちのアプローチは、過剰に設計しないということです。Gooseには実際に作業をしながら学習させることを好んでいます。レシピという機能も用意していて、Gooseでワークフローを試してみて気に入った場合、それをスクリプトのようなものに、つまり私たちが呼んでいるレシピに焼き込んで、チームメイトと共有できるようになっています。
ツールをGooseに使いやすくする方法を考え出そうとするよりも、Gooseの方がより有能であることがわかっています。つまり、Gooseは人間としては思いつかないような驚くべき方法で物事を理解するのです。面白いですね。しかも、人間がやるよりも速くそれを実現することもあり、かなり驚きです。
本日のTraining Dataには、BlockのCTOであるDhanji Prasannaをお迎えしています。今年の初め、BlockはGooseをリリースしました。これはオープンソースの拡張可能なエージェントで、コンピュータ上であなたのために作業を実行できるものです。GooseはJack DorseyのBit Chatの最初のバージョンから、非エンジニアがサイドプロジェクトをバイブコーディングするまで、さらにはGooseチーム自身がGooseコードベースの大部分の新規コードを実際に書くことまで、あらゆることに幅広く使用されています。まさに再帰的ですね。
このエピソードでは、Dhanjiがツール使用、MCP、そしてエージェントミドルウェアがAIに真のインパクトをもたらす上で果たす役割について解説し、AIがBlockを製品としても企業としても変革している様子を垣間見せてくれます。それでは番組をお楽しみください。
本日はBlockのCTOであるDhanjiをお迎えできて嬉しく思います。お招きいただきありがとうございます。まず、考えさせられる質問から始めたいと思います。AIがもたらす破壊について多くの議論があります。私たちBlockは主に消費者や企業、主に中小企業に金融サービスとソフトウェアを提供することに焦点を当てています。
AIがそれを完全に破壊する可能性、つまりBlockのような企業がもはや存在する必要がなくなるかもしれないという話が多く出ています。そこで質問ですが、AIは味方なのでしょうか、それとも敵なのでしょうか。
それについては二つの答えがあります。まず第一に、あらゆる新技術と同様に、原子力エネルギーを類比として考えることができます。それは本当に誰がそれを開発しているのか、そしてどのような目的でそれを使用しているのかによります。原子力医学は命を救います。原子力エネルギーは私たちにとって革命的なものになり得ますが、それで爆弾を作れば恐ろしいことになります。
AIも非常に似ていると思います。多くの良いことをする可能性を持っています。AlphaFoldやそれに類する素晴らしいものですでにそれを見てきました。しかし、悪質なことにも使える可能性があります。ですから、味方か敵かという問いに対する答えは、誰がそれを手にしていて、その目的は何かによるということです。
ただ、私はそれを特にBlockにとってどうかという観点で考えていました。つまり、AIが破壊者を可能にして私たちの地位を奪うのか、それともBlockがAIをうまく活用してビジネスを強化できるのか、ということですね。
私は明らかに、それが私たちにとって良いものになると信じています。私は常にBlockを金融サービス会社ではなく、テクノロジー企業だと考えてきました。ですから、どんな新しい技術であれ、私たちは常に早期に取り入れ、それを使って顧客に最善のサービスを提供する方法を見つけ出してきました。ですから、これを脅威とは見ていません。ハンドルから手を離して、いつもやっていることをやらなくなった場合にのみ脅威になります。
カードの速度を利用して動作する最初のカードリーダーという、技術面での非常に賢明なイノベーションから始まり、ブロックチェーンに関するすべての取り組みに至るまで、私たちは常に新しい技術を受け入れてきました。ですから、これは私たちにとって本当に良いことだと思います。顧客にとっても本当に良いことです。すでにその恩恵を見ています。
Blockでの長い歴史
あなたは今Blockに10年在籍していますね。2015年1月に入社されました。それが私の最新の在籍期間ですが、実際には2011年にBlockのGitHubリポジトリへの最初のコミットがあります。
それは知りませんでした。そうなんです。すごいですね。ただ、フルタイムの従業員ではなかったんですね。何度か短期間働いて、2013年にフルタイムで戻ってきました。
なるほど、それは興味深いですね。その完全な経歴は知りませんでした。本当に興味深いです。私は会社との関わりがあなたより少し長いんです。2010年末に取締役会に参加しました。長い時間が経ちましたね。
リスナーの皆さんのために、少し前提を整理するのが有用かもしれません。Blockは今日何をしているのでしょうか。製品とサービスの全範囲は何ですか。CTOとしてあなたは会社のすべての活動について信じられないほど広い視野を持っているはずですよね。今日重要なすべてのビジネスについて理解できるよう教えていただけますか。
もちろんです。私たちの二つの主要な柱はSquareとCash Appです。Squareは商店とセラーにサービスを提供し、Cash Appは金融サービスアプリとして消費者にサービスを提供しています。両方ともエコシステムとして成長しています。
それに加えて、Tidalという音楽ストリーミングサービスもあります。そしてBitKeyを含む多数のオープンソースイニシアチブがあります。これはビットコインを安全に保持するための新しいイニシアチブです。そして最近、rigをローンチしました。これは私たちのマイニングハードウェアです。家庭にマイニングリグを設置でき、ビットコインを採掘できます。
それは珍しいように思えます。なぜビットコインマイニングリグをやっているのですか。
私たちには、業界最高のものと競争できる非常に強力なマイニングリグを構築でき、しかもエネルギー効率とコスト効率に優れているという仮説がありました。そして、rigでそれを実現したと信じています。ですから、これは印象的な最初の試みです。
ただ、創業者であるJackはビットコインとそれを日常のお金にする力を非常に強く信じています。そしてこれは、それを前進させるための私たちの試みの一つなのです。
AI インフラ業界の秘密の一つは、トップのAIインフラベンダーの多くが以前は暗号通貨マイニングプロバイダーだったということですよね。ですから、あなたの暗号マイニングの大きなビジネスのアクトツーだと見ています。
AIアジェンダの推進者
確かに、それは気づかれていて、私たちもそのような二重用途の技術について話し合ってきました。しかし、いえ、私たちは適切なスペックに焦点を当てています。rigが素晴らしい仕事をして追求してきた核心的な使命からそれると思います。ですから、今のところそれに焦点を当てたいと思います。
Jackが多くのビットコイン関連の取り組みをBlockで推進してきたと述べられましたね。BlockでのAIアジェンダを推進しているのは誰なのか興味があります。AI方面で非常に多くのことをやっているように見えます。これもJackの個人的な情熱プロジェクトなのでしょうか、それともあなたのものなのか、あるいは会社全体のものなのでしょうか。
Jackと私はその点でかなり一致していると言えます。この役職に就く前、私はJackに長いメールを書いて、「本当にAIに投資する必要があり、それを中央集権的に行う必要があり、会社全体をそれを実行するように変革する必要がある」と伝えました。彼は100%同意してくれて、シドニーまで飛んできて二日間私と過ごし、それについて徹底的に話し合いました。
ですから、私たち二人が一致して同期していること、何が必要で、どのようにAIを推進するかについて一致していると言えます。私たちはそこで良いスタートを切れたと思います。
当社には機械学習を実装してきた長い歴史があります。その通りです。では、以前機械学習と呼ばれていたものや現在AIと呼ばれているものをどのように区別していますか。船とボートのようなもので、曖昧な線があってどこで交差するのかよくわからないのでしょうか、それともこれら二つの異なる概念をどのようにフレーム化していますか。
生成AIが違いだと思います。つまり、深層学習と、従来の機械学習が目指していた分類やクラスタリングなどの一般的な機械学習のユースケース以上のことをする能力です。Blockでの機械学習の使用は常にリスク側にありました。
ですから、常に詐欺、スパム、悪用などに焦点を当ててきました。そして、それが本当に得意になったと思います。しかし、深層学習ができることを見始めると、会社にあるあらゆる部門と機能、そしてそれ以上のものへと世界が開かれます。
ですから、そこに線を引きます。基本的には深層学習対従来の機械学習です。
AIネイティブになるためのマニフェスト
Jackに送ったメールには何が書いてあったのですか。どのようにAIネイティブになるかというAIマニフェストは何でしたか。
私は「誰か、私ではない人を雇ってください」と書きました。「CTOになれて、会社をAI活用に変革できる人を。なぜなら私たちはかなり遅れをとっていて、先を行く必要があるから」と。彼はそのアドバイスの半分に従い、もう半分は結局私を雇うことになりました。ですから、善行には罰が伴うというわけです。
マニフェストの他の要素は何でしたか。組織をよりAIファーストにするために、ほぼ中央集権的に推進したと述べられましたね。それをどのように推進したかについてもっと話していただけますか。
段階的に行いました。最初は、いくつかの特別プロジェクトに賭けて投資しました。8つの異なるプロジェクトに2人から5人のエンジニアが取り組んでいました。これらのプロジェクトの一部は私が持っていたアイデアで、一部はすでに取り組んでいたものやハックウィークのアイデアなどでした。それらに資金を提供して推進しました。
そして徐々にGM構造を解体し始めました。これはSquareとCash AppとTidalの価値の多くをそれらのサイロ内に閉じ込めていたと思います。それらをすべてまとめ、実際にプラットフォームチームも追加しました。これらは皮肉にもこれらすべてから分離されていましたが、それがさらに強力にし、本当に強力な踏み台を与えてくれました。
会社の各部分を機能的な組織構造に中央集権化するにつれて、エンジニアリングの卓越性、技術的卓越性を推進し、ポリシーを統一できました。多くのことがうまくいき、変革は今ペースを上げて進んでいます。
それは本当に興味深いですね。異なる時点で、組織デザインは異なる目的に役立ちます。当時解決する必要があった問題に対して、GM構造が適切なメリットを持っているように見えた時期がありました。しかし今回はそうではありませんでした。中央集権化と機能的組織が今成功している方法だからです。
まさにその通りです。「場合に応じて」ということわざのようなものです。私はGM構造に分割した時代の一員でした。純粋に機能的だったところから分割したんです。Cash Appのエンジニアリング責任者として、10人のエンジニアから200人以上になるまで務めました。Cash AppのCEOだったBrianやJackと非常に緊密に協力して、この分離を作り出しました。
その背後にある多くの理由は、Cash Appに自律性と焦点を与えて、構築しようとしているものを追求し、Squareの使命と混同せず、それも明確に保つためでした。
しかし、技術を深く掘り下げる必要があり、業界で地殻変動的なシフトが週単位で起こっているこの時代では、この深さと単一の焦点、単一の組織的焦点を持つことが本当に重要です。Jackもその見解の大きな支持者でした。
製品構築マインドセットの変化
LLMと生成AIを中心に構築するために、開発者が慣れている働き方と比較して、ほぼ異なる製品構築マインドセットを受け入れる必要がありましたか。
いくつかの異なるアプローチを試してきました。これに対する万能薬はありません。AIを労働力に導入するシンプルな答えはありません。あらゆるAIツールがここにあります、使ってください、何が機能して何が機能しないか教えてください、というアプローチを試しました。
それはまちまちの成功を収めています。Gooseは今や会社の大多数が使用していますが、他のいくつかのAIツールも使用しており、それは私にとって非常に嬉しいことです。Gooseがそれらのツールと競争できないなら、Gooseは仕事をしていないということですから。
ですから、人々が使いたいと思う他のAIツールへのライセンスを提供することに非常に満足しています。そして残りの半分は、企業に機能を提供するこれらすべてのシステムを使用していることです。課題追跡のようなシンプルなものであれ、顧客管理のためのSalesforceであれ、その間のあらゆるものです。
しかし、それらのツールでAIを使用することは、私たちがこれを全体論的に考え始めるまで捉えどころのないものでした。そこで、Blockを企業があってツールがあって製品があってビジネスがあるというのではなく、Blockのすべてが機能であると見なしました。
支払いを受け取る能力であれ、ビットコインを移動させる能力であれ、株を買う能力であれ、請求書を発行する能力であれ、Tidalで音楽を聴く能力であれ、企業側も同じように扱いました。課題を作成すること、PRを開くこと、これらはすべて単なる機能です。そしてその上にエージェントミドルウェア層を配置しました。
事実上、Gooseと私たちのすべてのUIは今、このエージェント層を通じて機能と対話するように進化しています。これにより膨大な価値が解放されました。まだその移行の始まりにいるだけです。ですから、時間とともにさらに多くの有用性を解放し続けると期待しています。
Gooseとは何か
Gooseという言葉を使っていますね。すべてのリスナーがこれに精通しているわけではないと思います。メニューにはありません。これは私たちが構築してオープンソース化した機能です。それが何なのか教えてください。
非常にシンプルに言うと、Gooseは汎用AIエージェントです。つまり、ラップトップにダウンロードして使用できるプログラムで、UIがあります。コマンドラインでもUIでも使用できます。Model Context Protocol、つまりMCPとして知られているものを使用して構築されています。聞いたことがあるかもしれません。
GooseはMCPの最も早期の採用者の一つでした。MCPは要するに、既存のツールや機能のために形式化されたラッパーのセットを作成し、AIエージェントに公開するということです。Gooseはすべてのシステムに接続できました。既存のシステムすべて、GmailやGoogle Docs、Square決済などあらゆるものに接続し、それらの間のワークフローを完全に自律的に調整できます。
少しプロンプトを与えて「Q3の業績に関するマーケティングレポートが欲しい」と言うと、それはSnowflakeでデータを探し、LookerやTableauなどの他のシステムも見るかもしれません。知っているプログラミングツールを使って多数のチャートを作成し、それをすべてPDFやGoogle Docとして配信し、メールで送ることさえできます。
これがGooseの調整能力の一端を示しています。しかしそれ以外にも、最も早期のAIエージェントの一つだったと信じていますし、確実に主要なオープンソースエージェントの一つで、MCPの形成を支援しました。実際、MCPの最初の発表では、プロトコルへの初期貢献者として参加しています。いくつかの方法で拡張してきましたし、その恩恵を見続けています。
Gooseプロジェクトの誕生
このプロジェクトはどのように生まれたのですか。誰が構築したのですか。構築にどのくらいかかりましたか。あなた方が構築したものは本当に素晴らしいです。
ありがとうございます。CTOに就任したとき、エンジニアたちが考案していたクールなアイデアをすべて見るために裏のクローゼットを漁ったんです。Gooseはその一つでした。他に7つか8つありました。それらは異なるアプローチを取っていました。
GooseはBrad Axenという私たちのエンジニアの一人によって開発されました。彼はエージェントがAIから有用性を実現する未来になるという論文を開発していました。それが正しいことがわかり、私たちは彼を保護し、6、7人のチームを与えました。彼らは本当に自分たちの実力以上の活躍をしています。
なぜGooseと呼ばれているのですか。トップガンの引用ですね。そうです。わかりませんでした。Bradは本当にGooseそっくりなんです。なるほど、いくつかの角度からの類似性があるんですね。
大企業が才能を見つけて、彼らが繁栄するスペースを与えることができるという素晴らしいストーリーです。時々、大企業は何よりも自分のアイデアを殺してしまう幼児殺しのリスクがあるのではないかと思います。代わりに、元々Cash Appだったときや今Gooseでもそうですが、Blockは個人にアイデアを本当に追求させるスペースを与えるという素晴らしい仕事をしていると思います。
まさにその通りです。多くはJackと彼が推進する実験の文化に帰着すると思います。私たちの多くは同じ価値観を持っています。私が仕事に来る理由は、クールなものを構築すること、誰も以前に構築したことのないものを構築し、人々が長い間苦労してきた有用性や価値を実現することです。会社にはそのようなエンジニアがたくさんいます。
それを見ることができ、これらの人々に自由に枠をつけて、クレイジーなアイデアを追求させることができるのは、信じられないような旅でした。これらの多くは成功しません。実際にホームランを打った数よりもはるかに多くのことを試してきました。しかし、確実にCash AppとGooseは二つの大きなものです。BitKeyとProtoも加えたいと思います。それらは非常にシンプルな実験として始まりました。
Gooseの使われ方
人々がGooseを使う方法は、コマンドラインで使っている場合はほぼClaude Codeのようなもので、アプリケーションインターフェースで使っている場合はChatGPTと同等のようなものですか。それが人々がそれから価値を得る方法として考えるべきですか。
それは妥当な類推です。エンジニアはコマンドラインを使う傾向があります。私たちがそれに慣れていて、その中で作業するのが好きだからです。コマンドラインではコーディングスタイルの作業をはるかに多く、より良く行います。
両方のワークフローまたは両方のUIは、根底では事実上同じです。両方とも同じMCP、同じ機能にアクセスできます。それらがどのように表面化されるかが違うだけです。
ですから、特に非技術系の人々を含む一部のユーザーは、UIの方がはるかに快適です。だから UIがあるのですが、彼らもそれを使ってソフトウェアを構築します。これは私たちにとって信じられないほどの洞察でした。こんなことは全く予想していませんでした。営業担当者や財務担当者が自分たちのためにソフトウェアダッシュボードを書くなんて予想していませんでしたが、可能であることがわかり、それほど時間もかかりません。
それほど多くの作業を必要としません。これが二つのUIがある理由です。しかしその核心において、Gooseは自律性を推進することに非常に重点を置いています。エージェントのループをできるだけ遠くまで実行させます。つまずいたり、障害に当たったりすれば、後退して別のアプローチを試します。
これは多くのAIエージェントが時間とともに私たちから学んだことでもあります。そのアプローチを取ると、コーディングについて何も知らなくてもかなり有能なソフトウェアを構築できることがわかります。
エンジニアリング内外での使用例をいくつか知りたいと思います。しかし、その特定の側面を探った以上、どのように安全を確保していますか。もし本当に自律的なら、恥ずかしいメールを書いたり、アクセスすべきでないデータにアクセスしたりしないとどうやってわかるのですか。役割ベースのアクセス制御はありますか。削除すべきでないものをたくさん削除するのを防ぐにはどうするのですか。
Gooseのセキュリティと安全性
多くのGooseユーザー、早期採用者が非常に心配していたことです。私の経験では、心配は実際に起こることよりもはるかに大きいです。Gooseとその構造化された方法、しかしLLM全般において、彼らはツール使用においてかなり慎重になるように設計されていることがわかります。
しかしもちろん、それを超えて、段階的な安全構造があります。すべてのことに私を関与させるモードでGooseを使用できます。つまり、あなたがOKと言って確認しない限り、破壊的なアクションは取りません。あるいは、それに慣れてきたら完全自律モードに押し進めることができ、多くの人がそうし始めたときにその強さの価値を見始めます。
特に、破壊的なアクションを行う前に、安全モードでなくても自らあなたに知らせ、「それはやめてください」と言う機会を与えることに気づきます。また、いつでも中断して別の道を取るよう指示することもでき、これは多くのエンジニアが使用する興味深いGooseの使い方です。
最後に、Gooseはあなたとして行動します。データセンターに走って行って自分のことをする野生のロボットのようなものではありません。各ユーザーが持つのと同じアクセス制御に従います。その爆発半径は、その個人の承認レベル、人間が取るアクションに非常に限定されています。正しいです。
営業にいるなら財務情報にアクセスできず、その逆も同様です。例えばです。ですから、それは本当に個人のサイドキックのようなものです。それがコアGooseアプリケーションまたはツールが開発された方法です。
それ以来、多くの他のGooseにインスパイアされたツールや、そう考えたいならGooseの拡張を生み出しました。これらは誰かのラップトップにあるのではなく、外部で動作します。
ヘッドレスGooseという本当にクールなツールがあり、例えば私たちのCIパイプラインで実行されます。インフォセキュリティによって脆弱性チケットが提出されるたびに、ヘッドレスGooseはその脆弱性を自動的に修正しようとします。しかし、私たちのすべてのコードは非常に厳格な監査とレビュー手順に従っており、人間がすべてを読んで同意し、これが正しい修正であることを確認してから、本番環境に入ります。ヘッドレスGooseは素晴らしいものです。
あなた方は楽しみすぎですね。AIに描いてもらおうとしないでください。それだけは言っておきます。人々がGooseで構築している最も一般的なユースケースは何ですか。
最も興味深いことは、非技術系の人々がGooseの創造的な使い方を見つけていることです。Figmaを取って「これを機能するサイトに構築して」と言うことから、パリで休暇を取る人がGooseにパリのすべての興味深いサイトの地図を作らせ、それらすべてのサイトを巡る巡回セールスマン的な経路を作らせたのを見ました。これは彼女が旅行中に参照できるアプリでした。
ですから、そのようなことはすべて素晴らしいですが、人々は財務ダッシュボードや、ワンクリックで同僚と共有できるレポートツールも構築しています。その間にも多数のものがあります。
JackはBit Chatを構築しました。これは完全に分散化されたチャットアプリケーション、Bluetooth上で動作するソーシャルネットワーキングアプリケーションです。人々がGooseで行ったことには信じられないようなものがあります。
昨日Bit Chatを使っていました。素晴らしいですね。Goose上で構築されたんですよね。そうです、最初のバージョンはGooseを使って構築されました。それ以来、他にも貢献があったと思います。ですから、今すべてがGooseだけなのかはわかりませんが、大きな部分を占めています。
GooseでGooseを構築することもしています。Gooseのコードの大部分はGooseによって書かれています。ですから、ほぼ完全に自己完結させました。まだGooseが達していない複雑さのレベルにある人間が書いたコードがいくらかありますが、私たちの目標は完全に自律的にすることで、各リリースでゼロから100%自分自身を書き直すことです。
しかし、誰かがGooseで構築した最もクレイジーなものを共有したいと思います。少し受け入れがたいものです。ですから、本当に強い心が必要です。
Gooseに本当に興味を持っている私たちのGooseチームのエンジニアがいて、彼はGooseに文字通り自分がすることすべてを監視させています。SlackやGoogle Meetの通話を含めて、その間のすべてです。そして、本当に驚くべき方法で彼のために介入します。
同僚と新機能のアイデアについて話していると、数時間後にGooseがすでにこの機能を開発しようとしてPRを開いているのを見ます。彼は頼んでいません。座ってそれに何かを伝えていません。単に彼のコミュニケーションの全体性を取って、これが彼が望むかもしれないものだと理解しているのです。
もし彼が会議に遅れそうで、オフィスへの移動時間が必要な場合など、フローから抜け出させます。同僚や他の誰かとコミュニケーションして「これを再スケジュールしよう」と言えば、カレンダー上で自動的にそれを行います。
ですから、多くのワイルドなことがあり、それには胃袋が必要ですが、これらはAIエージェントで可能な機能です。なんという取り組みでしょう。
Gooseの基盤アーキテクチャ
Gooseは内部でさまざまな異なる基盤モデルを使用していますよね。正しいです。プラグ可能なプロバイダーシステムがあります。ツール呼び出しが可能な任意のLLMを基本的に使用できます。
GooseをLLMツール使用ループとして考えるべきですか。それが基盤アーキテクチャですか。
Gooseを腕と脚として見てほしいです。LLMを瓶の中の脳だと考えるなら、それはあなたとチャットすること以外は何もできません。Gooseはそれに腕と脚を与えて、現実世界で行動できるようにします。
ですから、そのすべての思考能力、そのすべての生成テキスト能力を取って、私たちが毎日使用する実際のシステム、デジタルシステムに適用できます。
あなたのシステムをGooseで使いやすくするためのヒントやコツはありますか。つまり、既存のGitHubやSalesforceを取って、MCP経由でGooseに接続するだけで、Gooseはすぐにそれらのツールを効果的に使えるのでしょうか。それとも、Gooseがより成功する可能性を高めるために何かしていますか。
私たちのアプローチは過剰に設計しないことだと言えます。Gooseには実際に作業をしながら学習させることを好んでいます。レシピという機能もあります。Gooseでワークフローを試してみて本当に気に入った場合、それをスクリプトのようなもの、つまり私たちがレシピと呼ぶものに焼き込んで、チームメイトと共有できます。
ツールをGooseに使いやすくする方法を考え出そうとするよりも、Gooseの方がより有能であることがわかります。つまり、人間としては思いつかないような驚くべき方法で物事を理解するのです。興味深いですね。
そして、人間がやるよりも速くそれを行うこともあり、かなり驚きです。LLMが進化する速度では、その能力も急速に改善しています。
ですから、特定のツールでGooseをより効果的にするためにエンジニアリングの足場を構築できるものを見つけたとしても、LLMプロバイダーの次のリリースがその能力を完全に凌駕するかもしれません。自力でそれをやるかもしれません。
とても興味深いですね。エンジニアのように考えるのをやめなければなりません。これは私にとって学ぶのが本当に難しかったことの一つですが、価値ある教訓です。より良い言葉がないので、データサイエンティストのように考え始める必要があります。
それはとても興味深いですね。異なるLLMの中で、他よりもツール使用やツールの使い方を理解するのが得意なものはありますか。
ええ、絶対にあります。大手LLMプロバイダーはすべてツール呼び出しがかなり得意で、それらの間にはいくらかのバリエーションがありますが、定期的に互いに跳び越えています。すべてネイティブなツール呼び出しサポートがあります。
オープンソースプロバイダーにはツール呼び出しサポートがありません。単にテキストを生成するだけです。ただし、それらの一部はツール使用がより得意になるようにファインチューニングされています。
ですから、ツールシムと呼ばれるシステムがあり、基本的にそれらのLLMをMCPを使用できるように適応させます。それは私たちにとってオープンソースLLMモデルを有効にするのにかなり効果的でした。
Goose内の推論呼び出しの基盤モデルの分割、帰属を共有できますか。それは測定しているものですか。重要ではないですか。
人々に好きなものを使わせています。ですから、サポートしている10や20のモデルのゲートウェイがあり、Goose自体、特にオープンソースGooseには、LLamaのようなオープンソースプロバイダーをサポートするためのプラグインがたくさんあります。ここに来る飛行機の中で構築したものがあります。最新のMacBookで驚異的に速い組み込みモデルプロバイダーを使用しています。
ですから、さまざまなものがあり、人々は必要な領域に基づいて異なるものを使用します。プライバシーを非常に意識している人もいます。単一のトークンもラップトップから出したくありません。ですから、QwenやDeepSeekのようなモデルを使用します。
しかし、多くのコーディングユースケースでは、Claudeファミリーのモデルを好み、GPT-5も今では能力がかなり近づいています。興味深いですね。
AIの実際の影響
業界では、すべてのAI実験にもかかわらず、少なくとも大企業は多くの価値を見ていないという話がたくさんあります。MITから最近出たレポートでは、Fortune 500企業のごくわずかしか本当にAIから恩恵を受けていないと示唆していると思います。
十分な期間実行してきました。私たちにとっての本当の影響は何ですか。開発者の生産性に本当に変化が見られますか。より速い出荷ケイデンスが見られますか。開発者は単調な作業の一部をしなくてよくなっていますか。どのように測定していますか。
週単位で追跡している内部指標があり、その指標は非常にシンプルにGooseによって節約された手作業時間です。その指標は0%から始まり、今では年末までにおそらく25%の手作業時間が節約されるでしょう。それが私たちの目標で、かなり近いです。間違いなく目標に向かっています。
それはいくつかの質的および量的シグナルを考慮に入れた複雑な指標ですが、これらのLLMには汎用能力があるという事実にはいくらかの真実があると思います。非常に一般的なことに本当に優れています。ソビエト連邦についての歴史的事実を知りたければ、すぐに教えてくれます。
しかし、私が神経科学の研究者で、私の妻がそうですが、彼女が研究している認知症の特定のタイプについて非常に特定のことを知りたい場合、そこで苦労し始めます。組織に多くの深さを持つ人々を集めると、基本的なLLM能力を上回る傾向があります。
ですから、LLMの強みが何であるか、そしてそれを企業にどのように適用するかを特定することが、本当に価値を解放するものであり、私たちにとってそれはワークフローの自動化であり、作業についての作業、すべての単調で手作業のことを取り除くことです。そこで最も進歩を見てきました。
そして、先ほど説明したエージェントミドルウェア層を使った別の進歩の層があります。それはさらに多くの有用性を解放すると思いますが、まだ初期段階です。
LLMとエージェントの有用性フェーズはまだ先にあり、その一部を見始めたばかりだと言えます。
25%の工数削減、手作業時間の節約があるということですね。8人のエンジニアが現在、特にGooseで週に8から10時間を報告していますが、ヘッドレスGooseや私たちが奨励している他のシステムのようなAIツール全体の介入も含めて、その数字は上昇し続けると完全に期待しています。
オープンソースへのコミットメント
Blockにはオープンソースコミュニティに参加してきた長い歴史があります。オープンソースソフトウェアを消費するだけでなく、実際に還元しています。これはJackにとって非常に重要なことだと知っています。実際、数年前に彼と私が交わした会話が、Sequoiaでオープンソースフェローシップを始めるきっかけとなりました。オープンソースソフトウェアの構築に時間を捧げる人々に資金を提供するだけのものです。業界の私たち全員にとって非常に大きな利益があるからです。
Gooseをオープンソース化する決定をしましたし、会社はオープンソースの他の側面でも多くのことをしていると思います。より一般的にBlockのオープンソース開発へのコミットメント、どのように還元しているか、そして特にGooseをオープンソース化する決定について話していただけますか。
もちろんです。それは私たちの価値観の核心です。実際、それが私がBlockに雇われた方法です。私のオープンソース貢献を通じてです。
私は以前のCTO、最初のCTOだったBob Leeと働いていました。それは最初から私たちの主力でした。単に私たちが構築できる有用なツールだからというだけでなく、ほぼすべてのテクノロジー企業が何らかのオープンソーススタックの上に構築されています。LinuxであれGitのようなツールを使うことであれ。
しかし、オープンソースのコードの質は信じられないほど高いとも思います。オープンソースを維持してコミュニティに利用可能にしておくための基準はかなり高く、それに伴う特定のエートスとコミットメントがあり、GNUの初期にまで遡る非常に長い系譜があります。
ですから、Jackにとって、それは本当に重要です。私のキャリアの最初から一部でした。常にオープンソースに貢献することを楽しんできました。オープンソースから非常に多くを学びました。
エンジニアが「なぜこのすべての時間を費やして、このソースコードを無料で配るのか」と言うとき、私が彼らに言うことの一つは、3,000人以上のエンジニアのコミュニティに何かに取り組んでもらうか、あるいは30,000人以上のエンジニアのより広いコミュニティに私たちが取り組んだものを見てもらい、彼らのアイデアを貢献してもらい、そこからも恩恵を受けることができるということです。
ですから、核心的価値として、それは本当に私たちのDNAに深く刻み込まれており、特にAndroidでは多くの成功を収めてきました。私たちの技術は世界中の約40億のモバイルデバイス上で動作していると言えます。Gooseもその伝統に従い、最初にリリースしたときのように、すべての人を高め、すべての人に道を示すべきだと考えています。
モデル自体についてはどうですか。オープンモデルを使用することと、プロプライエタリモデルを使用することについて、好みはありますか。
私の好みは、すべてのモデルがオープンソースでオープンウェイトであることです。Gooseとは異なり、これらの数兆パラメータのモデルをダウンロードして実行することはできないので、それに関してはいくらか厄介さがあると思います。
しかし、オープンソースであるモデル、特にQwenは最近、非常に速いだけでなく、ツール使用で本当に有能で、非常に速く改善しているのを見ました。しかし、他にも多数あり、すべてが順調に改善しています。
私たち自身はLLMを開発していませんが、カスタマーサービスとリスクに焦点を当てたSLM、つまり小さい言語モデルを開発しています。そして、純粋に研究のために他のフロンティアモデルも開発しています。音声から音声へのモデルに取り組んでおり、それはオープンソース化してすべての知見を公開する予定です。
ですから、すべてがオープンソースであるべきだと思います。誰もがこの核心技術から恩恵を受けられるべきです。インターネットが想像されたように、それはユーティリティのようなものであるべきです。
オープンモデルは常に、最高のクローズドモデルから一歩、一年遅れていると信じていますか。そして、線を前に引いていくと、数年後にはオープンモデルがコーディングに素晴らしいものになる時点に到達するでしょうか。
それが枠組みとして提示されている通りに答えるのは非常に難しい質問です。私の信念は、これらのモデルを使用しているこの方法は劇的に変わるだろうということです。
これまでは、おそらく1つか2つのモデルがあり、ラップトップまたはデスクトップ上にAIエージェントがあり、そのモデルに呼び出しを行い、コードを書いてくれます。Gooseもそのように機能します。しかし、これらのモデルからコーディング能力を解放する未来は、スウォームインテリジェンスだと本当に思います。
コパイロット的なやり方であなたと一緒に作業する1つのエージェントだけではなく、50インスタンスのエージェント、または100インスタンスのGoose、つまりギースを解放して、お互いに協力してかなり複雑なアプリケーションを構築する方法です。
現在、コアツール呼び出しループはおそらく平均して各ターンで2〜3分で終了します。しかし、もし多数のギースと一緒に何時間も作業したらどうでしょうか。Cash Appのサイズと規模の複雑なアプリケーションを構築できるでしょうか。それは確かに私が物事が向かっていると思う方向です。
そして、そこに向かうなら、これらの単一モデルプロバイダーがどれだけ有能であるかはそれほど重要ではなくなります。競争はオープンソースモデルXがクローズドモデルYと同じくらい良いかではなく、オープンソースモデルXを50、60、500、千コピー上で活用できるかかもしれません。小さく安いからです。そしてその累積能力は単一の大規模言語モデルよりも大きいのです。
ですから、それが私の賭けです。これは無限の数のアリが宇宙船を造れるかという哲学的な質問に少し帰着すると思います。
この類推をしているとき、実際には昆虫学について考えていました。それほど有能ではない小さなユニットのコロニーについて考えていました。集合的には非常に多くのことができます。ですから、それについて疑問があり、価値ある研究方向だと思います。正確にどのように展開するかはわかりません。
階層的なスウォームである可能性があり、いくつかの大規模言語モデル、非常に有能なモデルを活用して計画を立ててもらったり、再統合をしてもらったりし、これらのよりシンプルなモデルが噛み砕いて消費できる非常に小さなナノサービスのようなものに分解します。しかし、それは私たちにとって熱い研究領域です。興味深そうですね。すごい。
ウィッシュリストと今後の展望
ウィッシュリストには何がありますか。あなたは大企業で大規模にAIを展開する最前線にいます。数千万の消費者と企業に接しています。多くのお金を動かしています。
ですから、大規模でそれをするのは楽しいです。欲しいものがあるはずです。
常により速く動きたいと思っています。それは常に私の悩みの種でした。ローカルで使用するツールには、本当に活力を与え、勢いをつけることができる特定の応答性があります。ですから、それをチームに望んでいます。プロジェクト全体や組織規模のイニシアチブにそれを望んでいます。
これらのツールは初めてそれを私たちに与えることができると思います。その摩擦の一部を解消し始めることができます。それは間違いなく私のウィッシュリストにあります。すべての戦線でより速く動くにはどうすればよいか。持っているデータからより多くのフィードバックを得るにはどうすればよいか。
そして最終的に、これらすべては顧客とコミュニティのために有用なものを構築するためです。それを迅速に行い、反復できることが夢です。
聴衆が理解していないかもしれないことの一つは、Blockはリモートファーストの組織であることにコミットしているということです。CTOとして、あなたは別の国の異なるタイムゾーンに住んでいて、チームは明らかに大規模に分散しています。
それはスピードに反しているように見えるか、あるいはそうではないかもしれません。リモート組織を効果的にする方法についての神話を払拭するのを手伝ってください。あなたが経験したトレードオフは何ですか。何が良くて何が悪いですか。
確かにトレードオフがあります。リモートがあらゆる点で完璧だとは言いません。リモートについて見逃されている非常にシンプルな事実があると思います。それは、リモートワークをサポートしているからこそ雇える従業員がいるということです。
業界や分野の第一人者のような特定の従業員がいて、リモートで雇用できなければ、彼らは決して私たちのために働かないでしょう。スウェーデンやシドニーで彼らを雇用できる人々がいます。シドニーに住んでいるのは私以外にもいます。
最初から、特にCash Appでは、分散して働くというDNAがありました。いくらかの速度や偶発性をトレードオフします。ウォータークーラーでの会話のようなものが一緒に集まることは、本当に仕事を加速させます。
しかし、明らかにそのコストを上回る利益があると思います。なぜなら、これらの素晴らしいエンジニアを雇用でき、例えばシリコンバレーのような同じレベルの競争がない市場で6年、7年、8年と彼らを維持できるからです。
私たちは非常に早くそれを活用しました。オーストラリアにいて、約10年前にオーストラリアにエンジニアリングオフィスを開設し、振り返ったことはありません。世界中の他の多くのオフィスについても同じことが言えます。
ですから、トレードオフではありますが、特に関わっている才能について話すとき、それは価値あるトレードオフだと思います。
バイブコーディングの受け入れ
皆さんがバイブコーディングを受け入れているかどうか尋ねたいです。CLAのSebastianと先ほど会ったばかりで、彼はアプリで何かがおかしいことに気づいて、自分でバイブコーディングすると言っていました。本当に本当にクールです。
非技術系の人々の一部が今やサイトやダッシュボードを立ち上げることができると述べましたね。本番コードベースへのアクセスは与えていないと想像します。それは時間とともに変わると思いますか。
そこには二つの質問があります。それを解きほぐしましょう。バイブコーディング、それはGooseが基本的にバイブコーディングを開拓したと思います。それを言うのは言い過ぎではないと思いますし、少なくともバイブコーディングの世界では非常に早期でした。多くの実験ができました。
毎日コードを書いていますが、すべてGooseを通じてです。すべてバイブコードを通じて、または評価しているときに他のAIエージェントの一部を通じてです。ですから、手動でコードを書くことはほとんどありません。物事がどのように機能するかを見るために編集したりコメントアウトしたりするかもしれません。
ですから、すでにバイブコーディングの時代にいます。
すべてのエンジニアもそうしていますか。彼らはもう実際に手動でコードを書いていないのですか。
多くのエンジニアはまだバイブコーディングの考え方に移行中です。コードが複雑になるほど難しい提案だと思います。だからこそ、1,000万行のコードベースに大規模な変更を加えるのではなく、ダッシュボードやレポート、個人ベースでのインタラクティブなシステムのようなこれらの小さなツールをバイブコーディングする方がより効果的だと思います。
それは純粋にコンテキストウィンドウの制限とLLMがそのサイズにスケールする能力の制限です。ですから、いいえ、手動でコードを書く必要は非常に大きいと言えますが、それは私たちのレガシーシステムが非常に複雑だからです。
本当にパフォーマンスが高く、暗号を使用し、金融決済システムか何かなので本当に安全である必要があるもののようなものを設計したい場合、経験豊富な開発者がLLMがまだ匹敵できない非常にパフォーマンスが高いコンパクトなコードを書けるインスタンスはないと思いますか。
それはおそらくいくつかの非常に狭いケースで真実だと思いますが、そこでさえ、開発者はLLMにまずコーディングさせてから、改善できる場所を見る方が良いと主張します。彫刻のようなもの、または短編小説を書くようなものです。取り組むべき骨格を持っていることは、自分で何かを思いつこうと座っているよりもはるかに生産的です。
LLMはパフォーマンスの高いコードを書くのに驚くほど優れています。特定の方法でそれを書かせる必要があるだけです。しかし、失敗する場所は、独自のAPIを呼び出す方法を理解することです。なぜなら、これらはトレーニングセットにないことが多く、特に非常に複雑な独自フレームワークがある場合、それらについて推論するのに苦労する可能性があります。それについては間違いなく手動介入が必要です。
人間が必要とされる場所は、より高いレベルのアーキテクチャ設計、レースコンディションの理解、トポロジー内の複数のシステム間の調整と編成です。そのようなことには間違いなく人々をループに入れる必要があります。
ところで、Gooseをもっとアクセスしやすくできますか。もちろんできます。
どのようにしてほしいですか。Squareでは登録投資顧問業者なので、規制対象企業としてこれらすべてのルールに準拠する必要があります。管理制御によって、残念ながら自分のマシンでそのような管理者権限を持っていないため、Gooseを完全に展開できませんでした。さらにアクセス権を得るために交渉してきましたが、本当に可能性を解き放ちたいなら、アクセス権が必要です。
それはできると思います。それなしでもGooseから多くの価値を得ることはできると思います。ブラウザや完全にホストされた環境で実行されるGooseのバージョンの実験もあり、それらはあなたのような組織に展開可能にできると思います。
しかし、喜んで何でも全部やりますし、すべてオープンソースなので、誰でもどのようなユースケースでも必要に応じていじったり修正したりできます。人々にそうすることを奨励しています。
実は私たちSequoiaのテクノロジーチームは顧客です。顧客が正しい言葉かどうかわかりませんが。自社のアプリケーションの一部を構築するために内部でGooseを使用しています。ただ、私自身はまだ完全に使えていないだけです。でも交渉に行きます。私は知り合いがいますから。
あなたのマシンへのアクセス権を与えることは、ほとんどの人のマシンよりも少し怖いかもしれないと思います。
セーフモードがあります。それが少しでも助けになるなら、どのようにセットアップするかをお見せすることに非常に喜んでいます。ありがとうございます。
共有できないなら大丈夫ですが、コードベースのどれだけがGooseによって、またはAIによって今日書かれているかを見ているかどうか、そしてそれが時間とともにどのように進化するかについて推測はありますか。
測定しています。異なるチームで異なる数字があります。先ほど言ったように、Gooseに最も関与しているエンジニアは、既存のレガシーコードベースで書くコードのおそらく30〜40%を生成します。これらは非常に非常に複雑で、エージェントが扱うのが難しいものです。
先ほどお話ししたように、AIファーストチームでは、ほぼ完全にバイブコーディングされています。Goose自体では、開かれるすべてのPRがGooseによって書かれています。
他にも本番アプリで同様にその方法で展開されているより深刻なものが多数あります。しかし、すべてのアプリが大部分AIコードで書かれるようになるまでにはまだしばらくかかります。本当にクールです。
顧客向け製品でのAI活用
会話の最初に、生成AIが以前機械学習でやっていたことと、今AIでどのように受け入れようとしているかの大きな違いだと述べられましたね。内部の生産性や開発者生産性の部分について多く話してきましたが、顧客向け製品についてはどうでしょうか。生成AIがそれをどのように再構想すると想像していますか。
同じタイプの生産性向上があると思います。顧客側ではさらに多いかもしれません。課題は既存のシステムでそのすべての有用性を解放することです。だからこそMCPに興奮していますし、AnthropicやOthersと一緒にそのプロトコルを前進させるために非常に懸命に働いています。
少し前にSquare AIをパブリックベータにローンチしました。Square AIは本質的に、すべての加盟店の財務を理解するGooseのようなボットと話すことができる方法です。
ですから、「Q3の結果、売上結果の棒グラフを作って」と言うことができます。それよりもはるかに詳細にすることもできます。「木曜日に1時間早く閉店したいと考えていて、ワインバーか何かを経営しているんだけど、どれくらい損失が出るか」と言うこともできます。これは実際にあるビジネスからの実例です。
そして、それを望んでいた人々、つまりウェイターたちは、その最後の1時間でチップの多くを稼いでいることがわかりました。ですから、Square AIと話した後、それをしないことに決めました。
ですから、加盟店側では顧客のためにすぐに機能させています。製品スイート全体で取り組んでいます。そして先ほど言ったように、内部ツールとすべての製品を本質的に機能の集まりとして見ています。
Gooseのようなツールや一般的にAIエージェントが、その上に座ることによって価値を解放できると考えています。
課題は、顧客がそれを理解し、関わることができ、そこにあるすべての価値を得られるようにインターフェースを進化させることです。
Jackが取締役会で話していたことの一つは、それを分解すると機能とインターフェースだということでした。時々、人々はUIについて考えずに機能を過度に強調します。UIは、ユーザーを喜ばせたり、ユーザーが特定の製品を本当に完全に受け入れることを可能にしたりします。それに多くの重点を置いています。だからこそ、デザイン文化が非常に大きいのです。
そして、デザインを会社で非常に重要視しています。Jackは音声が重要なインターフェースになる可能性についても話していました。それについては話していません。私たちの製品の一部でも音声が大きな役割を果たすと見ていますか。
ええ、絶対に。デザインのポイントに戻ると、会社として、デザインとエンジニアリングを台座の上に置くことに非常にコミットしています。
それは最初からずっとやってきたことです。ローンチした最初のSquareリーダーでさえ、デザインが美しく見え、非常に非常にシンプルに機能し、膨大な量の複雑さを隠していたと思います。Cash Appでも同じことをしました。Cash Appには単一の残高しかありませんが、バックエンドではあらゆる種類のお金を調整しています。
抑制する複雑さが全体的にあり、それがデザインとエンジニアリングが一緒になることの独自性です。ですから、それには完全に同意しますし、エージェントミドルウェアとしてのAIエージェントを使った機能とインターフェースについてのこの洞察は、私たちがかなり深く話し合ったことで、昨年末にその洞察を思いついたと思います。そして、すべての製品をこのように考え、インターフェースを第一に取り組むように進化させるために本当に推進してきました。インターフェースは本当にユーザーが気にすること、顧客が見るものだからです。
販売をしたりお金を移動したりするためにそれらを使用できなければ、これらすべての機能を持っているという事実には興味がありません。それが本当に彼らが気にすることです。ですから、そこに焦点を当てており、できるだけ早くそこに到達するためにこれらすべての機能を解放しようとしています。
最後の質問:3年後のBlock
最後の質問かもしれません。何か予測はありますか。3年後のBlockはどのように見えますか。
可能な予測はたくさんあると思います。テクノロジー企業であることへの再コミットメントと、オープンソースの境界を本当に押し広げること、そしてすべての人のためのアクセスと自律性を増やすことが、Gooseのようなものを何度も何度も思いつくという道をはるかに先に進めることになると言えます。
ですから、この空間に注目してください。3年後には、エージェントがどのようなものか、それらがどのように展開され使用されるかの次の進化を見ることになると思います。エージェントと呼ばれることさえあるのか、何か他の新しい技術があるのか。私はそれの最前線にいることを強く願い、信じています。
ギースの群れができるわけですね。他に何か予測はありますか。来年の大きなトピックは何になるでしょうか。
有用性を解放することが大きなトピックになると思います。多くの企業が、本当に有用性を解放する方法を理解せずにAIに向かって急いできたと思います。ですから、彼らはAIは誇大広告だとか、投資する価値がないとか、そういった誤った結論に達しています。
能力対有用性の曲線の上に座っているだけだと思います。来年、それをどのように行うかを理解している企業を本当に見ることになると思います。それが会話のトピックになるでしょう。
歴史的なパターンは、短期的には新技術の影響を過大評価し、長期的には過小評価する傾向があるということです。つまり、それが一貫したパターンです。1970年代にそれを提唱したスタンフォードのコンピュータサイエンティストがいました。そして、AIについてもそこにいると思います。
2026年は、私の考えでは幻滅の谷になると思います。人々は期待に完全には応えられなかったと感じ、私たちは倍増すると思いますが、2030年までには上振れで驚かせることになると思います。
かなり的を射ていると思います。ただし、LLMが改善してきた速度で改善を続けるという小さな可能性があり、それは本当にエキサイティングな見通しだと思います。
これらのモデルのパフォーマンスのいくつかを見ると、拡散とトランスフォーマー技術を組み合わせているものなどがあり、そこで得られるものはたくさんあります。ですから、物事が本当に離陸する小さな可能性があると思いますが、主にあなたが正しいと思います。
再び上昇する前に少しプラトーがあるでしょう。しかし、これを実現し、コースを維持し、私たちの場合は顧客と経済的エンパワーメントである、存在する核心的理由のための価値を本当に見る企業はうまくいくでしょう。ドルや誇大広告を追いかけている企業は取り残されるでしょう。
私は簡単に興奮しすぎるかもしれませんが、あらゆる段階でAIに興奮してきました。幻滅の谷には全くいません。
あなた方がGooseで行ったこと、それで可能なこと、そしてGooseが今や独自のPRを書いているという事実を見ると、これは魔法のような新技術であり、本当に素晴らしい人々がそれで本当に素晴らしいものを構築しているという例が非常に多くあります。
ありがとうございます。そう言っていただきありがとうございます。そしてご参加いただきありがとうございました、Dhanji。ええ、絶対に。いつでも。


コメント