テック企業の大量解雇をめぐって、経営陣がAIをどのように口実や合理化の材料として使っているのかを検証する内容である。Atlassian、Block、Metaの事例をもとに、AIが本当に雇用削減の主因なのか、それとも経営不振や市場向けの演出なのかを掘り下げる。さらに、なぜ大規模言語モデルは文章生成でなお限界を抱えるのか、創作や文体の領域でなぜ人間らしさに届かないのかを議論する。最後に、社内でAIトークン使用量を競わせる新たな評価文化を取り上げ、AI導入が働き方や評価制度そのものをどう変えつつあるのかを描き出す。

- オープニング
- AIは本当にレイオフの原因なのか
- AtlassianのレイオフとAI
- Blockのレイオフと経営不振
- Metaの大規模レイオフ観測
- レイオフ理由よりも労働者への影響が重要か
- AIはなぜ文章がうまく書けないのか
- GPT-2やGPT-3のほうが面白かったのか
- ポストトレーニングが文章を均質化した
- AIの文章には人生がない
- これは書き手の自己防衛なのか
- 創作では人間とAIの協働が最適かもしれない
- Claudeを自分専用の編集者にする方法
- AI時代に人間の文章はもっと変になるべきか
- AIは将来、良い文章を書けるようになるのか
- トークン最大化と社内ランキング
- トークンはどれほど高いのか
- トークン使用量と生産性は比例するのか
- トークン浪費と副業の誘惑
- トークンランキングは昔のコード行数評価の再来
- トークン文化は他業種にも広がるのか
- 人はどれだけトークンを使うべきか
オープニング
私はニューヨーク・タイムズのテックコラムニスト、Kevin Rooseです。
私はPlatformerのCasey Newtonです。
そして、これはHard Forkです。
今週は、テック業界で大きなレイオフの波が起きていて、ある疑問が浮かび上がっています。AIによる雇用喪失は、本当にもう始まったのでしょうか。
そのあとには、ライターのJasmine Sunを迎えて、なぜチャットボットは文章を書くのが苦手なのか、その問いに一緒に迫ります。
そして最後は、トークン最大化の時間です。
なぜテック企業は、誰が最も多くAIにお金を使っているのかを測るためのランキングを作り始めているのでしょうか。
AIは本当にレイオフの原因なのか
Casey、ここ数年ずっと、私たちはAIによる雇用の黙示録の兆候を見張ってきましたよね。
ええ、ずっと状況を見てきました。
その通りです。そしてここ数週間で、労働市場、特にテック労働者の市場で、何かが起き始めている初期の兆候が出てきたように思います。
そうですね。実際、企業のCEOたちがレイオフを発表する際に、その理由としてAIを持ち出している例を私たちは確かに耳にしています。だからこそ、そこに注目しているわけです。
ええ。ここ数週間の例をいくつか挙げると、先週、Atlassianは従業員の10%削減、つまり約1,600人の雇用削減を発表しました。会社によれば、その目的はAIとエンタープライズ営業への追加投資の資金を確保するためだということでした。
その少し前には、以前Squareとして知られていたフィンテック企業Blockで大規模なレイオフがありました。従業員の約40%、およそ4,000人を削減すると発表し、その理由として、より小規模でフラットなチームを使う働き方へ移行することを挙げていました。
そして多くの人が今週にも起こるのではないかと見ている大きな件が、Metaです。報道によると、Metaは会社全体の20%以上をレイオフする構えだとされています。これは先週金曜日にReutersが報じたもので、情報筋によれば、Metaは最大16,000人の削減を準備しているとのことでした。これは2022年末から2023年初頭にかけて2万人を解雇して以来、その会社で最大規模のレイオフになります。
ですので、この収録時点では、それが実際に起きたことはまだ確認されていません。ただ、Metaの社内ではかなり緊張が高まっていて、自分の仕事に関する続報を待っている人が多いと聞いています。
この報道が出たあと、MetaはReutersに対して、これは推測に基づく報道だと述べました。
ちなみに、Metaの広報担当者が使う言い回しに慣れていない方のために言うと、それはつまり、実際に起きるけれど、まだ起きるとは言いたくない、という意味です。
その通りです。
Casey、この一連のレイオフをあなたがどう見ているのか聞きたいんですが、その前に開示事項をしておきましょう。私はOpenAI、Microsoft、Perplexityを提訴しているニューヨーク・タイムズで働いています。そして私の婚約者はAnthropicで働いています。
ではCasey、こうした企業がみな、何らかの形でAIをレイオフの理由として挙げていることを、どう見ますか。
Kevin、会社ごとに少しずつ事情が違うと思います。
そして、それぞれのケースについて、AIが本当に主因なのだという見方にも、そうではないという見方にも、それなりに筋の通った議論ができると思います。だからそのあたりを少し掘っていくべきでしょう。
ただ、最も大きな視点から言えば、企業は今もなお、AIが人員削減の重要な要因だと私たちに伝え続けています。そして遅かれ早かれ、私たちはその言葉を信じなければならなくなるのだと思います。
ええ、そこにはたぶん複雑な事情もあるでしょうし、そこは掘り下げるべきですね。ただ、私はこれを、多くの人にとっての早期警戒サインだと思っています。特にテック業界の人たちにとってはそうです。新しいAIツールによって、最初に仕事が変わる、あるいは消える人たちになる可能性が高いと言っていいと思います。
AtlassianのレイオフとAI
では具体例に入りましょう。最初に挙げたAtlassianから始めます。CEOのMike Cannon-Brookesは会社のブログ投稿で、成長性、収益性、スピード、価値創出において、優れたソフトウェア企業に求められる基準は上がったと述べていました。
そして、持続可能で利益の出る成長を実現するために、私たちは慎重に、しかし断固として、そして迅速に適応することを選んだと語っていました。
彼は、AIが人を置き換えているわけではないと主張する一方で、AIが必要とされるスキルの組み合わせや、特定の分野で必要な役割の数を変えないふりをするのは不誠実だとも言っていました。
ええ。私はその言葉を額面通りに受け取ります。本人も中間的な立場を取ろうとしているように見えますよね。つまり、AIが要因であることは否定しないけれど、これが唯一の理由だとも言っていない。
あと、背景として押さえておくべきなのは、Atlassianは、私たちがここでしばらくSaaSの黙示録と呼んできた流れの一部かもしれない、ということです。つまりこの会社は企業向けツールを作っていて、その多くの製品は本質的には構造化されたワークフローです。そして、いずれそうしたものは自分でかなり安くコード化できるようになる、と考えている人たちがいるわけです。
もちろん、それでもAtlassianのような会社の製品を買う選択をするかもしれません。でも以前ほど高い金額を払う気にはならないかもしれない。
その結果、この1年で会社の株価はかなり打ちのめされてきました。だから彼らは、まず資金面で多少苦しくなっているし、さらに重要なのは、株式市場に対して別の物語を語る必要に迫られているということです。
そして今の物語は、こうです。何人かの従業員を減らし、残る従業員の生産性をどう高めるかを考える。
ここで最近よく聞く言葉に、AI washingというものがあります。要するに、企業が大量解雇をしたいとか、もうそんなに人はいらないと思っているとき、それをAIのせいにする、ということです。
それって、ソフトウェアエンジニアがようやくシャワーを浴びたって意味かと思いましたよ。
要するに、こういう仮説です。これは本当はAIのせいのレイオフじゃない。ただ企業にとって都合のいい言い訳としてAIが使われているだけなんじゃないか。Atlassianはそれに当てはまると思いますか。
うーん、正確にどの部署の誰を解雇しているのか、もう少し詳しく知りたいですね。他の企業ではその情報があるので、それが判断材料になります。
Atlassianの内部で具体的にどう進んでいるのかは分かりません。でも、この種の話としてはCEOはかなり率直だったと思います。少しはAIの話である。全部がAIの話ではない。でも、AIには注目しておいてくれ、ということです。
だから私には、それは誠実に聞こえます。なので、ここは一応、彼らには免罪符を与えていいかなと思います。
Blockのレイオフと経営不振
ではBlockについて話しましょう。CEOのJack Dorseyは、レイオフについて次のように説明しました。
私たちは困っているからこの決断をしたのではない。事業は堅調だ。ただ、何かが変わった。私には二つの選択肢があった。この変化が進むにつれて何か月も何年もかけて徐々に削減するか、今の状況を正直に認めてすぐに行動するかだ。私は後者を選んだ。
Casey、どう見ますか。
まず、私とJack Dorseyの関係について知っておいてほしいんですが、私は彼に対して少しバイアスがあります。かつてのTwitterユーザーとして、あのサイトを心から恋しく思っている身として言えば、2026年時点の私は、Jack Dorseyにレモネードスタンドの経営すら任せません。
分かりました。でもBlockそのものについて話すなら、この会社は2019年に約3,800人だった従業員数を、今では1万人以上にまで増やしました。パンデミック期の好景気の中で、事業に何が起きているのかへの注意を欠いたまま、典型的に人を増やしすぎたように見えます。
それと、Kevin、これ見ましたか。本当に笑ってしまったんですが、レイオフの5か月前に、Blockは8,000人を対面イベントに飛ばしてJay-Zを呼ぶために6,800万ドルを使っていたんです。
勘弁してくれよ。
そうなんです。これぞ、Jack Dorseyをテック界の偉大なビジョナリーの一人たらしめた、あの有名な細部へのこだわりってやつですね。
で、これはAIの話なのか。繰り返しになりますが、Blockって実際何をしている会社なのかというと、コーヒーショップにある小さなiPadの端末を提供していたり、Cash Appをやっていたりするわけです。そういう製品を回すのに、実際どれだけ人が必要なんでしょうか。たぶん1万人もいらない。
それはAIの話なのかと言われると、目を細めて見ればそうとも言えるかもしれません。でもやはり、この会社は株価が崩れていた。市場に対して別の物語が必要だった。そういう話なんだと思います。
そして、残った従業員の生産性をAIが上げるだろう、という議論は確かにできます。なので、これもまた、起きていることをAIで正当化することはできるけれど、単にこの会社は以前から経営がうまくいっていなかった、とも言えるケースです。
つまり、AI washingでもありJay-Z washingでもあるわけですね。まさに彼らが今やっているのは。
そうですね。
この発表は株価に影響を与えたようです。実際、Jack Dorseyがレイオフを発表した翌日、Blockの株価は17%急騰しました。その後少し下がりましたが、それでもレイオフ前よりは高いままです。
ここははっきり言っておくべきですが、これも計算式の一部ですよね。こうした会社の多くは上場企業で、投資家の目を気にしています。そして今、AIには一種の物語としての力がある。AIツールやAI的な働き方に大きく投資している会社に見えれば、投資家は、ああ、この会社は先を見ている、この移行をどう乗り切るか計画があるんだな、と思う。
だから、今回のすべてがAIに関連しているというストーリーを語ることに力がある、と企業側が見ているわけです。
そうですね。それって、暗号資産バブルの最盛期を思い出します。上場企業が社名にcrypto関連の単語を一つ足すだけで、株価が4万%くらい跳ね上がった、あの感じです。
結局のところ、公開市場って本当にその程度の簡単さでだませてしまうんですよね。
ええ。
CEOだったら、そのくらい簡単に人をだませると知るだけで少し安心しそうですね。でもまあ、とにかく。
まったくです。ただ、全員がそれにだまされているわけではありません。かつてSquareだったころの元広報責任者、Aaron Zamostは最近ニューヨーク・タイムズに寄稿し、こうした人員削減は見た目ほどのものではないと書いていました。これは単に、新しい現実に適応している会社だと見せたいだけであり、しかも、みんながそのビジョンに乗るか、あるいは不快なら去るしかない、という話なのだと。
そうですね。
そもそも、Blockの未来って何なんでしょうか。改めて言うと、彼らはクラフトフェアでブレスレットを売るためにスマホにつなげる小さな端末を作っていて、あとPayPalの競合をやっている。ここでAIを使って何をするんですか。
まさにそこなんですよ。ロードマップが見えない。彼らはメタバースを作っているわけでもない。機械の神を作ろうとしているようにも見えない。だから、あちらで何をしようとしているのか本当に分からない。もし知っていても、私にはメールしないでください。
Caseyにはメールしないでください。Cash Appで送金してください。
そう、それでいいです。
Metaの大規模レイオフ観測
では、レイオフを実施すると報じられている3社目の大手テック企業、Metaについて話しましょう。
まだ、どの人たちが、どのチームが影響を受けるのか正確には分かっていませんが、かなり大きな規模の人員削減です。そして対外的なコミュニケーションでは、他の会社と同じように、新しい働き方に全面的に賭けていく、そのためには何らかの削減が必要になる、と言っているように見えます。
ええ。最近の決算説明会でMark Zuckerbergは、以前なら大きなチームを必要としていたプロジェクトも、今では非常に優秀な一人によって達成できるようになったと述べていました。
それに加えて、この削減は大規模なAIインフラ投資と並行して起きている点も言っておくべきです。Metaは今年、設備投資に1,350億ドルを費やす予定です。Metaのような規模の会社にとっても、これは本物の巨額です。
だから彼らは慎重にやろうとしているんだと思います。再び言えば、市場をあまり動揺させたくない。この会社の歴史上最大の賭けであることは明らかですから。そして大規模な人員削減を行うことは、市場に対して、私たちは完全に正気を失っているわけではない、支出はちゃんとコントロールするつもりだ、というシグナルになる。
それは本当に重要な指摘ですね。なぜなら、ここで起きているのは、こうした企業がこれらのツールを使うことで総体としてコストを削減しているわけではない、ということだからです。単にコストを人間の労働からAIへ移しているだけなんです。
彼らは何千人もの人を解雇して節約したお金を、データセンターやその他のAIインフラ建設に注ぎ込んでいる。
そして彼らが賭けているのは、新しいAI労働者たちの方がより速く、より効率的で、長期的には安いかもしれないし安くないかもしれないけれど、かつては何千人もの人間を必要とした仕事をこなせるようになる、ということです。
これは企業が労働者について語る言葉そのものを大きく変える話です。
最近あるベンチャーキャピタリストと話したのですが、彼が見ているAIスタートアップの中でも、最もAIネイティブな会社は、人件費よりAIツールに多くのお金を使っているそうです。
それは外れ値かもしれません。でも、企業が向かおうとしているのはそういう世界だと思います。つまり、支出の大半が人間の給与に向かうのではなく、会社を動かすAIツールとトークンの購入に向かう世界です。
ええ、それこそ彼らがしている賭けだと思います。
ただ、これはまだほとんどが推測の域を出ないという点も指摘しておきたい。少なくともMetaについて言えば、AIに関してかなり苦戦してきた会社だとも言えます。前のモデルBehemothは性能がよくなかったため放棄せざるを得ませんでした。先週のタイムズの報道によれば、最新モデルAvocadoの公開も、性能目標に届いていないため遅れているそうです。
どうやらGemini 2.5をかろうじて上回った程度らしいですね。何なんですか、これ。先月の3月ですよ。
ええ、あのモデルはなかなかひどい出来ですね。アボカドだけに。
うまいですね。ありがとう。
つまり、これは単純に、彼らが劇的な成果を出したから人員の20%を切れるようになった、という話ではないんです。個々の社員の中には大幅な生産性向上を遂げた人がいるのかもしれませんが、会社全体としては、依然としてかなり機能不全にはまっているように見える。AIチームもまた部分的な再編をやりましたし、それを見るたびに私は眉をひそめます。
私が今回のレイオフの波で意外だったのは、実施しているのが最前線の企業ではないということです。OpenAIでもAnthropicでもGoogleでもない。そうした会社は、自分たちが作っていて、しかも公に出しているものよりもっと良いモデルを持っているはずなのに、AIツールを理由に大規模なレイオフをしてはいない。
だから、ここには、競争に遅れている企業が、よし、AIを大量に使えば追いつけるかもしれない、と考えている面もあるはずです。
そうですね。ただ、OpenAIやAnthropicは、今日話している会社よりも、少なくとも従業員数という意味ではずっと小さい会社でもあります。そこも興味深いんです。価値創出の規模を考えると、Atlassianの方が従業員数ではOpenAIより大きい、というのは面白いですよね。
DocuSignは7,000人いますしね。
それはテックジャーナリズムにおいて、真実である文の中でも最も面白い一文ですよ。私自身、有料のDocuSignを使っていて、払うたびに本当に腹が立っていますから。そっちの人たち、ちゃんと働いてください。いや、働かないでくれでもいい。
レイオフ理由よりも労働者への影響が重要か
ここで別の質問です。こうしてたくさんのレイオフが起きています。それはAI関連なのか、そうじゃないのか。労働者にとって結果が同じなら、それって本当に重要なんでしょうか。仕事を失った人にとっては、AIのせいかどうかに関係なく、無職になることに変わりはないわけですから。
ええ。そして労働者が、自分をこうしたレイオフから守るために何をすべきか、何ができるのかも、私にははっきりしません。
ある人と話したんですが、その人はこうした大手テック企業の一つで働いていて、今は社内にせめぎ合いと恐れと不安が渦巻いていると言っていました。AIツールをたくさん使うべきなのかどうかも分からない。たくさん使えば、新しい方針に乗っていると示せるかもしれない。でも同時に、自分の仕事が自動化可能だと証明してしまうだけかもしれない。
今、こうした会社の内部には、恐怖や疑念や不信がかなり広がっていると思います。そして、それには十分理由があります。経営陣が彼らを解雇しようとしているんですから。
そうです。そして少なくとも一部の会社では、それがレイオフの明示的な理由ではないにしても、経営陣の中には、それを好ましい副産物だと見ている人もいると思います。たとえばMark Zuckerbergのような人なら、2020年頃を経験している。あの時代には、会社に対して多くを求め、多くのことに口を出したがる社員たちがいた。会社が何をできて何をできないのか、どうやるべきか、強い影響力を持ちたがる社員たちです。
そして、向こうの経営陣がああいうものを本当に嫌っていたのは知っています。Metaがこの大規模レイオフの時代に入ってから、社内の人たちは当然の理由で本当に怖くなった。自分も本当に仕事を失うかもしれない、と思うようになった。すると急に、彼らはずっと静かになって、抗議のようなものもずっと減ったんです。
だから、たまに大規模レイオフをやることが労働力を従わせる手段だとは言いません。でも、少なくともそういう効果が出ているようには見えます。
本当にその通りです。それを見て、私が1、2年前に起きると予想していて起きなかったこと、つまりこうした企業での急激で大規模な労組化が、もしかすると今後1、2年で本当に起き始めるんじゃないかと思ってしまいます。
いま起きていることと、何十年も製造業や自動車会社、工場労働者の間で起きてきたこととの大きな違いの一つは、その人たちの多くが組合に入っていたということです。
だから雇用主が、大勢を解雇する、と言ったとき、彼らは交渉できた。全員を解雇する代わりに別の仕事を与えられないか、仕事が自動化されるなら別の仕事をするために再訓練させるべきではないか、と言えた。そしてそれはかなりうまくいった。
もちろんレイオフはありました。でも、今テック企業で見ているほどの数ではなかった。
だから、そういうことが起きる可能性はあると思いますか。それとも、ただの組合幻想でしょうか。
こう言っておきます。Metaでソフトウェアエンジニアの組合ができること以上にMark Zuckerbergを怒らせそうなものは、私には思いつきません。
Metaのソフトウェアエンジニアたちは、その情報を好きに使えばいいと思います。
UFCの試合でブーイングされることよりも怒ると思いますか。
絶対にそうです。あっちはたぶん、すごく悲しくなっただけでしょう。
というわけです。Mark Zuckerbergを怒らせたいMeta社員のみなさん、組合加入カードに署名しましょう。
AIはなぜ文章がうまく書けないのか
さてCasey、この2年ほどの間、この番組ではAIモデルが多くの分野でどんどん良くなっていると話してきました。コーディング、競技数学、新しい物理問題の解決、大規模な国内監視、自律型兵器まで。ここ数年のAIの物語は、急速で着実な進歩の物語だったと思います。
でも、こうしたシステムは今もまだギザギザしていて、欠点や弱さがあります。そして、その中でもあまり改善していないように見える分野の一つが、文章です。
そこは私たちの領域ですからね。
少なくとも、それが今週The AtlanticでJasmine Sunが述べていた主張です。彼女はフリーランスのジャーナリストで、記事のタイトルは、AIを逃れる人間のスキルでした。ここまで多くの分野で進歩しているのに、なぜ今のモデルは特に優れた、あるいは人を引き込む文章を書けないように見えるのかを理解しようとした内容です。
ええ。そして、LLMは文章が上手いのかという問いは、かなり主観的で用途次第だと思いますが、それでもJasmineは、なぜモデルがああいう文章を書くのかについて、非常に面白い技術的な議論をしています。
ここで彼女を迎える前に言っておくと、Jasmineは私の友人です。それに、私が今書いている本ではリサーチャーも務めてくれています。そして、今AIについて書いている人の中でも最高の一人だと思っています。彼女はJasmine NewsというSubstackを書いています。jasmi.newsです。もっと読みたい方はそちらをどうぞ。
よし、認めます。ただ、そのバランスを取るために、来週はあなたの敵を一人連れてきたいですね。
では呼びましょう。Jasmine Sun、Hard Forkへようこそ。
呼んでいただきありがとうございます。うれしいです。
こんにちは、Jasmine。
GPT-2やGPT-3のほうが面白かったのか
今週The Atlanticに、とても面白い記事を書いてくれましたね。AIを逃れる人間のスキル。まずは、記事の副題に異議を唱えたいんです。
言語モデルはなぜうまく書けないのか。
そもそも、言語モデルってうまく書けないんでしょうか。
書けますよ。記事でも書いたんですが、そもそも大半の文章って普通にすごく下手なんです。なので、言語モデルは、文章や言葉に関して言えば、ほとんどの人間よりうまいと私は思っています。
でも私が本当に気になっていたのは、なぜ彼らは文学的な創作レベルでは書けないのか、という点なんです。だって、AIのリーダーたちが自分たちの目標について語るのを聞くと、彼らは、がんを治す、物理学を解決する、超人的なコーダーを作る、と言うわけです。私たちのAIモデルは人間のコーダーの75%より優秀になる、なんて遠慮がちな言い方ではなく、文字通り明日にも自己複製工場を作る、くらいの勢いで話している。
なのに、昨年10月のインタビューでTyler CowenがSam Altmanに、いつGPTはNerudaの詩を書けるようになると思いますか、と尋ねたとき、Sam Altmanは、将来的にはChatGPTが本物の詩人のまあまあの詩くらいは書けるかもしれない、と言ったんです。
そこが私にはものすごく面白かったんです。自分たちの技術の能力について誰よりも強気な人たちですら、文学的な文章については非常に慎重なんです。そこにあるギャップに私は惹かれました。
記事の冒頭では、ある意味でGPT-2こそが創作の面ではAIの頂点だったと挑発的なことを書いていますね。そこを説明してもらえますか。
このテーマに興味を持ったきっかけの一つは、Kevinの本のために調べものをしていたことでした。以前の世代のモデルを見て回って、その出力を読んでいたんです。
そして本当に衝撃だったのが、ある意味でGPT-2やGPT-3の文章スタイルの方が、今のChatGPTよりずっと魅力的だと感じたことでした。今のモデルにあるような、あのうっとうしい癖がないんです。エムダッシュもない。三項並列もない。これはこうではなく、ああだ、みたいな構文もない。トーンにもっと幅があって、実際に驚かされる。面白かったり、詩的だったりもする。
何世代か前にさかのぼってみて、もちろん平気で嘘もつくし他にもいろいろ問題はあったんですが、文章スタイルだけで見るなら、私はむしろあっちの方が好きでした。それで調べたくなったんです。
彼らは変だった。
それは驚きです。私にとってGPT-2と話すのは、階段から転げ落ちたばかりの人と話すような感じでしたよ。病院に連れていくべきかな、みたいな。トーストの匂いがするとか。
初期のOpenAIのプロンプトライブラリには、すごい例があるんです。たとえば、ラスベガスで17万5千ドル勝ちました、税金について何を知るべきですか、と聞くと、GPT-2は突然孤児院についての短編小説を書き始めたりする。
でも、それが驚きだったんです。おかしかった。変だった。本当に奇妙だった。優秀な企業アシスタントにはまったくなれないし、コーディングのインターンにも最悪です。今のLLMができることは何一つできない。でも純粋な文章スタイルだけ見れば、とても良い。
特にGPT-3はそうでした。見つけたサンプルでは、Paul Graham風に書け、Richard Dawkins風に書け、みたいなことをやっていて、今のLLMよりスタイル模倣が上手かった。
文学的な文章の多くは声やスタイルからできているので、私が知りたかったことの一つは、LLMはなぜもうPaul Graham風な文体や、誰それ風の文体をまねられなくなったのか、ということでした。その人がGPT-3に与えたのと同じプロンプトを、私はそのままChatGPT 5.4 Thinkingだか何だかに入れてみたんですが、ひどい出来だったんです。本当に変だと思いました。
ポストトレーニングが文章を均質化した
GPT-2やGPT-3の時代のあと、何が起きてモデルの応答の仕方が変わったのか。そこから何を学びましたか。
ええ、答えは基本的にポストトレーニングだと思います。後処理の層が追加されたんです。つまり、まずはこういう、狂っていて予測不可能で、頭を打ったみたいなモデルがある。でも、ちゃんと振る舞うことを覚えさせないといけない。だって、きちんと振る舞えないモデルは企業向けアシスタントとして最悪ですから。
それでAI研究者たちは、模範的な対話やスクリプトを学ばせる。言っていい言葉、いけない言葉を教える。RLHFもやる。人間の評価者が、どの応答がより役に立ちそうかを採点するプロセスです。
そうして、今のポストトレーニングされたモデルは、ある意味で閉じ込められたんです。あるいは訓練され、導かれて、特定のキャラクターやペルソナへと寄せられた。とても役に立つアシスタントだけれど、創造的で驚きのある書き方には向いていない存在です。
あなたの説明で印象的だったのは、ポストトレーニングの中に、人間がAIモデルを評価する段階があるという点でした。それがRLHF、つまり人間のフィードバックによる強化学習の一部ですよね。
そして取材の中で、実際にそういうフィードバックの仕事をした人たちに話を聞いていて、彼らは、意味の分からない基準で採点させられていると言っていた。そこがすごく印象的でした。その話を聞かせてください。
ええ、そこは本当に面白いです。求人を見ると、Mercorみたいな場所とか、Elon MuskのxAIが直接出しているものとかで、創作ライティングの専門家、時給45ドル、ニューヨーク・タイムズのベストセラー作家であること、Kirkusの星付きレビューがあること、みたいに書いてあるんです。
Roose、あなた、Kirkusの星付きレビューもらったことありますか。
あったと思います。
よかったですね。じゃあGrokのAnnieの文章を少しマシにする仕事に応募できるかもしれません。
その求人、彼に送ってあげましょう。でも、話を続けてください。
要するに、こういう会社は、AI研究者たちが良いコードが何かは分かっていても、良い文章が何かは分かっていないと気づいているんです。それで、人間を雇って見つけさせようという発想になる。
MFA取得者や出版作家、時にはブログを書いているだけの普通の人まで雇います。私が話を聞いた一人は、Scale AIの外部契約者としてライティング評価をしていて、大手ラボの一つのために働いていたんですが、採点ルーブリックがまったく意味をなしていなかったと言っていました。
たとえば、感嘆符の数で評価しろと言われる。感嘆符が三つあったら多すぎるから減点しろ、みたいな具合です。
まあ、一般論としては、そんなに悪いライティング指導でもない気はしますけどね。長さにもよるでしょうが、三つはたしかに多い気もする。
女性のビジネス文書でよく言われるやつですよね。感嘆符を全部ピリオドに置き換えましょう、みたいな。つまり、アイデアそのものを全部取り去りましょう、みたいな話です。
私たちは女性に、自分を小さくしろと教えるんです。
その通りです。彼はそんなふうに採点を求められていたわけです。別の例では、たくさんのファンフィクションを渡されて、それを事実性で評価しろと言われたそうです。事実性が評価基準の一つだから、という理由で。
もちろん、この評価者に与えられたものより、もっと良いルーブリックを作ることはできると思います。でも少なくとも分かるのは、非常に資金も人もある大企業ですら、良い文章をどう考えればいいのか分かっていない、ということです。
ここは少し強調したいんですが、私にはそれが話の核心に思えるんです。インターネット全体を取り込んで、それを事実性で採点する。そうすると、そこから出てくるLLMは、たぶんそれほど創造的にはならないでしょう。
それに、こうした企業の多くが使っている、検証可能な報酬システムとも関係があるのではないかと思います。システムに大量のコードを書かせて、別の評価モデルにそれが良いかどうかをチェックさせる。プログラミングのように、コードが動くか動かないかで判断できる分野ではうまくいく。でも創作はそうではない。
創作では、何かが良いかどうかを一貫して判定できる評価者なんて作れない。結局、好みの問題になる。
だから聞きたいのは、これはラボが解こうとしている技術的な問題なのか、それとも単に需要の問題なのか、ということです。つまり、人々がチャットボットにそういう話し方を求めているだけで、いろいろなモデルを競わせたときに、無難な企業アシスタントのように聞こえるものが勝つから、みんなそちらへ行っているだけなのか。
その両方だと思います。モデルにやらせている文章の大半は、私の代わりにこのメールを書いて、ですよね。そしてそれに関しては、彼らは本当にうまい。受動攻撃的な企業メールを書くのなんて、私よりずっとうまいです。
同時に、あなたが言うように、検証可能性の問題という技術的な難しさもあります。シェイクスピアをシェイクスピアたらしめるものは何か、Nerudaの詩をNerudaの詩たらしめるものは何かを言語化しようとして、人生を何十年も費やしてきた人たちがいる。それでもなお確実には分からない。文学研究者同士で、どの作家がより優れているかをめぐって議論になる。それが芸術の性質なんです。主観的で、言語化しにくく、ルーブリックに落とし込みにくい。
AIの文章には人生がない
その点に関連して言うと、今話のきっかけとして出たSam Altmanの話ですよね。私たちは偉大な詩はまだ書けない、と彼は言っていた。
でもSam Altmanは1年前には、会社が優れた創作ライティングモデルを訓練したと言って、Xに短編小説を投稿していました。多くの人がそれを印象的だと感じた。
Sam Altmanは、私たちに対して一貫して率直ではないだけなんでしょうか。
初めてではないでしょうね。
でも、あの短編小説には、確かに良い一節もありました。鏡の継ぎ目がどうとか、木曜日がどうとか。
金曜日になりかけの、あの境界的な日、みたいなやつですよね。
そう、それです。よすぎて、私、実際に調べ直したんですよ。
あなたが探している間に言うと、AIの文章って面白い比喩を思いつくことはあるし、その比喩が意外と驚かせてくることもある。でも、その言葉は人生に根ざしていないんです。
そこが私のもう一つの論点でした。検証可能性とは別に、私が本当に好きな作家、ジャーナリストでも詩人でもいいですが、そういう人たちは人生から書いているんです。ジャーナリストは外に出て人に会い、物を見て、空の色をその場で観察する。詩人は、自分の個人的な経験について考えている。彼らの文章には賭け金がある。感情のある場所から出てきている。
一方でLLMは、文法的にはとても整っていても、人生を持っていない。だから選ぶ比喩も単語も例も、根がないんです。ある視点や特定の経験、特定のコミュニティから出てきているわけではない。
声やスタイルの一部は、その人がどんな人生を生きてきたかに深く結びついています。LLMはそこには同じやり方では到達できない。実際にその人生を生きていない人間がそこに到達できないのと同じです。
でも、それは場合による気もします。私は音楽が大好きなんですが、この数か月、音楽、とくに特定のバンドの音についてLLMに質問するのを楽しんでいるんです。LLMは一度も何かを聴いたことがないわけですから、冗談みたいなプロンプトに聞こえる。でも実際には、音楽の響きについて結構いい会話ができるんです。
もちろん、それは耳を持ち、実際に聴いたことのある人たちがネット上に書いたものをパターンマッチしているだけなのかもしれない。そこは十分あり得ると思っています。でも、それでもなお、感覚的なトピックについて、予想以上に生き生きと語れることには驚いているんです。
これは書き手の自己防衛なのか
あなたの記事に対して、誰かが言いそうな反論をいくつか出してみたいです。
一つ目は、これは自己慰めだ、というものです。つまり、Jasmineは書き手として、現時点でAIが苦手だと自分が感じることを取り上げて、だからAIには難しいのだと主張しているだけではないか、という反論です。
ソフトウェアエンジニアも、モデルがコードをすごく上手に書くようになったとき、同じことを言っていました。いや、モデルには自分の仕事のうちまだできないことが10個ある、と。でも、数年待てば、結局モデルは私たち全員より何でもできるようになる。文章も含めて。
それが自己慰めならよかったんですけどね。私は本当に、自分の仕事を自動化して消し去ろうとしてきたんです。執筆に深い執着があって、自分だけは置き換えられたくない、みたいな気持ちはない。好きではありますけど、この3年間、自分の仕事を自動化しようと何度も何度も試してきました。Claudeに自分の代わりをやらせようと何度も試した。でもできない。それがすごく悔しいんです。努力不足ではありません。
それに、私はまたCEOたち自身の言葉に戻るんです。これは私一人の、書き手としての主張ではない。Sam Altman自身が、この技術はがんを治し物理学を解決するが、本物の詩人のまあまあの詩より上手くは書けない、と言っている。つまり、少なくともそこに何か違うものがあると認識されていることを示しています。
もちろん、今後数年でモデルの文章力がかなり向上する可能性は高いと思います。絶対に無理だとは思っていません。ただ、取材というのは再現しにくいし、実際に確認できる人生経験を持つことも再現しにくい。スタイルの問題は、とくにファインチューニングすれば改善できるでしょう。でもこの話で面白いのは、企業の市場インセンティブや需要インセンティブが、今日見えている能力そのものを形づくっていることなんです。
もう一つ反論を想像すると、かなりAI寄りの人たちは、全部受け手の主観の問題だと言うかもしれません。
今では、AIが書いた文章と人間が書いた文章をブラインドテストで読ませると、AIの文章の方を好む人が多いという研究がいくつもあります。でも、それがAIの文章だと知らせた途端、評価が急落する。ニューヨーク・タイムズのクイズでも私は最近それをやりました。
つまり、モデルはすでに文章では超人的なレベルに達しているのに、それがAIの生成物だと知った瞬間、私たちが興味を失うだけなんじゃないか、というわけです。質ではなく、出どころの問題として。
それは確かに面白いし、真実でもあると思います。人はAIの文章を好きになりたがらない。そして、AIだと見抜ける文章を見たとき、それが嫌悪感の一部になっているのも確かです。あなたの言う通り、そうしたクイズではAIが狭い条件下で人間より良い成績を出すこともある。
ただ、私がその手のテストに少し異議を唱えたいのは、書き手として、あなたたちもそうですが、仕事のうち純粋なテキスト生成ってどれくらいありますか、という点です。AIは超人的なテキスト生成器だと思います。私自身、1日の仕事時間のうち、実際に文章を打っている時間は25%くらいです。かなりの時間を人へのインタビューに使う。アイデア出しに使う。読むことにも使う。でもただ無差別に読むのではなく、これだと思う特定の資料を読む。
だから、こういうテストではすでに、たとえばトランプが2016年選挙に勝った理由について500語以内で一段落生成しろ、みたいに、何を書くかをすでに与えてしまっている。何を書くかを決めること自体が文章の本質的な一部なのに、そこはもう済んでいる。さらに証拠や方向性や形式まで、500語以内で、みたいに与えてしまっている。
その時点で、たしかにAIはほとんどすべての人間より優れたテキスト生成器でしょう。でも、記事のアイデアを出すことはいまだに苦手ですし、取材も苦手です。テキスト生成以外の部分は、まだ自動化から遠いように思えます。
もちろん、絶対ないとは言いません。そのうち到達するかもしれない。でも、今のところまだです。
創作では人間とAIの協働が最適かもしれない
でも、ジャンル小説ではすでにLLMが大きな進歩を見せていますよね。最近この番組でも、ロマンス小説の作家たちがLLMを使って年に何十冊も本を量産できるようになっている、というタイムズの記事の著者に話を聞きました。
その時の議論の多くは、欲しいものを引き出すには、ただプロンプトの出し方を変え、しつこく求め続ける必要がある、という話でした。
Jasmine、あなたの記事を読んでいて思ったのは、モデルにもっと変な文章を書かせるということも、違う言い方で何度も、もっと変にして、もっと変にして、と指示し続ければある程度達成できるんじゃないか、ということです。
ある程度はそうですが、全部ではありません。たとえば私はJames Yuに話を聞きました。彼はPseudowriteの共同創業者で、創作小説向けの初期のAIライティング支援ツールの一つです。他にもフィクション執筆系のLLMをやっている人たちと話しました。
あなたが言ったように、すでに多くの作家がこれらをかなり使っていて、大量の文章生成に頼っているし、それがうまくいくことも、読者のニーズを満たすこともある。
でも、その人たちですら、ラボがやったポストトレーニングを打ち消すのがいかに大変かを語っていました。すごい量のエンジニアリング労力をかけていて、話を聞いていると、あまりにも大変でいらだっているのが分かるんです。モデルにあの陽気さ、追従的な感じ、PG-13的な無難さをやめさせて、再び奇妙になれるベースモデル状態まで戻すのが本当に難しい。
だから可能ではあると思います。でも、ラボは訓練の仕方のせいで、それをかなり難しくしてしまっています。
もう一つ大事なのは、私は文章や多くの創作作業は、実はセントール型モデルにとって完璧なユースケースだと思っていることです。つまり、人間とAIの協働こそが一番遠くまで行ける、という考え方です。
あなたたちが小説作家にしたインタビューも、私はセントール型だと思いました。人間がプロンプトを出し、AIを押したり脅したりして、もっと変に、もっと官能的に、と追い込まなければ、AIは自力ではそこに行かなかったでしょう。
私自身も、LLMをリサーチアシスタントとして使っています。Atlanticの記事でも、Claudeが私の原稿編集をかなり役立つ形で手伝ってくれるようになったことを書きました。
でも、個人的な視点や生きた経験が重要な領域では、この協働の要素が大事だと感じています。
Claudeを自分専用の編集者にする方法
その話を少し詳しく聞かせてください。あなたは編集プロセスについて触れていましたが、AIをどう使って自分の原稿を直しているんですか。本当に役立っていますか。
ええ、ここ数か月で本当にうまくやれるようになった気がしています。何度も何度も、書いたり編集したりしてほしくて使ってきたけれど、ずっとできなかったので、私としてはかなりうれしいです。
気づいたのは、Claudeを、何か一般化された善い文章の基準に照らして私の原稿を採点する編集者にするのではなく、私自身、Jasmine自身が文章で何を目指しているのかに照らして評価する編集者にしたら、はるかに役に立つフィードバックを返してくれる、ということでした。
やったことは、まずClaudeに私のSubstackの全アーカイブ、それにこれまでのフリーランス原稿も全部渡すことでした。
かなり具体的に聞きたいんですが、それってClaudeのプロジェクト機能の中でやっているんですか。リスナーも試したいと思うので。
はい。Claudeのアドバイスでプロジェクト内でやりました。Claude codeか何か書く必要あるかなと聞いたら、いや、それはやりすぎですと言われました。なのでコードは不要です。
Claudeのプロジェクトに、自分の全原稿アーカイブを入れました。私は公開するたびに自分用の振り返りメモも書いていて、これまで書いたもの一つ一つについて、何が良かったか悪かったかをメモアプリに箇条書きで残しているんです。
だからJasmineは将来、私たちの上司になるんですよ。
すごく低品質な箇条書きですけどね。でも、それもClaudeに渡しました。自分の好みを学ばせたかったんです。私は何を目指しているのか、自分はどこで足りていないと思っているのか、何を誇りに思っているのか。それを学ばせたかった。
そうした二つの材料に加えて、私の読者層、担当分野、目標などを少し加えることで、私たちはルーブリックを共同で作れました。感嘆符がいくつあるか、ではなく、たとえば、シリコンバレーにいる部外者の人類学者的な立ち位置が、この原稿で活かされているか、といった項目です。Claudeと私が、それが私の声を特徴づける要素だと思っているからです。
他にも、Jasmine、あなたはレジスターをまたぐ傾向がありますね、スタートアップ用語からネットスラングへ移ったりする。政策の話から個人的な場面へ移る。その高低差はあなたの文章の特徴です、といったことも指摘してきます。
つまり、質的な評価基準を一緒に育てていくんです。そしてそれを、アイデア出し用ルーブリック、構成ルーブリック、文体ルーブリック、最終ファクトチェック、みたいに段階に分けました。
今はそれを全部Claudeのプロジェクトに入れて、仕事は私の原稿をこの基準で評価すること、でも文章そのものは書かないこと、そして私がどうすれば良くなるかを私自身から引き出すこと、と指示しています。
ドラフトをClaudeに放り込むと、たとえば第2段階の構成を走らせて、結論が単なる要約になっていて退屈です、と言ってきます。実際、あの時の原稿では場面で締めていて、それがずっと強かった。だから今回も場面で終えてみたらどうか、と言う。
でもClaudeは場面を捏造しません。飛行機が離陸した時に何を考えていましたか、内面では何を感じていましたか、AIについて子どもの安全活動家と話していてすごく響いた会話はありませんでしたか、いまの原稿は乾いた政策解説に聞こえますよ、というふうに問い返してくる。
そういうフィードバックが、本当に役に立つと感じました。最終的に採用するかどうかは自分の判断です。でも、自分が書き手として最高の自分になるため、自分を改善するためにClaudeが背中を押してくれる、という感じがして、それがとても有効でした。
AI時代に人間の文章はもっと変になるべきか
ここで二人に聞きたいです。書き手として、AIの海の中で目立つために、自分の文章をもっと変にしたいという衝動を感じますか。私はすごく感じるんです。ちょっと変な脱線があって、本当なら削るべきかなと思う。でも、Claudeなら絶対にこんなことしないから残しておこう、と思う。これは自分が自分の言葉を打っている印みたいなもので、私はそれを残している気がするんです。
私の答えはイエスです。絶対にそう感じます。文を戻って見て、少し変にしたり、もっと口語っぽくしたりしようとします。LLMならこうは書かないな、という感じに寄せるんです。そうする理由はまさに今あなたが言ったことです。
今、多くの人が、AIの雑な文章を読まされるかもしれないという警戒心を非常に強く持っている。だから、自分はそういうものを書きたくないと思う書き手なら、その問いは自分に向けるべきだと思います。
私は、そもそも自分が書きたいように書くことに、前よりずっと抵抗がなくなりました。たぶんお二人と違って、私はニュースルーム出身ではなく、厳密な社内文体や規範で育ったわけではないんです。ニュース文体は今は書けますし、後から学びました。でも私の土台は、もっとインターネットやブログ的なものなんです。声があって、不遜で、完全無欠じゃなくて、不適切な冗談も言ってしまう。もっと緩い書き方です。
だからAI時代になって、よりプロっぽいジャーナリスティックな文体にいつも寄せようとするより、むしろブログっぽい書き方をしていいんだと思えるようになった気がします。
AIは将来、良い文章を書けるようになるのか
最後に聞きたいです。あなたの記事は、今のAIが、少なくとも私たちが価値を感じる種類の文章はあまりうまく書けないという点を、とても説得力ある形で示していました。
でも、将来的にはそこに到達すると思いますか。企業はモデルの文章力を上げるために何をすべきでしょうか。
テキスト生成と取材を切り分けるなら、モデルが取材をすることには私はあまり強気ではありませんが、文学作品を書くとか、ここにインタビュー書き起こしがあるから雑誌記事にして、みたいなことについて言うなら、企業がコーディングエージェントや、実際にお金になるものに向けているのと同じだけの資源をその課題に投入すれば、到達できると思います。
ただ、企業が23歳のソフトウェアエンジニアを自動化する代わりに、そのために全資源を投入することが、果たして経済的に合理的だと判断するかといえば、たぶんしないでしょう。
私はそんな世界になってくれたらありがたいです。私やこの二人の仕事を奪う必要はないですから。でも、可能性としてはあると思います。
いや、結局そのうちやると思いますよ。言っていることは分かります。
今の経済で、作家がどれだけ稼げるか見てくださいよ、Casey。
いずれ、ですよ。
それじゃデータセンターはあまり建ちませんからね。
でも、文章には経済的価値があります。そして最終的にはAI企業はそこも全部自分たちのものにしたがるでしょう。
これ、ものすごく面白い結末になるかもしれませんね。あなたの言うモデルのガードレールの話からすると、次の偉大なアメリカ小説はGrokが書くのかもしれない。
やめてください、それは。
ということで、Jasmine Sun、来てくれてありがとうございました。
ありがとうございました。
KevinとCasey、本当にありがとうございました。
トークン最大化と社内ランキング
さてKevin、あなたは最近Book Leaveから戻ってきて、再びニューヨーク・タイムズで執筆を始めましたね。自分の名前がまた紙面に載るのを見る気分はどうですか。
最高ですよ。まだ載ってはいませんけど、載ったら最高でしょうね。
私は、あなたがこれから出す記事を一足早く読ませてもらいました。テック企業が、どの従業員が仕事で最も多くのAIトークンを使っているかを示すランキングを作り始めている、という話でした。
ええ、今はトークン熱狂の時代です。そしてそうした企業の従業員たちは、半分は遊びのように、半分は本気で、同僚たちと競い合っています。自分の会社で最も多くAIトークンを使う人になりたいんです。
では、まず基本的な質問です。リスナーの中にはよく知らない人もいると思うので。トークンとは何で、なぜそれを追跡するようになるんですか。
トークンは、AI労働の基本的な原子単位です。要するに単語の断片で、AIモデル提供者が利用量を測る単位です。
たとえば、あるプロンプトを入れて、手伝って、このエッセイを書いて、と頼むと、昔のモデルなら数百トークンくらいの応答を返してきたでしょう。おおよそ数百語です。
ここ1年ほどで起きているのは、エージェント型コーディングツールが広がるにつれて、モデルがずっとトークンを食うようになってきたことです。今では一度のセッションで何十万、あるいは何百万トークンも使えます。
そうしたランキングを動かしているのは、より多くコーディングをし、より多くのエージェント型ツールを使い、より多くの並列処理を走らせるほど、トークン数が高くなる、という考え方です。
私が役に立つと思った目安の一つは、7,500語を生成するのに約1万トークン必要らしい、というものでした。少しでも感覚の助けになればと思いますが、今あなたが言ったように、より高度なシステムはそれをはるかに超えるトークンを使っている。ランキング上位の人たちはどれくらいの数字を叩き出しているんですか。
正確な数字を全部知っているわけではありませんが、一つ分かったのは、OpenAIでは実際にこうしたランキングを追っていて、最近の7日間で最も高い社員のトークン数は2,100億トークンだったということです。
ざっくり言えば、Wikipedia約33冊分のテキストです。もちろんそれがすべて、本人が打ち込んで応答を受け取った分ではありません。一部はキャッシュ済みトークン、つまりモデルが初めて生成したものではない。でも、こういう数字は、1年前なら完全に正気を失った数字に聞こえたはずです。
その人は国防総省向けの新しい大規模国内監視プログラムでも作っていたんですか。
分かりません。OpenAIもその人への取材は認めませんでした。
でもこのコラムで私がやりたかったのは、いわば十億トークンクラブの人たち、こうした極端なヘビーユーザーたちに話を聞いて、みんなどうやってそんな量のトークンを使っているのか、本当にそんなに高いのか、そのお金はどうしているのかを知ることでした。そこでいろいろ分かりました。
トークンはどれほど高いのか
ではまず、どれくらい高いのか教えてください。
ものすごく高いです。実際、Claude Codeのトップユーザー、つまりAnthropicが把握している個人ユーザーのトップは、先月だけでトークンに15万ドル以上使っていたと聞きました。
それを年換算してください。年収100万ドルを超える従業員がいて、その人の給与相当額を1か月で燃やしているようなものです。
同じような数字を、他の極端なコーダーたちからも聞きました。モデルのトークンに1日数千ドル単位で使っているという話です。
ただ、こうした企業の社員はトークンを無料で使っているので、本人が払っているわけではありませんし、会社側も内部では直接払っていない。でも他社では今これが問題になり始めています。予算を食い尽くしているからです。実際、一部の企業では、エンジニア一人が雇用主に週15万ドルのコストを生んでいるケースすらあるようです。大手プロバイダーのトークンを使っているせいで。
スウェーデンのソフトウェアエンジニアに話を聞いたんですが、彼は自分の給料よりClaudeに使っている額の方が多いだろうと言っていました。
つまり、これは一部のコーダーにとって、非常に高価な福利厚生になりつつあるんです。
では、なぜ雇用主はそれを従業員に奨励するため、ランキングなんて作りたがるのでしょう。もし私が別の会社なら、先月トークンに15万ドル使ったなら、あなたはもうこの会社にいません、うちは破産です、と言いそうですが。
そこは私にも大きな疑問でした。なぜこんなことが起きているのか。どうやら、それは従業員の動機づけと労働者の追跡、この二つが混ざったもののようです。
経営幹部の中には、トークンを多く使う人ほど、おそらく生産性も高いと考えている人がいます。そして、この番組の以前の回でも話したように、彼らは従業員にAIツールを使い始めてほしくてたまらない。
そこで話を聞いた複数の会社の人たちは、これは結局、誰が新しいプログラミングのやり方に本気で賭けているのかを見るためのものなんです、と言っていました。
トークン使用量と生産性は比例するのか
あなたは、このランキングで上位にいる人たち何人にも話を聞いていますね。コードの中身まで深く調べたわけではないと思いますが、彼らが実際どれだけ生産的なのか、どう感じましたか。トークン使用量と会社を次の段階へ進めることの関係はどうなんでしょう。
非常に不明瞭です。中には、価値のないプロジェクトを延々と生成しているだけの人もいるかもしれない。私が話を聞いた人たちの多くがこのランキングを心配していたのは、結局これが、ただトークン数をかさ増しすることを促してしまうからです。そうすれば、自分が特別な10倍エンジニア、100倍エンジニアに見える。周りより優れているように見える。
だから、多くの会社がこのランキング文化を、少し奇妙で、しかも逆効果かもしれないと見ています。
ただ、最も多くトークンを使っている人たち自身は、自分たちは生産的だと感じていると思います。
記事を読んでいて、私は本当に最悪のインセンティブだなと思いました。いわゆるGoodhartの法則ですよね。指標が目標になると、指標としての意味を失う。トークン使用量を悪い指標にする最良の方法なんて、まさにランキングを作ることに思えます。
その通りです。
社内の人たちは、その点について何と言っていましたか。
このランキングの仕組み自体に反対している人もいました。一方で、擁護する人たちもいました。彼らはこう言うんです。そもそもプログラマーの生産性を追うことなんて、昔から簡単ではなかった。書いたコード行数や、出したプルリクエスト数で測られてきた人もいた。どれも、どれだけ働いているか、どれだけ作っているかの不完全な代理指標にすぎない。
でも、従業員たち自身も、かなり賢明にも、これを自分の成功の鍵として見ています。今では多くの企業で、AIトークンの使用量や消費量が人事評価サイクルの一部になっているんです。
年次評価に行くと、上司が、先月は7,000万トークンしか使っていないようだけど、どうしたの、と言う。だからエンジニアたちは、自分が長く成功するキャリアを築きたければ、トークンを使い始めた方がいいと気づきつつあるんです。
ええ。でも、それってすごく不安にもなるはずですよね。少なくとも一部の会社はトークン使用量を増やしたがっているように見える。その理由は、社員にそれをたくさん使わせれば使わせるほど、人間を雇い続ける必要が早くなくなる、と会社自身がどこかで考えているからではないか、という気がします。
たぶんそうではなくて、AIが人間を置き換えるというより、単に働き方が根本的に変わるからだと思います。そういう人たちの多くは、長年ソフトウェアエンジニアとして働いてきた人で、手でコードを書くことを覚えて育った。GitHub CopilotのようなAI支援ツールは使っていたかもしれない。でも、今会社の人たちが言っているのは、エージェント型エンジニアリングシステムはそれとはまったく別物だ、ということなんです。
これらを理解するには、かなり時間を一緒に過ごさないといけない。何が得意で何が苦手かを掴まないといけない。彼らにとってランキングは、新しいものを試しに行け、と従業員を後押しする一つの方法なんです。
トークン浪費と副業の誘惑
でも、私も考えていたんです。もし自分がこうした会社のエンジニアで、ランキングに入りたいというインセンティブがあったら、どうするか。やっぱり、本能的には、無駄に大量のトークンを使ってランキングを上げようとする気がする。でも最終的に上位に行きすぎると、何に使ったのか聞かれますよね。100億トークンで1位になったのに、作れたのが電卓の雰囲気アプリだけだったら、さすがに怒られるでしょう。
ええ。実際、ランキング上位の人たちはみんな副業をやっているんじゃないかと推測していた人もいました。
会社のお金でサイドハッスル始めているわけですね。それをやっているなら、私は敬礼したいです。そういう働き方が正しい。
ただ、もしやるなら1位にはならない方がいいですね。6位か7位あたりにいてください。
そうですね。中位あたりが狙い目です。
聞きたいんですが、何らかのトークン追跡で、合理的なシグナルになるものはあると思いますか。もし自分がテック企業の側なら、ランキングを作るべきだと思いますか。
いいえ。悪い考えだと思います。さっき話した理由、つまりGoodhartの法則も含めて、結局みんなが副業や意味のないことにトークンを浪費するようになるだけだと思います。
ただ、もし私が会社の予算管理者で、誰かが自分の年収の何倍もAIトークンに使っているのを見たら、何にそんなに使っているのかは聞きます。そしてその答えが、年間何十億ドルもの売上を生む新製品を作りました、ではないなら、来月はもう少し抑えられないかと言うでしょうね。
トークンランキングは昔のコード行数評価の再来
ええ。このトークンランキングの発想って、ソフトウェア業界がずっと解こうとしてきた問題の新しい形に見えるんです。どうやってソフトウェアエンジニアが生産的かを測るのか。
最近、非常にハンサムなソフトウェアエンジニアで、私の婚約者でもある人に、あなたのコラムについて話していたんですが、彼が言うには、昔は何行コードを書いたかで評価されていたそうなんです。そして当時、どういう小細工が横行していたかを話してくれました。ちょっとしたアルゴリズムを書いて大量のものを別の言語に変換しただけで、まったく価値はないのに、すごく生産的な一週間だったように見せる、とか。
それで調べてみたら、こういうことは1960年代から70年代にもすでにやられていた。そして初期のプログラミング時代に、最終的にこんな言葉が生まれるんです。プログラミングの進捗をコード行数で測るのは、航空機製造の進捗を重量で測るようなものだ、と。
私は、同じことがここにも当てはまると思います。たしかに、かなり抽象度を上げて見れば、大量のトークンを使っている人の中には、使っていない人より生産的な人もいるでしょう。でも、やはり正しい測り方には見えない。そのことを業界がどれくらい早く理解するのか、気になります。
かなり早いと思います。一つには、予算が本当に馬鹿げた額になってきているからです。特にAIモデル提供者側では、ほんの数か月前なら会社全体で使っていた量を、今や個人ユーザーが一人で消費しているケースが出てきています。
トークン文化は他業種にも広がるのか
ここで最後に聞きたいのは、それが広い経済にどんな含意を持つかです。いろいろな業界で、管理職たちは、社員にAIを使わせたい、どう使っているか追跡したい、と言っていますよね。
こういうランキングの存在が知られるようになると、非技術職の人たちも自分たちなりのバージョンを導入し始めると思いますか。
そうならないことを願っています。本当に悪手だと思います。実際の生産性や成果を追うという意味でもそうだし、士気の面でもそうです。
昔、Gawkerのオフィスにはトラフィックのランキングボードがあって、自分の記事が他の人に比べてどれだけクリックされているか見えたんです。でも、当時そこで働いていた人で、それが正しい行動を促したり、士気を高めたりしていると思っていた人はいなかったと思います。みんながただ常に競争させられていただけです。
しかも今回のケースはさらに悪い。なぜなら、成功と相関しているとすら限らないからです。単に、どれだけのエージェントを並列に群れとして走らせ、24時間365日、価値があるかどうかも分からない作業をさせられるか、という話だからです。
ちなみにそれ、サンフランシスコの初デートで聞く質問としても最高ですね。でもまあ、とにかく。
ただ私は、このトークン最大化の発想はもっと広い経済に広がるんじゃないかと心配しています。今週、マーケティングの仕事をしている人と話したんですが、彼女は、自分の仕事は以前は創造性だけで評価されていたのに、最近は人事評価にAIの項目が追加され、どれだけAIを使ったかで評価されるようになった、と言っていました。
彼女の感覚では、今までこれでうまくいっていたし、AIツールなんて別に必要なかった。でも今は、ボーナスがその使用量で決まるかもしれない。つまり、この仕組みはもうラボの外へ染み出して、あちこちの水に混ざり始めているんです。
だから、管理職には、本当に何を奨励しているのか慎重に考えてほしい。AIのためのAI使用は、会社にとって期待しているほどの恩恵をもたらさないかもしれない、と思います。
ええ、それは本当にケースバイケースでしょう。トークンを最大化していて、同僚よりはるかに生産的で、より多くのプロジェクトをより速くこなしている人もいると思います。一方で、上司にトークン予算を見られて、これだけのトークンを何に使ったんだ、と問い詰められる人も出てくるでしょう。
だから、広く一括りにして、トークン最大化はすべて無意味な生産性芝居だ、と言うのは難しい。私が話した限りでは、その一部は本当に人の役に立っているようです。
ええ。一方で、私の知り合いの中には、Claudeにお金を使いすぎて問題になった人もいると聞きました。そう聞いた時、私は、お前の会社は持たないぞ、と思いました。こういうものには金を使わないといけない。
面白いのは、それが今や採用面接での会話の一部になっていることです。エンジニア職に就く人たちが、新しい仕事に行って、自分のトークン予算はいくらですか、と聞く。そして大手AIラボの社員のように、モデルに無制限かつ無料でアクセスできる人たちの中には、あまりに多くのトークンを使っていて、事実上その会社を辞められない人すらいる。ほかの会社に行けば、そのトークン代を会社が払わなければならず、雇うのが完全に不可能になるからです。
ええ、それは本当に強いインセンティブですね。Metaが昔、superintelligence labsを立ち上げる時に、Mark Zuckerbergのすぐ近くに座れます、と売りにしていたのを覚えていますか。もし私なら、そんなのよりトークンを取りますね、ありがとう、って言います。
人はどれだけトークンを使うべきか
最後にまとめると、人は正確にはどれくらいのトークンを使うべきなんでしょう。
それは、自分自身の内側を見つめるしかないと思います。
自分の内側を見つめる、ですか。
そうです。
なるほど。
それは、あなたとあなたの神との間の問題です。


コメント