
8,458 文字

ケイシー、今週話したいもう一つの大きなAI関連のニュースがあります。それはLlamaを巡るドラマについてです。そうですね、ケビン。Metaは新しい大規模言語モデルを発表しましたが、それは大いに期待されていたものの、スタートでつまずいたと言っても過言ではないでしょう。
そう、彼らはLlamaのクレジットを巡るドラマを起こしました。何回「ラマドラマ」という語呂合わせをするつもりですか?
実は「Llama Llama Red Pajama」という非常に人気のある子供向けの本があるんですが、ご存知ですか?
知っていますよ。では本題に入りましょう。先週末にMetaがリリースした新しい言語モデルLlama 4をめぐって多くのことが起きています。ケイシー、あなたは今週のニュースレターでこれについて書いていましたね。Llama 4で何が起きているのか教えてください。
そうですね。Metaは何十億ドルもAIに投資していて、私たちがこの番組でよく話題にするAIラボとはかなり異なるアプローチを取っています。彼らは「オープンウェイト」モデルと呼ぶものをリリースしています。OpenAI、Anthropic、Googleなどの企業のモデルはクローズドで、ダウンロードしたり、微調整したり、非常に寛容なライセンスの下で再リリースすることはできませんが、Metaのモデルではそれが可能です。
昨年Llama 3が出たとき、開発者たちは「これは実際にかなり良いぞ。最先端のものほど良くはないが、それに近づいている」と言いました。オープンモデルではよくあることですが。そしてMetaはLlama 4の開発に莫大な資金を投じ、何ヶ月も前から他のオープンソースやオープンウェイトのモデルを圧倒するだろうと言われていました。
そして彼らがそれをリリースしたとき、何が起こったか。ケビン、二つのことが起きました。まず、Metaは企業が通常そうするように、自社の最新モデルを「史上最強」あるいは「最も効率的」と大々的に宣伝し、多くのベンチマークを披露し、このモデルは高性能で最高だと言いました。実際に「最高」とは言わなかったし、過去70年間でそう言った人はいないと思いますが、そのような表現をしました。
そして人々の注目を集めたベンチマークの一つがLM Arenaでした。LM Arenaをご存知ですか?
知っていますが、あまり使ったことはありません。それは何ですか?
これは非常に興味深いプロジェクトで、UC Berkeleyの研究者を含む非常に小さな非営利団体が運営しています。彼らがやっていることは、人々にボランティアとして参加してもらい、クエリを入力してもらうと、ラベル付けされていない二つの異なるチャットボットからの回答を表示します。回答を得た後、ユーザーは「私はこちらの方が好き」と言います。彼らは時間をかけてこれらの投票を集計し、一方のチャットボットが他方より多くの投票を獲得するほど、そのチャットボットはLM Arenaでの順位が上がります。
なるほど、つまりどのモデルが好まれるかをクラウドソーシングした一種のリーダーボードですね。
その通りです。ケビン、新しいモデルが登場したとき、それがどれだけ優れているかという問いに答えるのは奇妙なほど難しいということは誰よりもご存知でしょう。あなたが必要とすることに対して本当に優れているかもしれないし、実際には劣っているかもしれない。または他のものと同程度に優れているけれど、あなたの求めるスタイルに合っているだけで好きかもしれません。
そのような世界では、企業は「良い」と見なされることに必死になりますが、それを伝える簡単な方法がありません。そこでLM Arenaの出番です。なぜならそのリーダーボードで十分高い位置に上がれば、それを指して「ほら、私たちがどれだけうまくやっているか見てください」と言えるからです。
その通り、人々が投票したんだと。
それで、Llama 4はLM Arenaでどの程度の成績を収めていますか?
Llama 4は2位です。Google最新のモデルであるGemini 2.5 Pro experimentalに次ぐ位置にいます。Googleのモデルは多くのテストを経て、基本的に普遍的な賞賛を受けています。人々はこれを単なる小さなチャットボットコンテストだけでなく、コーディングや他の多くの分野を含む本当に素晴らしいモデルだと考えています。
そのため、Llama 4がLM Arenaで即座に2位に躍り出たことは、Metaが本当に素晴らしいものを作り出し、オープンウェイト構造の下で一般に公開し、非常に強力なモデルを作成する際の主要なAIラボの一つとなっていることを示しているように見えます。
その通りですが、ただし注釈付きです。
おやおや。
このバージョンのLlama 4は実験的なモデルで、Metaのウェブサイトではチャット用に最適化されたと書かれています。人々はこれを調査し始め、これがダウンロード可能な実際のLlama 4バージョンではないことに気づきました。LM Arenaに含まれていたのは、人々がダウンロードできるものとは異なったのです。
その通りです。それは「Maverick 0326 experimental」という異なる名前を持っていました。人々は「待てよ、通常LM Arenaで起こることは、人々が新しいモデルを作ってLM Arenaに提出して、その性能を見ることだ。もしかしてMetaがLM Arenaに特化した特別バージョンのLlama 4を訓練したのでは?」と考え始めました。
私は先週これが本当かどうか調査しようとしてきました。月曜日にはMetaから声明を受け取りました。読み上げるべきでしょう。「私たちはあらゆるタイプのカスタムバリアントを実験しており、この実験的バージョンは『チャットに最適化されたバージョンで、LM Arenaでもうまく機能する』ものです。今や私たちは最終的なオープンソースバージョンをリリースしました。開発者が独自のユースケースのためにLlamaをどのようにカスタマイズするか見ていきます。」
これは非常に興味深いと思いました。なぜなら、彼らが「LM Arenaでもうまく機能する」と言うとき、おそらく15のようなモデルを作成し、「おっ、これはたまたまLM Arenaでうまくいくね」と言っているような可能性があります。それは一つの可能性です。
もう一つの可能性は、懐疑論者が考えるまさにそのことで、彼らはLM Arenaの仕組みを逆分析して、それに勝つためだけのボットを構築したのではないかということです。
そのようなことをどうやって行うのでしょうか?もしあなたの目的が、この特定のリーダーボードで非常に優れたパフォーマンスを発揮するモデルを作ることだったら、どうしますか?
LM Arenaは長年にわたり、どのチャットが他のチャットよりも好まれるかを示す多くのチャットをリリースしてきました。そして、LM Arenaのユーザーは「シコファンシー(過度なお世辞)」と彼らが呼ぶ高度なものをボットが持っているときに本当に好むようです。
基本的に、あなたが「今日の朝食は何がいいですか?」と尋ねると、チャットボットは「なんてすごい質問なんでしょう!あなたは天才です!あなたが一日をこんな風に始めるのが大好きです!」というような答えをします。これは人々が選ぶ種類の回答で、基本的に常に人々に媚びるチャットボットを構築すると、チャットボットアリーナで本当によい成績を収める傾向があります。
このような混乱の余波で、LM Arena(これは、公の論争に巻き込まれることに慣れていない非常に穏やかな組織だと思います)が声明を出しています。ケビン、この声明はどれほど穏やかであっても、私はかなり厳しいと思うので読まなければなりません。
彼らはMetaが不正をしたとまでは言いませんが、彼らが言うのは「Metaによる我々のポリシーの解釈は、私たちがモデルプロバイダーに期待するものと一致していませんでした。Metaはこの実験的モデルが人間の好みに最適化されたカスタマイズモデルであることを明確にすべきでした。その結果、今後このような混乱が起きないように、公正で再現可能な評価への取り組みを強化するためにリーダーボードポリシーを更新しています。」
なぜこの声明が私にとって非常に興味深いのでしょうか?基本的に、Berkeleyのこの小さな研究者グループがあり、Metaは彼らのポリシーをあまりにも激しく違反したため、彼らはこの競争の規則を変更して、人々がこの競争を破ることを止めさせなければならなかったのです。
これは非常に興味深い一連の出来事だと思います。私はまだ誰か、理想的にはあなたが、Metaの内部で実際に何が起こったのかを突き止めるのを待っていますが、二つの理由からこれについて話す価値があると思います。
一つはMetaとAIレースにおける彼らの立場について何かを語っていると思うこと、もう一つはAIの状態とこれらのベンチマークについて、そして大手AIラボから絶え間なく出てくる新しいモデルを理解する上でそれらがどれほど有用か(または有用でないか)について何かを語っていると思うからです。
それでは、それらを一つずつ見ていきましょう。もし彼らがこのリーダーボードを操作して、彼らのモデルが実際よりも良く見せようとしていたことが判明した場合、これはMetaのAIレースにおける立場について何を物語っていると思いますか?
私が思うに、もしあなたがAIレースに勝っているなら、LM Arenaに勝つために時間を無駄にはしないでしょう。あなたがするのは、Googleがしたことで、Geminiの非常に強力なProバージョンをリリースし、それが会話に最適化されているからではなく、単に多くのことに優れた素晴らしいモデルであるからこそ、それは自然にArenaのトップに浮上するのです。
もしあなたがこのちっぽけな競争に勝つためだけにモデルのカスタムバージョンを作らなければならないなら、MetaのAIプログラムの質に対する、これ以上悪い指標を考えるのは難しいです。
また、過去1年間で「The Information」での報道によると、Llama 4の開発プロセスはMetaにとって本当に苦労の連続で、彼らは望む結果が得られなかったため、リリースを2回遅らせたとのことです。そして最終的にリリースされて人々が他の評価を通してそれを試し始めたとき、彼らはそれが期待に達していないことを発見しました。
実際、ケビン、以前のHard Forkのゲストであるイーサン・モリックは、リーダーボードで勝利していた実験的なチャットのバージョンと、最終的なオープンウェイトモデルによって生成されたチャットを比較しました。彼が発見したのは、オープンウェイトモデルが本当に悪い回答を生成していたということです。基本的に、最適化されたモデルは実際のものよりも遥かに優れたパフォーマンスを示していて、それは全く接近していなかったのです。
では、なぜ彼らは最適化されたモデルをリリースしないのでしょうか?
それは素晴らしい質問です。私はその答えを知りませんが、私が想定しているのは、ボットの「シコファンシー」レベルを上げるために必要な微調整が、このような競争には素晴らしいかもしれませんが、コーディングや創作文章、あるいは今日私たちがLLMに期待する無数の他のことには本当に悪いかもしれないということです。
微調整は非常に強力なプロセスで、多くのことにおいて中程度の汎用モデルを取り、それを一つのことに本当に優れたものにすることができます。しかし今日、人々は大規模言語モデルを選択する際に多くのオプションを持っており、単に非常に高い一般的な能力を持っているものがたくさんあります。だから彼らはその代わりにそれらを使用するでしょう。
私はMetaのLlama 4状況について自分自身の取材をしていませんが、広い視点から見ると、このスキャンダルからちょっと離れてみると、Metaはフロンティアモデルをリリースするアメリカのトップ3のAIラボには入っていません。フロンティアAI研究のトップレベルには入っていないのです。彼らの主要研究者の多くは会社を去り、彼らのモデルはOpenAI、Anthropic、Google DeepMindのモデルほど有能とは見なされていません。
私はそれが彼らをとても苛立たせていると思います。マーク・ザッカーバーグと彼の副官たちは、この最前線の一部と見なされることを本当に望んでいます。だから、彼らの数字を水増しし、競争相手を追い越しているように見せる努力の中で、彼らが特定のAIベンチマークの規約に違反した可能性があっても全く驚かないでしょう。それは彼らの全体的なAIプログラムがどれだけうまくいっているかという疑問を投げかけるべきものです。
その通りです。ちなみに、次に彼らがモデルをリリースして、一連の野蛮な主張を出してきたとき、私がそれを信じると思いますか?いいえ、彼らが行うすべての主張を独自に検証しようとしなければならないでしょう。
私はこれを聞いて、私が小さなことを大げさにしていると思う人がいるかもしれないと思いますが、先ほどダニエル・コカテラが、これらのシステムがどれほど強力になりつつあるか、そしてどれほど強力になろうとしているかについて話したことを考えます。あなたはそれらが人間に忠実であってほしいですが、また悪い行動に使われないでほしいです。もしベンチマークに勝つために不正をしている企業があるなら、そのモデルは他に何ができるのでしょうか?私はそれが起こってほしくありません。
だからこれが小さなことのように見えるかもしれませんが、AIシステムを構築している企業に私たちが何らかのレベルの信頼を持ち、彼らの運営方法に関して彼らがある程度の誠実さを持っていると信じることが重要だと思います。だからこれは私が「うわー、AIの会社としてのMetaへの信頼が劇的に低下した」と思った瞬間でした。
そうですね、Metaのことはさておき、これは実際にAI業界全体について本当に重要な疑問を投げかけていると思います。それはベンチマークの価値全般についてです。私がAI研究者から過去1、2年間に聞いたことの一つは、これらのベンチマーク、つまりこれらのモデルがどれほど知的かを判断するために与えられるこれらのテストには、すべて何らかの欠陥が組み込まれているということです。
「データ汚染」という問題があります。それは、これらのテストの一部の回答がトレーニングプロセス中にこれらのモデルに供給されており、モデルがどれほど有能かを本当に理解できないという問題です。彼らは基本的に既に見たことのある回答を吐き出しているだけなのです。
また、これらの企業はすべて効果的に自分の宿題を自分で採点しているという問題もあります。これらを通過させて標準化されたベンチマークスコアをリリースする連邦プログラムのようなものはなく、私たちが実際に検証して信頼できるものではありません。これらのAI企業の中には、これらのベンチマークテストを適用するためにさえ異なる方法を使用しているものもあります。
「consensus at 64」などのものや、あなたがテストを何度も受けた場合に、モデルが与える最良の回答を選択的に選び、それをスコアとして使用できるさまざまな方法があります。だから私は、私たちがこれらのAIモデルを測定する方法を信頼する能力を失いつつあると思います。
それはとても不満ですね。ケビン、2010年代初頭を想像してみてください。Instagramがアプリストアのアプリとして登場するだけではなく、Instagram、Instagram 01、Instagram 01 mini、Instagram 01 deep researchがあり、「あなたに最適なものをダウンロードしてください」と言われるようなものです。「なぜこんなことをさせるんだ?動くものを一つだけ提供してくれ」と思うでしょう。
すべてのAIラボがそれを実現しようとしている一方で、私たちは大規模言語モデルのカンブリア爆発を経験しています。一方で、私はこのことがベンチマークの存在を非常に重要にしていると思います。一目でこれが私の時間を割く価値があるかどうかの基本的な感覚を持つことができますが、他方でそれがゲーム化や露骨な不正行為の魅力的な標的になります。
だからこそ、研究者のアンドレ・カーパシーは、私たちには「評価危機」があると言っています。新しいモデルが出てきたとき、それがどれほど優れているかという問いに答えるのは非常に難しいのです。
私は、ジャーナリストとしてこれらの質問に対してより良く答えるために何ができるのか考えていました。例えば、ジャーナリストが「よし、新しいモデルが出たので、独自のカスタム評価セットを持ち、それらを何らかの形でプライベートに保ち、ゲーム化を防ぐ」と言うような場所はあるでしょうか?この危機に対してどのような解決策が見えますか?
ここで自分のネタバレをする危険を冒しますが、実は私自身のベンチマークを作り始めていることを明かします。私はこれらのAIモデルを理解する方法の一部は、人々が新しいモデルに与える独自のテストセットを開発し始めることだと思います。必ずしもそれらの全体的な知性を決定するためではなく、私たちが気にすることにそれらがどれほど優れているかを決定するためです。
個人的に、AIモデルが大学院レベルの物理学試験で97%を取っているのか93%を取っているのかは、あまり気にしません。それは私の人生に大きな違いをもたらさないからです。
なぜならそれはあなたが得る点数よりも高いからですね。
その通り、私は大学院レベルの物理学研究者ではないので、モデルがクリエイティブライティングに優れているかどうかを気にする方が大きいでしょう。そしてそれを判断するためのテストのバッテリーが欲しいかもしれません。
そのため、これらのことが人々の生活や仕事でより重要になるにつれて、モデルが私たちが気にすることに優れているかどうかを実際に測定する、よりパーソナライズされたテストと評価が表れ始めると思います。どう思いますか?
それは素晴らしい視点だと思います。あなたがこれをしようとしていると教えた後、私も自分のベンチマークが欲しいと思い始めました。なぜなら、今日のAIに私がやってほしいけどまだできないことのリストを10個くらい思いつくことができますから、私もシナリオプランニングを始めるべき時かもしれません。
あなたのAIモデルが有能かどうかを判断するためのテストの一つは何ですか?
例えば、私にはニュースレターがあり、カスタマーサービスの問題があります。人々はメールで「メールアドレスを変更できますか?」と聞いてきます。
この文章はとても悪いですね。
人々は文章を愛しています。それが私が聞くすべてです。「人間がこれを書いているの?それはすごい」と人々は言います。
しかし、私はその一部を自動化できるようになりたいです。例えば、「請求書をダウンロードする必要がありますか?」という質問をよく受けますが、「はい、実際にそれを自動化された方法で処理します」というように、人々をより簡単にできるようにしたいです。それは一つの非常に簡単なことです。
もし「ケイシー、私はあなたのためにすでにそれができる製品を持っています」と思っているなら、メールしないでください。それはできないのです。私はこれを経験しています。
AIをテストしたいことの一つを教えてもいいですか?
ご存じのように、私は最近新しい家に引っ越したばかりで、その結果、過去数週間の起きている時間の3分の1から半分を写真を掛けることについて考えて過ごしています。
写真を掛けることは私が世界で最も嫌いな作業の一つです。計算をしなければならないし、レーザーレベルを持ち出さなければならない…それは大変なプロセスです。
黄金比も関係しますね。
私はAIシステムが私のために写真を掛けてくれるようになればいいなと思います。
それは素晴らしいですね。そしてそれが私に起きたら、それはAGIですね。
それはロボットを必要としますか?
おそらくそうでしょうね。だからそこに到達する前にいくつかの進歩をする必要がありますが、もしあなたがこれを聞いていて、これらのロボティクス企業の一つで働いているなら、ぜひ取り組んでください。


コメント