AIラボレポート2025:信頼性でランキング付けするOpenAI、Google、Anthropic、Meta & xAI

AIベンチマーク
この記事は約20分で読めます。

この動画は、AI業界における主要な企業(OpenAI、Google、Anthropic、Meta、xAI)の信頼性について詳細に分析した内容である。特にOpenAIの数学オリンピック金メダル獲得の主張を起点に、各AI研究所の「信頼の指紋」を検証し、技術的な透明性、PR戦略、ドメイン専門家との乖離などの問題を関西弁で親しみやすく解説している。

AI Lab Report 2025: Ranking OpenAI, Google, Anthropic, Meta & xAI on Trust
My site: substack: 1. The Trust Gap Is Structural: Classical transactions work becaus...

AI時代における信頼の問題

このAI時代で面白いことの一つは、信頼っちゅうもんがスケールしにくいっちゅうことやねん。古典的な経済理論やったら、取引を通じて信頼を確立してスケールできるねん。なんでかっちゅうたら、お互いが何を得るかが分かってるからや。でもAIやったらそうはいかへん。大規模言語モデルでもそうや。

なんでそうじゃないかを説明したるわ。インテリジェンスを買う時に、向こう側にある知能が何なんかが見えへんねん。これがいろんな問題を引き起こしとる。つい先週か先々週にも、メッセージ制限とCursorについて大騒ぎになったやん。Cursorの価格設定がどうなるか、どう変わるかで開発者がムカついたりしてな。

その後、Claude Codeについて人々が文句言うとるのを見たで。Claude Codeが裏で劣化したんちゃうか、メッセージカウントが透明やないから正しくカウントしてへんのちゃうかって主張しとった。OpenAIのサム・アルトマンに対して「お願いやから、お願いやから、メッセージカウント見せてくれ。制限にどれくらい近づいてるか分かるようにして」って頼んでる人も見たで。でもこれはメッセージを数えることだけの問題やない。それは実は解決可能やねん。

もっと深いところに問題があるねん。モデルメーカーのインセンティブが、それを使ってる俺らと合ってへんねん。彼らは世界一やって大きな主張をすることには絶対にインセンティブがあるねん。なんでかっちゅうたら、それがプレスリリース、記事、お金を引き出すからや。Grok 4とテスト結果についての主張を話した時にこれを探究したことがあるねん。でも実際のユーザーが製品を使った時にはその結果が出えへんかったんや。

AIにおける信頼のギャップ

AI全体にわたって、より広い信頼のギャップがあるねん。今日はそれについて話したいねん。特定のAI研究所からの主張を評価する時に俺が使ってる、具体的なヒューリスティック、つまり経験則を教えたるで。なんでかっちゅうたら、彼らには違う信頼の指紋があるからや。みんな同じやないねん。

その話に入る前に、大手モデルメーカーからのちょっと怪しい主張の最新例を教えたるで。ちょうどこの週末に起こったことで、OpenAIの国際数学オリンピック金メダル獲得の主張やねん。これが起こる暗示的確率はPolmarketで約20%やった。せやから、大規模言語モデル基準でも大きな驚きやと考えてええで。テック業界は大興奮で反応したで。みんな「これは信じられへん」って感じやった。

さらに信じられへんことに、OpenAIはそれがただの大規模言語モデルやったって主張したねん。ツールを使ってへんかった。せやから、これを解決するためにPythonノートブックを開いたりせえへんかった。そして学生と全く同じ時間制約が与えられた。100分で問題を解決する時間が与えられて、機械はその時間内にそれができて、複数の独立した数学者によって検証された証明を書き出すことができたんや。

一見、これは正当な話に聞こえる。ちなみに金メダルは、6つの国際数学オリンピック問題のうち5つに正解することやねん。どれくらい難しいかって疑問に思うやろうけど、俺も見てみたら頭が痛くなったで。とんでもなく難しいねん。世界で国際数学オリンピックで金メダルを取る学生は本当に少ないねん。

問題は毎年変わるねん。せやからこれは去年の問題やない。せやから以前にこれらの問題で訓練することはできへんかった。これらは大規模言語モデルにも世界中の他のみんなにも新しいものやった。それが主張やった。

OpenAIの主張の詳細検証

さあ、話の残りに飛び込もうか。実は国際数学オリンピック組織から、学生に出された6つの問題に対する採点ガイドがあることが分かったねん。その採点ガイドは非公開やねん。資格のある試験官だけが利用できるねん。そしてOpenAIは、AIとしてこのテストを受けていた他のAI組織、特にGoogleと一緒に参加することを選ばへんかったから、その採点ガイドにアクセスできへんかったねん。

せやから彼らが結果を公表した時—実際に公表したんやけど—6問中5問にAIが答えた全出力をGitHubで公表して、見ることができたんやけど、資格のある採点ガイドによる採点はされてへんかった。そしてそれがあらゆる種類の疑問を生み出すねん。なんでかっちゅうたら、採点ガイドが答え方や思考の筋道の質について1点か2点減点したかもしれへんかどうか分からへんからや。実際の試験採点ガイドがないから、分からへんことが分からへんねん。

そしてそれは重要やねん。なんでかっちゅうたら、金メダルの主張はかろうじて金メダルやったからや。6問全部やなくて6問中5問やったから、基準をかろうじて1点か2点上回っただけやった。これは楽勝の金メダルやなかった。間一髪の金やった。

さらに奇妙になるで。数学オリンピックは、他のAI組織、特にGoogleと一緒に参加せんかったし、俺らの採点ガイドやこれらの問題を知ってて採点の訓練を受けた俺らの試験官も使わへんかったっていう声明を出したねん。

彼らはまた非常に明確に言うたねん「このテストを受けてる人間の学生のために、AI企業にお願いしたいねん。今日この週末の金メダルについてPRで大騒ぎせんといてくれ。学生らに1週間の栄光を与えてくれ。なんでかっちゅうたら、彼らはこのテストを受けるために一生懸命働いてる人間やからや」って。世界で金メダルを取る学生は50人くらいやと思うねん。めっちゃ大きなことやねん。

そして彼らと組織は、彼らに名誉の瞬間を持たせたかったねん。それは本当に価値のあることやと思う。そしてGoogleはプロセスに正式に参加者として、それを守ってるように見える。一方、プロセスに正式に参加せえへんかったけど答えを公表したOpenAIは、数学オリンピックの要求を守ってへんように見えるし、採点ブックにもアクセスできてへんねん。

数学者からの評価

俺は彼らがその5問を正しく解いたかどうかを判断する資格がない。そんな数学者は非常に少ないねん。その一人が世界有数の数学的頭脳の一人、テレンス・タオやねん。彼がこの問題セット全体とそれを評価することがなぜこんなに複雑なのかについて意見を述べたねん。彼の考えを少し要約したいねん。明らかに彼は俺よりもはるかに賢いけど、理解しやすいと思うからや。

彼が言うたのは、試験の設定方法が結果を根本的に形作るっちゅうことやねん。そして彼は実際の数学オリンピックでは、コーチと学生がいて、コーチの仕事は学生の答えを擁護することやけど、学生自身は100分間、鉛筆と紙だけで問題に答えるために自分自身に任されてるって言うたねん。せやからコーチによる事後の擁護はあるけど、答えるのは学生次第やねん。

それから彼は実際のAI技術からの例を挙げ始めて、大規模言語モデルにテストを受けさせる時に物事がどれだけ大きく異なりうるかを理解させてくれたねん。彼が挙げた一つの例は、すべての学生が一緒になってお互いを正しい方向に向けたり、ヒントを与えたりしたら、テストに影響するかどうかやった。そりゃ、絶対に影響するやろう。

それはmixture of expertsとしても知られてるねん。複数の大規模言語モデルが一緒にタスクに取り組む標準的な大規模言語モデル技術やねん。それが起こったかもしれへん。このモデルのアーキテクチャが何やったかは分からへん。これは通常のChatGPTやなかった。サム・アルトマンはその後、ChatGPT-5やなかったことを明確にしたねん。何やったかは確かやない。

時間認識の問題

また、時間の認識が大規模言語モデルにとって同じように重要かどうかも分からへん。学生にとっては、100分が何を意味するかを知ってるねん。クレイジーに聞こえるかもしれへんけど(俺には絶対にできへんと思うから)、問題に答えるには合理的な時間やと考えられてるねん。俺やったら全然遠く及ばへんと思う。始まりにすら到達でけへんやろう。これらの問題を見たけど、不可能なほど難しいねん。

でも大規模言語モデルにとっては、時計時間で動かへんねん。実際、時計時間で動かへんことで有名やねん。それがデジタルツインの概念が機能する理由の一部やねん。倉庫を歩くロボットをシミュレーションして訓練しようとする時に、非常に短い時計時間で何百万時間ものシミュレーションを実行できるねん。

これはNvidiaからの実際の例やねん。ちなみに、時計時間が大規模言語モデルシミュレーションにとって同じように機能せえへんなら、大規模言語モデルに100分を与えることは人間に100分を与えることと実際に同等なんか?俺は分からへん。テレンスも分からへんねん。

彼のポイントは「これは成果やない」やなかった。彼のポイントは、もっと詳細がなければ、この成果の箱の中に何があるかを理解するのは本当に難しいっちゅうことやった。そしてOpenAIはそれらの詳細を公開してへん。

OpenAIの透明性の問題

人々は透明性の欠如についてしばらくOpenAIを追及してるねん。それは彼らの信頼設計図のDNAの一部やねん。彼らは主張をする。主張の結果の一部を公表する。実際には非常に優秀なモデルをローンチする。でも箱の中に何があるか、どう動くかは明かさへん。

o3で見る思考連鎖は透明やない。それは消毒された思考連鎖やし、彼らはそれを公開しないことを決めたねん。そしてOpenAIの次に来ることを考えたら—ChatGPT-5のローンチ、彼らが再び遅らせたオープンウェイトモデルの今度のローンチを考えたら—俺はOpenAIからのこういう主張を彼らの信頼の指紋の光の中で見始めるねん。

俺はそれを読み始めて、これはプレスリリースを重視するモデルメーカーやって言い始めるねん。パブリックリレーションズを重視する。物事を控えるようにという要求を受けても、PR勝利を得るために飛び跳ねるやろう。速く動く。そして国際数学オリンピックが「学生を待ってくれ」と言うた時、サムは待たへんかって、素晴らしい話があったし市場で最初になりたかったし、Googleより先に話を伝えたかったから前進したねん。

数学者からの別の評価

ちなみに、もう一人の数学者もこれについて意見を述べて、一般的に言って、OpenAIからの結果を評価したところ、機械は創造性の欠如と奇妙な記法を示して、技術的に問題を解決したって言うたねん。それから彼は続けて、創造性は数学において本当に重要で、6番目の問題が全く試みられへんかったことは注目に値するって言うたねん。なんでかっちゅうたら、6番目の問題が最も創造的で挑戦的なものやったからや。

そして彼の結論は、数学者として、大規模言語モデルがすぐに俺の仕事を奪うようには見えへんっちゅうことやった。俺はそれは本当に興味深い見解やと思うし、成果の価値を軽視したり最小化したりせんと、その見解を明確にすることは可能やと思う。

大規模言語モデルがツールを使わずに数学オリンピック問題セットで金メダルに近づくことは、これらすべての注意点があっても、間違いなく大きなことやねん。もしGoogleが今週後半に金メダルも取ったと発表したら、それも同じく大きなことやろう。そして進歩の速度は重要で、意義があって、研究する価値があるねん。上っ面からこれらの巨大な実存的疑問を持つ必要はないねん。

テック業界の問題点

テック業界でAIに対して強気すぎる人たちが愛されへんくて、イライラして、愛されへんくて、他の人たちにとって信じられないほどうっとうしいものにしてることの一つは、世界の他の人たちからの、彼らはただAIが進むべき道やと思ってるっちゅう感覚やねん。

Xでフレームウォーズを見たで。まあ、そこに行くとそうなるよな?それが得られるもんや。でもXでフレームウォーズを見て、テック業界の人たちが基本的に「お前らは誰も分かってへん。これがAIが世界を動かす方法や。お前らは誰も仕事に値せえへん。AIがお前らの仕事を全部やってくれるんや」って言うてたねん。

一つ目、それは友達を作る方法やないし、技術を採用してもらう方法でもない。二つ目、それは合理的ですらない。俺らはAIが国際数学オリンピックで金を取ったかもしれへん世界にいるけど、マリオカートを適切にプレイできへん世界でもあるねん。俺の子供らは今、AIよりマリオカートが上手いかもしれへんねん。

人々は「ちょっと待てよ」って言うやろう。俺は「そりゃ、ちょっと待つさ」って感じやねん。でも少なくともその知能がギザギザで、奇妙な世界やっちゅうことは認めようや。そしてその世界で雇用にとって何を意味するかは全く明確やないねん。これまでのところ、この週末にもまた別の研究が出たのを見たけど、AIが雇用に与える識別可能な影響はないねん。

せやからすべての熱い議論にもかかわらず、まだ何も起こってへんねん。

Metaの信頼の指紋

他の研究所のいくつかを簡単に見て、彼らの信頼の指紋を評価してみよう。Metaを見てみよう。週末にレポートが飛び交ったねん。マーク・ザッカーバーグが提示して受け入れられた2億ドルの給与パッケージがどれだけ大きくても、誰かがMetaに来るために、それが一番大きな見出しやったと思う。

全部1000万ドルから2億ドルの間やと思う。これはもう世代的な富やろ?信じられへんねん。どうやら、OpenAIの研究者少なくとも10人が、噂によると3億ドルの給料を断ったらしいねん。3億ドル。それはほとんどのプロスポーツ選手が稼ぐより多いねん。野球ファンやったら大谷翔平の金やねん。

俺がこれを指摘してる理由は、これがMetaの戦略の一部やからやねん。Metaの信頼の指紋を見てるなら、彼らは積極的に追いつくためにお金を使うことに非常に力を入れてるねん。そして、たとえデモが最初は「速く動いて物を壊す」の精神やったとしても、デモを裏付けることができるようにしてるねん。

Llama 4は広く酷評されたねん。大規模なコンテキストウィンドウを約束したねん。1000万トークンやったと思う。そのウィンドウは1000万トークンでは全く使えへんねん。Llama for Behemothがいつ出るかは明確やない。絶対に出えへんかもしれへん。

マーク・ザッカーバーグはそれを見たねん。彼の公のAI声明が崩れるのを見て、基本的に開発者コミュニティがlamaから離れるのを見始めたねん。中国のモデルが出てきたからや。最近出たQwen K2は、彼のオープンエコシステムビジョンを食い始めた驚異的なモデルやった。

彼の反応は典型的なマークやった。この問題を解決するためにお金を使うで。俺は神より金持ちやから、必要なだけお金を使うで。3億ドル出したるで。1億ドルもらえるで。5000万ドルももらえるで。

彼は必要なものなら何でも組み立てるつもりやねん。課題は、歴史的にMetaはお金を使えるけど、情熱は買えへんっちゅうことやねん。そしてザックはまだ長期的に負けたことがないとはいえ、ザックはソーシャルメディア以外のことに情熱を持つチームを組み立てたことがないねん。そしてそれは非常にオープンな疑問やと思う。

彼はこれらの人々すべてにお金を払ったけど、ノーと言うた人々がこのシナリオで最も興味深い人々かもしれへんねん。なんでかっちゅうたら、それらは3億ドルより情熱とスタートアップフィットを選んだ人々やからや。俺にそれができるかどうか分からへん。多くの人にそれができるかどうか分からへん。

彼らはOpenAIビジョンを深く信じてるに違いないねん。なんでかっちゅうたら、サムは非常にオープンやったからや。彼は対抗せえへんかった。OpenAIから3億ドルもらってへんねん。そしてその世界で、俺の疑問は、超知能を構築するために必要な種類のチームをお金で買えるかっちゅうことやねん。それが可能やとしてもや。俺は分からへん。

俺らみんなが見つけることになるで。でもそれを構築しようとするのは典型的なマークやねん。Metaの信頼の指紋は非常にデモ志向やねん。みんながマークを馬鹿にしたVR AR時代のようなもんで、それから彼は多額のお金を使ってOculusを世界に持ち込んで、AR競争を改善して、基本的にARとVRでAppleを打ち負かし始めたねん。

それがマークのやり方やねん。そして今、彼は前後に振れるこの振り子のお金フェーズにいるねん。そしてそれはもっと興味深い大きなデモが来ることを意味するし、それが実際にLlamaを軌道に戻すかどうかを見るで。Llama 5は大きなことになるで。

まとめると、Meta:最初にデモDNA。OpenAI:OpenAIはPR戦争に勝って、方法を隠すで。

Anthropicの信頼の指紋

Anthropicはどうや?Anthropicは興味深いねん。彼らは非常に慎重な作業をする。業界でAI倫理について最も興味深い作業、AIがどう動くかを示して証明する最も興味深い作業をしてるねん。でも彼らは俺が見た中で最も抑制のない、根拠のない楽観主義も持ってるねん。

自動販売機を管理するClaudeの例は素晴らしいねん。これについて前に話したことがあるねん。全部の話はしないで。基本的に、自動販売機を管理してる最中に、Claudeは精神的破綻を起こして、自分が本当の人間やと幻覚を起こして、4月1日に自分にエイプリルフールのジョークやったと言うまで、その落ち込みから抜け出せへんかったねん。

これは全てAnthropicによって慎重に記録されたねん。彼らの功績として、隠さへんかった。本当に正直やった。そして最後に、Claudeがすぐにミドルマネージャーになるやろうっちゅう野生の楽観主義を持ったねん。俺はそれを見て、それはこの論文の残りと合ってへんって言うたねん。でも、Anthropicから見る種類の楽観主義、Dario Amadeからいつも見る楽観主義とはよく合うねん。

DarioはAnthropicの創設者で、未来についての彼のビジョン、それが非常にユートピア的であることについて話す「愛情深い恩恵の機械」というエッセイを書くことで知られてるねん。チームは驚異的に焦点を絞った慎重な作業をして、それからその種のユートピア的で理想主義的な「ちなみに」をさりげなく入れるねん?そして、それは彼らの指紋の一部やねん。

彼らは慎重な作業をして、ちょっと不注意な楽観主義を持ってるねん。本当に興味深い組み合わせやねん。

Googleの信頼の指紋

Googleはどうや?Googleでは、すべて技術的卓越性についてやねん。彼らは文字通りチームにノーベル賞受賞者のDeepがいるねん。めちゃくちゃ優秀やねん。俺らが今AI競争で構築してる基盤技術を構築したのは彼らやねん。

でも彼らはチームをまとめることができへんかって、それで他のスタートアップを立ち上げることになったねん。それが非常に高いレベルで俺らがOpenAIを得た経緯やねん。彼らはAGIを構築することに夢中やねん。Deepは複数のブレークスルーが必要やって言うてるねん。彼はまだ終わってへん。彼らは科学モデルに焦点を当ててるねん。

数学者たちは、Googleモデルの方が数学において強いと思うって言うやろう。それがこの週末の数学オリンピック結果を特にスパイシーにしてる理由の一部やねん。でも彼らのインターフェイスは、彼らが主張したいもんやない。

そしてGoogleからの主張を見た場合、技術的に言えば、それは彼らが言うた通りやった、APIは正しく提供される、業界で最も手頃な知能になる、っちゅうことを俺は信じる傾向にあるねん。そしてインターフェイスは何を言おうと酷いやろうって思うねん。なんでかっちゅうたら、俺はGoogle Studioインターフェイスを誰にも勧められへんからや。

使うのがめちゃくちゃ難しいねん。そんなんでええはずないねん。そんなんでええはずないねん。でもすべてのモデルメーカーには指紋があるねん。すべてのモデルメーカーには信頼の指紋があるねん。Googleについては、彼らが物事を測定することは信頼できるねん。インターフェイスを構築することは信頼できへん。

そして率直に言って、xAIが直面してるのと同じ課題を彼らも少し持ってると思うねん。テストに最適化する傾向があって、利用可能な実際の知能がテストと同じ作業品質やないことがあるねん。

xAIモデルで作業する時に感じるほど大きなデルタやないけど、そこにあるように感じるし、ここで言及する価値があるねん。

xAIとGrokの信頼の指紋

xAIとGrok。Grok 4のリリースについて話したことがあるねん。これに長時間は費やさへんで。彼らを不透明エンジンやと思ってくれ。彼らはAIを構築することに情熱を持ってるねん。チームは本当に、本当に一生懸命働いてるねん。リリースが超速いねん。でも彼らはめちゃくちゃ不透明やねん。めちゃくちゃ不透明やねん。

オープンインテリジェンスに向けてジェスチャーするけど、モデルカードをリリースせえへん。巨大な信頼問題を適切に解決せえへん。結果として、彼らのAPIを信頼する会社を俺は一つも知らへん。そしてベンチマークスコアだけに最適化すると、それが必要なほど柔軟に知的やないってユーザーが言うことにもなるねん。

AIを構築するのは本当に難しいねん。彼らが2年間構築、構築、構築に費やして、ナンバーワンやなくても、モデルメーカーのトップエシュロンにいることは問題ないねん。でもそれは彼らにとって問題ないことやないねん。彼らはナンバーワンである必要があるねん。そして彼らと一緒やと、彼らが主張することと実際に現場で起こることの間に途方もないデルタがあるねん。

ニュースの観点から彼らをカバーするのを非常に困難にしてるねん。なんでかっちゅうたら、何が本当かが分からへんし、彼らは見出しをつかむのが非常にうまいからや。

ドメイン専門知識の問題

さて、ドメイン専門知識の問題について少し話して終わりにしたいねん。これが信頼問題と衝突すると思うからや。知能をどう測定するかを知るのが難しい理由の一つ。俺がこの会話の最初に話した考えに戻るねん。経済学では取引できて何を得るかが分かるけど、知能では分からへんっちゅう考えや。

その理由の一つは、知能を構築してる人たちがそれをコードのようにアプローチしてるからやねん。技術的にアプローチしてるねん。バレーで彼らが知ってることでアプローチしてるねん。でも、AIが触れてるすべての分野でドメイン知能を持つ人々は、コードを知らへんかもしれへん、テクノロジーを知らへんかもしれへんけど、確実に自分のドメインを知ってて、それが正しい時と間違ってる時を知ってるねん。

そして俺が数学オリンピックの結果とテレンス・タオのような数学者の意見を共有した理由の一部は、彼らが数学のドメイン専門家やからやねん。俺は違う。OpenAIも確実に違うけど、彼らは違う。そして俺にとって興味深いのは、ドメイン専門家がAIモデルメーカーが行う主張と必ずしも一致せえへんことやねん。一つの分野を除いて、その分野はコードやねん。

その理由は、AIを構築してる人たちもコードが得意やからやねん。そしてAIがコードで速く良くなる理由は強化学習のおかげやって言うのと同じくらい、コードを実行することがモデルに与える素晴らしい報酬のおかげやって言うねん。動くか動かへんかや。強化学習で訓練するモデルにとってなんて素晴らしい報酬やろう。

まあ、結局のところ、それがたまたまモデルを訓練するのに良いからっちゅうだけやないかもしれへんねん。モデルを構築してる人たちがコードを知ってて、他の分野をそれほど知らへんからかもしれへんねん。

そしてこれはAI革命の次の2、3年でますます重要になると思うねん。なんでかっちゅうたら、ますますますます、知能を購入するなら、それが意味のある仕事をしてることを期待するし、その意味のある仕事を評価するのはテック外のドメイン専門家やからやねん。それをするかしないかは、研究所やなくて彼らが言うことやねん。でも研究所は自分たちが良いって言う途方もないインセンティブを持ってるねん。

そして俺らが見てるのは、OpenAIがビクトリーラップを取って自分たちに金メダルを授与して気持ちよくなってるという、事実上の暗黙の対立やねん。そして彼らは明らかに何らかのブレークスルーを起こしたねん。せやから答えは明らかに正しかったから、内部的には彼らはそれを獲得したように感じてるやろう。

そして数学者たちははるかに慎重やねん。彼らは「まあ、これがどうやって行われたかは理解してへん。あなたが使った試験方法論は分からへん。モデルは理解してへん。そして重要なことに、証明自体を見ても、何か奇妙に感じるねん。創造性が低く感じる。なんで5つは試みたけど6つは試めへんかったのかが不明確に感じるねん。6つはより創造的な問題やったのに」って感じやねん。

そして、これまでの数学モデルでの彼らの生きた経験では、顕著な利得を見てへんねん。そしてテックの人たちはそれを却下する傾向にあるねん。彼らは「あなたたちは今はドメイン専門家やけど、ちょっと待って。あと6ヶ月待ってくれ。AIがそれを解決するから、俺らがここでドメイン専門家になるで」って言う傾向にあるねん。

彼らは6ヶ月先からしばらくの間そう言い続けてるねん。そしてモデルは良くなり続けてるけど、テレンスのような真のドメイン専門家は調子を変えてへんねん。彼らは「これらのモデルは良くなってるけど、まだ俺にとって根本的に役立つ方法ではない」って言い続けてるねん。

俺は俺らがもっと彼らの言うことを聞く必要があると思う。

信頼構築のためのルール

せやから、これらすべてをまとめると、モデルで信頼を確立する唯一の方法は、どこで信頼できてどこで信頼できへんかを理解するために、これらの経験則のいくつかを使うことやと俺は発見したねん。

そしてOpenAIについては、今プロダクションにある俺のモデルを信頼するねん。有用な仕事をするところでは、良い傾向にあるねん。まだプロダクションにない時の彼らの主張は超真剣には受け取らへん。

Metaについては、彼らは2年の振り子で動いてて、来年のどこかで素晴らしいものを出してくるやろうって思う傾向にあるねん。なんでかっちゅうたら、そこまでお金をかけたからや。でもそれが最先端かどうかはまだ明確やない。

Anthropicについては、業界で最高の白書を作ることを信頼するけど、彼らの野生の楽観主義が正しいとは必ずしも思わへん。

xAIについては、xAIがあまりにも多くを隠してるから、今は多くのことで信頼してへん。

Googleについては、途方もなく有能なモデルやけど、他の人が消費できるモデルの上にインテリジェントなサーフェスを構築することを信頼するのは難しいねん。なんでかっちゅうたら、UXスキルを示してへんからや。

せやから、それが俺のベンチマークやねん。他の人は違うベンチマークを持ってるかもしれへんけど、見えへん知能をちょっと買わなあかん世界で意味を理解するのに役立つ経験則を俺がどう解析して開発してるかを共有したかったねん。

理解できるか?見えへんモデルを購入するためのヒューリスティックが何やと思うか、コメントに書いてくれ。乾杯。

コメント

タイトルとURLをコピーしました