

Llamaの群れが建物を出て、街をうろついています。より具体的には、Llama 3.1の4050億パラメータの言語モデルが公開されましたが、前者の表現の方がより劇的だと思いました。モデルに付随する92ページの論文が24時間も経たずに公開され、はい、私はそれを全て読み、4つの競合モデルと比較して100以上のプライベートな質問で74の注釈を付けてモデルをベンチマークしました。モデルは印象的で、論文は示唆に富んでいます。さあ、始めましょう。
テキストのみのLlama 3モデルには3つのサイズがありますが、このビデオでは最大かつ最高の4050億パラメータモデルにほぼ完全に焦点を当てます。そして、メタが主要な言語モデル、例えばGPT-4に匹敵する品質を提供すると言っているのは誇張ではありません。このチャンネルを初めてご覧の方のために言いますが、私はその比較を評価するのに従来のベンチマークだけに頼っているわけではありません。
メタのイノベーションを簡単に言えば、品質のためにフィルタリングされた高品質のデータと、単により多くの計算、より大きなスケールでした。実際、10の25乗以上の浮動小数点演算という途方もない規模の計算は、あまりにも大きかったので、ある時点でEUはそれをシステミックリスクをもたらすものとして分類しました。それがあなたを怖がらせるか、ワクワクさせるかはともかく、これらすべての浮動小数点演算の結果を見てみましょう。
これは、従来のベンチマークにおけるLlama 3.1 405bとGPT-4、GPT-4.0、Claude 3.5 Sonnetの比較の簡単なスナップショットです。後ほど説明しますが、これらのベンチマークはモデル間の微妙な違いを完全に捉えているとは思いませんが、この新しい「オープンソース」モデルがGPT-4と同等かそれ以上であることを確かに示しています。もちろん、まだGPT-4 Omniのような洗練された音声入出力機能はありませんが、技術的にはそのモデルにもまだアクセスできません。
ただし、10秒ほど時間をかけて注目に値するのは、昨年初めに大きな波紋を呼んだGPT-4と同等かそれ以上のダウンロード可能なモデルが今や手に入るということです。当時の人々は、それには2年か5年かかるかもしれないと考えていましたが、いいえ、それはここにあります。そして、はい、メタはまだこの一連のモデルが「人工知能一般(AGI)の開発への責任ある道筋を示している」と主張しています。私のプライベートな一般知能ベンチマークについて触れる際に、少なくともそれについていくつかコメントします。
迅速に、なぜ私は「オープンソース」と言い続けているのでしょうか。準公式のオープンソースイニシアチブによると、オープンソースAIの定義には、トレーニングデータの出所、つまりそれがどこから来たのか、どのように取得されたのかが含まれます。論文の4ページには単に「さまざまなデータソースから」と書かれています。つまり、予算があったとしても、単にどのデータを使用したのかわからないため、Llama 3.1を再現することはできません。実際、私の新しいCourseraコースでこれについてのビデオを作りましたが、メタがオープンソースAIにコミットしていると聞くたびに、このパラグラフの中でマーク・ザッカーバーグが「オープンソース」という言葉を何度使っているかを思い出してください。
では、なぜ使用しているデータについて控えめなのでしょうか。ニューヨーク・タイムズが最近報じたように、データの入手がますます困難になっています。RedditやTwitterなどの企業がデータに対して課金しており、メタはそれらのデータすべてに対して許可を得ていない可能性があります。論文全体を通じて見られるテーマの一つは、言語モデルを使用して言語モデルのパフォーマンスを向上させることです。例えば、Llama 2を使用してLlama 3のトレーニングに使用されるデータをフィルタリングすることです。これは一例に過ぎません。文字通り何十もの例があります。
Llama 3.1がLlama 4のトレーニングに使用されていることは間違いありませんが、これが何らかの形の知能爆発を引き起こすと予測する前に、ザッカーバーグがつい昨日、Llamaモデルがメタの資金を大量に失っていることを認めたことを思い出してください。
何十億人もの人々が使用する製品になるのに十分良いものが、いつ大規模なビジネスになるかを前もって知るのは難しいです。私たち全員が、基本的にこれらのモデルのトレーニングに多額の資本を費やしています。人々はかなりの期間、おそらくお金を失い続けるでしょう。でも、もしかしたらそれがすべてもっと早く起こるかもしれません。正確には分かりません。
OpenAIでさえ、今年だけで50億ドルを失う可能性があります。少なくとも、私がこのビデオを撮影している間にThe Informationが発表したレポートによればそうです。しかし、L4が来ることは分かっています。おそらく今年中に。
AGIをどのように定義し、そこに最初に到達するのでしょうか。それは良い質問です。基本的に、私たちはすでにLlama 4の作業を始めています。私たちの目標は、他のすべてのモデルとの差を完全に埋めることです。だから、分かりません。私たちがAGIに最初に到達するかどうか。つまり、そこに至るまでにはおそらくいくつかのブレークスルーがあるでしょう。直線的に予測するのは難しいです。そして、より複雑な質問は、AGIとは何かということです。特定の定義があるとは思いません。
論文全体を通じて、彼らは自分たちが行ったことのレシピを明かしています。元のLlama論文とLlama 2の論文の両方を読んだ後、これはかなり異なります。大規模言語モデルの秘密を明かすことにずっと自信を持っているように感じます。ほとんど秘密のソースはないと信じているようで、中国を恐れてもいません。Claude 3.5 Sonnetを除いて、このモデルでほぼそれを証明しました。
正直に言って、論文の一部は特に衝撃的でした。彼らは次のトークン予測損失だけでなく、ベンチマークパフォーマンスのスケーリング法則も開発しました。つまり、GPUをどれだけ長く実行すれば、与えられたFLOP予算で望むベンチマークパフォーマンスが得られるかを予測しました。モデルのパフォーマンスを予測し、最終的なパフォーマンスをわずかに過小評価しただけでした。
彼らの言葉を借りれば、「このアプローチにより、計算最適化されたモデルに対して、特定の数のトレーニングFLOPが与えられた場合のダウンストリームタスクのパフォーマンスを予測することができます」。彼らは自分たちに計算予算を設定し、期待したベンチマークパフォーマンスを得ました。マーク・ザッカーバーグのオフィスにベンチマークパフォーマンスのダイヤルがあり、お金が続く限り時計回りに動かすことができるようなものです。
ちなみに、これらのベンチマークスケーリング法則は4桁の範囲で外挿されるので、かなり信頼性があります。ちなみに、そこから変わった450億パラメータという数字が出てきました。計算予算があり、それらのベンチマークスケーリング法則を見て、そのパラメータ数を割り当てました。
右側は、彼らが予想し、ARCチャレンジで従ったシグモイドスケーリングLW曲線です。ちなみに、これは私がこのチャンネルで最近話したARK AGIチャレンジではありませんが、一般知識や彼らが推論チャレンジと呼ぶようなこれらの正当な質問です。
そのスケーリング法則が適用されるベンチマークの数が正確にどれくらいあるのかは、少なくとも私は非常に興味があります。ベンチマークについては後で触れますが、ハードウェアの問題に至るまで、彼らが詳細に踏み込んだ量は驚くべきものです。ある時点で、日中の温度変動がGPUのダイナミック電圧に影響を与え、さらに気がかりなことに、データセンター全体の電力消費の変動が電力網の限界に迫ったことさえ記しています。少なくとも、彼らがさらに50倍にスケールアップしたときにどのような問題が発生するのか疑問に思います。
明らかに92ページの論文なので、多くのことをスキップしています。最も興味深いハイライトをお伝えしたいと思います。例えば、データを執拗に洗浄した方法についての詳細がありました。彼らのデータに頻繁に現れる厄介な問題を発見しました。過度に謝罪的な口調の問題、「申し訳ありません」や「謝罪します」といったフレーズです。彼らはそれを望んでいませんでした。過剰な絵文字や感嘆符も同様です。
AIがAIを改善するというテーマに戻りますが、彼らはコードの専門家モデルを訓練して、コードページに関する最高品質の人間のアノテーションを見つけるのを助けました。論文では、非英語言語でより高品質のアノテーションを収集するために多言語の専門家モデルを訓練したと述べています。
この時点で、メタが初めてこのフロンティアモデルを使用して、より小さなモデルを改善し訓練するための合成データを生成することを許可したことに言及するのが適切だと思います。彼らは以前にそれを許可しておらず、私の知る限り、OpenAIのような企業も許可していません。したがって、モデルがモデルを改善するというフライホイールが技術的にあなたに開放されました。
ただし、それについては少し洗練された方法で行う必要があります。彼らがLlama 3 405bを自身が生成したプログラミングデータで訓練したとき、それは役に立たないことが分かりました。これは、前の2つの例とは異なることに注意してください。これは同じモデルが自身が生成したデータで訓練していますが、実行フィードバック(このチャンネルでかなり話題にしてきたもの)を導入したとき、モデルは自身の間違いから学ぶことができるようになりました。
このチャンネルをフォローしている人なら誰でも、私が検証モデルについてよく話していることを知っているでしょう。実際、Llama 3はトレーニング中にそのアプローチを取り入れました。例えば、コーディングでは、構文チェックと単体テストに合格した生成物のみがファインチューニングに使用されました。
しかし、数学と推論については、さらに興味深い話があります。まず、彼らは推論の興味深い定義を与えています。「推論とは、複数のステップの計算を実行し、正しい最終的な答えに到達する能力と定義します。」これには間違いなく疑問符を付けたいと思います。なぜなら、この定義の下では電卓も推論をしていることにならないでしょうか。
興味深い点は、ウェブ上のトレーニングデータには、推論と数学のための正しい思考の連鎖の真実が不足していると彼らが言っていることです。しかし、それらは問題をステップバイステップで分解し、最終的な答えに到達する方法をモデルに導くために不可欠です。言い換えれば、オンラインのテキストのほとんどには結果と分析が含まれていますが、それらの結果を導き出すのに関わった思考の連鎖は含まれていません。
そして、彼らはこのチャンネルで何度も話題にしてきた「Let’s verify step-by-step」論文から直接引用しています。続いて、次のように述べています。彼らはモデルのパフォーマンスが低い数学的スキルを特定し、人間からそのようなスキルをモデルに教えるためのプロンプトを積極的に収集しました。そして、Llama 3を使用して、ステップバイステップの解決策の背後にある推論のステップをチェックしました。言い換えれば、推論の連鎖における良いステップを認識するようにモデルを訓練しました。
こうして、中間的な推論ステップが間違っている場合、トレーニングデータをフィルタリングすることができました。つまり、最終結果だけでなく、その最終結果に至るために使用された理由も対象としました。彼らは無効な推論の痕跡を排除したいと考えました。最も難しいプロンプトに対しては、AlphaGoのようなプロセスベースの報酬モデルを用いてモンテカルロ探索さえ使用し、有効な推論の痕跡を生成しました。
翻訳すると、彼らはモデルに推論を教えるための最良の推論ステップを見つけるために可能な限り懸命に探索しました。
この時点で、私自身のプライベートベンチマーク、一般知能推論をテストするためにSimple Benchと呼んでいるものについて話すのを控えられません。このベンチマークについて私が好きなことがいくつかあります。明らかに私は信じられないほどバイアスがかかっているので、これを割り引いて受け取ってください。しかし、これは実際にモデルの真の推論知能をテストするために私が頼っているベンチマークです。
まず、完全にプライベートなので、全く汚染されていません。第二に、私だけでなく、サイドの専門家によっても厳密に検証されており、さらに多くの検証が予定されています。最終的な100問か200問の中に1つでも間違いがあれば、私はかなり怒るでしょう。
第三に、そして私が最も興味深いと思うのは、ご覧のように、最高のモデルでさえ、私が逸話的にテストした人間のパフォーマンスをはるかに下回っていることです。後ほど一例をお見せしますが、もちろんそれは最終的なベンチマークには含まれません。しかし、私にとってはこれまでに見た中で最も信頼できる「雰囲気テスト」です。
私は自己一貫性を使用してモデルを再度テストする予定ですが、今のところ、Claude 3.5 Sonnetが32%で大きくリードしており、Llama 405bが18%で、GPT-4の両バージョンとGemini 1.5を大きく上回っています。ちなみに、GPT-4.0 Miniのような小さなモデルは0%でした。
これは新しいLlamaモデルが通常正解するが、GPT-4.0が基本的に正解しない例の1つです。これはベンチマークの空間知能セクションからのもので、4つの完全な氷の塊を火の中に入れ、さらにいくつかの氷の塊を火の中に入れ、そして質問は「3分後に火の中に何個の完全な氷の塊が見つかりますか?」で終わります。私は「最も現実的な答えを選んでください」と付け加えさえします。そしてモデルは、3分後には氷の塊はすべて溶けてなくなっているという現実を反映して、0を選びません。
ほとんどのモデルはもちろん、計算の迷宮に陥ります。確かに、これはベンチマークの中でも比較的簡単な質問の1つでした。「これについて慎重に考えてください」や「これはトリック問題です」といった注意を加えれば、モデルは時々正解することがあります。しかし、私はモデルをよく知っているので、本物の空間的、時間的、言語的、または社会的な質問を作ることができます。これらの質問は、どんなに警告を与えても、モデルは正解できませんが、人間はほぼ完璧に得点します。
なぜそうなのでしょうか?それはもちろん、モデルは言語をモデル化しているからです。彼らは言語モデルであり、現実のシミュレーターではありません。彼らは実際に頭の中で物事を視覚化したり、私たちと同じ方法で問題について考えたりしません。
では、Llama 3のようなモデルがこのような質問に正解することは、どのようにして可能なのでしょうか?それは、言語的な手がかり、ノイズの中から微かな信号を拾う能力をテストするための痕跡を残すことができるからです。すべての信号を取り除けば、モデルは0点を取りますが、人間はほぼ完璧に得点します。しかし、わずかな信号があれば、賢いモデルをそれほど賢くないモデルから区別することができます。
正直に言うと、100以上の質問すべてを皆さんと一緒に見ていきたいのですが、それらはかなり面白いものです。しかし、もちろんそうすれば、それは必然的にトレーニングデータに漏れてしまい、テストを汚染してしまいます。ベンチマークを機能的にして数字を変更することはできますが、それでも可能な限り避けたいと思います。
分かります。多くの人が、それはLlama 405bが良いということを言うための非常に長い方法だと思っているでしょう。Claude 3.5 Sonnetほど良くはないが、少なくともテキストではGPT-4.0よりも優れていると。
このベンチマークの一部がある程度敵対的であると言えるかもしれません。メタは33ページで、敵対的なテストは非敵対的なものよりも著しく悪いパフォーマンスを引き起こすと述べています。彼らが言っているのは、使用したベンチマークのいくつかでは、質問の最後に1つの注意をそらすような文を追加するだけで、単に質問するよりも著しく悪いパフォーマンスを引き起こすということです。
モデルが実際に質問について考えているのであれば、そのようなことは起こらないはずです。論文はこれを強調していますが、解決策は提案していません。
数学的推論と質問応答については、しかし、敵対的なパフォーマンスは非敵対的なパフォーマンスよりも実質的に低くなっています。このパターンは、事前訓練されたモデルと事後訓練されたモデルで同様です。終止符。
カバーすべきことがたくさんあるので、迅速に汚染に移りましょう。興味深い単語マッチングやn-gramチェックを通じて、彼らは従来のベンチマークで汚染が蔓延していることを発見しました。そしてこの列の汚染スコアは実際には問題を過小評価しています。クリーンなセットの例が少なすぎる場合、またはデータセットをクリーンにしたときに観察されたパフォーマンスの向上が非常に不安定な動作を示した場合、彼らはこのチャートからベンチマークを除外しました。
そして、MMLUについて続けています。トレーニングデータとテストの間で8語の重複という高いしきい値を許可した場合でも、汚染スコアが非常に高くなり、良好なパフォーマンス向上の推定を得ることが不可能でした。そのため、汚染がMMLUスコアにどの程度影響しているかを推定することさえできませんでした。
Scale AIのものや私のものなどのプライベートベンチマークが将来的により一般的になるように思えます。例えば、Scale AIによる数学のランキングでは、Claude 3.5 Sonnetが1位でした。
一見すると、LMSからのリーダーボードにつながるような人間との比較は、少し問題があるように見えます。SammanはGPT-4.0 MiniがGPT-4.0のパフォーマンスに匹敵すると言っていましたが、私自身の実験では、それは全く近くありません。MiniがClaude 3.5 Sonnetを上回っているのは、私には衝撃的に思えます。
LMSはそれに対処し、これらのバトルの無作為な20%のサブセットを公開すると述べています。私はそれに興味を持って見ていきます。
論文に戻りますが、Llama 405bがライバルよりも優れているように見える別の方法があります。128kトークン、つまり約10万語の長いコンテキストを持っています。もちろん、他のモデルはそれ以上を持っていますが、それが優れている理由ではありません。長いコンテキストを探索する必要がある質問に答えるときに、より良いパフォーマンスを発揮します。
残念ながら、彼らはGemini 1.5 Proと比較しませんでしたが、ここではGPT-4、GPT-4.0、Claude 3.5 Sonnetを大きく上回っています。
このInfiniteQAベンチマークとは何でしょうか?予想通り、私はその論文を追跡して全文を読みました。Infinity Benchの典型的な質問は次のようなものでした。小説の長さの物語全体に詳細が散りばめられている中で、「AがBに2回目に会ったとき、Aはどの色のドレスを着ていましたか?」と尋ねます。
つまり、モデルはAがBに初めて会った時、そして2回目に会った時を追跡し、その時に着ていたドレスの色を把握する必要があります。Llama 3.1はこれでClaude 3.5を圧倒しています。
また、干し草の山の中に複数の針がある場合、つまり長い文書の中に4つのパスワードが散りばめられているような場合、それほど上手くできませんが、GPT-4や、ランダムではありますがLlama 3も4億パラメータでは、Claude 3.5 Sonnetよりもはるかに良いパフォーマンスを示します。
Gemini 1.5 Proと比較しないのは、長いコンテキストがその専門分野であるにもかかわらず、少しランダムに思えます。しかし、いずれにせよ…
ここでメタにもう少しクレジットを与えましょう。彼らは論文だけでなく、Llama 3のリリースのウェブサイトでも、GPT-4との多くの勝敗の人間による比較を提供しました。そしてそれらの比較のほとんどは実際に不利なものでした。自分のモデルをあまり良く見せない図表を含めるのは称賛に値する正直さです。
中央では、Llama 3がほとんどの場合GPT-4.0に負けているのが分かります。実際には、英語、推論、コーディングなどにわたるこれらの比較のすべてです。
しかし、先ほど見たように、人間による一見の評価は必ずしも信頼できるとは限りません。
ここで安全性について一言。彼らは、Llama 3の違反率が競合モデルと比較して大幅に低下したと主張しています。通常、安全性に関する違反率が低下すると、単純で無害な質問に答えることを拒否する偽の拒否率が増加します。しかし、実際にはまだかなり低い偽の拒否率を維持しています。
彼らは、常に拒否するモデルは最大限に安全ですが、必ずしも常に役立つとは限らないため、カウンターメトリクスとして偽の拒否を考慮することが重要だと指摘しています。私がここで言及しているのは、Claudeが他のモデルと比較して、私の無害な質問を頻繁に拒否しているように見えるということです。
いずれにせよ、偽の拒否は確かに存在し、メタがそれを認識していることは嬉しいことです。
そして再び称賛に値する正直さで、彼らはLlama 3が平均してプロンプトインジェクションに対してより脆弱であることを認めています。少なくともGPT-4やGemini Proと比較してですが、Mixtralよりは優れているようです。
しかし、安全性についてはより広い点があります。マーク・ザッカーバーグが、Llama 1の流出に関して2人のアメリカの上院議員から手紙を受け取ったのは、約1年前のことでした。その手紙では、スパム、詐欺、マルウェア、プライバシー侵害、そしてハラスメントの可能性について懸念が表明されていました。
明らかにその手紙は何の効果もありませんでした。なぜなら、その後彼らはLlama 2だけでなく、Llama 3のオープンウェイトとダウンロード可能なものをリリースしたからです。そして安全性の点について、レオポルド・アッシェンブルンナーは激怒するでしょう。彼は、中国のような敵対者がただのUSBドライブでモデルを盗むだけなので、モデルを非公開にする意味はないと言っています。
そのため、数日前にサム・アルトマンに宛てられた、約6人の上院議員が署名した手紙を見ると、彼らの計算予算の20%を安全性に充てると本当にコミットしているのかと尋ねているのを見ると、OpenAIがこれを完全に無視し、完全に逃げ切る可能性があるという軽い疑念を持ちます。
また、メタがリリース前にモデルを事前チェックする方法についてより厳密になったことを称賛したいと思います。彼らはボランティアのグループを集め、Llama 3にアクセスした場合と、アクセスがない場合で、化学兵器や生物兵器の作成や少なくともアイデア化の能力に向上が見られるかどうかを調べました。両グループともインターネットにはアクセスできました。これらの結果の分析では、Llama 3の使用に関連したパフォーマンスの有意な向上は見られませんでした。
正直なところ、データのフィルタリングがどれほど行われたかを考えると、それほど驚きません。生物兵器や化学兵器のデータが最終的なモデルにまだ含まれているとすれば、少なくとも私は驚きます。
彼らの信用に値するのは、OpenAIが約6ヶ月前に同様の研究を行ったことです。私はそれについて私のPatreonのAIインサイダーで話しました。
Llama 3.1のビジョン、スピーチ、ビデオの部分はまだ利用できません。ザッカーバーグは何らかの失敗について述べましたが、詳細には触れませんでした。しかし、彼らは論文で1つの興味深い推測をしました。
Gemini 1.5 ProとGPT-4 Oがマルチモーダルであるように最初から訓練されていることを覚えているかもしれません。それには利点がありますが、メタは、別々のモデルを使用する構成的アプローチが実際にいくつかの点で有利だと主張しています。
明らかに、推論中にはより効率的です。もちろん、これが出てきたときに私たちは全員判断できます。しかし、私はGomeブラウンがGPT-4.0はマルチモーダル推論に関して彼らが望んだほどうまくいかなかったと述べたことに注目します。
しかし、これが私が注目するベンチマークであるMMUの最終結果です。ビジョン付きのLlama 3は64.5%、Claude 3.5は68.3%、GPT-4.0はさらに良く69.1%でした。そして私はそれを信じることができます。
そして、メタがLlama 3vのトレーニングに使用したビデオデータについて非常に簡単に触れると、彼らは言っていませんが、Instagram Reelsを使用していることを強く示唆しています。知っている人がいれば訂正してください。しかし、ビデオの長さと解像度は確かにそれを示唆しているようです。
もしそれが事実なら、Googleと同様に、OpenAIのような企業が必ずしも持っていないような大量のデータを彼らが持っていることを自慢できます。
はい、ちなみに彼らは音声理解だけでなく音声生成にも取り組んでいます。そのため、最終的にはGPT-4.0で約束されたように、Llama 3.1と話すことができるはずです。
彼らは、自分たちの音声認識がWhisper V2よりも優れており、多言語シナリオではWhisper V3よりも優れていると主張さえしています。
確かに、この実験ではWhisper V3を使用していましたが、これらの小さなLlama 3モデルがGroを使用して行動できる速度を見てください。
「それを表にしてもらえますか?」
「期間列を追加できますか?」
「時間列から終了時間を削除できますか?」
「期間を分単位にできますか?」
「期間を時間と停止列の間に移動できますか?」
「素敵なレストランでのランチとディナーを追加できますか?」
「やっぱり考えが変わりました。バンクーバーにしてください。」
もちろん、時間の都合上、このビデオを終わりにしなければなりませんが、論文全体を通じてトレーニングモデルに関する数え切れないほどの実験が明らかにされました。
実験の追跡について言えば、OpenAIを含むAIラボがフロンティア機械学習実験を追跡し、視覚化し、反復し、最適化し、共有するためにこのビデオのスポンサーであるWeights and Biasesを使用していることをすでにご存知かもしれません。
しかし、Weights and Biasesが現在、LLMアプリケーションを自信を持って反復するための軽量ツールキットであるWeaveを持っていること、そして彼らのウェブサイトで無料のプロンプトとLLMエージェントコースを提供していることをご存知ないかもしれません。
もしそれを知らなかった場合は、このビデオから来たことを彼らに知らせてください。リンクは説明欄にあります。
そして、メタの結論で締めくくりましょう。彼らは言います。そして私も同意します。多くの点で、高品質な基盤モデルの開発はまだ始まったばかりです。Llama 3の開発における私たちの経験は、これらのモデルのさらなる大幅な改善が地平線上にあることを示唆しています。
彼らは、より複雑なモデルアーキテクチャやトレーニングレシピを探索したことを認めていますが、そのようなアプローチがモデル開発に導入する追加の複雑さを上回る利点を見出せなかったと続けています。
皆さんと同様に、私もLlama 3.1をGemini 2やGPT-5と比較するのを待ちきれません。そして、彼らはLlama 3が一般的に使用されるベンチマークに偶然にオーバーフィットしないようにし、彼らの事前トレーニングデータが別のチームによって調達され、処理されるという正しい計画を持っていました。そのチームは、事前トレーニングデータの汚染を防ぐために強く動機付けられていたと彼らは言います。
私のSimple Benchにおけるモデルのパフォーマンスは、彼らのベンチマーク結果が偶然ではないことを示唆しています。
彼らはこう締めくくっています。「Llama 3のリリースが、業界がAGIの「オープン」で「責任ある」開発を受け入れることを奨励することを願っています。」
コメント欄で皆さんの考えをお聞かせください。そしていつものように、素晴らしい一日をお過ごしください。


コメント