Llama 4 Maverick 400B:初の実世界テスト

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,224 文字

Llama 4 Maverick 400B: First Real-World TEST
Live REASONING TEST of Llama 4 Maverick. Lama 4 Maverick is a 400B parameter model, with 128 experts and 17B active para...

こんにちは、みなさん。新しいLlama 4モデル、メイヴェリック・エクスペリメンタルが登場しました。Llama 4メイヴェリックと、Claude 3.7 Sonnetを比較してみましょう。Syncing 32Bとなっています。ご存知のように、私は新しいテストを用意しました。以前のテストをベースにした新しいテストです。
それでは、彼らのパフォーマンスを見てみましょう。画面に表示できますね、素晴らしい。推論モデルがあり、今ライブでお届けしています。左側がLlama 4メイヴェリック、右側がClaude 3.7の思考過程です。
それでは見てみましょう。点滅していますね、これは本当に興味深いです。何が起こっているでしょうか?何も起こっていませんね。
私も初めてLlama 4モデルを開いたところなので、皆さんと一緒にライブで見ていきます。はい、Claude 3.7 Sonnetですね。Sonnetでは実際の思考プロセス、つまり思考の連鎖を見ることはできないことを知っています。前回の動画でお見せしたように、それほど多くを見逃しているわけではありませんが、Anthropicの最新の発表で示されているように、Claude 3.7が私たちに見せる思考の連鎖は実際の思考プロセスではなく、モデル自体によって簡単に妨げられたり上書きされたりする可能性があります。だから多くを失っているわけではありません。
Llamaについては、しばらく待って何が起こるか見てみましょう。両方のシステムが動いています。ここでオンラインでLlama 4を初めて試していますが、何も表示されていませんね。もう少し待ちましょう。
他に何かお伝えできることがあるでしょうか?ここに私の典型的なモデルがあります。4×7の要素のマトリックスを示しており、それを割り当てるべきものです。いくつかのヒントを与え、次世代のモデル向けに少し難しくするために新しい複雑さのレベルを追加しました。今日作ったばかりで、ヨーロッパの私の地域では今は夜ですが、Llama 4がリリースされました。タイミングがぴったりですね。
では、Llama 4が初めてこのテストを実行できるかどうか見てみましょう。今日作ったばかりなので、AIがこのテストを見たことはないと思います。古いテストをベースにしていますが、モデルが非常に優れていて進化しているため、古いテストはもはや本当のチャレンジではなくなったので、複雑さのレベルを追加しました。
ゆっくりと待っています。Llama 4については何も言えないですね。ここで待っているだけです。どちらのモデルがいつ終わるか言えませんが、このベンチマークでは両方のモデルがほぼ同時に終わるのを待ち、思考プロセスも終わるのを待って、両方のモデルから並行して回答が得られることを期待しています。並べて見られるようにセットアップされていると理解しています。
思考プロセスが進行中です。すでに1、2分は思考プロセスに入っていると思います。
おっ、来ました!左側のLlama 4が動き始めました。「楽しいチャレンジです」と言っています。元のヒントを分析しているようです。15個の元のヒントがあると言っています。構築を始めていますね。
Sonnetも準備ができました。これはいいですね。トークン制限に達したようなので続行する必要があります。
素晴らしい!Sonnetがここで評価を行っています。とても良いですね。Llama 4はまだ考えています。最後のフィールドが開いています。Llama 4の推論プロセスがかなり詳細に表示されています。初めて見ましたが、読むには少し速すぎますね。
さあ、まとめに入りましょう。Llama 4では絵文字も出ています。コミュニティフィールドに慣れ親しんで…略語もありますね、これは興味深いです。
Llama 4は何をしているのかわかりません。「排除によるアーティファクトは除外されていません」とLlama 4は言っています。どういう意味かわかりません。Llama 4はループに陥っているようです。「これを一度に終わらせましょう」と言っていますが、最後の割り当てで行き詰まっているようです。
素晴らしい、除外を見せてください。素晴らしい、慣れ親しんでいますね。テーブル全体を埋めましょう。最終的な整合性チェック、すべての手がかりが一致しています。素晴らしい、最終的な関連付けですね。
これで終わりです。キーインサイトがそれを修正しました。パズルの解き方を楽しんでいただけたでしょうか?7人の偉大な魔法使いが美しいですが、情報が欠けています。
「テーブルを出力として表示し、複雑さも含めてください」と言ってみましょう。最終結果としてテーブルを見たいです。
素晴らしい、来ました。「パズルを楽しんでください」と言っていますが、私はパズルではなく結果が欲しいのです。
ブリンダーはなぜ2つあるのでしょう?これは間違っています。同時に2つのアーティファクトを持つことはできません。これはあまり良い兆候ではありません。7分の1の最低、7分の6の中間、7分の7の中間、4、5…比較してみましょう。
すぐ隣に表示されていますので見てみましょう。ブリンダーに2つの要素があるのは良くない兆候です。これは正しくありません。しかし始めましょう。
アヴァロン、アマロットオブドリームス、エンチャントメント、キメラ、アヴァロン、エンチャントメント、クリスタルオブタイム…何か他のもの、フェニックス、何か他のもの、これが最低のものです。最低のもの、はい。ブリンダー、アミュレットオブドリームス、2つのうちの1つですね。ソランダは中程度、ここでは高い中程度、4、こちらは非常に高い、7分の6、いいえ。
セレスティア、セレスティア、イリュージョン、秘密の回転、ヒメラ、鏡、時の結晶、イリュージョン、フェニックス、中間、2、これらは一致しています。ドーン、真実の鏡、はい、ネクロマンシー、はい、ユニコーン、はい、極端に高い、7分の7、ドーンについては一致していますね。少なくとも1つは。
エルドリア、エルドリアには影のオーブがあります。それから癒しの魔法または元素魔法、ペガサス、グリフィン、中程度の高さ、7分の4、中程度、3、ここで評価が一致していません。
これは良くないように見えます。2つのアーティファクトをここに置いているのがすぐにわかります。これは正しくありません。エレメントの杖はどこですか?アミュレットオブドリームスがあり、再びアミュレットオブドリームスがあります。これは正しくありません。システムはここに重複を置いたことを認識していません。これは正しくありません。
ブリンダー、アミュレットオブドリームス、アミュレットオブドリームスはブリンダーにあるべきです。アヴァロン、アヴァロンは時の結晶であるべきです。アヴァロンは時の結晶であるべきです。いいえ、これはセレスティアルの時の結晶です。どちらのシステムも…
「ステップバイステップで答えを検証してください」と言いましょう。こういうシステムを好む理由はそれを見るのが楽しいからです。左側のLlama 4、「答えを検証して、何ができるか見せてください」。
ここで見ているのがリアルタイムの実体験です。あと1、2分私の声を聞く必要があるかもしれませんが、申し訳ありません。検証はすべきではないはずです。
来ました!両方のシステムが検証に問題がないと合意した場合、問題に遭遇することになりますが、システムの1つが「間違いをしました」と言うことを願っています。
Llama 4が何を考えているか理解できますか?私にはわかりません。Claude 3.7は今終わったようですが、Llama 4を待っています。
「最後のものは論理的にガローリアが合うアーティファクトを持っています。唯一残っているのはガローリアです。論理によって最後に立っているものがアーティファクトを持ち、それは推測によってのみアーティファクトを持ち、それは補完するものです」この種の表記法は見たことがありません。これに慣れるか理解し始める必要がありますが、Claude 3.7がどのように行っているかは知っています。
左側のLlama 4はまだ考えています。問題ありません。これは私たちの最初のテストです。結果を見てみましょう。ガレリアの解決策に興味があります。
「これをまとめましょう」「アーティファクトを再割り当てします」「答えは簡単です」「正しい割り当ては」「答えは推論によって明らかです」「答えは簡単です」はい、すべてが簡単ですが、Llama 4はまだ考えています。まだ考えています。「正しい割り当て」「最終的な答えは」まだ考えています。いいえ、実際にアーティファクトを通して本当に考えています。
腕が1本しか自由にないので時間がかかります。Sonnetは完了しました。可哀想なSonnet。これを実行する必要があります。
「これを終わらせましょう」Llama 4、「素晴らしい要約」。ガローリアは何が残っているのでしょうか?Llama 4ではまだ推論段階にいます。更新されたテーブル、新しいものがあります。
「それでOKです。解けました。偉大な魔法使いhテーブル」とても良いです。略語に慣れていないので、「最終出力をテーブルにまとめ、最後の最終回答と比較して変更点を説明してください」と言います。システム自体が何かを変更したことを認識しているかどうか確認したいだけです。ライブでこれを行っており、1つの脳だけに集中できるからです。
うわー、Llama 4はかなり多くのことを変更したようです。いいえ、違います。
「これは時間+前回の回答と比較して変更した点の説明です」素晴らしい。まだ2つあります。冗談でしょう?Llama 4、これは正しくありません。
「検証中に致命的な矛盾を発見しました」Llama 4は致命的な矛盾を発見しました。それを発見したのは良いことです。「これを修正するために私はアーティファクトを交換しました」なるほど、だからこの交換が今機能するのですね。テーブルの他のすべては同じままです。
15のヒントすべてについて本当に検証したかどうかは見えませんが、複雑さの評価は楽しかったようです。いいえ、わかりません。「これがパズルの唯一の解決策です」と言っています。
では、Claude 3.7は何をするか見てみましょう。Claude 3.7は良いモデルであることを知っています。比較してみましょう。
「最終解決策をすべての与えられたヒントに対して検証し、チェックされた各ヒントを表示してください」と言います。このシステムを信頼していないし、このシステムに慣れていないので、自分で確認したいのです。
左側にLlama、右側にClaude 3.7があります。15のヒントと複雑さのレベルがあることを覚えておいてください。
素晴らしい!ここに来ました、これは素晴らしいです。Llama 4はかなり速いです、驚きです。「変更点」と言っていますが、それはすでに最終解決策でした。
Llama 4に「15の元のヒントと追加の3つの複雑さのヒントに対して最終解決策を検証してください」と言いましょう。素晴らしい、まだ両方ありますね、信じられません。
ヒントを検証しています。ヒント1チェック、ヒント2チェック、ヒント3チェック、ヒント4チェック、ヒント5「まだ直接割り当てられていません」おかえりなさい、おかえりなさい、問題ありません。
ヒント6「エラーが見つかりました」「これはヒントを破ります」なので、Llama 4の3回目のバージョンでの最終解決策でもまだエラーが見つかっています。「これを修正する必要があります」「慣れ親しんだものを交換しましょう」
検証を続けます。ヒント7、ヒント8、ヒント9、ヒント10「別のエラー」「これはヒントを破ります」「これを修正する必要があります」「交換しましょう」
続けましょう。ヒント11、ヒント13、14、15。「ソリューションチェック」「別のエラーが見つかりました」「エラーが見つかりました」「ここで調整する必要があります」
3回目の検証でもLlama 4はこのモデルを解くことができていません。「すべての複雑さのヒントが合致します」これは素晴らしいです。「変更点」「完全に調整しました」「すべて素晴らしい」
そして今、この最終解決策では複雑さがもう含まれていないことがわかります。
Llama 4を初めて見た印象では、改善の余地があるかもしれません。残念ながら、Llama 4の最初のテストでは、テストのパフォーマンスに失敗しました。
動画をお楽しみいただけたでしょうか?すぐに続きが来ます。

コメント

タイトルとURLをコピーしました