LLaMa 4は手遅れすぎる

4,485 文字

LLaMa 4 is the first weekend release from Meta AI and that is telling. Today we put the Maverick variant through our usu...

こんにちは、皆さん。フィッチ・クルーに戻ってきました。今日はLlama 4モデルシリーズ、特に中間モデルであるMaverickを見ていきます。週末にリリースされたことを聞き、あまり良くないフィードバックも耳にしたので、あまり期待せずに通常のテストスイートで試してみることにしました。正確なモデルを使用していることを確認するためにOpen Routerを使用しています。Meta.aiでもLlama 4と書かれていると思いますが、確実を期すために以前使用したことのないこのクライアントを使っています。今回のエピソードではご容赦ください。今後は簡単になるといいですね。
まずはコーディングバリアントから始めましょう。手続き的に生成された惑星を作るよう依頼します。これは標準的なプロンプトで、説明にも記載しておきます。送信して様子を見てみましょう。
かなり早く結果が返ってきました。何かはしたようですが、小さいですね。最初から明らかに推論モデルではないようです。レンダリングしてみましょう。少々お待ちください。
黒い画面が出ました。それはそれで良いのですが…何も表示されていないようです。もう一度やってみましょうか。エラーがあるか確認しますが、少なくともボールのようなものが表示されることを期待していました。シーンやカメラ、getColorなどは確認できますが、コンソールエラーはありません。
フォローアップを送ってみましょう。何も表示されず、エラーもないことを伝えます。コードを詳しく見ることなく、自己修正の機会を与えてみましょう。
カメラとオブジェクトの位置の扱い方に問題があるようだと言っています。こちらが動作するはずの更新されたコードだそうです。少し長くなりましたが、合理的に見えます。確認してみましょう。
やはり何も表示されません。エラーもなく、スクリプトは存在していますが、何も表示されません。iframeに問題があるのかもしれませんが、よくわかりません。
最初にこれを試すのは野心的すぎたかもしれませんが、最新の最先端モデルですから、少なくともこれくらいできることを期待していました。何か表示できるか確認するために、2D惑星を作ってもらいましょうか。
そうですね、新しいプロンプトを送って、コードを生成できるか確認しましょう。2D惑星を作り、単一ページのHTMLで、地球のように見え、設定可能なパラメータを持つものをお願いします。以前のものより非常にシンプルな要求です。
良いスタートとは言えませんね。これは最先端モデルなので、少なくとも過去3〜4ヶ月にリリースされたものと同等のものを期待していました。一発で試しただけですが、40クラスのモデルよりもはるかに劣るようです。
3ヶ月以上前のモデルかもしれませんね。後退しているのでしょうか。これはMaverickですが、非常に酷いです。こんなに性能の低いモデルをテストしたのは久しぶりです。
黒いテキストを白い背景に生成したのは良いですが、これは全く惑星に見えません。最新の最先端モデルは惑星が何かを知っていて、一発でMinecraftを生成するほど優れているのに、これは何でしょう？以前やった進化シミュレーターの動画を覚えていますか？それよりもずっと一般的に見えます。これは全く惑星に見えません。
フォローアップで、ノイズなどを使うよう指示してみましょう。Maverickは中間モデルで、最小モデルはScoutだと思います。最大のモデルはTitanですが、まだリリースされていません。プレビュー版だと思うので、ローカルで入手する必要があるかもしれません。
返答が来ました。フルスクリーンのHTMLレンダリングを…待ってください、何をしたのか分かりました。カラーピッカーですね。面白いのは、海面レベルの動作方法ですが、かなり貧弱なパフォーマンスです。明らかにコーディングモデルではありませんね。
他の領域では優れているか確認してみましょう。多くの人がビジネスに統合できるかどうか気になるでしょう。準備として、Deep Researchにエージェント系の製品やモデルの状況について情報をまとめてもらいました。ビジネスへの推奨事項を尋ねます。企業はこれらの背後にある推論モデルやエージェント製品をどのようにビジネスに統合すべきかを見てみましょう。
チャートも依頼して、皆さんに見てもらえるようにします。セットアップしましょう。
基本的にPDF版の情報を添付しました。Deep Researchから得た情報をコピーしてPDFにしました。現在のAIモデルとエージェント進捗の状況を分析し、予測もするよう依頼しています。
通常、散布図などのチャート形式で回答が来ることを期待しています。「このために散布図を作成せよ」というように指示的にならないよう心がけています。これらのモデルが情報をどのように取り込み、統合するかを見るのが興味深いからです。これがビジネス推論テストで試していることです。送信してみましょう。
いくつかのベンチマークを抽出してチャートにしただけですね。これは…推論モデルとして宣伝されていたのでしょうか？そうは思いません。統一されたPythonスクリプトは作成しました。推奨事項を見て、すべてをレンダリングしてGoogleドキュメントに入れましょう。
すべての結果を視覚化しました。見ていきましょう。実際に作成したチャートは、PDFに記載されていた情報を棒グラフにしただけで、それは比較的信頼性をもって幻覚なく行いましたが、依頼した追加分析は行っていません。推論モデルが得意とするはずの分析ができていません。依頼したので、通常の指示に従うモデルでもデータの上に少し分析を追加できるはずです。
少なくとも予測はできるはずです。再現しただけで幻覚はありませんでしたが、全く付加価値がありません。予測もありません。時にはO3 miniのようなスマートなモデルであれば、結果を並べ替えたり、情報を提示する方法を考えたりしますが、これは本当に「このテーブルに結果があるので、そのままテーブルに入れました」という感じです。
少なくとも幻覚はなく、混乱もしませんでしたが、付加価値はゼロです。中立的と言えるでしょう。予測や推奨事項に関しても、基本的に文書に書かれていることを繰り返しているだけで、本当の新しい推奨はしていません。「次の予測ができます」と言っていますが、単に文書に書かれていることを述べているだけです。
他の動画と比較すると、モデルが実際に「より高価なタスクにはOpenAIを検討し、低リスクタスクにはDeepSeekを使用する」など、意味のある斬新な推奨をしているのを見ることができます。これらはすべて有効かもしれませんが、裏付けがありません。意思決定者が選択するのに役立つソリューションがたくさんあれば有用かもしれませんが、ここでは見られません。
また、特定のユースケースが過度に具体的で、実際のビジネスに関連しているとは思えません。モデルのソーシャルメディアハンドルをスクレイピングしているような感じです。「GR 3はコーディングと複雑な問題解決タスクに最適」のように、その上に考察がありません。
インターン並みのパフォーマンスと言えるでしょう。ビジネス推論関連で使用したいとは思いません。このモデルを何かに使用しますか？何にも使わないと思います。与えられたモデルでは、使い道がありません。
迷路を次に試すことが多いですが、とりあえずやってみましょう。失敗するのを見るのも良いでしょう。3×3の迷路から始めましょうか。冗談のようですが、本当に3×3さえできないかもしれないと心配しています。プロンプトをコピーして送信します。
おお、実際にステップを踏んでいますね。これは興味深いです。迷路構造を理解し、移動を検証しています。最終的な答えがこれです。3×3はできたようですね。
より難しいものを試してみましょう。3×3は非常に小さくて簡単ですが、思考の流れを始めて、思考の変化も示したのは、推論モデルではない割には興味深いです。ステップバイステップで考えるように指示すべきだったかもしれません。6ヶ月前の思考連鎖を使うべきだったかもしれません。
5×5の迷路を試してみましょう。これが実際の最先端モデルの基準として期待されるものです。3×3は盤面全体が見えるので簡単ですが、同じステップバイステップの方法を使っているようです。分析を実行しています。見てみましょう。
予想通り、崩れ始めました。古い推論方法を使って進めることはできますが、実際にはかなり遅れています。コーディングもできず、ビジネス推論での付加価値もほとんどありません。このモデルを何に使うべきか分かりません。
私たちが使用する他の最先端モデルには、それぞれ素晴らしい特徴があります。「ClaudeはOpenAIより特定のコーディングタスクに優れているかもしれない」などと言えますが、これは6ヶ月遅れています。オープンソース空間での競合相手は誰でしょうか？DeepSeekと比較しても劣っています。
OpenAIやClaudeに勝つことは期待していませんが、それらのモデルの2、3世代前のモデルにさえ勝てません。何が起きたのか分かりません。内部テストで何が行われたのか疑問です。私たちがこれらの問題を発見できるなら、彼らも内部で発見しているはずです。どのような記事が出てくるのか、何が起きたのか興味があります。
残念な結果で、言うことはあまりありません。後で新しいモデルをリリースするかもしれませんが、とりあえずLlama 4を出しただけかもしれません。
コメントで使用できたか、用途を見つけたかを教えてください。今や推論モデルのために標準的なテストセットがあり、Llama 4が優れている問題セットがあるかもしれません。
他に付け加えることはありませんか、皆さん？災害ですね、本当に災害です。噂によると、Metaが週末にこれをリリースした唯一の理由は、今週何か大きなものが来るからだということです。そうであることを願っています。コミュニティがそれを手に入れることを願っています。
本当の大きなリリース、何か刺激的なものが出てから長い時間が経ったように感じますが、実際にはそれほど長くありません。今の時代では長く感じるだけです。何か本当にクールで新しいものをチャンネルでお届けできることを楽しみにしています。そうでなければ、バイブコーディングやライブストリームなど、楽しいコンテンツをいくつか用意しています。
いつものように、コメントで見たいものを教えてください。そして、この新しいモデルシリーズ、先週レビューしたGoogleモデル、そしてMetaのこの新しい興味深い試みについてどう思うか教えてください。いつもご視聴ありがとうございます。また次回お会いしましょう。皆さん、ありがとうございました。