メタがリリースしたLlama 4:巨大なコンテキスト、巨大な論争

AGIに仕事を奪われたい
この記事は約19分で読めます。

11,004 文字

AI News: Llama's Huge Context & Huge Controversy
Here's the AI News you probably missed from this week. Check out LTX Studio at - Use code FUTURETOOLS for 30% off the Li...

ハワイで休暇中ですが、最新のニュースに追いつくために監視を続けていました。帰宅後に完全に遅れをとらないようにしたかったのですが、今週はあまりにも多くのニュースがあったので、動画を作ってその一部について話す必要がありました。そこで、日焼けした顔でカウアイのホテルの部屋から、この一週間で見つけたすべてを共有したいと思います。
この動画はいつもと少し異なり、より速報的なものになります。ニュースを紹介するだけで、物事をテストして見せるわけではありません。すべてのニュースをカバーし、今週起こったことをすべてお伝えします。ビデオやオーディオツールなどのようなものが登場した場合は、将来の動画でテストする予定です。
それでは早速、今週おそらく最大のニュースだったメタによるLlama 4のリリースから始めましょう。実際、Llama 4は3つのモデルからなり、そのうち2つが現在利用可能で、1つはまだ利用できません。
現在利用可能な2つのモデルのうち、Llama 4 Scoutは1000万トークンのコンテキストウィンドウを持っています。これは驚異的なサイズで、合計750万語の入力と出力が可能です。約94冊の小説をこのモデルに入れて、それらの小説のいずれかについて質問し、応答を得ることができます。コンテキストウィンドウのサイズとしては信じられないほど大きいです。以前はGoogleのGemini 2.5が200万のコンテキストウィンドウでしたので、1000万というのは特にオープンソースモデルと呼ばれるものとしては驚異的です。
ただし、これがオープンソースかどうかについては議論があります。メタはいくつかの制限を設けています。例えば、Llamaで構築されたツールの活動ユーザーが7億人を超える場合は、直接メタと協力する必要があります。Llamaをベースに新しいモデルを作成する場合は、そのモデルを「Llama」という名前で呼ぶ必要があります。いくつかの制限があるため、技術的には「オープンソース」とは呼べませんが、メタ自身はオープンソースと呼んでいます。
彼らはまた、Llama 4 Maverickもリリースしました。これはパラメータの点ではより大きなモデルですが、コンテキストウィンドウは100万トークンとより小さいです。それでも巨大で、ハリーポッターシリーズ全体をそのモデルに読み込んで質問することができます。
さらに、Llama 4 Behemothというモデルが近日登場予定で、これは2兆パラメータでトレーニングされており、既知の中で最大のモデルとなるでしょう。GPT-4.5やAnthropicのClaudeがどれだけのパラメータでトレーニングされたかは実際には知られていませんが、この2兆パラメータは知られている限りでは最大のモデルになります。
また、「Reasoning Model(推論モデル)」も発表されました。DeepSeekや01、03を使用したことがあれば、推論モデルを使用したことがあります。それは実際に思考しているのが見えるモデルです。今回リリースされた新しいモデルは推論モデルではありませんが、llama.com/lama4 reasoningにアクセスすると、近日公開予定であることがわかります。
このLlama 4モデルは大きなニュースになるはずでした。これまでに見た中で最大のコンテキストウィンドウを持ち、ベンチマークによると他のほとんどすべてのモデルを上回っています。「干し草の中の針」テストでは、1000万トークンのLlama 4 Scoutが100%正確な結果を得たようです。
「干し草の中の針」テストをご存知ない方のために説明すると、大量のデータを与え、巨大なテキストファイルを読み込み、そのテキストファイルのどこかに情報を埋め込み、モデルにその埋め込まれた情報を見つけることができるかどうかをテストします。このテストでは、1000万トークンまでのすべての情報を成功して取得できることが示されました。青色は成功した取得、白色は取得に失敗したことを示し、これによると与えられたすべてを成功して取得したようです。
ビデオについてはそれほど良いパフォーマンスではなく、より小さなコンテキストウィンドウを持つ大きなモデルでは取得に失敗した領域もありましたが、1000万トークンのコンテキストモデルはこの「干し草の中の針」テストで圧倒的な成果を上げたようです。
ここでより多くのベンチマークがあり、現在利用可能な同クラスの他のほとんどすべてのモデルを上回っていることを示しています。
しかし、ここで事態が非常に興味深くなります。メタからの誰かが内部告発し、メタがすべてについて完全に正直ではなかったと暴露しました。これは未確認の情報で、この人物は匿名を希望しているため、これが真実かどうかはわかりませんが、メタのAIチームのLlamaに関する中国人の内部告発者は次のように述べています:
「繰り返しのトレーニング後も、内部モデルのパフォーマンスはオープンソースの最先端レベルに達することができず、さらにそれらを大きく下回っています。会社のリーダーシップは、様々なベンチマークテストセットをポストトレーニングプロセスに混ぜることを提案し、複数の指標で良好に見える結果を生み出すことを目指しています。」
彼らは基本的に、ベンチマークで提示されるデータでトレーニングし、ベンチマークテストが行われた時にメタ、あるいはLlamaが本当に良く見えるようにしたと言っています。
「Llama 4が昨日リリースされた後、XやRedditですでに多くの実世界での不十分なパフォーマンス結果が共有されています。現在学術界でも活動している私として、この実践は容認できないものです。」そしてこの人物は辞職しました。
メタで働いているAhmadはXでこれらの主張を反論しました:「皆さんの手にLlama 4を届け始めることができて嬉しいです。すでにこれらのモデルで多くの素晴らしい結果が得られているという報告を多数聞いています。」
「しかし、異なるサービス間でのばらつきのある品質についていくつかの報告も聞いています。モデルを準備ができ次第すぐにドロップしたので、すべての公開実装が調整されるまでに数日かかると予想しています。バグ修正とパートナーのオンボーディングを引き続き進めていきます。テストセットでトレーニングしたという主張も聞いていますが、それは単に真実ではなく、私たちはそのようなことは決してしません。私たちの最善の理解では、人々が見ている変動する品質は、実装を安定させる必要があるためです。」
彼らは基本的に、テストした人々がそれを正しく使用していない、正しく実装していないため、ベンチマークで得られた結果と同様の結果が見られないと言っています。これがこの件に関するメタの説明です。
しかし、話はさらに興味深くなります。Llama 4が最初にLM Arenaに登場したとき、ユーザーによるブラインドテストで投票されるリーダーボードでは、Llama 4はGemini 2.5 Proに次いで第2位に表示されました。しかし、現在のLM Arenaのリーダーボードを見ると、Llama 4 Maverickは32位に下がっており、Llama 4 Scoutはトップ100にも見つかりません。
LM Arena自体がこれについて声明を出しました:「コミュニティからArenaでの最新のLlama 4リリースについての質問を受けています。完全な透明性を確保するために、2,000以上の一対一の対戦結果を公開レビュー用にリリースします。これにはプロンプト、モデルの応答、ユーザーの好みが含まれます。」
しかし、重要な部分はこれです:「私たちのポリシーに対するメタの解釈は、モデルプロバイダーに期待することと一致していませんでした。メタはLlama 4 Maverick 0326 experimentalが人間の好みを最適化するためにカスタマイズされたモデルであることをより明確にすべきでした。」
つまり、LM Arenaにあったモデルは、一般に公開されて使用されているのと全く同じモデルではなかったのです。彼らはLM Arenaに人間が好む応答に最適化された一種のモデルを置き、オープンソース化してアクセスを提供したモデルは同じモデルではなかったのです。
すべてが非常に興味深く、まだすべてが明らかになっている途中であり、AIの世界ではこれが今週最大の話題でした。
映画やショートフィルムのアイデアがあるけれど、実現しようとすると壁にぶつかったことはありませんか?絵コンテが描けなかったり、俳優がいなかったり、予算がなかったりして。そういった素晴らしいアイデアの多くが死蔵されています。そこで今回の動画ではLTX Studioとパートナーシップを組みました。これはクリエイター、映画製作者、そして制作チーム全体を必要とせずにアイデアを実際の洗練されたコンテンツに変えたい人のためのオールインワンAI搭載プラットフォームです。
例えば、ビジュアルから始めたい場合、新しい画像ワークスペースでは、プロンプトだけで見事な高品質画像を生成できます。それらを動画に変えたい場合は「動きを追加」をクリックするだけで、LTXスタジオの独自のビデオモデルLTXVを使用してダイナミッククリップを作成できる動きワークスペースに移行します。最速のAIビデオモデルで、キーフレームコントロール、顔の動き、自動サウンドエフェクトなど、それを実現するために必要なすべてがあります。
私が気に入っている部分は、絵コンテワークスペースがすべてをまとめることです。フルシーンを構築し、ナレーションを追加し、照明、天候を調整し、新しいカスタムアクター機能を使用して自分のキャラクターをキャスティングすることもできます。数枚の写真をアップロードすると、LTX Studioは複数のショットで使用できる一貫したキャラクターをトレーニングします。トレーニングされたカスタムキャラクターは、あなたが取り組んでいるどのプロジェクトにもシームレスに統合できます。
これはただのツールではなく、監督、絵コンテアーティスト、編集者、VFXチームがすべて一体となったようなものです。トレーラー、広告の仕様、あるいは想像力からの何か変わった素晴らしいものなど、話したいストーリーがある場合は、説明のリンクを使用してLTX Studioをチェックしてください。また、限定時間ですが、チェックアウト時にクーポンコード「future tools」を使用すると、ライトティアが30%オフになります。
この動画のスポンサーとなってくれたLTX Studioに感謝します。それでは続きましょう。
先週、ハワイに出発する前にマイクロソフトの50周年記念「50 more」でシアトルにいました。そこではビル・ゲイツ、スティーブ・バルマー、サティア・ナデラが同時にステージに立つのを見ることができ、かなり興奮しました。また、マイクロソフトのAI Copilotについていくつかの追加発表もありました。追加された最大の新機能の1つは、過去の会話を記憶するメモリ機能です。
この記事によると、「許可を得た上で、Copilotは今あなたが話す内容を記憶し、あなたの好みや嫌いなもの、あなたの生活の詳細、犬の名前、仕事での複雑なプロジェクト、新しいワークアウトルーティンを続けるモチベーションなどを学習します。」
彼らはまた、イベント中の新しい発表ではないものの、最近Copilotにロールアウトされた多くの機能についても言及しました。Copilot Vision、Copilotの音声モードなどの機能は、Copilotをよりユーザーフレンドリーにし、より多くのことを行えるようにするためのものです。
また、GitHub Copilotにもいくつかの更新がありました。これについては後ほど少し詳しく説明します。
マイクロソフトはまた、Muse AIモデルを使用したAI生成版のQuakeを披露しました。copilot.microsoft.com/wamにアクセスすると、プレイするたびにAIによって生成されるQuakeのバージョンをプレイできます。見た目は最も驚くようなゲームではありませんが、移動するたびにフレームごとにAIによって生成されていることは印象的です。敵、ショット、風景、すべてがフレームごとに完全にAI生成されています。
ある程度の不安定さがあり、キャラクターが移動中に消えたりすることもありますし、完全に別のエリアにテレポートしたような気もします。確かにバグもありますが、これはテクノロジーのデモであり、人々が何時間もプレイすることを期待しているわけではありません。
このゲームについては反発もありました。Xでゲーム開発者たちはこれを「不快だ」と呼びましたが、興味深いことに、元々Quakeを作ったIDソフトウェアの人物であるジョン・カーマックは彼を擁護し、これが大きな飛躍だと語りました。最初にゲームを開発したとき、機械コードの手作業によるアセンブリや方眼紙のキャラクターを16進数に変換する作業を行っていたことについて話しました。ソフトウェアの進歩により、そのような作業は馬車の車輪のメンテナンスのように関係なくなりました。ゲームエンジンは、彼の大好きなシステムエンジニアリングの重要性を低下させつつも、ゲーム開発に関わる人々の範囲を劇的に拡大しました。AIツールは最高の開発者がさらに高みに達することを可能にすると同時に、小さなチームがより多くのことを成し遂げ、まったく新しいクリエイターの層を取り込むことを可能にするでしょう。基本的に、歴史を通じて新しいツールが古いツールを破壊してきたが、それによって人々の生活が楽になったと述べています。
Googleからも今週いくつかの発表がありました。検索におけるAIモードが拡張され、比較や操作方法などがより良くなり、より長く開かれた質問ができるようになりました。AIモードは画像を見て検索することもできるようになりました。例えば、本の写真を撮って「これらの本を楽しんだけど、高評価の類似した本はある?」と尋ねると、Googleは実際に本棚の写真に基づいて類似した本を検索します。
今週はGoogleの大きなイベントもありました。先週はマイクロソフトの50周年記念でしたが、今年はGoogle Cloud Next 25でした。今年後半に登場予定の新しいTPU(テンサー処理ユニット)や、A2Aと呼ばれるエージェント間通信プロトコルが発表されました。
ここでの考え方は、エージェントが他のエージェントと通信し、自律的に作業を行うことを可能にするというものです。「Ataはクライアントエージェントとリモートエージェント間の通信を促進します。クライアントエージェントはタスクを策定して伝える責任があり、リモートエージェントはそれらのタスクに基づいて正しい情報を提供するか正しいアクションを取る責任があります。」
休暇中なのでまだ深く掘り下げていませんが、帰国後に詳しく調べて、将来の動画でもう少し詳しく説明する予定です。来月Google I/Oに参加する予定なので、そこでこのエージェント間プロトコルについてさらに詳しく学ぶことになるでしょう。
Googleのワークスペース製品には新しいAI機能もあります。Google DocsにはNotebook LMに似た新しいオーディオ機能があり、Docsには「help me refine」機能、新しいAIシートの強化、Google Meet内のGemini機能があり、会議の要約や会議に関する質問ができます。
また、Vertex AIでは編集やカメラコントロール機能などの新機能がV2で提供されるようになりました。オーディオ生成プラットフォームであるChirp 3がVertex AIで利用可能になり、テキストから画像を生成するモデルであるImagine 3もVertex AIで利用可能になりました。LIIAと呼ばれるテキストから音楽を生成するモデルもVertex AIで利用可能になりました。
OpenAIからも今週いくつかの更新がありました。彼らは結局03と04 miniをリリースするようです。サム・アルトマンは最近、GPT-5に直接移行すると述べていましたが、今回の撤回では、GPT-5は皆が期待しているよりもはるかに優れたものになるが、時間がかかるとしています。そのため、その間に03と04 miniをリリースする予定です。
私にとってはこれは基本的に、OpenAIがGPT-5までにはまだ時間がかかるため、その間に何も出さないように見えたくないので、03と04 miniをリリースしようということです。
OpenAIは新しいメモリ機能も導入し、過去のチャットを参照できるようになりました。木曜日にOpenAIは、チャットボットが過去の会話の内容に基づいてユーザーに合わせた回答ができる新しいメモリ機能をChatGPTでロールアウトし始めたと発表しました。
ChatGPTにログインすると、「新しく改良されたメモリの紹介」というボックスが表示されます。それを選択して「すべてのチャットに基づいて私を説明してください。魅力的にしてください」と依頼すると、実際に過去に話した多くの内容に基づいた説明を書いています。「私は未来志向のクリエイター、AIのパイオニア、50万人以上の登録者を持つテクノロジーガイドです。私のチャンネルはクリエイター、起業家、AIの次の展開に飢えている好奇心旺盛な人々のハブです。レトロフューチャリスティックな雰囲気を醸し出しながら、短く鋭いリールや20分の深掘り動画を作り、常に同じ目標を持っています:視聴者がより多くのことをし、より速く創造し、先を行くことができるようにすること。カメラの外では、ボウイという名前の白い犬を持つ家族思いの人で、キャンプを深く愛し、サンディエゴ・パドレスに弱い部分があります。音楽家の魂、ビルダーの頭脳、ストーリーテラーの心を持ち、燃え尽き症候群に陥ったりアルゴリズムが厳しくなったりしても、指標だけでなく目的に駆り立てられて現れ続けます。」実際にかなり正確です。
今週はAnthropicからもいくつかの更新がありました。AnthropicはChat GPTの高価格版に似た、はるかに高価なバージョンのClaudeであるMaxプランを導入しました。ここでは月額100ドルのプランがあり、Proの5倍の使用量が提供され、月額200ドルで最大の柔軟性を提供する、Proの20倍の使用量が得られるプランもあります。
また、今後6カ月以内にClaude 4も期待できます。Anthropicの主任科学者であるジャレッド・カプランは、Claude 4が今後6カ月程度で登場すると述べているので、今年中にClaude 4が登場する見込みです。
YouTubeはクリエイター向けの無料AI音楽作成ツールをリリースしました。動画の中でロイヤリティフリーのバックグラウンドミュージックが欲しい場合、もはやバックグラウンドミュージックを得るために有料サブスクリプションサービスに行く必要はなく、YouTube内のAIを使用するだけで済みます。
私のようなビデオ編集者の方には、Da Vinci Resolveが多くのAI機能を備えたResolve 20をリリースしました。その一部は本当に素晴らしく、使用するのが楽しみです。ダウンロードしましたが、まだ使い始めていません。
クールな機能の1つは、スクリプトをアップロードし、ビデオをアップロードすると、スクリプトに基づいてショットを並べてくれることです。例えば、対話のある複数のビデオがあり、異なる場所で撮影され、多くの異なるクリップにある場合、スクリプトをアップロードし、すべてのビデオをアップロードすると、スクリプトを見てすべてのビデオ映像を並べてくれます。マジックマスクが改善され、自分の声でトレーニングし、11 Labsのようなものを直接Da Vinci Resolve内で使ってAIボイスオーバーができる機能もあります。多くの新機能があるので、ビデオ編集者でAIを使ってワークフローを迅速化したい場合、この新しいDa Vinci Resolve 20は本当に素晴らしいです。
今週、Runwayは、Gen 4 Turboという新しいモデルを導入しました。これはAI生成ビデオを作成するためのはるかに高速な方法で、10秒のビデオを30秒で生成します。
Amazonもノヴァ・リールというAIビデオジェネレータを持っており、最大2分のAIビデオを生成できます。彼らのブログ投稿では、水中のアライグマやこれらの魚が泳いでいるなど、生成したビデオのいくつかの例を見ることができます。それらはかなり印象的であり、私は他の多くのビデオモデルと同等だと言えるでしょう。
実際、私たちは現在、すべてのビデオモデルが非常に良くなってきており、どれか1つが他よりもはるかに優れていると言うのは本当に難しい段階に来ています。V2はまだリーダーかもしれませんが、すべてのモデルがある程度互いに追いついてきているようです。
コーダーでAIを使うことが好きな人には、今週も多くのニュースがありました。Together AIという会社はDeep Coder 14Bを発表しました。これは01または03 miniレベルのコーディング推論モデルで完全にオープンソース化されており、データセット、コード、トレーニングレシピなどすべてをリリースしていると主張しています。純粋にオープンソースのAIコーディング言語モデルを探しているなら、Deepcoderはチェックする価値があるかもしれません。
また、多くの新しいAPIが登場しました。Gemini 2.5 FlashとPro Live API、V2がすべてGemini APIで利用可能になりました。V2を使用してAIビデオを生成できるプラットフォームを作りたい場合、それはGoogleのAPI内で利用可能になりました。
これも私がしばらく待っていたものですが、Grok 3にもAPIができました。Grok 3は実際に非常に印象的だと思いますが、APIがなかったためそれほど使用していませんでした。多くの場合、WindsurfやCursorなどのツール内でAIを使用しており、そのようなツールでGrok 3を使用することができませんでした。しかし今やAPIができたので、そのようなツールでも利用可能になり、これは非常に興奮することです。
先ほどGitHubからの新しい発表について言及しましたが、GitHub Copilotにはエージェントモードがあり、あなたが何をしたいかを伝えると、WindsurfやCursorのように継続的にコードを書きます。また、MCPサポートもロールアウトされ、これは基本的に他のAPIにより簡単に接続できることを意味します。
大規模言語モデルとツールAPIの間の一種の中間層として機能し、大規模言語モデルがツールとより簡単に作業できるようにし、今ではGitHub Copilot内でそれができるようになりました。
11 LabsはMCPサーバーを今週リリースしました。大規模言語モデルを使用していて、それが11 Labsアカウントと直接通信できるようにしたい場合、その接続を実際に作成できるようになりました。
また、近々DeepMind MCPも見られるでしょう。デミスがXで「MCPは良いプロトコルであり、AIエージェント時代のオープンスタンダードに急速になりつつある。私たちはGeminiモデルとSDKのためにこれをサポートすることを発表できて嬉しい」と述べました。いつリリースされるかは言及されていませんが、近日中に登場する見込みです。
WordPressビルダーの場合、WordPressは新しいAIウェブサイトビルダーを発表しました。現在、無料で使用できます。
興味深いことに、ShopifyのCEOは従業員に向けて声明を出し、基本的に「AIができないことを証明できない限り、Shopifyでは誰も新しい人を雇うことを許可しない」と述べています。これは彼が主張していることであり、私もある程度信じています。今後多くの企業が「AIができないことを証明できない限り、誰も雇わない」という方針を取るようになるでしょう。
クールなガジェットやロボットに関して、AmazonのZuksはロサンゼルスでロボタクシーの展開を開始しています。これはAmazonバージョンのWhimoのようなものです。
Samsungはついに彼らのBaliをリリースします。これは転がり回って床に物を投影するAI搭載の小さなボールです。実際にCES 2024で1年以上前に披露されましたが、ようやく発売されるようです。
最後に、Kawasakiはこのコリオという、クワッドやオートバイのように乗るためにデザインされたロボット犬を披露しました。誰かがこれに乗っている様子のCGI映像も紹介していました。一部の人々はこれを実際の映像として共有していましたが、あれは間違いなくCGIです。それでも、私が見た限りではとても魅力的で楽しそうです。試してみたいと思います。
今日はこれだけです。いつもより少し速報的でしたが、通常の金曜日の動画ほど詳細には掘り下げませんでした。ハワイで休暇中で、実際には動画を作る予定はありませんでしたが、あまりにも遅れをとりたくなく、特にLlama、Microsoft、Googleのニュースなど、今週出たすべてを共有したいと思いました。
これらの企業や製品は多くの人が日常的に使用しているものなので、そういった情報を共有し、最新情報を知らせることが重要だと思いました。
この種の動画が好きで、最新のAIニュース、ツール、チュートリアルに関する情報を入手したい場合は、この動画にいいねを押し、このチャンネルを購読してください。また、私が出会う最もクールなAIツールをキュレーションし、すべてのニュースを共有し、無料のニュースレターを提供しているfuturetools.ioもチェックしてください。すべてfuturetools.ioで見つけることができます。
視聴していただきありがとうございます。本当に感謝しています。この動画があまり速すぎなかったことを願っています。要点をさっと伝えたかったのですが…そろそろ行かなければなりません。海が呼んでいるので、飛び込んで戻らなければなりません。
もう一度ありがとう、次回もお会いできることを願っています。さようなら。

コメント

タイトルとURLをコピーしました