OpenAIが誤ってGPT-5.4をリークした可能性が浮上している。GitHubのコード内に複数回にわたって同モデル名が出現し、200万トークンのコンテキストウィンドウとピクセルレベルの画像処理機能を搭載するとの噂が広がっている。一方で、わずか678キロバイトで動作するAIエージェントフレームワークNull Clawが登場し、5ドルのハードウェア上で実行可能な超軽量AI技術を実証した。さらにAlibabaは長期記憶とマルチチャネル制御を備えた個人向けAIワークステーションCopaをオープンソース化し、AIエージェントの実用化に向けた環境整備を加速させている。巨大モデルと超小型エージェント、そして統合ワークステーションという三つの方向性が同時に進展する中、AI技術の次なるステージが明らかになりつつある。

GPT-5.4の偶然のリーク
OpenAIがGPT-5.4を誤ってリークした可能性があります。噂では200万トークンのメモリとピクセルレベルのビジョン機能を搭載しているとのことです。同時に、678キロバイトのAIエージェントNull Clawが5ドルのハードウェア上で動作しています。そしてAlibabaは長期記憶とマルチチャネル制御を備えた完全なパーソナルAIワークステーションCopaをオープンソース化しました。
より大きなモデル、小型のエッジエージェント、そして完全なAIワークステーションが一度に登場しています。では、これについて話していきましょう。
まず、誰もが不意を突かれた話から始めましょう。GPT-5.4が誤ってリークされた可能性があります。公式発表などは一切ありませんでしたが、コード内に現れたのです。Xでスクリーンショットが拡散し始め、人々はすぐに調査を開始しました。
OpenAIのコーディングアシスタントCodexのプルリクエストで、GPT-5.4という用語がバージョン参照の中に直接現れました。それは控えめなものではありませんでした。そのモデル名に明確に紐づいたファストモードのための/fastコマンドへの言及が含まれていました。
GitHubに残された痕跡
そしてこれが最初の痕跡ではありませんでした。数日前、OpenAIの開発者がGitHubにプルリクエストを提出し、そこでバージョン条件が興味深いものを明らかにしました。view_image_original_resolutionというまだ開発中の機能スイッチの背後で、画像表示インターフェースにオリジナル解像度のサポートが追加されました。
条件には明示的にこう記されていました。機能スイッチが有効で、対象モデルがGPT-5.4以降である場合と。その行は長く残りませんでした。まもなくGPT-5.4は静かにGPT-5.3 Codexに変更されましたが、その時にはすでに人々がスクリーンショットを撮っていました。
さらに興味深いことに、GPT-5.4はCodexのドロップダウンモデル選択オプション内にも現れました。複数の痕跡があり、単一のタイプミスではありません。つまり、誰かが複数の協調的なミスを犯したか、GPT-5.4が実在してリリース直前の内部のどこかに存在しているかのどちらかです。
200万トークンのコンテキストウィンドウ
さて、ここからより技術的な話になります。GPT-5.4は200万トークンのコンテキストウィンドウを搭載して出荷される可能性があるという噂があります。200万です。参考までに、今日の非常に大きなコンテキストモデルでさえ、数十万トークンの範囲で動作しています。
200万トークンは、超長文のドキュメント、書籍全体、大規模なコードベース、完全なデザインシステム、場合によっては数ヶ月分のチャット履歴さえも、すべて単一の推論セッション内に収められることを意味します。
しかしここに、ほとんどの人が考えていない部分があります。200万トークンのウィンドウは単なるストレージの問題ではありません。それをサポートするには、モデルは推論中に膨大な量のデータをキャッシュしなければなりません。それはメモリ要件と計算の複雑さを劇的に増加させます。これは些細なことではありません。
コンテキストをそこまで高く拡張しながらパフォーマンスを維持することは、深刻な技術的課題です。そしてコンテキストサイズだけでは、リコールが正確でなければ意味がありません。オンラインの一部の開発者は、本当に重要なのはウィンドウ全体にわたるリコール率だと指摘しました。
もしモデルがその200万トークンの深い部分にある関連情報を正確に取得できなければ、サイズは無意味です。8 needle testと呼ばれるものについての議論さえあります。そのベンチマークでリコール精度が90%を超えれば、本当のブレークスルーについて語っていることになります。そうでなければ、ただの大きな数字にすぎません。
ピクセルレベルのビジョン機能
次にビジョンについて話しましょう。同じリークされたプルリクエストで、GPT-5.4以降のための新しい機能スイッチが言及されており、それは従来の画像圧縮メカニズムをバイパスできるものでした。処理前に画像を圧縮する代わりに、完全な解像度でオリジナルのバイトデータを保持します。これは大きなことです。
現在、ほとんどのAIビジョンシステムは、モデルに入力する前に画像をダウンスケールまたは圧縮します。それはぼやけ、アーティファクト、そして時には微妙な歪みをもたらします。もしGPT-5.4がピクセルレベルでオリジナル解像度の画像を処理できるなら、高精度のUI分析、詳細なエンジニアリング図面、建築計画、医療画像、さらには高解像度のデザインモックアップへの扉が開かれます。
フロントエンド開発者とデザイナーは完全な忠実度のプロトタイプをアップロードできます。エンジニアは複雑な図を提出でき、モデルはエッジを幻覚したり、圧縮された線を誤解したりしません。ピクセルレベルで正確な視覚分析は、まったく異なるクラスの能力です。
ChatGPTの奇妙な応答
そしてさらに奇妙なことが起こりました。誰かがChatGPT-5.2にそのモデルバージョンについて尋ねたところ、GPT-5.4であると主張して応答したと報告されています。冗談ではなく、真剣に主張したのです。
Sam Altmanのスタイルに詳しい人々は懐疑的です。それは誇大宣伝かもしれません。内部テストのアーティファクトかもしれません。バージョンの不整合かもしれません。しかしコンテキストの噂、画像処理スイッチ、ドロップダウンの出現、そしてGitHubの痕跡を組み合わせると、偶然というよりは計画的に感じられます。
そしてこの憶測が加熱する中、誰もがDeepSeek V4も待っています。競争は眠っていません。
Null Clawという超軽量AI
さて、それが物語の片側です。巨大なモデル、巨大なコンテキストウィンドウ、ピクセルレベルのビジョン。今度はスペクトラムの完全に反対側に振ってみましょう。
Null Clawをご紹介します。完全に生のZigで書かれた678キロバイトのAIエージェントフレームワークです。今日のほとんどのエージェントフレームワークがPython、TypeScript、GoまたはRustに依存し、仮想マシン、インタープリター、ガベージコレクター、ランタイム環境を取り込んでいる一方で、Null Clawは急進的なことをします。
ランタイムレイヤーを完全に排除するのです。Pythonなし、JVMなし、Goランタイムなし、管理されたオーバーヘッドなし。LIIBCを超える依存関係ゼロでマシンコードに直接コンパイルされます。
結果は、コンパイルされたバイナリサイズが678キロバイト、約1メガバイトのRAM使用量、2ミリ秒未満のブート時間です。それを噛み締めてください。ほとんどの典型的なエージェントフレームワークは1ギガバイト以上のRAMを必要とします。一部のPythonベースの実装は100メガバイトを超えています。GoやRustのエージェントでさえ、通常5から10メガバイトのRAM範囲に収まります。
Null Clawは約1メガバイトで動作します。起動時間も同じ話を語っています。正規化された0.8 GHzエッジハードウェア上で、一部のフレームワークは500秒以上かかります。他のものは30秒以上かかります。Goは1秒未満かもしれません。Rustは10ミリ秒未満かもしれません。Null Clawは8ミリ秒未満で、一部のシナリオではコールドブートが2ミリ秒未満です。
エッジデバイスでの実行
それはマイクロコントローラーの領域です。そしてそれがまさにポイントです。Null Clawは、データセンターに強力なコンピューターがない状況のために構築されています。小型で低電力のデバイス、つまり5ドルくらいのもののために作られています。
Raspberry Pi、Arduino、またはSTM32ボードのようなものについて話しています。フルPCやクラウドサーバーを必要とする代わりに、実世界のセンサーやデバイスに接続できる小型ハードウェア上で完全なAIエージェントを直接実行できます。
内部的には、非常に柔軟な方法で設計されています。プラグアンドプレイシステムのように考えてください。AIモデルと通信する部分、メッセージングアプリを処理する部分、ツールを使用する部分、メモリを保存する部分は、すべて交換可能なブロックに分離されています。
したがって、OpenAIからDeepSeekに、またはDiscordからTelegramに切り替えたい場合、全体を書き直す必要はありません。設定を変更するだけで、コアエンジンが同じままでコンポーネントが交換されます。
豊富な統合とセキュリティ
現在、OpenAI、Anthropic、Olama、DeepSeek、Grokなど、22以上のAIプロバイダーをすでにサポートしています。コミュニケーション側では、13のプラットフォームと標準で動作します。Telegram、Discord、Slack、WhatsApp、iMessage、IRCなど。
また、エージェントが実際に何かを実行できるようにする18以上の組み込みツールが付属しています。単なるチャットではありません。非常に小さいにもかかわらず、1つのエージェントがより小さなサブエージェントを調整するより高度なセットアップを管理できます。
MCPと呼ばれるものもサポートしており、モデルコンテキストプロトコルです。これはモデルがツールやメモリとどのように相互作用するかを標準化するのに役立ちます。Zigで書かれているため、メモリはバックグラウンドシステムによって自動的にではなく、手動で処理されます。
自動メモリシステムは通常クラッシュを防ぐために存在するため、それは危険に聞こえます。しかしここでは、すべてを極めて軽量に保つために、慎重かつ意図的に行われています。
有用な情報を記憶しながら約1メガバイトのRAM内に留まるため、Null Clawはベクトルスタイルのメモリ検索とシンプルなキーワード検索のスマートな組み合わせを使用しています。そうすることで、隣に大きな外部データベースを実行する必要なく、関連情報を取得できます。
セキュリティは基盤に直接組み込まれています。APIキーはデフォルトでChaCha20-Poly1305を使用して暗号化されており、これは小型プロセッサでもうまく機能する高速で現代的な暗号化方法です。エージェントがツールを実行したりコードを実行したりするとき、Landlock、Firejail、Dockerのような保護レイヤー内に隔離されます。
したがって、何か問題が起きても、それは封じ込められ、システムの残りの部分に影響を与えることはできません。プロジェクト自体は約45,000行のZigコードで、すべてが正しく安全に動作することを確認するための2,738のテストが含まれています。MITライセンスの下でリリースされており、企業や開発者が商用製品で自由に使用できることを意味します。
Alibabaの個人向けワークステーションCopa
そしてこのパズルには3番目のピースがあります。Alibabaのチームは、Copaと呼ばれるものをオープンソース化しました。Copaは単なるボットではありません。開発者向けの高性能パーソナルエージェントワークステーションとして位置づけられています。
ここでの焦点は、単なるモデルからモデルが動作する環境へと移ります。3つの主要なレイヤー上に構築されています。Agent Scope、Agent Scope Runtime、そしてREMIです。
Agent Scopeはエージェントの通信とロジックを処理します。Agent Scope Runtimeは安定した実行とリソース管理を保証します。そしてREMIはメモリ管理モジュールです。
REMIは特に重要です。なぜなら、LLMシステムにおける最大の問題の1つであるステートレス性に対処するからです。標準のLLM APIは、明示的にコンテキストを再度供給しない限り、過去のセッションを記憶しません。REMIは長期的な経験を可能にします。
エージェントがユーザーの好みやタスクデータをローカルまたはクラウドに保存できるようにし、セッション間で永続的なメモリを維持します。これによりエージェントは反応的なチャットボットから、あなたとともに進化する何かへと変わります。
スキル拡張システム
Copaはスキル拡張システムも導入しています。このアーキテクチャでは、スキルは機能の個別単位であり、本質的にエージェントが呼び出せるツールです。機能を追加するためにコアエンジンを変更する代わりに、開発者はPythonベースの関数をカスタムスキルディレクトリにドロップできます。
これらのスキルは、Anthropic/skillsの影響を受けた標準化された仕様に従います。したがって、RedditスレッドやユTube動画を要約するためのウェブスクレイピングを追加できます。ローカルファイルの相互作用を有効にし、個人のナレッジベースをクエリし、自然言語を介してカレンダーやメールを管理し、コアエンジンに触れることなく複雑なエージェントワークフローを構築できます。
そしてCopaは別の実際の問題を解決します。断片化されたコミュニケーションプラットフォームです。エージェントがメッセージングプロトコル全体でどのように相互作用するかを標準化するオールドメインアクセスレイヤーを導入します。
1つのワークステーションインスタンスが、DingTalk、Lark、Discord、QQ、iMessage、エンタープライズプラットフォーム、ソーシャルプラットフォームに同時に接続できます。ワークステーションはエージェントの内部ロジックと各プラットフォームのAPI間の翻訳を処理します。
どこで話しかけても、メモリは一貫性を保ちます。その上、Copaはスケジュールされたタスクをサポートします。したがって、単にプロンプトに応答するだけでなく、エージェントはバックグラウンドワークフローを積極的に実行できます。
毎日の研究統合、リポジトリの監視、自動レポート作成を行い、結果を優先するコミュニケーションチャネルにプッシュします。
今後の展望
とにかく、GPT-5.4の噂とDeepSeek V4のリリースを追い続けます。なぜならそのレースは急速に加熱しているからです。この分野で構築している場合は、モデルレイヤーと同じくらいアーキテクチャレイヤーに注意を払ってください。
それが今、多くの本当のレバレッジが現れている場所です。さて、ご覧いただきありがとうございました。次回またお会いしましょう。


コメント