最新のAI技術や新モデルの動向を包括的に解説する内容である。OpenAIが来週にも発表すると噂されるGPT-5.6のリーク情報や、コード生成に留まらないCodexの大型アップデート、独自に開発されたバイブコーディング用ベンチマークプラットフォームについて紹介する。また、Microsoft Build 2026で発表されたMAI thinking 1を含む7つの独自モデルや、Claude Mythosの莫大な計算量に関するリーク、Hermes Agentのデスクトップアプリ化、AlibabaのマルチモーダルモデルQwen 3.7 Plusの登場など、AI業界の最前線の動きを詳しく掘り下げる。

OpenAIの次世代モデルGPT-5.6の全貌とCodexの進化
AI業界にとって今週は素晴らしいスタートになりましたね。カバーすべき重要なニュースがたくさん入ってきています。まずはOpenAIのGPT-5.6から始めましょう。早ければ来週にもリリースされる可能性がありそうです。これは主要な新モデルの発表となり、おそらくMythos preview 1と同等か、それ以上の性能になるでしょう。これは本日のインテリジェンス・アット・ワークの基調講演から示唆されたヒントに基づいています。さらにOpenAIはCodexの広範なアップデートをリリースしたばかりで、共有可能なインタラクティブアプリやダッシュボードなどを作成できる新しいサイト機能など、役割に特化したプラグインによって単なるコーディングを超えた拡張を行っています。それに加えて、私たちWorld of AIのチームは、世界初となるバイブコーディングのプラットフォームとベンチマークを正式に立ち上げました。これはさまざまなユースケースでモデルを比較し、どのモデルが実際に最も優れたパフォーマンスを発揮するかを判断できるように作られたものです。そして一番の魅力は、特定の機能が完全に無料で利用できる点です。
次にマイクロソフトですが、ついにAIレースに戻ってきたようです。Microsoft Build 2026において、彼らは7つの新しいモデルを発表しました。正直に言ってかなり堅実な仕上がりになっています。また、Hermes Agentも独自の公式デスクトップアプリをリリースし、お使いのマシン上でネイティブに動作するようになりました。これは大きな前進です。アリババはQwen 3.7 Maxとは異なるマルチモーダルモデルであるQwen 3.7 Plusをリリースし、効率性を維持しながらも非常に強力なコーディング能力を示しています。AnthropicもCloud Codeの新しいアップデートをいくつか投入し、フォークコマンドや新しいCLIツールを導入しました。このほかにもたくさんのニュースがありますので、さっそくすべてを詳しく見ていきましょう。
まずはGPT-5.6から始めます。現時点では、GPT-5.6がOpenAIの次の主要なリリースになることはほぼ確実視されています。OpenAIの主要なプロダクトリードの一人であるティボからも数日前にヒントがありました。X上で、あるユーザーがOpenAIとAnthropicが未だに互角の戦いを繰り広げており、ユーザーが最新モデルのリリースに応じて2つの間を行き来しているのは驚くべきことだと投稿しました。それに対してティボは、間もなく、というシンプルな一言で返信したのです。正直なところ、これが非常に興味深い部分です。この議論の文脈は、最終的にどちらかの企業が頭一つ抜け出すかどうかというものであり、ティボの返答はOpenAIが状況を急速に変化させる何かを控えていると信じていることを示唆しています。
また興味深いことに、ChatGPTはここ一週間、多くのABテストを実施しています。複数のユーザーがChatGPTの内部に実験的なテキストモデルや画像モデルが表示されたと報告しており、昨日から今日にかけても2つの別々のテストが確認されています。もちろん、まだ何も確定していませんが、6月リリースという噂やティボのコメント、そしてモデルテストの急激な増加を組み合わせると、GPT-5.6がすぐそこまで来ているという兆候を無視することはますます難しくなっています。ChatGPTのABテストから出てきたデモのいくつかを見てみましょう。これはペリカンが自転車に乗っているゲームで、X上でChatGPTによって生成されたものですが、本当に見事な出来栄えです。よくモデルのベンチマークで見かけるような、自転車に乗ったペリカンの面白いアニメーション画像などではありません。物理演算、収集アイテム、スコアシステムが組み込まれた本格的なゲームなのです。移動のメカニクス、UI要素があり、全体的に驚くほど洗練されたプレゼンテーションになっています。このモデルのクオリティは純粋に感動的です。
さらに私が聞いているところでは、GPT-5.6は人々が予想しているよりもはるかに強力である可能性があります。多くのベンチマークでMythosと同等でありながら、トークンの効率が良く、実行コストが大幅に安くなると期待されています。もう一つの大きな改善点はUI生成のようです。悪名高いUIの質の低さが完全に消え去ったわけではありませんが、私が見た出力からすると、Sonnet 3.7から次のSonnetリリースへの跳躍に近く、インターフェースが目に見えてクリーンで使いやすくなっています。さまざまなコミュニティ内で共有されている出力も確認しました。さらに興味深いのは、ChatGPT自体のキャンバス機能もGPT-5.6にルーティングされていると報告されている点です。そのため、現在テストされているこれらの異なるチェックポイントを通じて、この新モデルにアクセスできるようになるかもしれません。
AIコーディングツールのおかげで、開発者はCloud CodeやCodexのようなツールを使ってかつてないほど迅速にコードを出荷できるようになっています。しかしそれは、チームがこれまで以上に多くのコードをレビューしていることも意味します。そこで登場するのが、本日の動画のスポンサーでもあるCode Rabbitです。Code Rabbitは、プルリクエストをレビューし、コードベースを理解し、マージされる前に実用的なフィードバックを提供するAIコードレビューエージェントです。プルリクエストの要約、バグの検出、チェックの実行、セキュリティ問題のフラグ立てを行い、即座に適用できるコミット可能な修正案を提案することもできます。また、時間の経過とともにチームのフィードバックから学習するため、レビューは開発基準にさらに合致したものになっていきます。さらに、Slack用のCode Rabbitエージェントを使用すると、コードチケット、ドキュメント、エンジニアリングのコンテキストをSlackのスレッドに直接持ち込むことができるため、非常に役立ちます。品質を犠牲にすることなく、より迅速なコードレビューを行いたい場合は、下の概要欄にあるリンクからCode Rabbitをチェックして、簡単に始めてみてください。
さて、OpenAIの話を続けると、彼らは本日、Codexの巨大な新アップデートも発表しました。正直なところ、最も興味深いのは彼らがこの製品に関して語っている方向性だと思います。なぜなら、OpenAIは明らかにCodexをコーディングの枠をはるかに超えて拡張したいと考えているからです。実際、非開発者はすでにCodexのユーザー層の約20%を占めており、開発者の3倍以上の速さで成長しています。それをサポートするため、OpenAIは本日、すべての人に対応するいくつかの新機能を導入しました。アナリスト、マーケター、デザイナー、営業チーム、投資家などのための、新しい役割特化型プラグインです。これらのプラグインはCodexを人々がすでに使用しているツールに接続し、レポート、ダッシュボード、プレゼンテーション、プロトタイプ、クリエイティブ資産、その他のビジネスワークフローを生成できるようにします。また、新しいサイト機能のプレビューも行われており、これによりCodexはインタラクティブなアプリ、ダッシュボード、プロジェクトハブ、プランナー、ウェブサイトを生成してホストし、シンプルなURLを通じてチームと共有できるようになります。本当に興味深いのは、OpenAIがこれらのプラグインやワークフローがCodexとChatGPTの両方に存在する未来に向けて構築を進めている点です。そのため、時間の経過とともにCodexとChatGPTの境界線は消え去り、両方の製品が最終的に単一のワークスペースの一部になるように感じられます。
新しいバイブコーディングプラットフォームの立ち上げ
次に、World of AI Benchとバイブコーディングプラットフォームを正式にご紹介したいと思います。世界初のバイブコーディングベンチマークおよび評価プラットフォームです。ここでの目的はシンプルです。ベンダーのベンチマークやマーケティングの主張に頼るのではなく、開発者の皆さんやユーザーの皆さんが、特定のユースケースに対してどのAIモデルやツールを使用すべきかを判断できるように支援することです。複数のモデルを異なる領域で比較することができます。これにより、さまざまなベンチマーク、ツール、ハーネスを使用して、どのモデルを使用すべきかについてのより良い洞察を得ることができるほか、推論の取り組みに関する洞察や、さまざまな生成に使用したすべてのプロンプトのカタログも入手できます。私たちは実際に約4000個のプロンプトのライブラリと、機能性、デザイン、コードの品質、創造性、その他多くの領域にわたって出力を評価するAIジャッジシステムを構築しました。
本当に強力なのは、独自のエンドポイントを接続することもできる点です。これにより、モデルがなぜ特定の方法でパフォーマンスを発揮したのか、どのようにそれを行ったのかについての詳細なフィードバックが提供され、より良い出力を得るための推奨事項が提示されます。プロンプトを改善する、より多くのコンテキストを提供する、要件を異なる方法で構造化する、あるいはタスクにより適したモデルを選択する、といった具合です。洞察を得ることができるリーダーボードなどの多くの機能は無料です。そのため、下の概要欄にあるリンクからチェックしてみることを強くお勧めします。また、皆様により多くの価値を提供するものを届けるために私たちは懸命に働いてきましたので、応援していただけると大変励みになります。概要欄にこれらのリンクをすべて残しておきますので、ベンチマークを始めてみてください。
Microsoft Build 2026での大躍進とClaude Mythosの計算量リーク
次はお知らせしたマイクロソフト関連ですが、本日彼らのカンファレンスが開催され、正直なところ今週最大のサプライズの一つとなりました。Microsoft Build 2026カンファレンスにおいて、同社は推論、コーディング、画像生成、画像編集、音声文字起こし、音声合成をカバーする7つのまったく新しいAIモデルを発表しました。私が最も注目したモデルはMAI thinking 1です。これはマイクロソフトの新しい推論モデルであり、同社によると、サードパーティのモデルからの蒸留を行うことなく、完全にゼロからトレーニングされたとのことです。これは重要なことです。なぜなら、最先端の推論モデルが本当に独立して開発されているのか、あるいはトレーニング中に他のモデルに大きく依存しているのかについて、長い間多くの疑問があったからです。さらに印象的なのは、比較的小さな350億の有効パラメータを持つMixture of Expertsモデルであるにもかかわらず、ソフトウェアエンジニアリングのベンチマークにおいてClaude Opus 4.6と互角の性能を持ち、目隠しでの人間による評価ではSonnet 4.6よりも好まれたとマイクロソフトが主張している点です。これはある意味で驚異的です。また、他の商用モデルと比較して、数学やGPQAなど、多くの異なるベンチマークでも非常に優れた成績を収めています。
マイクロソフトはMAI code 1 flashも発表しました。これはGitHub Copilot内で展開されているコーディング特化型のモデルであり、彼らのベンチマークによると、SWE-bench VerifiedおよびSWE-bench ProにおいてClaude Haiku 4.5を上回っています。また、SWE-bench MultilingualやTerminal独自ベンチマークでも例外的なパフォーマンスを発揮しつつ、一部のケースではトークンの使用量を大幅に削減し、最大60%もトークン使用量を抑えています。個人的な意見としては、これが最高のモデルというわけではありませんが、Copilot内で代替手段として間違いなく使用できるものです。それだけでなく、マイクロソフトは画像生成モデル、音声モデル、文字起こしモデルなど、他のすべてのモデルもリリースし、実質的にマルチモーダルのスタック全体をカバーしました。初めて、マイクロソフトが単にAIレースに参加しているだけでなく、本格的な最先端モデルを実際に構築しているように感じられます。
マイクロソフトの話題に関連して、カンファレンス中に同社は、Claude Mythosのトレーニングに使用された計算量の推定値と思われるものを誤って公開してしまいました。スライドの一つで、マイクロソフトはMythosの計算量を約6.1かける10の27乗FLOPsと記載していました。FLOPsが実際に何を意味するのか疑問に思われるかもしれませんが、これは本質的に計算量の測定値です。モデルをトレーニングする際に行われた数学的な作業の総数と考えてください。FLOPsの数が高ければ高いほど、このAIシステムを構築する際により多くの計算量、データ、インフラストラクチャが使用された可能性が高くなります。しかし問題は、多くの研究者がマイクロソフトの推定値は現実的ではないと考えている点です。X上のLeisonがこれについて素晴らしい分析を行っており、これが少し間違っている可能性があると述べています。
しかし、これがMythosにとって実際に何を意味するのかというと、非常に印象的なことです。なぜなら、もしマイクロソフトの推定値が彼らの予測に少しでも近いのであれば、Anthropicが史上最大のAIモデルの一つをトレーニングした可能性があることを示唆しているからです。私たちは、絶対的に驚異的な量の計算インフラストラクチャと投資を必要とした可能性のあるモデルについて話しているのです。そして、たとえ研究者たちの言う通りでマイクロソフトの数値が大幅に過大評価されていたとしても、Leisonが述べた修正推定値は依然としてかなり巨大です。その分析は、数百兆のトークンでトレーニングされた数兆のパラメータを持つモデルを指し示しており、これはMythosを私たちがこれまでに見た中で最も野心的なAIトレーニングの試みの一つにしっかりと位置付けることになります。
また興味深いことに、これはMythosが単なる段階的なアップグレード以上の存在であるというAnthropicの発信とも一致しています。これらの推定値が少しでも正確であれば、なぜMythosがAIモデルで可能なことの大きな一歩、大きなブレークスルーとして、そして明らかに推論、コーディング、エージェントシステムへの大きなブレークスルーとして位置付けられているのかが説明つきます。もちろん、Anthropicが公式に詳細を発表するまでは、誰も正確な数値を知ることはできません。しかし、マイクロソフトの推定値が正しいかどうかにかかわらず、一つのことが非常に明確になりつつあります。Mythosはおそらく、絶対的なモンスター級のモデルになるでしょう。
Hermes AgentのデスクトップアプリとAlibabaのQwen 3.7 Plus
次はHermes Agentです。Hermes Agent Desktopのローンチにより、Hermes Agentが正式に登場しました。これにより、ユーザーがHermesについて気に入っているすべての機能がネイティブのデスクトップアプリケーションに直接もたらされ、多くの皆さんがこれを待ち望んでいました。これはかなり大きな出来事であり、プロジェクトにとって素晴らしいマイルストーンです。なぜなら、単にブラウザを通じて実行するのではなく、Hermesをお使いのマシン上で直接実行できるようになり、ユーザーによりシームレスで統合された体験を提供できるからです。ご存知ない方のために説明すると、Hermes Agentは最も有能なオープンソースのAIエージェントプラットフォームの一つへと急速に成長し、マルチエージェントワークフロー、MCP統合、コンピュータユース、画像生成、メモリシステム、高度な自動化機能にいたるまで、あらゆる機能を追加してきました。そして、専用のデスクトップアプリが登場したことで、オープンソースであるというHermesをそもそも人気にさせた柔軟性とパワーを維持しながらも、洗練された商用のAI製品に期待されるような体験に格段に近づきました。素晴らしいことに、Hermes AgentはLinuxでも利用可能になったため、概要欄のリンクからこれらすべての異なるオペレーティングシステムに直接簡単にインストールできます。
次はアリババがQwen 3.7 Plusを正式に発表したニュースです。私たちはついにQwenのこの新しいシリーズの一部であるオープンウェイトモデルを目にするのが近づいているかもしれません。主にテキストに焦点を当てているQwen 3.7 Maxとは異なり、この新しいPlusバリアントは完全にマルチモーダルであり、エージェントに焦点を当てており、視覚と言語を単一の基盤モデルに統合しています。興味深いのは、同じシステム内で見て、推論し、コードを書き、行動できる点です。アリババは、これをコーディングエージェントと生産性アシスタントの両方として位置付けており、視覚的およびテキストベースのワークフローを処理できるだけでなく、GUIインタラクションや従来のコマンドラインタスクもサポートしています。このモデルは画像を分析し、視覚的な推論を実行し、目にしたものに基づいて応答を根拠付け、拡張された機能を使用し、その情報に基づいて行動を起こすことができるものです。Qwen 3.7 Maxよりもはるかに効率的でありながら、マルチモーダルな機能も提供しています。アリババがリリースした非常に有能で競争力のある優れたモデルであり、今後のアップロードで、すべてのベンチマークを検証するモデルアップデートを公開する予定です。
Anthropicの最新アップデートとGoogle Notebook LMの進化
次に、Anthropicは新しいフォークコマンドを伴うCloud Codeのアップデートを静かに出荷しました。以前は、フォークコマンドを実行すると、会話のコピーを含む新しいセッションが作成されるだけでした。しかし、この新しいアップデートされたコマンドでは、正確なコンテキスト、ツール、モデル設定、さらにはチャット履歴やプロンプトキャッシュを引き継いだバックグラウンドエージェントが起動します。そして、その結果を現在のセッションに直接返します。古い挙動も消え去ったわけではありません。Anthropicはそれをブランチコマンドへと名前を変更しただけで、これによって自分自身で作業を続けることができる別のセッションが依然として作成されます。小さなアップデートですが、Cloud Codeをさらにエージェント指向にするものです。
Anthropicは、Claudeプラットフォーム用の新しいCLIもリリースしました。これは開発者がターミナルから直接、事実上すべてのClaude APIエンドポイントと対話できるようにする新しいツールです。メッセージAPIの呼び出し、Claudeが管理するエージェントの起動、または出力をシェルワークフローに直接パイプすることなどが可能です。しかし、ここで興味深いのは、このCLIがCloud Codeのような異なるコーディングエージェントとシームレスに連携するように設計されている点であり、CLIからエージェントワークフローを構築することがさらに容易になります。
次はグーグルに関連するニュースですが、Notebook LMへの新しいアップグレード、つまりビデオ概要のための新しいプランニングモードの準備を進めている可能性があり、検証カタログによって目撃されたと報告されています。彼は本質的に、ビデオの要約やプレゼンテーションがどのように生成されるかについて、ユーザーがより多くのコントロールを行えるようになることを突き止めました。興味深いことに、これはグーグルがビデオ概要を、最近リリースされたGemini Omniモデルを使用するようにアップグレードしている兆候である可能性があります。もしそうであれば、Notebook LMの内部で、大幅に強化されたビデオ生成、より優れたナレーション、より強力な視覚的理解、そしてはるかに洗練された全体的な体験を目にすることができるでしょう。他の誰よりも早く最高のAIツール、ワークフロー、発表を手に入れたい場合は、下の概要欄にあるリンクから、完全に無料の私の無料ニュースレターに参加してください。
マイクロソフトの話に戻りますが、言及するのを忘れていたこととして、マイクロソフトはAIエージェントとの対話に特化して設計された、新しい携帯型およびデスクトップデバイスの一群を披露しました。これにより、ユーザーはエージェントのワークフローを管理および制御するための専用ハードウェアを手に入れることができます。興味深いことに、これは多くの人々がOpenAIの噂されているAIハードウェアの取り組みで構築すると予想していたものと非常に似ています。AIエージェントをコンピュータ上の単なる別のアプリとして扱うのではなく、タスクの委任、エージェントの監視、そして一日を通じたAIシステムとの対話のために目的を持って作られたと感じられるハードウェアを作成するというアイデアです。私たちはまだエージェントネイティブなハードウェアの初期段階にいますが、マイクロソフトがこの方向に一歩を踏み出しているのを見るのは非常に興味深いことです。この動画を気に入ってくださり、チャンネルをサポートしたいと考えていただける場合は、下のスーパーサンクス機能を通じてチャンネルに寄付することを検討していただけます。あるいは、私たちのプライベートDiscordへの参加を検討していただくこともできます。そこでは、毎月無料で複数の異なるAIツールへのサブスクリプションにアクセスできるほか、毎日のAIニュースや限定コンテンツなど、多くの特典を利用できます。
中国の超リアルなヒューマノイドロボットと未来への展望
そして最後に、華々しく締めくくるために、これをご覧ください。中国で開催された第26回世界知能博覧会において、瞬きをし、うなずき、目を合わせ、ほぼ不気味なほどのリアルさで人間の表情を模倣することができる、超リアルなヒューマノイドロボットが展示されました。これらの異なる顔において、モーションキャプチャ技術、合成皮膚、リアルな髪の毛、そして信じられないほど自然な顔の動きの組み合わせを確認することができます。これによって、これらのロボットは以前の世代で予想されていたものよりも、はるかに本物の人間に近く見えます。そして正直なところ、それは魅力的であると同時に、少しディストピア的でもあります。
一方で、そのエンジニアリングは見事なものです。ここ数年のロボティクスの進歩は絶対的に驚異的です。しかしその一方で、人間と機械を区別することが以前ほど明白ではなくなるポイントに、私たちは危険なほど近づいています。願わくば、この技術が、このようなものを見たときに人々がすぐに思い浮かべるような懸念されるユースケースではなく、ヘルスケア、教育、研究、顧客サービスといった純粋に有用なアプリケーションに使用されることを望みます。いずれにせよ、未来は人々が予想しているよりもはるかに早く到来しています。
しかし、本日の動画については以上となります。最後に、もしチャンスがあれば、ぜひベンチマークを確認してみてください。このリンクは下の概要欄に残しておきます。この動画が役に立ち、何らかの洞察を得られたことを願っています。本日の動画で使用したすべてのリンクは、下の概要欄に残しておきます。セカンドチャンネルの確認、ニュースレターへの参加、Discordへの参加、Twitterのフォローを忘れずにお願いします。そして最後に、チャンネル登録、通知ベルのオン、この動画への高評価をお願いします。また、最新のAIニュースを常に把握できるように、私たちの過去の動画もぜひご覧ください。それでは皆様、素晴らしい一日をお過ごしください。ポジティブな気持ちを広げていきましょう。またすぐにお会いしましょう。


コメント