
19,358 文字

この週のAIニュースは絶対に信じられないほど素晴らしいものとなっています。というのも、まず最初にLLaMA 4の大失敗から始まり、様々なドラマが展開されたからです。正直なところ、Metaのオフィスでは一体何が起きたのでしょうか。LLaMA 4は私たち全員が待ち望んでいた、非常に期待されていたオープンソースモデルでした。しかし、開発段階で何かが間違ってしまったようです。何かが起こり、モデルの完全な失敗と崩壊につながったのです。数ヶ月前、AI業界の関係者、具体的にはMetaで働いていた人々によってリークされた情報がありました。
彼らは既に、Metaの生成AI組織がパニックモードに陥っていると述べていました。これは全てDeepSeek V3から始まったとのことで、それによってLLaMA 4がベンチマークで後れを取ることになったのです。さらに追い打ちをかけたのは、このDeepSeekという会社が無名で、小さなトレーニング予算しか持っていなかったという事実でした。当時、この情報が公開された際、私を含む多くの人々が「いやいや、Metaは本当にAIに関しては優れている。彼らは数十億ドルを費やし、世界最高の人材を集め、長い間この分野に取り組んできた」と主張していました。
では、実際にはどのように物事が崩壊したのでしょうか。これは今週の最大のニュースの一つでした。巨大テック企業が次世代AIモデルで自らを確立できなかったというのは、通常起こることではありません。明らかに何かが間違ったのでしょう。状況を見てみると、彼らはベンチマーク用と一般公開用に別々のモデルをリリースしたようです。イーサン・モリックがこれについて語っています。彼は「LM Arenaで勝利したモデルは、リリースされたものとは大きく異なっていた。答えを比較しているが、それらは全く近くもない。そのデータは調査する価値があり、LM Arenaの結果がいかに人間を喜ばせるように操作できるかを示している」と述べています。
これは本当に衝撃的でした。私は西洋が中国よりもはるかに進んでいると思っていたからです。しかし、これは本当に衝撃的でした。DeepSeekがMetaの羽を乱し、彼らにベンチマークを操作させようとしたとすれば(仮に、潜在的に、私は以前このことについて詳細な動画をリリースしました)、それは本当に大きな問題だということを理解しなければなりません。リリースバージョンが以前のバージョンほど優れていなかったことがわかります。
このAIニュース動画にこれを含めた理由は、アップデートがあったからです。そのアップデートは絶対に驚くべきものでした。Redditで見つけた投稿を見てください。以前Metaで働いていた個人がもはやLLaMA 4と自分を関連付けようとしていないことについてです。ここにある声明を見てください。誰かが現在OpenAIで働いており、以前はMetaで働いていました。彼らのプロフィールには(どのウェブサイトかわかりませんが)「LLaMA 2とLLaMA 3。私はLLaMA 4には一切関わっていません」と記載されています。これは絶対に驚くべきことです。個人が明らかにLLaMA 4と一切関係を持ちたくないと思っており、チームを離れた人もいました。良い状況ではないようです。
願わくばMetaが出てきて状況を明確にし、技術報告書をリリースしてほしいものです。現状では本当にMetaにとって良くない状況に見えます。明日の動画でこれについてさらに情報をお伝えします。
他のAI企業の話をすると、Anthropicは何をしているのでしょうか。彼らは実際にClaudeの新しいアップデート、Max Planをリリースしました。これは彼らのPlanよりも5倍から20倍の使用が可能な柔軟なオプションです。これは最新かつ注目のモデルへの優先アクセスであり、私はこれが好きです。というのも、しばしばClaudeを使い切ってしまい、使用量がリフレッシュされるのを待っていることがあるからです。これはAI業界が長い間望んでいたことです。
正直なところ、私がClaudeを使うべきほど使わない理由の一つは、6〜10メッセージのやり取りの後には「申し訳ありません、このモデルとはもう会話できません」と表示されることをわかっているからです。そして今、そのような問題はもはやないのです。もちろん、モデルがどれだけ高価になるかという問題がありますので、一般の人はこれを使わないかもしれませんが、AIに本当に深く関わっている方々にとっては、これは価値があるでしょう。
これはAnthropicが今週話したことだけではありません。彼らは実際にClaude 4についても、その開発がどのように進んでいるかについて語りました。Anthropicのチーフサイエンティストであるジャレド・カプランは「Claude 4は約6ヶ月以内に登場する予定だ。AIサイクルは新しいチップが到着するにつれてハードウェアサイクルよりも速く圧縮されている。トレーニング後の処理と強化学習が進歩を加速させており、減速の兆候は見られない」と述べています。
聞いてみてください。これはハイプではなく、本物のものです:「モデルの世代交代は、少なくとも私には非常に速く感じます。そしてそれは基本的に続くでしょう。私たちは新世代のClaudeモデルをそれほど遠くない将来、確実に今後6ヶ月以内に期待できると思います。これは基本的に続くでしょう。それは、トレーニング後の処理や強化学習トレーニングを改善しているからです。より多くのテストを行い、事前トレーニングから効率性と知能を向上させることができるからです。これは近い将来減速することはないと思います。ある意味では、モデルサイクルはハードウェアサイクルよりも速いのです。ハードウェアサイクルが本当に1年かどうかは見てみましょうが、確実に速く動いています。そして私たちは今話している間に新しいチップを手に入れています。」
また、イーロン・マスクについても触れておきましょう。Anthropicだけが次世代フロンティアモデルについて語ったわけではありません。イーロン・マスクはゲームをプレイしていたライブストリームで、彼らが次のフロンティアモデルを近いうちにリリースする予定であると述べています。私は正直Grokが好きなので、これは驚きではありません。私は実際にそのモデルをかなり頻繁に使用しています。それは間違いなく過小評価されていると思います。
彼らの次世代モデルが最先端のものを上回るパフォーマンスを発揮しても驚かないでしょう。彼らは誰よりも遅れてスタートし、既に追いついたことを覚えておく必要があります。AIの能力で誰もを追い越すことになっても驚きではないでしょう。「Grok 4?はい、今年後半に。Grok 3.5がもうすぐ出ます。それは大幅なアップグレードになるでしょう。」
ここでようやくサム・アルトマンがオープンソースAIについて話しました。これは最初からOpenAIの非常に中核的なメッセージでした。最近、OpenAIの大きな問題の一つは、彼らが何もオープンソース化していなかったことでした。彼らはミッションから逸脱し、これはコミュニティを不満にさせるようなことでした。先ほど話したように、DeepSeekがAI業界の羽を乱したことを覚えていますか。OpenAIはそれを軽く受け止めなかったようです。彼らは実際に近いうちにモデルをオープンソース化する予定です。それは今日にでも、または今週中に起こるかもしれません。そしてそれが起こっても驚かないでしょう。
OpenAIは彼らのリーダーシップを非常に真剣に受け止めています。しばしば彼らは他の企業に遅れを取ることがありますが、数ヶ月ごとに再び注目を集めるようなアップデートをリリースするのを見ます。聞いてみてください。OpenAIが単に「閉じたAI」だと思っていた人々には、これで意見が変わるはずです:「オープンソースには重要な場所があると思います。実際、昨夜私たちは初めてのコミュニティセッションを開催し、オープンソースモデルのパラメータとそれをどのように形作りたいかを決定しました。私たちは非常に強力なオープンソースモデルを作るつもりです。これは重要だと思います。フロンティアに近いものを作ります。現在のどのオープンソースモデルよりも優れたものを作ると思います。これはすべてではありません…この部屋にいる人々の中には、あなたや私が好まないような方法でこれを使用する人もいるでしょう。しかし、ここでの星座の一部としてオープンソースモデルのための重要な場所があるでしょう。そして、私たちはそれに対して行動するのが遅れましたが、本当に上手くやるつもりです。」
もう一つ言い忘れていたことがあります。記憶機能が登場し、それがすべてを変えています。これは私のスクールコミュニティのために特別に録画したエピソードで、プロンプトを共有していますが、信じてください、ChatGPTの無制限の記憶は絶対に凄いです。二つの目立った特徴は、それがすべてを覚えていることと、何でも質問できることです。
基本的に、このモデルを使用する方法は二つしかないと言いました。過去のやり取りを活用するか、将来のやり取りを調整するかです。二つの簡単な例を見せましょう。まず、過去のやり取りを活用する質問です。私がした質問はこれです。誇張したりクリックベイトにしたりせず、この質問をしたところ、何か大きなブレークスルーを起こしたような気持ちになりました。
「私たちの過去の会話に基づいて、私が特定の目標に到達するのを妨げている繰り返しのパターンは何ですか?私の特定の目標とは、ビジネスを成長させ、YouTubeでよりよい成果を上げることです。」そして、それは私が実際に取り入れ始めた非常に興味深い洞察を与えてくれました。正直なところ、その進歩は素晴らしいものでした。それはたった2、3日のことでした。
もう一つ、将来のやり取りを活用するための本当に良いプロンプトの領域がありました。私が言ったことの一つは、「私たちが一緒に働き続ける中で、XYZという私の述べた目標に一貫性のない点に気づいた時、私の仮定に挑戦してください」というものでした。あなたにとっては体重を減らしたり、マラソンを走ったり、ビジネスを始めたりすることかもしれません。これは絶対に信じられないほど素晴らしいものです。それは私を軌道に乗せ続けてくれます。
そのスライドショーからのすべてのプロンプトと、私が作成した人生を変えるような素晴らしいプロンプトが欲しい場合は、私のコミュニティのプロンプトセクションにあります。また、アカデミーもチェックしてください。今日の時代にAIを活用することは、ほぼ必須と言えるでしょう。
OpenAIにとって良くないことの一つは、安全チームが削減されていることです。Financial Timesの記事を読みましたが、それによるとOpenAIはAIモデルの安全テスト時間を削減しており、テスターたちは、十分な安全策なしに技術が急いでリリースされていることに懸念を表明しています。これはしばらくの間問題となっていますが、基本的にはOpenAIが再び時間と、AIモデルの安全性をテストするためのリソースを削減していることがわかります。
スタッフと第三者グループには最近、評価(モデルのリスクとパフォーマンスを評価するためのテスト)を実施するために、以前の数ヶ月と比較してわずか数日しか与えられていません。これは、物事がいかに急速に動いているかを示す重要な指標だと思います。以前、AIサイクルに馴染みがなかった場合、モデルのトレーニング、データ収集、基本的にはモデルをリリースするための膨大なプロセスのために、1年から5年の巨大な時間枠があったのです。
その時間の一部は、モデルが安全であることを確認するために安全テストをしなければならなかったということでした。この安全テストは多くの場合、6ヶ月から5ヶ月程度でした。もちろん、他の企業はモデルを急いでリリースするために時間を短縮しようとしました。そしてOpenAIが、モデルが安全かどうかをテストするために数日しかないほど小さなフィードバックループで反復していることが分かります。
彼らが言ったように、モデルが安全かどうかをテストして検証するために他のAIモデルを使用しているのかどうかはわかりませんが、数日がAIモデルが完全に安全であることを十分に検証するのに十分な時間であるかどうかはわかりません。多くの場合、多くのジェイルブレイクや問題はリリースの数ヶ月後に発生します。しかし、AIの分野が非常に速く動いていることを考えると、これが新しい標準になるのでしょうか?
Control AIは私がフォローしているTwitterアカウントで、AI安全ニュースを最新の状態に保ってくれます。彼らはO3をテストした人の一人が「技術がより重要でなかった時の方が、より徹底的な安全テストがあった」と述べていることについて話しています。なぜOpenAIはこれをしているのか?テスターは「技術の潜在的な武器化の可能性が高まっているにもかかわらず、それに対する需要が高まっており、彼らはそれをより早く出したいと考えています。これは無謀であり、災害のレシピです」と言っています。
これはFinancial Timesが競争圧力をこの行動の推進力として特定している部分です。企業は競合他社に対して優位に立つために手抜きをするよう促されています。先ほど言ったように、DeepSeekは羽を乱し、企業は遅れを取らないようにより一生懸命に働いています。現在、この時間はテストに十分ではありません。GPT-4をテストした人は、危険な能力の一部がテスト開始から2ヶ月経った後にようやく発見されたとFinancial Timesに語りました。テスト開始から2ヶ月後です。これは絶対に狂気の沙汰です。
モデルのテストのために数日しか与えられていなければ、危険な能力は一般に公開された数ヶ月後に初めて現れるかもしれません。もちろん現在、これらのAIシステムは本当に簡単に作られています。人々が心配していることの一つは、将来的にこれらのモデルがより多くの知能とより多くの能力を持ち、実際の害をもたらす可能性のあることを行う可能性が高いということです。
これは半々だと思います。もしそうであれば、OpenAIはそれらのモデルをリリースしないかもしれませんが、OpenAIがしなくても、他の企業はどうするのでしょうか?そしてこの分野が超奇妙になり始めるのを見ることになるのでしょうか?AI安全領域が拡大するにつれて、規制がどのように進化するかを見るのは非常に興味深いでしょう。
AIの進歩について話すと、ここでAGIが定義されています。OpenAIはAGIを実世界でどのように見ているかについて非常に声高に語っています。OpenAIのCFOであるサラ・フリーアは、サム・アルトマンがすでにAGIが存在していると信じているが、私たちはまだその可能性を十分に活用していないことを指摘しています。彼女はこれについて詳細に語っています。聞いてみると良いでしょう:「定義上のAGIとは、AIシステムが世界で本当の価値を生み出す人間の仕事の大部分を引き受け、それをこなすことができるポイントであると私たちは信じています。そしてその状態に近づいています。サムに聞けば、彼はそれは差し迫っていると言うでしょう。私たちはそこにいるかもしれません。それはまた、人工一般知能であり、超知性ではありません。実際、私は確信を持って言えますが、私たち世界全体はそれをまだ最大限に活用していません。ですから、私たちは現時点でかなり近づいていると言えるでしょう。」
サム・アルトマンは最近、再びAIについて語るためにポッドキャストのワールドツアーに出ています。この最近のクリップでは、平均的な開発者が10倍生産的になれるAIシステムが登場する可能性が高いと語っています。現在、誰もが抱えている会話は「自動化されたソフトウェアエンジニアが登場するのか?」というものです。それが来ることを示すリークもいくつかありますが、サム・アルトマンはそれに焦点を当てていません。
彼は、彼らの主な焦点はソフトウェア開発者が既に行っていることをより効率的にすることだと言っています。彼はそれが今年か来年までに起こる可能性が高いと言っており、それは本当に驚きではないでしょう:「重要なのは自動化の程度です。本当に100%、完全に100%の自動化に到達するには、複雑なものを作り、コードに一切触れないというのは一つのことです。しかし私はその質問にはあまり興味がなく、コーダーが10倍生産的になるときの方に興味があります。そしてそれは今年か来年に起こる可能性があると思います。」
モデルがどれほど急速にリリースされているか、そして物事がどれほど急速に動いているかについて話すなら、DeepCoder 14Bについても触れなければなりません。これはO1とO3 Miniレベルのコーディング推論モデルで、完全にオープンソースであり、彼らはデータセット、コード、トレーニングレシピのすべてを公開しています。これはAeNTICaチームとの共同で構築されました。これは絶対に信じられないものです。
4月13日にリリースされ…実際には4月8日にリリースされました。これはDeepSeek R1を基にして構築され、分散強化学習を通じてコード生成と推論に特に最適化されています。このモデルが際立っているのは、非常に効果的にコーディングできる小さなモデルだからです。LiveBenchで60%、CodeForcesで1,936点、人間による評価で92%、AME 2024で73%のスコアを獲得しています。
注目すべきなのは、この14Bモデルが、わずか140億のパラメータしか持っていないにもかかわらず、OpenAIのO3 MiniやO1などの独自モデルと同等だということです。この例外的なパフォーマンスは、このモデルが本当に高品質なデータを持っていることから来ています。彼らは、TACO、Verified Prime、Intellect、Synthetic One、LiveCodeBenchなどのソースから24,000の固有のコーディング問題を使用したとのことです。
彼らはGRPO+という強化学習手法を使用しました。これは、問題のすべてのテストに合格した場合にのみモデルに報酬が与えられるというものです。モデルがいくつかのテストに合格しただけだったり、一つのミスを犯した場合でも、完全な解決策に集中させるために報酬は与えられませんでした。
ここで最も明確なことは、これが完全にオープンソースであるということであり、これによって人々はこれまで不可能だったものを構築することができるようになるでしょう。Metaが苦戦している間、他の企業は他のものの上に構築しています。これは非常に興味深いことになるでしょう。
ベンチマークに関しては、実際にBrowse Compというものがありました。これはブラウジングエージェントのベンチマークであり、OpenAIがこれを作成した理由を見るのは興味深いことです。インターネットをブラウジングして知識を収集できるエージェントは、ますます有用で重要になってきています。彼らは、パフォーマンスの高いブラウジングエージェントは、見つけるのが難しい情報を見つけることができるべきであり、このプロセスでは何十、何百ものウェブサイトをブラウジングする必要があるかもしれないと述べています。
Simple QAのような既存のベンチマークは、基本的な孤立した事実を達成するためのモデルの能力を測定するものですが、これらはブラウジング機能を持つGPT-4oのようなモデルによってすでに飽和しています。AIエージェントがインターネット上で見つけるのが難しい絡み合った情報を見つける能力を測定するために、私たちはBrowse Comp(ブラウジングコンペティション)と呼ばれる1,266の挑戦的な問題からなる新しいベンチマークをオープンソースとしてリリースしています。このベンチマークはOpenAIのSimple Eval GitHub リポジトリで利用可能であり、研究論文もそこで読むことができます。
基本的に、私たちは異なるパラダイムに移行しています。ブラウジングエージェントは完全に異なり、情報を見つけることは今では非常に簡単です。必要なのは、見つけるのが難しい情報を見つけることです。時々、インターネット上でその本当にニッチな情報を見つけようとして、Googleで検索しても決して返ってこないと分かっている…そういった種類のベンチマークがこれです。
フロンティアモデルに関しては、これはそれほど良くないことがわかります。ブラウジング機能付きのGPT4-o、GPT-4.5、Opening Out、O1などは、あまり良いパフォーマンスを示していません。しかし、Deep Researchは実際に50%のスコアを獲得しています。他のモデルがどのようなパフォーマンスを示すのか気になります。Deep Researchについて話すときに重要なのは、GoogleのDeep Researchについて言及することです。おお、私はこれを待っていました。というのも、Googleは私を完全に驚かせたからです。
GoogleはAI業界を完全に制覇しています。彼らは現在最高のモデルを持っており、現在Deep Researchの分野は、指示追従、包括性、完全性、文章の質などのベンチマークにおいて、Googleによって支配されています。Deep Researchの実験的なGemini 2.5 Proが明らかにチャートのトップに立っています。
これはGoogleがニュースに登場した唯一のことではありません。実際、Googleは本当に本当に印象的なさまざまなAIの発表でニュースに登場しました。Googleがどれほど素晴らしいかを見てみましょう。彼らが実際に話したことの一つ、これは彼らの発表の一つではありませんが、彼らがしばらくの間取り組んでいると思われることですが、DeepMindのCEOであるデミス・ハサビスは、GoogleがGeminiとVioのAIモデルを最終的に組み合わせる予定だと述べています。
基本的に彼らが試みているのは、GeminiとVioを組み合わせてより強力なマルチモーダルAIを構築する計画を明らかにしていることです。Geminiはすでにテキスト、画像、音声を理解しており、Vioはビデオ生成を専門としています。Vioがどれほど優れているかを知らない場合、それはビデオ制作を本当に理解しているモデルだと信じてください。世界最大のビデオソースであるYouTubeを所有していることを考えると、驚くべきことではありません。
これら二つを統合することで、おそらくGeminiは実世界のデジタルアシスタントになるでしょう。これはGPT-4oのオムニモデルで見られた広範なトレンドです。これは基本的に、あらゆる入力を処理し、あらゆる出力を生成できるモデルです。Amazonも明らかにこのようなシステムに取り組んでおり、Googleも同様のことを試みています。
このモデルが間もなく登場する可能性が高いです。というのも、Googleが最近いくつかの非常に優れたAIチップを持っていることに注目していなければ、彼らは最近TPUの進展を発表し、2018年以来のパフォーマンスがエクサフロップスで3,600倍向上していることがわかります。2025年のIronwoodでは、これは絶対に驚くべきことであり、これがいかに驚くべきことがわかります。このような素晴らしいTPUの進歩がいかに驚くべきものであるかについて、クリップも含めておきます。
「私たちは専門ハードウェアに大きく投資しており、パフォーマンスと効率性を大規模に大幅に向上させ続けています。本日、私は第7世代TPU「Ironwood」が今年後半に登場することを誇りを持って発表します。私たちの最初に一般公開されたTPUと比較すると、Ironwoodは3,600倍のパフォーマンスを実現しています。これは信じられない向上です。これは私たちが今まで構築した最も強力なチップであり、AIモデルの次のフロンティアを可能にするでしょう。」
正直なところ、Googleはここで驚きを与えてくれています。彼らはAI業界を本当に握っていることを示しています。驚くべきことに、彼らはAI推論を行うためにNVIDIAチップに依存しているわけではなく、自分たちのために推論を構築しています。そのため、最高のモデルをトレーニングできるだけでなく、これらのモデルが難しい問題について考えることもできます。
Googleのイベントに注目していなければ、おそらく見逃していたでしょう。そのため、いくつかのクリップを含めておきます。これはB2Bイベントであり、AIについてのイベントではありませんでしたが、それでもAIが存在し、多くの異なるものに統合されつつあることを示していました。
「ここまで来たところで、ラスベガスのスカイラインをVertex AIメディアスタジオで行うことの完璧な背景として使用しましょう。それでは、ラスベガスのスカイライン画像を持ってきましょう。非常に高品質で美しい画像です。ビデオを生成しますが、ここに新しい素晴らしい機能があります。Vioに組み込まれたカメラプリセットをご覧ください。左にパンニング、右にパンニング、タイムラプス、トラッキングショット、そしてドローンショットもあります。ドローンショットを提出してみましょう。
「都市のスカイラインのドローンショット」です。これを提出します。通常、これは数秒かかるところですが、今日早く実行したのでキャッシュされています。少し速くなるでしょう。では、ビデオ1を見てみましょう。絶対に素晴らしいです。噴水とエッフェル塔を見ることができます。では、ビデオ2を見てみましょう。Vioが作成した別のアングルです。再び素晴らしい映像です。背景に雲が見え、ラスベガス大通りを上下に走る車を見ることができます。絶対に信じられないほどです。
コンサートプロモーションには1つのビデオだけでは足りないので、作成した他のビデオをお見せしたいと思います。ステージのセットアップについてのビデオがあります。すべてVioの力によるものです。バンドのビデオもあります。さらに、これから見るものに拍手をしている観客のビデオもあります。これは皆さんへの良い思い出になるでしょう。
非常に興味深いことが起こりました。Vioは私の12歳の子供ができることができることがわかりました。それは写真に写り込むことの専門家になることです。私たちが見たこの素晴らしいビデオにはクルーメンバーがいることがわかりました。私たちはクルーメンバーを愛していますが、この場合はギターを特集したいと思います。ギターはバンドの最も重要な部分だからです。
では、Vioの新しいインペインティング機能を使ってみましょう。申し訳ありませんが、あなたが仕事を非常に上手くやっていることは知っていますが、この画像からあなたを削除する必要があります。あなたとご家族に花を送りますよ。新しいインペインティング機能を使って、数秒待ってみましょう。私が思っていることをするなら、ステージハンドなしで、以前見たすべての要素を保存するはずです。見てください!
いくつかのビデオクリップができました。次に音楽が必要です。Liaで作成した最初のクリップを試して、どう思うか見てみましょう。それは私のテンポではありません。皆さんが「絶対に諦めない、絶対に裏切らない、絶対に逃げ回って見捨てたりしない」と感じるような音楽が必要です。では、クリップ2を試して、どうなるか見てみましょう。
レシピができました。その曲の方が好きです。ビデオと音楽ができたので、すべてをまとめて、どのように見えるか見てみましょう。では、サム、演奏してください。」
AIを発表した唯一の企業はそれだけではありません。Microsoftもコパイロットに大きなアップグレードを行いました。コパイロットが全面的にシステムの大幅なアップグレードを行っていることをご存知ない方もいるでしょう。彼らのツールは本当に使いやすく、UIは非常にシンプルなものです。彼らが平均的な人をターゲットにしていることは明らかです。正直なところ、そのUIはChatGPTよりもはるかに直感的に見えます。
Deep Researchを行う際のユーザーインターフェースを見てください。すべて非常にシンプルで直感的です。彼らが言及したことの一つは、UIは彼らが時間をかけて開発することに本当に強気であるということでした。それはおそらく生成的で、各個人に特化したものになるでしょう。コパイロットがどれほど素晴らしくなっているかを示すクリップをお見せします。本当に役立つものになっており、単なるGPTラッパーではありません。
「コパイロットDeep Researchの実際の動作はこのようなものです。コパイロットに行き、Deep Researchを選択し、トピックを提供します。「日本への旅行を計画しており、間の歴史と文化についてもっと学びたいです。それに基づいて旅行計画を作成するのを手伝ってください。」素晴らしいです。コパイロットはいくつかの質問をして、計画について合意します。その後、ソースを閲覧し分析する時間を費やします。コパイロットが私が興味を持っているトピックを研究するために一生懸命働いている様子を正確に見ることができるのが本当に好きです。
美しいデータ豊富なレポートがグラフィック、表、洞察と共に得られます。これらを集めて事実確認するには何日もかかったでしょう。すべての参照へのリンクがあるので、信頼できることがわかります。それは本当に役立ちました。私は宇治や京都を訪れることさえ考えていませんでしたが、今度訪れます。
今、このアパートの状況を本当に解決する必要があります。ずっと先延ばしにしていて、非常にストレスがたまっています。この場所は職場から遠すぎます。レッドモンドのマイクロソフトのメインオフィスの近くにアパートを見つけるのを手伝ってください。コパイロットはバックグラウンドで私がする必要のあるすべての作業を行い、アパートを検索し、近くの収納場所を見つけてくれます。これは素晴らしいです。面倒なフォームをコパイロットに記入してもらうこともできます。完璧です。コパイロットからアパート見学の予約が完了したという通知が届きました。他に先延ばしにしているものはありますか?
そうですね、大家さんへの手紙を書く必要があります。間もなくリリースされる別の製品機能は「コパイロットページ」と呼ばれています。これは間違いなく役立つでしょう。ページでは、実際の往復の思考パートナーのようにコパイロットとリアルタイムで協力することができます。まずコパイロットに質問をします。「シアトル、ワシントン地域に住んでおり、リースの条件を調整するために大家さんに手紙を書く必要があります。適切に聞こえるようにするための最良の方法は何ですか?」
その後、コパイロットの回答をページに簡単に移動し、自分のアイデアとスタイルで洗練することができます。ここでは、ファイルをページに直接アップロードし、私の文書の内容とコパイロットの回答を組み合わせることができます。その後、自分の好きなように編集し整理する自由があります。コパイロットページは、一つの専用の場所で思考を書き、洗練する能力を与えてくれます。それは簡単でした。超スマートな友人と協力しているかのようでした。
次に、いくつかの物を売る必要があります。売りたいものの写真はすでに撮りましたが、投稿する前に編集する必要があります。Windowsでのコパイロットビジョンの本当に素晴らしい点は、コパイロットが私が言うことだけでなく、それを超えて理解できることです。許可を得て、第二の目のように画面を見ることができます。それは私のサウンディングボードであり、最も重要なことに、画面に表示されているものの文脈で応答できます。
コパイロット、この写真を編集する必要があります。このいすを売りたいので、見栄えを良くする必要があります。彩度をどうやって変更しますか?心配しないで、ディナ。ここ下に新しい調整レイヤーを作成するだけです。ああ、そこにあることを知りませんでした。そして、ここのこのスライダーで彩度を変更できます。ありがとう、コパイロット。それは本当に良く見えます。大家さんへの手紙、チェック。アパート見学の予約、完了。写真の準備ができて、日本に行きます。ありがとう、コパイロット。そして今日ご参加いただいた皆様に大きな感謝を。さようなら。」
Microsoft AIのCEO/責任者であるムスタファ・サレンは最近のインタビューで、AGIが5年に近いシナリオを見ることができると述べました。彼は「AIの基本的な問題(幻覚、指示追従、記憶など)の進歩率にもかかわらず、これらの問題はまだ解決される必要がある」と言っています。これは興味深いクリップだと思います。AIのハイプニュースに乗るのは楽しいですが、CEOたちが抑えられない進歩の現実的な面もあります。
「過去3〜4年間の進歩は電撃的でした。これはこれまで見たことのないような技術の爆発です。進歩の速度は狂気のようです。オープンソースは炎上しており、信じられないことをしています。すべての大企業のラボは、これを可能にするためにすべてを投資しています。だから、5年に近いシナリオを間違いなく見ることができると思います。ただ、本能的に私には、まだ多くの基本的なことを正しく行う必要があると感じます。まだ幻覚を解決する必要があります。まだ引用を解決する必要があります。まだ指示追従が完全ではありません。まだ記憶機能が完全ではありません。まだ個人ごとにパーソナライズしていません。しかし、それらすべてを行う兆候が見えています。私たちはそこへの道のりで着実に進んでいると思います。」
また、GoogleはFirebase Studioをリリースしました。これは自然言語で任意のアプリを構築し、変更し、すべて一か所でデプロイできるものです。基本的には、カーソルボルトやVzeroの無料代替品をブラウザ上で直接使用できます。以前にAIアプリを構築したかった方々にとって、これはその場で行えるという点で素晴らしいことです。
構築が非常に困難になり、多くの異なるアプリを使用しようとするとさまざまな問題が発生することがよくあります。しかし、Firebase Studioは非常にシンプルで、UIは非常に美しくデザインされています。初心者でもコーディング経験なしで簡単なウェブアプリをデプロイするのに使えると思います。
これについてのチュートリアルを作る予定です。トピックを誰もが日常的に使用できる本当に理解しやすい概念に分解する動画を作るのが好きだからです。これは探求する予定のものです。GoogleがFirebaseの発表について述べたことを見てみましょう。皆さんに知ってほしい本当にエキサイティングなことがあります。
「Google Cloud Next 2025で本当にエキサイティングなことが起こりました。まず、Firebase Studioをご紹介します。これは新しいクラウドベースのエージェンシー開発環境で、本番品質のフルスタックアプリを迅速に作成するために必要なすべてを提供します。IDXをFirebaseファミリーに導入し、多くの新しいAI機能を追加しました。今では、プロンプトで新しいアプリを作成したり、60以上の利用可能なテンプレートの1つから始めたりすることができます。さらに、Geminiの組み込みヘルプにより、アイデアからアプリのデプロイと実行までの時間を短縮できます。
しかし、それだけではありません。私たちはGemini Code Assist Agentsへの早期アクセスを提供していることも発表しました。これらのエージェントは、移行、コードドキュメント、テストなどのさまざまなタスクを支援できます。始めるには、Google Developer Programを通じてウェイトリストに参加してください。
さて、Genkitについて話しましょう。Genkitは、アプリのAI機能のビルド、テスト、モニタリングのプロセスを効率化するように設計されています。Nextでは、Pythonの初期サポートとGoの拡張サポートを発表しました。Genkitを使用すると、Geminiモデル、Imagine 3、Vertex Model Gardenを通じた追加モデル、さらにOlamaでのセルフホストモデルにアクセスできます。
モデルアクセスについて言えば、Vertex AIとFirebaseは、クライアントアプリからVertex AI内のモデルにアクセスするための安全なSDKを提供します。これには、より会話的な対話を作成できるGemini 2.0マルチモーダルライブAPIなどの最新モデルが含まれます。
さらに2つのエキサイティングなローンチがあります。Firebase Data ConnectとFirebase App Hostingが一般公開されました。Firebase Data Connectは、Google Cloud SQLの堅牢な信頼性とFirebaseのタイプセーフSDKを提供します。そして、素晴らしいフルスタックアプリをデプロイする準備ができたら、Firebase App Hostingを見てください。1行でデプロイできるなどの新機能も追加しました。はい、かなりクールですね。
これはほんの一部なので、さらに多くの発表についてはGoogle Cloud Nextの最新ブログをチェックしてください。説明にはすべてのリンクがあります。開発者の皆様に、Googleクラウドによって強化された、ユーザーに値するアプリを構築するためのツールとプラットフォームを提供できることを嬉しく思います。」
別の企業も、私たちが何年も(AIの業界では8ヶ月待つことは何年にも感じますが)待っていたものを発表しました。それはMidjourney Version 7です。現在、彼らはVersion 7の画像モデルのアルファテストを行っています。これは今までで最もスマートで美しく、一貫性のあるモデルです。試してみてください。今後2ヶ月間、毎週アップデートが期待できます。
ChatGPTが画像をリリースしたにもかかわらず、人々がまだMidjourneyを使用していることを考えると、これは非常に驚くべきことです。時々、人々は特定のスタイルのために画像生成サービスを使用することの重要性を示しています。Midjourneyの場合、そのスタイルは超リアリズムです。ChatGPTがそれを非常によくできるにもかかわらず、基本的にすべてにおいて優れていますが、Midjourneyに関して人々が気にするのは本当に超リアルな写真と神秘的な超リアルな写真です。それが私が得ている主なテーマです。
Midjourneyについては少し残念なことがありましたが、コミュニティはあまり気にしていないようです。こちらをご覧ください。誰かが「同じプロンプトをMidjourneyとChatGPT4で試しました。Midjourneyのチャットテキスト生成はまだ完全に失敗しています。画像作成を専門とし、v7でテキスト生成を約束したチームにとって、これは大きな失望です。彼らのビデオ生成への期待は完全に崩れました」と言っています。
ここでは、Midjourneyのテキスト生成が完全に失敗し、ChatGPT4では絶対に完璧であることがわかります。これについてはMidjourney自身が説明しています。彼らは実際にこれに応答し、「私たちはコミュニティ全体の投票に従って機能に優先順位を付けており、テキストレンダリングはv7の後の最も低い価値の機能の一つとして評価されました。v7が完了した後、コミュニティが次に望むものについての新しい投票ラウンドを行います」と述べています。
多くの人々がこれについて不満を言っているのを見ていません。先ほど言ったように、人々がMidjourneyを使用する主な理由はテキストのためではなく、インフォグラフィックのためでもなく、主に他のアプリケーションで使用できる未来的なSFリアルな写真のためです。そして、人々は本当にテキストを気にしていないようです。
正直なところ、彼らがテキストを解決すると思っていました。しかし、ChatGPTがその領域をある程度占領したため、彼らはおそらくその画像スタイルの道をさらに深く進んでいくのでしょう。そうであっても驚くことではありませんが、それでもv7については、正直なところ、私たちは飽和点に達していると感じています。画像に関しては、これ以上進めることができるのは限られているからです。Midjourneyがどこに向かうのか見るのは興味深いでしょう。将来的にはビデオを作るかもしれませんが、今のところは本当にわかりません。
また、ドワーク・パテルがこのインタビューでUBIについて話していました。これは魅力的でした。チャンネルの長期ファンの方々は、私がこれについてかなり話していたことを知っているでしょう。将来が近づくにつれて、会話がどのように発展しているかを見るのは非常に興味深いです。
「UBIが特注の社会プログラムよりも良いアプローチに見える別の理由は、2050年にはASI(人工超知能)があるにもかかわらず、同じ透析機を作るようなものです。私もUBIについては別の観点から心配しています。すべてがうまくいき、無限の繁栄がある世界では、無限の繁栄のデフォルトは人々が無意味な消費主義をすることだと思います。超知能AIの後には素晴らしいビデオゲームがあると思いますし、それに対抗する方法が必要になると思います。私たちは古典的なリベラル派です。私の夢の対抗方法は、人々に自分自身でそれに対抗するツールを与え、彼らが何を思いつくかを見ることです。たぶん、一部の人々はアーミッシュのようになり、これらの超技術の特定のサブセットだけで生活しようとするでしょう。
私よりもそれに投資していない人は、「いいでしょう、1%の人々は本当に積極的にそれをしようとし、他の99%は無意味な消費主義的なスロップに陥ります。社会としてそれを防ぐために何をするのか」と言うかもしれません。そこで私の答えは、「わかりません。超知能AIオラクルに聞いてみましょう。良いアイデアがあるかもしれません」です。」
また、ワークショップレベルで査読を通過した最初の完全にAI生成された論文を生産したAIサイエンティストのアップデートもありました。これは本当に良いことです。以前AIサイエンティストがリリースされた時、多くのフィードバックはそれが良くないというものでした。
AIに関しては多くの懐疑論があります。これらの研究を見るとき、私たちはイノベーションの最前線にいます。基本的に、これ全体は新しいアイデアを思いつき、論文を発表し、基本的にLLMsがその論文を査読し判断するAIです。これはSakana AI Labsにとって大きな勝利であり、AIシステムを改善する方法についてのアイデアをテストする複数のAIシステムを持つ未来が来ることは驚くべきことではありません。そして、これが特異点が成功する方法です。
今週の私のお気に入りの動画の一つは、この1X Neo Robotです。どれほど印象的なことかを理解していないと思います。ライブデモを行うロボットを持つことは、他のどの企業も持っていない製品に対する自信のレベルを示しています。ほとんどの場合、ロボットがダンスをしたり、クレイジーなことをしているのを見るとき、それは50回、20回録画されており、何回かやって、正しく行われた1回の動画がソーシャルメディアにアップロードされます。
しかし、ここではNeo Gammaロボットがライブ環境で自律的にこれらのタスクを行っているのを見ることができます。信じてください、これは特異点が私たちが思っていたよりも近いことを示しています。私たちの家の周りで自律的にタスクを実行し、人間がしたくないさまざまなタスクを実行できるこれらのロボットを大量に持つことができます。もちろん、これは安くないかもしれませんが、これらが大量に配備されると経済を根本的に変えると思います。これは聞くべきことだと思います。社会は変化しており、これはその最前線にあるからです。
「ここで見ているのはもちろんNeoが行えるタスクのサブセットに過ぎません。これはロボットが得意なことの自律性と、誰かがロボットをガイドしてこれらのタスクの実行方法に関する専門家のデモンストレーションを基本的に行うリモート操作の組み合わせです。私たちの家の中で私たちの間で生活し、学び、これらのロボットの数が増えるにつれて、これのますます多くが自律的になり、願わくば、いつか、これすべてが完全に自律的になるでしょう。
Neoは実際に、人間の筋肉にゆるく触発された腱を持っています。これによりNeoは静かで、柔らかく、順応性があり、軽量で、安全で、本当に私たちの間で生活し、学ぶことができるロボットになります。ロボットにとってこれ以上良い時期はありませんでした。私たちには支援を必要とする高齢化社会があり、大きな労働力不足があります。」
最後に、より軽快なニュースで、Unitaryロボットが再び素晴らしいことをしていました。今回はボクシングでした。このロボットが強化学習によって驚くべき数の偉業を行うのを見てきました。驚くべきことに、彼らは非常に近い将来にロボットボクシングアリーナができるかもしれないと述べています。もしそれを見たら、間違いなくチャンネルでそれについて話します。
これは非常に驚くべきことでした。このロボットがリリースされた日を正確に覚えています。それは硬く、古めかしく見え、「まあ、見た目はかなりクールだけど、これでどこに行くのか」と思いました。そして6ヶ月もたたないうちに、ロボットが人間とスパーリングしているのを見ています。これは「リアルスティール」や「サイバーパンク」のような雰囲気です。
つまり、未来は本当に素晴らしく、このロボットは立ち上がり、そこに立ち、ジャブを打ち、フックを打つことができます。10年後にロボットができることを本当に想像することはできません。これから見ることになるものを正直に想像することはできません。


コメント