AIニュース: Gemini 2.0、Devin、量子コンピューティング、Llama 3.3、その他最新情報!

AIに仕事を奪われたい
この記事は約16分で読めます。

9,080 文字

AI News: Gemini 2.0, Devin, Quantum Computing, Llama 3.3, and more!
Build and integrate your own agents with Emergence AI’s orchestrator today: My Newsletter for Regular AI Updates 👇🏼htt.....

Googleがついに多くのGeminiに関する発表を行いました。Gemini 2.0が登場し、プロジェクトAstraやウェブ閲覧が可能なエージェント、深い研究など、さらに多くの機能が追加されました。また、今週は他にも多くのニュースがありましたので、詳しく見ていきましょう。
まず今週最大のニュースは、Gemini 2.0の登場です。Googleは自社がAIレースに参入していることを強くアピールしています。多くの発表がありましたので、順を追って見ていきましょう。
最初は彼らの最新のフロンティアモデル、Gemini 2.0です。非常に高速で安価、かつ高性能なフラッシュバージョンを備えています。Gemini 2.0フラッシュは、Gemini 1.5 Proを上回る性能を発揮します。そう、あなたの耳は正しく聞いています。小型で高速なフラッシュモデルが、前バージョンの1.5 Proを上回り、さらに2倍の速さを実現しています。
画像、動画、音声などのマルチモーダル入力に対応し、2.0フラッシュはテキストと生成画像を組み合わせたマルチモーダル出力や、制御可能なテキスト音声変換、多言語音声にも対応しています。Google検索のような機能を直接呼び出すことができるのが重要な差別化要因です。多くの企業がBraveブラウザや他のサードパーティ検索を使用している中、Googleは自社のインデックスを持っているため、この分野で真価を発揮できます。また、ChatGPTが最近発表したコード実行機能や、その他のツール呼び出し機能も備えています。
性能はどうでしょうか。左側にGemini 1.5フラッシュとGemini 1.5 Proのベンチマークがありますが、ほぼ全ての項目でGemini 2.0フラッシュ実験版が上回っています。トップリーダーボードを注視している方なら、Geminiモデルが数週間、あるいは数ヶ月にわたってトップ3を維持していることをご存知でしょう。
特に印象的なのは、自然言語からコードを生成する能力で93%近くのスコアを記録し、Live codeベンチでは35%を達成しています。ただし、モデルプロバイダーがときどき行う、自社モデル同士の比較だけでなく、LlamaやChatGPT、Claudeなどとの比較も見たいところです。これはGoogleへの小さなフィードバックですが。
Gemini 2.0フラッシュは現在利用可能で、開発者向けだけでなく、彼らのAIアシスタントであるGeminiアプリでも利用できます。私はiPhoneユーザーなので使用していませんが、Apple Intelligenceより優れているのではないでしょうか。
しかし、それだけではありません。Gemini 2.0フラッシュは特にネイティブユーザーインターフェース操作に優れており、基本的にあなたの代わりにウェブを閲覧することができます。これが全ての発表の大きなテーマとなっています。彼らは将来をエージェントと見ています。私は繰り返し言っていますが、エージェントに関して強気な見方をしています。
Gemini 2.0で発表された全ての機能は、複雑なUI環境をナビゲートする能力を向上させるものです。マルチモーダル推論、長文脈理解、複雑な指示への従順性と計画性、複合的な関数呼び出し、ネイティブツールの使用、改善された応答速度、これらが全て協調して新しいクラスのエージェント体験を生み出します。
次はプロジェクトAstraです。かなり前にプレビューを見ましたが、ついに実現したようです。プロジェクトAstraをご存じない方のために説明すると、AIがカメラを使って周囲を見回し、世界について説明することができるシステムです。質問すると周囲を見て答えることができ、とても面白そうです。
これは単なる視覚対応モデル以上のものです。記憶し、その記憶に基づいて環境について推論することができます。多くの潜在的なユースケースが解放される可能性があります。本質的に第二の脳を持つようなものです。AIユーチューバーのMatt Wolfは実際にGoogleにロンドンに招待され、試用する機会を得ました。彼は最近動画を投稿したので、ぜひチェックしてみてください。
基本的に、高度な音声モードに視覚と記憶、より良い推論能力を加えたものと考えることができます。とても印象的に見えます。唯一の問題は、おそらくAndroidでしか利用できないということです。より良い対話、新しいツールの使用、より良い記憶、改善された応答速度など、AIアシスタントの改善点は全て歓迎すべき機能です。
ここで、このビデオのパートナーであるEmergence AIに感謝します。このチャンネルをご覧の方はご存じの通り、私はエージェント、特に現実世界のタスクを実行できるエージェントに強気です。そのため、Emergence AIについてお話しできることを嬉しく思います。
Emergence AIは、エンタープライズグレードのマルチエージェントオーケストレーターを立ち上げ、これらのエージェントが実際にあなたの代わりにウェブを閲覧できる実世界のユースケースの最初のデモを公開しました。これは強化されたウェブ自動化です。つまり、複数のエージェントが知的なオーケストレーションの下で、ウェブ上の異なる要素と動的に相互作用し、人間のような操作とナビゲーションを機械レベルのスケールで実現できます。
特に興味深いのは、これらのエージェントが以前は人間を必要とした複雑で高度なウェブ操作を実行できることです。動的に読み込まれるメニューのナビゲーション、フォームの入力、設定の調整、埋め込みファイルの処理、PDFやHTMLからの関連データの抽出が可能です。
Emergence AIのオーケストレーターは、設計時の柔軟性と実行時の決定論的な動作を組み合わせています。これは基本的に、これらのエージェントが自己修復できることを意味します。途中で間違いを犯しても、それを把握して次の試行で成功することができます。
Emergence AIはプライバシーとセキュリティに大きな重点を置いており、APIを介してアクセス可能な完全ホステッドソリューションを提供するか、独自の仮想プライベートクラウドでホストすることができます。エンタープライズビジネスで多くのプロセスを自動化したい場合、Emergence AIは素晴らしいソリューションです。
彼らのエージェントAPIを統合することで、複数のエージェントをシームレスにオーケストレーションし、あなたとあなたのビジネスのためにタスクを遂行することができます。これには、最新のものもレガシーなものも含めたエンタープライズアプリケーションとの対話が含まれます。
Emergence AIは開発者向けにプラットフォームの試用を開始したばかりです。ぜひチェックしてみてください。私からの紹介とお伝えください。ウェブサイトemergence.aiにアクセスするか、contact@emergence.aiまでメールでお問い合わせください。リンクは全て説明欄に記載します。Emergence AIにこのビデオのパートナーシップに感謝します。
では、ビデオを続けましょう。既にGeminiの複雑なユーザーインターフェースナビゲーション能力について話しましたが、それが今やプロジェクトMarinerとなっています。これはGoogleによるエージェントにブラウザ制御能力を与えるための試みで、Google Chrome拡張機能という形で提供されます。
これは研究プロトタイプで実験的なもので、まだ一般公開されていませんが、ベータテスターには近々公開されることを期待しています。私も是非テストしてみたいと思います。ここでは、プロジェクトMarinerが単一エージェントのセットアップで83.5%という最先端の結果を達成したと述べられています。基本的に、ウェブ上で達成すべきタスクを与えると、それを実行することができました。
これはエージェントの未来であり、私はこれ以上確信を持てません。既にOpenAIのOperatorが来年、おそらく12 Days of OpenAIの期間中に登場する予定であることは知っています。同様にウェブナビゲーションを行うRunner H、そしてClaude Computer Useも見てきました。エージェントにコンピュータやブラウザを制御させる機能は間違いなく近い将来実現するでしょう。
次に、彼らはJewelsもリリースしました。これは興味深いです。なぜなら、Devinもちょうど今週一般公開されたからです。これについてはすぐ後で触れます。Jewelsは開発者向けのエージェントで、GitHubワークフローに直接統合され、タグを付けるだけでタスクを実行させることができます。
開発者の指示と監督の下で、問題に取り組み、計画を立て、それを実行することができます。GitHubワークフロー、Devin、Pythagora、Code Buffなど、開発者がより多くのことを達成できるようにする多くのプロジェクトと非常によく似ています。
そして驚きの発表として、エージェントがビデオゲームプレイを観察してヒントを提供することも可能になりました。これは私にとって少し驚きでした。予想していませんでした。
Google DeepMindは、ゲームを使用してAIモデルがルールに従うこと、計画立案、論理的思考を向上させるための長い歴史を持っています。例えば先週、単一の画像から無限の種類のプレイ可能な3D世界を作り出すことができるAIモデル、Genie 2を発表しました。
今回、Gemini 2を使用して構築されたエージェントは、仮想世界のナビゲーションを支援し、画面上のアクションのみに基づいてゲームについて推論することができます。私の大好きなゲーム開発者の一つであるSupercell(Brawl StarsとClash Royaleが大好きです)と協力しており、これらのエージェントは基本的にあなたのプレイを観察してアドバイスを提供することができます。
彼らは本当にGemini 2.0をあらゆるものに組み込もうとしています。これは何度か言及していますが、実世界の実体を持つロボットにも組み込まれています。Gemini 2.0は非常に印象的に見えます。
これがGeminiのアップデートの要約です。あなたの意見を下のコメント欄で教えてください。私は非常に感銘を受けましたが、皆さんの意見も聞かせてください。
Googleの話題が出たところで、少しドラマティックな話題に移りましょう。The Informationによると、GoogleはFTCにMicrosoftとOpenAIの契約、特にクラウド契約を終了するよう要請したようです。
MicrosoftとOpenAIの契約全体は、控えめに言っても奇妙です。全てはOpenAIのAGI(汎用人工知能)の定義に依存しています。なぜなら、AGIに到達した瞬間、契約内容が一晩で劇的に変わるからです。
Googleは最近、米国政府にMicrosoftのOpenAI技術をクラウドサーバーでホストする独占契約を解消するよう要請しました。独占契約自体は必ずしも違法ではありませんが、Microsoftを通じてOpenAIの技術を購入する企業は、既にMicrosoftのサーバーを使用していない場合、新たなコストに直面する可能性があります。
MicrosoftはOpenAIの収益の20%を得ており、ご存知の通り、会社全体の49%も所有しています。また、OpenAIが営利企業に移行していることも既にご存知でしょう。OpenAI、Microsoft、企業戦略に関して多くのことが進行中で、これらがどのように展開されるか見守る必要があります。
これは全て、米国政府がGoogleを注視し、おそらく分割する可能性が高まっている時期に起こっています。Chromeブラウザを分離する可能性もありますが、最終的な詳細はまだ不明です。これらの巨大テクノロジー企業が全て積極的に法的な戦いを繰り広げているのは興味深いですね。
Googleの話題から離れて、次はGeneral Motors(GM)について話しましょう。私はサンフランシスコに10年ほど住んでいた頃、Cruiseという小さな会社を覚えています。彼らは自動運転車を製造し、シリコンバレーの限られた環境の中で非常に人気のある会社でした。その後、General Motorsに数十億ドルで買収されました。
しかし今、General Motorsはこれを閉鎖すると発表しました。これは少し驚きです。GMは自動運転戦略を再編成し、完全自動運転の個人車両への道筋として、先進運転支援システムの開発を優先すると計画しています。つまり、自動運転タクシーのフリートを持つのではなく、個人の車の自動運転に賭けているわけです。
これは驚きであり、かつ驚きでもありません。非テクノロジー企業がハードコアなテクノロジー企業を買収した場合、それがうまくいくのを見たことがほとんどないからです。もし良い例をご存知でしたら、コメントで教えてください。
確かに残念な展開です。私はTeslaのロボタクシーに期待しています。GoogleのWaymo、Zooxという他の会社も非常に魅力的に見えます。まだまだ多くの競争が残っていますが、いつものように競争が多いほど良いのです。
先ほど触れましたが、Devinについて話しましょう。Devinが一般公開されましたが、一つ注意点があります。それは高額だということです。月額500ドルでDevinを利用できます。
実際に提供される価値と時間節約の観点から考えると、ジュニア開発者として月500ドル、年間6,000ドルは実はそれほど高くないかもしれません。Devinは非常に印象的に見えますが、透明性を持って言うと、私はまだ自分でテストしていません。計画はありますが、まだ実行していません。
発表の一環として、彼らはGitHub上の問題に対するDevinの完全な解決策を公開しました。その問題は偶然にもAnthropicのMCP(Model Context Protocol)に関するものでした。これは興味深いことです。
12月6日、ある人が「こちらの問題に対する良い解決策を考えてください。inspectorレポのローカルコピーを使用し、まだPRは作成しないでください」と依頼しました。Devinは作業を開始し、全てを取得し、計画を立て、実行し、コードをプッシュしてPRを作成しました。これら全てが自律的に行われ、非常に印象的です。
インターフェースは非常にクールで使いやすそうですが、私はいつも差別化要因は何だろうと考えています。これらのモデルが開発者が自由に構築できる状態で公開されている場合、彼らは実際に何を異なって行っているのでしょうか。特別なバージョンのモデルを持っているのでしょうか。そうは思えません。
確かに素晴らしいインターフェースを持ち、モデルの上に多くのエージェント的な足場を持っているでしょうが、それがどこまで通用するのかはわかりません。いずれにせよ、非常にクールに見えます。Devinの一般公開、おめでとうございます。
次に、Grocがオーロラと呼ばれる新しい画像モデルを持っているようです。その後、オーロラというタイトルは削除されましたが、いずれにせよリリースされました。人物、有名人を生成でき、非常に正確で高品質に見えます。
これは、インターリーブされたテキストと画像データから次のトークンを予測するように訓練された自己回帰的な専門家混合ネットワークです。いくつか例を見てみましょう。
抽象的なスタイルのロックSR71ブラックバード、クリスマスコスチュームを着たオプティマスロボット、Grocロゴ、とても良く見える花、折り紙のサイバートラック、ドナルド・トランプの髪型のジャッキー・チャンなどがあります。
明らかに有名人や他の著名人の再現に問題はありません。ビル・ゲイツ、ドナルド・トランプ、カマラ・ハリスなど、あらゆるものを見てきました。決して拒否することはなく、Grocは要求に対して最も寛容なモデルとして知られています。
Googleは今週本当に勢いに乗っていて、Willowという完全に革新的な新しい量子チップも発表しました。量子は私にとってあまり馴染みのない分野ですが、もっと学び始めており、このチャンネルで是非話したいと思っています。もし聞きたい方がいれば、お知らせください。
量子チップは、従来のCPUやGPUよりも特定の種類のユースケースを無限に高速に計算することができます。その仕組みの詳細には触れませんが、量子コンピュータが主流になっていない最大の理由の一つはエラー率です。
以前は、量子コンピュータの量子ビット(キュービット)の数が増えるとエラーも増加し、ある時点で使用不可能になっていました。しかし今回、GoogleがリリースしたWillowは逆の効果を持ちます。キュービットを増やすとエラー率が指数関数的に減少するのです。
これは量子コンピュータにとって根本的なブレークスルーであり、研究、気象予測、暗号化など、世界全体に多くの潜在的な影響を持ちます。あなたのパスワード全てが危険にさらされる可能性があり、暗号技術全般、暗号通貨、ビットコイン、イーサリアムなどが量子コンピュータによって「解決」される可能性があります。
しかし、良いニュースがあります。量子コンピュータの作成は、リソース面でも専門知識面でも、基本的にあらゆる面で非常にコストがかかります。実際にこれを実現できる企業は世界でもごく少数、それ以下しかなく、エラーを本当に上手く取り除く方法を見つけたのは今のところ1社だけです。
地下室のハッカーが量子コンピュータを構築して誰もののパスワードを破るという状況には、まだ程遠いので心配する必要はありません。しかし、これは本当にクールなアップデートです。
この統計を聞いてください。Willowは、今日の最速のスーパーコンピュータでは10セプティリアン年(10の25乗年、宇宙の年齢をはるかに超える数)かかる標準的なベンチマーク計算を5分未満で実行しました。従来のコンピューティングでは基本的に計算不可能なものを、わずか5分で計算したのです。
量子コンピューティングについてもっと学ぶために、お勧めの記事や本があればコメントで教えてください。
次に、12月はAIの月のようです。多くのアップデートとリリースがあり、もちろんZuckerbergも発言しています。Llama 3 37Bをリリースし、AIの未来についても語っています。見てみましょう。
「みなさん、今年最後の大きなAIアップデートをお知らせします。Metaの目標は汎用知能を構築し、オープンソース化することで、誰もが恩恵を受けられるようにすることです。Meta AIは現在、月間アクティブユーザー数が6億人近くおり、約束通り、年末までに世界で最も使用されるAIアシスタントになる軌道に乗っています。
まだ音声モードを試していない方は、是非試してみてください。素晴らしいですよ。2024年の始めに、H100をたくさん持っていて、これがオープンソースAIの大きな年になると話しましたが、その通りになりました。
Llamaは急速に最も採用されているモデルとなり、6億5000万回以上ダウンロードされ、業界標準になりつつあります。今年最後のリリースとして、Llama 3.3があります。これは新しい70億パラメータのテキストモデルで、405億パラメータモデルと同程度の性能を発揮しますが、より簡単で効率的に実行できます。
これが最後のLlama 3リリースで、次はLlama 4です。年始にLlamaのトレーニング用クラスターの規模について話したように、年末も同じように締めくくりたいと思います。
私たちはルイジアナに2ギガワット以上のデータセンターを建設することを発表しました。これは将来のLlamaバージョンのトレーニングに使用される予定です。私たちは長期的な視点を持ち、世界で最も高度なAIを構築することに全力を注いでいます。」
では、Llama 3 37Bを見てみましょう。405億パラメータモデルと同等以上の性能を発揮しながら、より容易でコスト効率の良い実行が可能です。ここにベンチマークがあります。Llama 3 17BとLlama 3 37Bを見ると、3 17Bからの控えめな改善が見られますが、最も良い点はオープンソースであることです。ダウンロードして試すことができ、非常に寛容なライセンスを持っています。
次に、これは1週間半ほど前の出来事なので少し古いニュースですが、簡単に触れておきたいと思います。シリコンバレーのテクノロジー投資家であり事業家のDavid Saxsが、トランプ大統領によってアメリカのAIと暗号通貨担当の責任者に選ばれました。
これは興味深いですね。私はAll-inポッドキャストの大ファンで、宗教的に見ているようなものです。そして今、David SaxsがAIやテクノロジー、暗号通貨に関する政府の重要な部門のトップになるのを見て、複雑な感情を抱いています。
しかし、様子を見てみましょう。技術的で前向きな思考を持つ人物を選んだことは確かに良いと思います。SaxsはPayPalの最高執行責任者(COO)として創設期に関わり、Yammerを立ち上げて数十億ドルで売却し、Craft Venturesを設立してテクノロジーのあらゆる分野、特にSaaSで多くの投資を行ってきました。どのように展開されるか見守りましょう。
今日はここまでです。多くのニュースがありましたね。もちろん、12 Days of OpenAIはまだ数日残っていますので、私はここにいて皆さんに報告を続けます。
このビデオを楽しんでいただけましたら、いいねとチャンネル登録をご検討ください。次回また会いましょう。

コメント

タイトルとURLをコピーしました