重大なOpenAIニュース!Googleの画期的な量子チップ「Willow」、Amazonの新AGI研究所

AIに仕事を奪われたい
この記事は約17分で読めます。

9,706 文字

HUGE OpenAI News! Google's Breakthrough Quantum Chip 'Willow', Amazon's New AGI Lab
👉 Get Weekly & Monthly AI News Recaps (+more): 🌟 Become a Member:

OpenAIのシップミス5日目が公式に始まりました。これまでにOpenAI 4o1モデル、ChatGPT Pro強化学習開発者向け機能、Sora、Canvasが発表され、そして5日目の今日はChatGPTとAppleインテリジェンスの統合が発表されました。このビデオでは、今週の新機能と今後予想される展開について見ていきましょう。
Googleが画期的な最先端量子チップ「Willow」を発表しました。より多くの量子ビットを使用してスケールアップする際に指数関数的にエラーを削減できるだけでなく、量子補正分野で30年近く追求されてきた重要課題を解決しています。また、Willowは標準的なベンチマーク計算を5分以内で実行できます。これは現在の最速のスーパーコンピュータでは10セプティリオン年(宇宙の年齢をはるかに超える時間)かかる計算です。
さらにAmazonは、デジタルおよび物理的な世界で実際にアクションを起こせるAIに焦点を当てた新しいAGI研究所を立ち上げています。彼らは基本的にAIエージェントに取り組んでおり、これはすでにデジタル労働を混乱させ始めています。
OpenAIのシップミス3日目である今週月曜日(12月9日)、ChatGPT Plusユーザー全員にSoraがリリースされました。残念ながら、私もPlusアカウントを持っていますが、非常に高いトラフィックのため、Soraアカウントを設定することができませんでした。OpenAIの3日目のライブストリームを見ると、Soraはただのビデオモデルではなく、ビデオ生成と編集ツールの完全なスイートであることがわかります。アスペクト比、解像度、さらには動画の長さなど、高度なコントロール機能が表示されています。
Soraは1080pまでのビデオを5秒から25秒の長さで、一度に複数のバリエーションを生成できます。現在、Plusユーザーは480pで最大50本、720pではさらに少ない本数のビデオしか生成できませんが、月額200ドルのProプランを利用すれば、これらの制限は適用されません。
また、まだ非常に初期段階だと言われている「ストーリーボード」という新機能も公開されました。ストーリーボードでは、シーン内のアクションを好きな順序で並べることができるタイムラインが用意されています。例えば、「黄色い尾を持つ美しい白鶴が小川に立っている」という場面に続いて、「鶴が水に頭を突っ込んで魚を捕る」というアクションを書き込むと、このような結果が得られます。
これらの一つを見てみましょう。途中で鶴が水に頭を突っ込んでいるのが見えます。魚を捕まえているか見てみましょう…あ、このケースでは逃してしまったようです。別のものも見てみましょう。Soraが私の指示を理解し、どこに向かいたいのかを正確に把握していることがわかります。両方の鶴が逃してしまったかもしれません…あ、この鶴は小さな魚を捕まえました。まだいくつかの小さな問題はありますが、これは最悪の状態であり、今後は改善されていくことを覚えておいてください。
4日目に移る前に紹介された別のクールな機能は、生成物を拡張する機能です。「recut」と呼ばれる別の編集ツールを使用して、ビデオをトリミングし、さらなる指示でストーリーボードで拡張することができます。recutをクリックすると新しいストーリーボードに移動し、Soraが鶴のビデオをインポートします。タイムライン上でビデオを確認し、スクラブすることができ、ビデオをトリミングすることもできます。
実際、私は最初の数秒、頭が水に飛び込むところまでが気に入っています。他のストーリーボード例と同様に、ここで空白にした部分は、そこにあるストーリーボードカードからシームレスに続きます。全く新しいエンディングが欲しい場合は、最後を空白にして作成をクリックすれば良いです。全く新しい始まりが欲しい場合、例えばこれをシーンの最後に置きたい場合は、これをここに置いておけば、最初の部分でカメラが鶴にもう少し長く留まるかもしれません。
また、真ん中に移動して、全く新しい終わりと始まりを全てのビデオに生成することもできます。全体的に見て、ユーザーインターフェースに感心しました。実際の生成物は明らかに素晴らしく、他のどのビデオモデルよりも優れていますが、高度なカスタマイズとコントロール機能に加えて、シンプルで使いやすいUIにより、これは全体的に本当に良い製品となっています。この需要が非常に大きかった理由が理解できます。
4日目にOpenAIはCanvasをリリースしました。これは、ChatGPTと協力して文章やコードの下書き、編集、フィードバックを得る新しい方法で、4oモデルを使用する全てのユーザーが利用できます。ChatGPT 4oをCanvasで使用する場合、チャットログの横に2番目のウィンドウが表示されます。この2番目のウィンドウは、あなたとChatGPTが様々なプロジェクトで協力できる場所です。
同僚や classmate と共有ドキュメントで作業するようなものですが、こちらは決して眠ることなく、あなたの言うことを何でも実行してくれます。この例では、ChatGPTに物語を生成するよう依頼しており、右下には「編集を提案」「長さを調整」「読みやすさレベルを変更」「最終仕上げ」「絵文字を追加」といった高度なコントロール機能が再び表示されています。これらは全て分かりやすい機能で、物語だけでなく、エッセイや手紙など、あらゆるものに非常に役立ちます。
また、Pythonコードを直接Canvas上で実行し、コンソールエラーに基づいてChatGPTにバグを修正させることもできるようになりました。ここで「create snake game python」と入力すると、自動的にCanvasモードに切り替わり、コードの記述が始まります。実際にコードを実行する前に、右下に再び高度なコントロール機能があります。ここでは「別の言語に移植」(選択肢あり)、「バグを修正」「ログを追加」「コメントを追加」といった機能があります。
全て良さそうなので、実行してみましょう。何らかの理由で動作させることができませんでした。私のデバイスがこれを実行できないだけかもしれませんが、基本的にコンピュータの性能が十分であれば、プレイ可能なスネークゲームがここにポップアップ表示され、自然言語でChatGPTに要望を伝えるだけで、カスタマイズや変更を加えることができます。
動作しなかったことをお詫びしますが、これが開発者だけでなく、コーディングを始めたばかりの人々にとっても非常に役立つことがお分かりいただけたと思います。
本日、OpenAIシップミスの5日目に、ChatGPTとAppleインテリジェンスの統合が発表されました。これは予想されていたことで、ChatGPTがiPhoneに直接統合され、iPhone 16以降をお持ちの方は、電話の横のボタンを押すだけでSiriを通じてアクセスできます。
彼らが紹介したものの1つが、Siriのビジョン機能です。これはビジョン付き高度な音声モードとは異なりますが、似ています。スナップショットを撮影して質問を入力することで、環境について質問できます。例を見てみましょう。
写真を拡大して、この「質問」ボタンを押すと、直接ChatGPTに質問します。まず、写真に写っているものを識別します。私の聖人が隠れてしまっているので、どうなるか見てみましょう。左がM、真ん中がDave、右がSamのクリスマスセーター・コンテストです。順位付け…判断…順位付け…私たちは判断はしません、聞くだけです。楽しさの順位を付けてください。さて、真実の瞬間です。Samが勝ちました。それはバグですね。
これらの機能は、新しいMacを含む、より新しいApple製品全てで利用可能になります。これは単に、デバイスに直接統合された、よりシームレスなChatGPTの使用方法と考えることができます。繰り返しになりますが、本質的に新しいものはありません。彼らがデモンストレーションしたSiriのビジョン機能は、リアルタイムであるはずのビジョン付き高度な音声モードとは異なるものです。そのため、それはまもなく登場することを期待しています。
次に予想されることについて、ChatGPTチームプランの下に一時的にGPT 4.5の限定プレビューという記載がありました。これはすぐに削除されましたが、GPT 4.5が実在することの確認とも言えます。これは今後7営業日の間に登場する可能性があります。ビジョン付き高度な音声モードも、いつ発表されてもおかしくありません。最近、OpenAIのGreg Brockman社長が60 Minutesで放送されたAIが教育を変革する方法についてのセグメントでこれをデモンストレーションしました。
エージェントの次に、私が最も期待しているのはこのビジョン付き高度な音声モードです。OpenAIクリスマスの12日間の間に登場することを本当に期待しています。
前回の動画で4o1 proが様々なベンチマークでどのように性能を発揮しているかについて質問するコメントをいくつか見ましたが、APIがまだ利用できないため、公式なテストは行われていません。Ark AGIチャレンジの作成者の一人による非公式なテストによると、4o1 Proは4o1プレビューの約2倍優れているようです。これは、モデルを使用した他の人々からの報告とも一致しています。
実際、特に開発者の多くがこのモデルの優秀さに驚いています。4o1 Proは間違いなく、私が使用した中でコーディングに最適なモデルです。かなり複雑なコードベースを与え、ドキュメントを参照しながらリファクタリングするよう依頼しましたが、Claude、Gemini、4o1、4o1 Proの差は歴然としています。久しぶりにこれほど感動しました。
別の人は「テクニカルデットのデフレーションが始まっています。4o Proは、他のどのモデルも近づけなかった、非常に複雑なSLの痛みを伴うファイルの書き換えを解決しました。私たちは『なぜ今日コードを修正する必要があるのか、より良いモデルが明日それを行うのだから』という時代に入りました」と述べています。
さらに別の人は「OpenAI 4o1 Proは予想をはるかに上回っています。これは、モデルが登場して、あまりに優れているため驚いたという初めての経験です。Coinbaseのスクリーンショットを撮り、4つの人気モデルに一発でクローンするコードを書かせました。どれが4o1 Proか当ててみてください」と述べています。
4o1 ProとFull 4o1モデルは、以前の4o1プレビューモデルよりも明らかに優れており、他のどのモデルもできなかったことができるようです。ベンチマークの結果が入手可能になり次第、様々なベンチマークでの性能について更新情報をお伝えします。
他のニュースでは、Grockが新しい画像生成器「Aurora」を発表しました。このモデルは生成できる対象に制限がなく、これらのような有名人の超リアルな画像を作成できます。もちろん、有名人にさせることには制限がありますが、これはほとんどのAI画像モデルが単純に許可していないことです。
これは少し物議を醸しました。プライバシーの懸念や安全性の問題について話す人々を見かけましたが、皆さんはどう思いますか?このようにリアルな有名人の画像や動画を生成できるべきだと思いますか?コメントで教えてください。
xAIのGrock、XのCEOであるElon Muskは、Teslaのヒューマノイドロボット「Optimus」で進展を見せています。これが初めて、Optimusが野外で起伏のある芝生の丘を歩く姿が公開されました。ある時点で転倒しそうになりましたが、自分で体勢を立て直すことができました。これは実に印象的です。
もしこれらのロボットが本当に私たちの中で生活することになるなら、私たちの世界の混沌と予測不可能性に慣れる必要があります。Optimusがすでに丘を上り下りし、リアルタイムで転倒を避けるために自力で回復できることは、その現実に向けた大きな一歩です。
AIとロボット工学の話題に関連して、中国の研究チームがロボットのネズミを作り、AIを使って本物のネズミのように振る舞うよう訓練しました。このロボットネズミは、生物学的なネズミと同じ外観と動作範囲を持つように緻密に設計されました。強化学習と実際のネズミ同士が交流する様子を単に観察することで、ネズミの最も顕著な行動をいくつか学習しました。
実際にロボットネズミを本物の生物学的なネズミと一緒にケージに入れると、ネズミたちは予想通りに反応し、基本的に普通のネズミと全く同じように扱いました。そこで疑問が生じます。人間は、人間の行動を非常に巧みに模倣できるヒューマノイドロボットを、ただのネズミやただの人間として見るでしょうか?そしてそもそも、その段階まで到達するのでしょうか?
個人的には、私たちはネズミよりもずっと知覚力が鋭いと考えたいですが、10年後、あるいは20年後には、これらのヒューマノイドロボットがどれほどリアルになっているのか、誰にも分かりません。
さて、ビデオの冒頭で触れたGoogle の画期的な量子チップ「Willow」について話さなければなりません。Willowは2つの大きな成果を可能にしました。1つ目は、量子ビットをスケールアップする際にエラーを指数関数的に削減する能力、2つ目は、世界最速のスーパーコンピュータの1つが10の25乗年かかる計算を5分で実行することです。
実は、1つ目の成果は2つ目よりも驚くべきものです。なぜなら、Willowで使用する量子ビットを増やすほど、エラーが減少し、システムがより量子的になることを示したからです。ちなみに、量子ビットは基本的に通常のコンピュータのようなものですが、シュレーディンガーの猫のように複数の状態を同時に取ることができます。
箱の中の猫が、それを殺す可能性のあるものと一緒に入っていて、観察して実際に箱を開けるまで、猫が死んでいるのか生きているのか確実には分からないため、本質的に死んでいると同時に生きている状態にあるようなものです。これが基本的に量子ビットの考え方です。もちろん、もっと多くのことが関係していますが、重要なのは、量子ビットの数をスケールアップしながらエラーを低減できるという、1995年以来の未解決の課題を克服したという歴史的な成果です。
2つ目の成果である、スーパーコンピュータが宇宙の年齢よりも長い時間がかかる計算をわずか5分で完了できたことについて、彼らは「この途方もない数字は物理学で知られている時間スケールを超え、宇宙の年齢をはるかに超えています。これは、デイビッド・ドイチュが最初に予言した、私たちが多元宇宙に生きているという考えに沿って、量子計算が多くの並行宇宙で行われているという概念に信憑性を与えています」と述べています。
つまり、状況は本当にクレイジーになってきています。AIの進歩が指数関数的に加速しているだけでなく、今や量子力学の分野でも動きが出始めており、これが膨大な技術進歩の足場にさらに追加されることになります。
Googleは今週、他にもいくつかの発表を行いましたが、Willowほど重要ではありません。VoとImageen 3を発表し、これらは両方ともGoogleのVertex AIで利用可能になります。Voは彼らのビデオ生成モデルで、ご覧の通り、画像からビデオを生成することもできます。品質は decent ですが、もちろんSoraの方がはるかに優れています。
また、彼らの画像生成器であるImageen 3も、この時点では十分良好に見えます。このような人間の超リアルな画像を生成する最先端の画像モデルは現在たくさんありますので、これまでに見たことのないものではありません。
Googleからもう1つ今週のニュースがあります。「Gencast」という気象予報士を導入しました。「今日、Natureで、最先端の精度で最大15日先までの気象条件の確率を予測する新しいAI気象モデルGencastを発表しています。Gencastは、単一のTPUチップで8分以内に15日間のシナリオを1つ生成できます。極端な暑さ、寒さ、強風の予測において、現在最高の運用予報として知られるENSを一貫して上回る性能を示しています」
これはかなり素晴らしいと思いました。AIを使用して気象パターンを予測することは当然のことのように思えます。これが早急に採用され、人命を救い始めることを願っています。
他のAIニュースでは、Deep Peak バージョン2.5がウェブ検索機能を備えるようになりました。これは、OpenAI の 4o1と同等の性能を主張している中国のモデルで、テストタイム計算という同じ新しいスケーリングパラダイムに基づいています。多くのAI企業が実験し始めているウェブ検索が可能になりました。
非常に高額なAIピンを作った会社Humaneを覚えていますか?数週間人気を博しましたが、人々が実際に受け取り始めて、うたい文句ほど良いものではないと気付くまでの間です。さて、彼らは現在、接続されたデバイスの世界のために構築されたAIオペレーティングシステム「Cosmos」を導入しています。
これは基本的に、スピーカー、電話、車、テレビなど、様々なデバイスに接続できるHumaneピンの背後にあるソフトウェアです。デモでは、音声アシスタントのように、スピーカーを使って料理を手伝ってもらう様子が見られます。また、テレビ画面を理解し、表示されている内容に基づいてリアルタイムで質問に答えることもできます。
「彼は今シーズン何ゴールを決めていますか?」選手を特定する必要はありませんでした。Cosmosは画面のコンテキストを使用して答えています。「エドソン・アランテスは今シーズン5ゴールを決めています」素晴らしい、これでグアカモーレに戻れます。おわかりの通り、これはクールですが、数年後にはApple SiriやGoogleのGeminiに簡単に置き換えられる可能性があると思います。
最後に、Amazonは長期的な研究に焦点を当てた新しいAGI研究所を開設します。彼らは「Amazon AGI San Francisco研究所は、AIの研究者とエンジニアが、スピードと焦点を持って大きなブレークスルーを達成できるよう設計されています。この目標に向けて、私たちの哲学は、スタートアップの機敏性とAmazonのリソースを組み合わせています。チームを精鋭に保つことで、一人当たりの計算リソースを最大化できます。
研究所の各チームは、迅速に行動する自律性と、高リスク・高リターンの研究を追求し続ける長期的なコミットメントを持っています。また、新しい研究所は最近Adeptから雇用したチームによって設立され、コンピュータ、ウェブブラウザ、コードインタプリタなど、私たち人間と同じツールを使用して複雑なワークフローを処理するAIエージェントの構築における彼らの先駆的な仕事を活用します。
私たちの初期の焦点は、AIエージェントが実世界でのアクションを実行し、人間のフィードバックから学習し、自己修正し、私たちの目標を推測できるようにする複数の重要な研究課題にあります。特に、推論と計画を解決するための大規模言語モデルと強化学習の組み合わせ、学習された世界モデル、物理的環境へのエージェントの一般化について、非常に興奮しています」と述べています。
これは非常に興味深く聞こえます。このように、豊富なリソースにアクセスできる小規模で高度な才能を持つチームがある場合、革新の可能性と真に斬新なものを生み出す可能性がはるかに高くなると感じます。
また、物理学、数学、さらには金融など、様々な分野から人材を採用しようとしており、AIの分野に新鮮な視点をもたらそうとしています。繰り返しになりますが、非常に興味深く、私たちは確実にこれをフォローしていきます。
前回のビデオで話したように、AmazonはAnthropicにさらに40億ドルを投資したばかりで、もちろん、Amazon Novaと呼ばれる独自の最先端AIモデルシリーズも発表したばかりなので、Amazonは本当にAIに全力を注いでいるように見えます。
SalesforceのCEOであるマーク・ベニオフによると、AmazonやAI業界全体が構築しようとしているこれらのAIエージェントは、すでにSalesforceなどの企業で成果を上げています。「Agent Forceは10月24日に利用可能になったばかりですが、すでにこの信じられないような勢いを目にしています。第3四半期だけでAgent Forceの契約が200件以上あり、今後の四半期に予定されている潜在的な取引のパイプラインは数千件に上ります」と述べ、FedEx、ADO Ventures、Ace Hardware、IBM、RBC Wealth ManagementをAgent Forceの顧客として挙げました。
ベニオフはまた最近、TechCrunchに対して、Salesforceの顧客が来年までに10億のAIエージェントを展開すると予想しており、AIエージェントによって企業は無制限の労働力を持つことができるようになると語りました。「これらのエージェントはツールではなく、協力者になりつつあります。24時間365日、データを分析し、決定を下し、行動を起こしています」とカンファレンスコールで述べました。「Salesforceは、スタート直後から、デジタル労働力の最大のサプライヤーとなっています。これはほんの始まりに過ぎません」
これらのエージェントがまだ限られた機能しか持っていないことを考えると、このような結果を見た後、より多くの企業がAIエージェントを採用し、ワークフローに統合し始めると思います。
ビデオを終える前に、もう1つ今週の話題があります。E11 Bioは、脳の障害を治療し、人間のようなAIシステムを構築し、さらには人間の脳をシミュレーションするために重要な、100分の1のコストで脳マッピングを行う大きな一歩を共有できることを嬉しく思います。
これを詳しく説明するスレッドがありますが、正直に言って、これらの内容の多くは私の理解を超えていました。しかし、このスライドは理解できました。「まだやるべきことはたくさんありますが、プリズムコネクトミクスを大きな体積や完全なマウスの脳にスケールアップするために、最大のコストのボトルネックに対処することで、光学マウスコネクトームは予想よりも早く実現する可能性があります。わずか5年で実現できると予測しています」
彼らは、AIを使用して脳をマッピングする非常に効率的な方法を見つけ、それをスケールアップすることで、最終的には人間の脳全体のマッピングにつながる可能性があると主張しています。これにより、人間の脳についての理解が深まり、神経科学、生命科学、さらには心理学における大きな発見につながる可能性があります。
以上が、今日のAIニュースでした。ご視聴ありがとうございました。動画をお楽しみいただけた場合は、ぜひLikeを押してください。そして、今回のような今後のAIニュースを常に最新の状態で受け取りたい場合は、必ず登録ボタンを押してください。

コメント

タイトルとURLをコピーしました