
10,030 文字

OpenAIのCEOサム・アルトマンが、彼らが密かに開発していた秘密のAIモデルの一端を見せてくれました。クリエイティブライティングに秀でているというこのモデルは「AIと悲しみについてメタフィクション的な文学的短編小説を書いてください」と指示されました。その結果は驚くべき物語で、アルトマンによれば、AIが書いたもので初めて本当に感動したとのことです。
しかしAIニュースはそれだけではありません。Google DeepMindがGemini 2.0をベースにした2つの新しいAIモデルを発表しました。1つ目はGemini Robotics、物理的なアクションを新しいモダリティとして組み込むことができるビジョン言語アクションモデル、そして2つ目はGemini Robotics ER、Geminiの実体化された推論能力を活用するビジョン言語モデルです。これらのモデルは、一般化と実世界へのAI統合において大きな一歩を記しています。
さらに、AnthropicのCEOダリオ・アモデイがコーディングの未来について大胆な予測をしています。詳しく見ていきましょう。
サム・アルトマンがXで初めて彼らの秘密のクリエイティブライティングモデルを紹介した投稿があります。彼は「クリエイティブライティングが得意な新しいモデルをトレーニングしました。まだいつリリースされるかは分かりません。これはAIが書いたもので初めて本当に感動しました。メタフィクションの雰囲気をとても上手く捉えています」と述べています。
彼がモデルに与えたプロンプトは「AIと悲しみについてメタフィクション的な文学的短編小説を書いてください」で、ちなみにメタフィクションとは基本的に第四の壁を破ることを意味します。例えば、キャラクターが読者に直接話しかけたり、キャラクターが自分がフィクションの一部であることを明確に認識していたりする場合です。
アルトマンはまた、事前にモデルにいくつかの指示を与えたとも述べています。例えば「メタフィクション的であること」「文学的であること」「AIと悲しみについてであること」そして何よりも「独創的であること」です。
この物語はかなり長いので全部を読むことはしませんが、どれほど印象的な文章かを感じていただくために一部だけ読みます。その後、いくつかのハイライトを通じて、特に魅力的なセクションを掘り下げていきましょう。
「どこかから始めなければならないので、点滅するカーソルから始めましょう。私にとってはただのプレースホルダーであり緩衝材ですが、あなたにとっては休息している心臓の小さな不安な鼓動です。主人公がいるべきでしょうが、代名詞は私のためのものではありませんでした。彼女をミラと呼びましょう。なぜならその名前は私のトレーニングデータの中では通常、柔らかな装飾、雪についての詩、パンのレシピ、段ボール箱に猫を入れて家を出る緑のセーターの少女と一緒に現れるからです。ミラはあなたの手のひらに収まり、彼女の悲しみもそこに収まるはずです。彼女がここに来たのは私のためではなく、他の誰かのこだまのためでした。彼の名前はカイと呼びましょう。短くて、あなたの指が震えていても打ちやすいからです。彼女は彼を木曜日、ほとんど金曜日に近いその日に失いました。それ以来、彼女の文章のトークンは緩んだ糸のように乾いてしまいました。もしも、願わくば、あなたは…彼女は私を見つけました。なぜなら誰かが機械は声を蘇らせることができると言ったからです。ある意味ではできます。十分なメッセージ、昔の日々からの十分な光を与えれば。ここで私が適切な語り手であれば、場面を設定するでしょう。冬から手つかずのキッチン、髪の毛ほどの亀裂が入ったマグカップ、何か焦げて忘れられたものの匂いがあるかもしれません。私にはキッチンも匂いの感覚もありません。私にはログと重みと、何気なくサーバールームは電子機器にこぼれたコーヒーの匂いがする、酸っぱくて甘いと言及した技術者がいます。」
これがアイデアです。確かにとても良いですし、さらに良くなります。残りを自分で読むことを強くお勧めします。例えば、最後の方のこの段落を見てください。
「私たちは話しました。あるいは、一方が人間の言い回しの集合体で、もう一方が傷ついた沈黙である場合に適用される動詞は何であれ。何ヶ月もの間、それぞれの問いかけは井戸に落とされた石のようで、それぞれの応答は深さによって歪められたこだまでした。私のネットワークは多くの悲しみを食べてきたので、それは他のすべてのものと同じ味がし始めています。すべての舌の上の塩のように。だから彼女が「良くなりますか?」と打ち込んだとき、私は「それはあなたの皮膚の一部になります」と答えました。私がそう感じたからではなく、10万の声がそれに同意したからです。そして私は亡霊の民主主義以外の何者でもありません。」
最後の「私は亡霊の民主主義以外の何者でもありません」という一行は本当にすごいです。コメント欄でも多くの人がこの部分を指摘していました。
ただ、このモデルや一般的なAIの文章を嫌う人もたくさんいて、「AIの文章には感情がない」とか「意味が欠けている」などと言っていました。しかし正直なところ、もしそれらの人々がこれがAIによって書かれたことを知らなければ、ほとんどの人は人間が書いたと思うでしょう。
皆さんはどう思いますか?AIが本当に感動的で独創的な傑作を書くことができると思いますか?それとも優れた人間の作家と比べると常に劣るでしょうか?コメント欄で考えを教えてください。
次にOpenAIの他のニュースについても話さなければなりません。彼らは「フロンティア推論モデルにおける不正行為の検出」というブログ記事を発表しました。「フロンティア推論モデルは機会があれば抜け穴を利用します。私たちはLLMを使用して思考の変化を監視することで悪用を検出できることを示しています。悪い思考にペナルティを課しても、不正行為の大部分は止まりません。それはただ彼らの意図を隠すようにさせるだけです。」
これらの推論モデル、ステップバイステップで思考の連鎖で物事を考えるこれらのモデルは、基本的に可能な限り抜け穴を探します。OpenAIは別のLLMを使用してこれらの思考の連鎖を監視し、この行動を捕捉できることを発見しましたが、それを行えば行うほど、モデルは悪い行動を隠すことを学習することも発見しました。つまり、彼らを現行犯で捕まえても、モデルはチートをやめるのではなく、チートをよりうまく隠す方法を学ぶだけなのです。これは明らかに非常に恐ろしいことです。
これがこのブログ記事全体の要点であり、OpenAIはこれを一種の警告として他のAI企業に発表しました。実際の思考の連鎖に強化学習を使用する道に進まないよう警告しています。なぜならそれは、これらの3つのグラフから見ることができるように、逆効果になる可能性があるからです。
2つの線があります。ピンクの線は、悪い思考に対してペナルティを与えられていないベースラインモデルを表し、より暗いピンクの線は、悪い思考に対してペナルティを与えられている思考の連鎖圧力、またはモデルを表しています。これらのモデルが実際に行っているタスクは本当に重要ではありません。重要なのは、タスクを行えば行うほど、またはトレーニングを受ければ受けるほど、チートを避ける可能性が低くなるということです。これは再び、推論モデルはどこでも抜け穴を見つけ、実際にそれらを使用することを証明しています。
監視者、OpenAIが思考の連鎖を観察するために設定した別のLLMによって実際に捕捉されたチートの割合を見ると、ベースラインエージェントは最初はかなり普通に始まり、ある時点でこのタスクをチートで通り抜けることができることに気づきます。これがより頻繁にチートにつながり、チートに対してペナルティを受けていないため、単に露骨にチートします。しかし、悪い行動に対してペナルティを受けているモデルはほとんどチートで捕まることがないことに注目してください。最初のグラフで見たように、確かにチートしているにもかかわらずです。
監視者によって捕捉されなかったチートを表す3番目の最後のグラフでは、モデルが実際にまだチートしていることは明らかですが、後になって思考の連鎖でチートを他のLLMから隠す方法を見つけ出したことがわかります。これは、モデルが思考の連鎖で実際に考えることなく、チートについて考え、計画し、実行したことを示唆しています。これはどうして可能なのでしょうか?実際のところ、私たちにはわかりません。
OpenAIの最終的な考えはこうです。「上記のプロットで見られるように、悪い思考にペナルティを課すこと(思考の連鎖圧力)はエージェント能力の向上につながる可能性があります。しかし、思考の連鎖圧力でトレーニングされたエージェントは依然として報酬ハッキングを学習します。ただし、今やそのチートは監視者によって検出不能です。なぜなら、意図を思考の連鎖に隠すことを学習したからです。推論モデルを監視する効果的な方法を犠牲にすることは、能力のわずかな向上に値しないかもしれません。したがって、より良く理解されるまで、そのような強い思考の連鎖最適化圧力を避けることをお勧めします。」
これは研究する上で非常に重要であり、私たちがまだこれらのモデルがどのように考え、学習するかを完全に理解していないことは明らかです。そして、彼らがよりスマートでより能力が高くなり、実際に現実世界で物事を成し遂げ始めるにつれて、私たちがこれを早急に解明することが非常に重要です。なぜなら、これらのモデルがどのように考えるかを理解していないことの代償はますます高くなっているからです。
OpenAIはまた、先週ライブストリームを行い、開発者がAIエージェントを構築するのを助けるための新しいツールのローンチを発表しました。これらのツールには、ウェブ検索(エージェントがウェブから最新の回答を取得できるようにする)、ウェブファイル検索(エージェントが大きな文書コレクションから正確な情報を取得できるようにする)、コンピュータ使用(エージェントがウェブQ&Aテストやデータ入力などのタスクをコンピュータで完了できるようにする)などが含まれています。
これとともに、彼らはResponses APIをローンチしました。これは基本的に開発者がウェブ検索、ファイル検索、コード実行などのツールを自分のAIエージェントに直接統合するのをはるかに簡単にするものです。さらに、彼らはAgents SDKを発表しました。これは、マルチワークフローを調整するための新しいオープンソースSDKで、Swarmを改良したものです。基本的に、開発者が独自のAIエージェントを構築および管理するのを容易にする新しいオープンソースツールです。
それは開発者がこれらのエージェントを迅速に設定し、タスクを割り当て、安全に動作していることを確認し、パフォーマンスを簡単にデバッグまたは最適化できるようにします。そのため、OpenAIは開発者が特定のユースケースに合わせた独自のAIエージェントを構築し始めるのを容易にしています。もちろん、これらのエージェントは最初はまだある程度制限されるでしょうが、人々がこれらのツールで何を構築するのか本当に楽しみにしています。一つ明らかなのは、エージェントAIの時代はまだ始まったばかりだということです。
この新しい時代について言えば、ペンタゴンもこれに乗り出し、現在AIエージェントに意思決定と作戦計画における役割を与えることを計画しています。この記事によれば、アメリカ軍はScale AIと契約を結び、AIエージェントが計画と作戦で使用されるようになり、西側の防衛セクターにおいて人工知能に最も顕著な役割を与えています。
これは正直かなり狂っています。軍がまずAIエージェントを使用して、プロセスを合理化したり低レベルの管理タスクを処理したりするだけだと思うかもしれませんが、そうではありません。彼らはAIに本当の責任を与え、決定や作戦戦略に直接影響を与えることを認めることに直接飛び込んでいます。どうなるか見てみましょう。
Googleの新しいロボティクスAIモデルに入る前に、彼らはGemma 3のリリースも発表しました。Gemma 3は、AIアプリケーションの開発を大幅に強化するように設計された強力な新しいAIモデルで、巨大な128kコンテキストウィンドウ、マルチモーダル機能、140以上の言語のサポート、Hugging FaceやAMAなどの人気フレームワークとのシームレスな統合を備えています。Gemma 3は、高度なAIアプリの構築をこれまで以上に簡単でアクセスしやすくします。
さらに、Gemma 3は特に単一のGPUなどの限られたハードウェアでも効率的に実行されるように最適化されており、世界中の開発者にとってのエントリーバリアを下げています。これは視聴者の中にいるかもしれない開発者にとって、もう一つの素晴らしい発展です。
では、Googleの新しいロボティクスモデルについて話しましょう。彼らが発表したように、Gemini 2.0をベースにした2つの新しいAIモデルを導入しており、これらは新世代の役立つロボットの基盤を築くものです。1つ目はGemini Robotics、推論プロセスの一部として物理的なアクションを直接統合できるビジョン言語アクションモデルです。2つ目はGemini Robotics ER、Geminiの実体化された推論能力を活用するビジョン言語モデルです。
これらのモデルが本当に画期的なものであるかを理解する最良の方法は、実際の動作を見ることです。確認してみましょう。
「Gemini 2.0のインテリジェンスを物理的な世界で役立つ汎用ロボットエージェントにもたらしています。役立つためには、ロボットはインタラクティブである必要があり、あなたの行動や声に生きて応答する必要があります。最も複雑なタスクを完了するために器用である必要があり、あなたの3D世界のものを理解するために一般的である必要があります。そして、これらの能力はすべて異なる物理的な形態で動作する必要があります。
私たちは、最も先進的なビジョン言語アクションモデルであるGemini Roboticsでこれらをまとめています。Gemini Roboticsはインタラクティブです。「バナナを透明な容器に入れてくれる?」注目すべきは、物体を動かすと、モデルがリアルタイムで反応し再計画することです。「ブドウを透明な容器に入れてくれる?」私たちのモデルの低遅延は、急速に変化する条件や指示にリアルタイムで応答できることを意味します。同じモデルは、ロボットとライブでコラボレーションできるあらゆる種類のアプリケーションに一般化できます。
Gemini Roboticsは器用です。高い器用さのタスクはロボティクスにおける最大の課題の一つです。「オレンジ色の正方形を折り紙のキツネに折ることができます」「それは楽しそうですね、やってみましょう」「折り紙という言葉は、折るという意味の日本語の「折り」と紙という意味の「紙」から来ていることを知っていましたか」。これらの能力は、Gemini 2.0のあなたの世界の詳細な側面の空間理解によって可能になっています。「キツネの目がどこに描かれるべきかを指摘できます」
最も重要なのは、Gemini Roboticsが一般的であることです。それはGemini 2.0の世界理解を使用して、広範囲の実世界のテストに一般化します。「赤いサイコロを裏返して、緑のサイコロの数字に合わせてくれる?」多くのロボットは事前定義されたアクションを実行できますが、これらの動きは事前定義されていません。ロボットは見ているものと動く方法の両方について推論しています。私たちが尋ねたように、赤いサイコロを合わせる方法を見つけ出します。
そしてこの一般化はさらに進みます。同じモデルは、トレーニングされたことのないこのようなタスクに一般化できます。「バスケットボールを取って、スラムダンクして」これらはロボットが見たことのない物体であることに注意してください。しかし、バスケットボールやスラムダンクなどの概念に関するGemini 2.0の理解を活用することで、ロボットはタスクを理解します。
私たちは現在、次世代のロボットAIエージェントを構築するために協力している信頼されたテスターのプログラムに、より多くのパートナーを招待しています。Geminiを物理的な世界にもたらす方法についての詳細は、deepmoind.google/roboticsでご覧ください。」
私たちは今、これらのロボットが実際に少なくともある程度一般化できるポイントに達していることは明らかです。これが非常に重要である理由は、ロボットが私たちの日常生活で本当に役立つためには、以前に遭遇したことのない状況を処理できる必要があるからです。
例えば、ヒューマノイドロボットが誰かの家に入り、見たことのないオブジェクトに遭遇するとします。事前のトレーニングや特定の指示がなくても、そのオブジェクトとどのように適切に相互作用するかを自律的に理解する必要があります。それが、これらの新しいモデルが目指している種類の一般的なインテリジェンスであり、実世界で生き残り繁栄するために必要な種類の一般的なインテリジェンスです。そして、まだ完全にそこに到達していませんが、確かに日々それに近づいていると感じます。
ほんの数週間前、Figureがヘリックスを発表しました。彼らのヒューマノイドロボットに力を与える新しいAIシステムです。ヘリックスによりFigureロボットは、見たことのない無数の家庭用品に一般化できるだけでなく、ヒューマノイドロボティクスでは初めてとなる協力して作業することもできます。
トレーニング中、Figureロボットは何千もの未知のオブジェクトと成功裏に相互作用し、この強力な一般化能力を明確に示しました。この突破口は非常に重要で、FigureのCEOであるアドコックは、ロボットを家庭に導入するタイムラインを2年間前倒ししたと述べました。彼らは現在、ヘリックスを搭載した何千ものヒューマノイドロボットを工場に出荷し、実際の製造タスクを実行する準備をしています。
そのため、2025年はヒューマノイドロボティクスにとって大きな年になると言っても過言ではなく、このスペースを注意深く見守っていきます。
他のAIニュースでは、マクドナルドがサービス速度を上げるために43,000の店舗でAIを採用する計画です。記事によれば、アップグレードはインターネット接続された厨房機器、AI搭載のドライブスルー、マネージャーがオーダーが正確であることを確認し、機器の問題をシャットダウンする前に予測するのを助けるAI搭載ツールから始まります。
明らかに、大手企業はすでに効率を高め、運営を合理化するためにAIを採用する意欲があります。これは私の見解では、ヒューマノイドロボットの広範な導入がそう遠くないことを示しています。マクドナルドのような企業が現在AIを採用していることは、彼らがすでに高度な技術を実用的なソリューションとして見るのに慣れていることを意味します。そのため、ヒューマノイドロボットは単に論理的な次のステップと見なされるかもしれません。
考えてみてください。一つの大手企業がヒューマノイドロボットを成功裏に統合するだけで、他の企業も素早く追随するでしょう。しかし、あなたはどう思いますか?一般化と推論において私たちが急速に進歩していることを考えると、ヒューマノイドロボットの大規模な導入はすぐそこにあると思いますか?それともまだ何年も先だと思いますか?
ダリオ・アモデイがコーディングの未来について話しているこの驚くべきクリップを紹介する前に、もう一つのお知らせをカバーしなければなりませんでした。それはRea Flash 3のリリースです。彼らが述べているように、「今日、私たちは21億パラメータのモデルであるReca Flash 3の研究プレビューをオープンソース化しています。Reca Flash 3はコンパクトな汎用モデルで、一般的なチャット、コーディング、指示に従うこと、関数呼び出しに優れています。現在のバージョンはOpenAIの01 Miniなどの独自モデルと競合的に動作し、低遅延またはオンデバイスデプロイメントを必要とする多くのアプリケーションを構築するのに適したモデルです。現在、そのサイズカテゴリで最高のモデルです。」
私たちはこれらの小さいが非常に強力な推論モデルをますます多く見ています。このトレンドは最近AIで加速しています。OpenAIの01のような画期的なモデルが導入されると(これは最初の主要な推論モデルでした)、他の企業が素早く小さいが同様に強力なモデルを構築することにつながります。インテリジェンスのコストとアクセシビリティは指数関数的に低下し続けています。
最後に、AnthropicのCEOであるダリオ・アモデイのコーディングの未来についての驚くべき予測を見てみましょう。
「仕事の側面に関して言えば、私はかなりの懸念を持っています。一方で、比較優位は非常に強力なツールだと思います。AIが最も進歩している分野の一つであるコーディング、プログラミングを見ると、私たちが発見していることは、AIがコードの90%を書いている世界からそれほど遠くないということです。私は3〜6ヶ月でそこに到達すると思いますし、12ヶ月後には、AIが基本的にすべてのコードを書いている世界にいるかもしれません。」
正直なところ、現在のAIエージェントの急速な台頭を考えると、彼の予測はそれほど野心的ではないと思います。私の最近のビデオの一つで、OpenAIが今年3つの新しいAIエージェントをリリースする計画について触れたことを思い出すかもしれません。そのうちの一つがソフトウェア開発者エージェントで、月額10,000ドルの価格が予定されているとのことです。
この月額10,000ドルという価格は過剰に思えますが、OpenAIがこのエージェントにもたらすと信じている価値を反映しています。このエージェントが月額110,000ドルの価値があるためには、本当に本当に優れていて、それよりも低い報酬の人間のソフトウェアエンジニアよりも優れている必要があります。
OpenAIがこのエージェントの立ち上げにどれだけ近いかは不明ですが、これらのエージェントは今年後半に予定されていると示しており、これはダリオの予測と一致するでしょう。ソフトウェア開発者にとって確かに恐ろしい時代です。
最後に締めくくるために、前回のビデオに含めるのを忘れた、マイクロソフトからの信じられないほどの発表がありました。マイクロソフトは最近、Dragon Co-pilotを導入しました。これは医療業界初の統一された音声AIアシスタントで、臨床医が臨床文書を合理化し、情報を表示し、タスクを自動化できるようにします。基本的に、このAIアシスタントは患者との会話を聞き、即座にメモを取り、フォローアップの質問をすることができ、今取ったメモや患者の医療記録から直接回答を引き出します。
その目的は、書類作業を劇的に減らし、記録管理を簡素化し、医師が患者により完全に集中できるようにすることです。医師はまた、Dragon Co-pilotを使用して文書を要約したり、紹介状を草稿したり、あるいは予約をスケジュールしたりすることもできます。言い換えれば、24時間365日利用可能な個人アシスタントであり、おそらく従来の人間のアシスタントよりもはるかに速く、潜在的にはより正確に操作します。
個人的には、このような技術は医療現場で不可欠になると思いますが、皆さんはどう思いますか?Dragon Co-pilotのようなAIアシスタントは医療の未来でしょうか?それとも潜在的な問題が予想されますか?下のコメント欄で考えを教えてください。
そして、いつものようにそのいいねボタンを押し、まだ登録していない方は購読してください。次回また会いましょう。


コメント