
7,689 文字

OpenAIがGPT-4oの更新版をリリースしました。特にコーディングにおいて、以前よりもかなり性能が向上しているようです。一方、Anthropicはクロードの内部思考についてより深く掘り下げましたが、彼らが発見したことは実際に驚くべきものかもしれません。そして最後に、H&Mが広告用にモデルのAI生成デジタルクローンを使い始めました。詳しく見ていきましょう。
OpenAIによるGPT-4oアップデートの発表についてです。何が変わったのでしょうか?詳細な指示、特に複数のリクエストを含むプロンプトに対してより良く従えるようになりました。複雑な技術的問題やコーディング問題に取り組む能力が向上し、直感力と創造性が改善され、もちろん絵文字の使用も少なくなりました。
これらはマイナーな更新のように聞こえるかもしれませんが、実際にはかなり大きな変更です。ここでArtificial Analysisのグラフを見ると、アップデート後のGPT-4oが飛躍的に向上していることがわかります。MML Pro、GPQ A、AMY Life、Code Benchなど7つの人気ベンチマーク全体の平均で、GPT-4oはClaude 3.7 SonnetやGemini 2.0 Flashよりも優れています。推論モデルではないもので、それを上回っているのは最近更新されたばかりのDeep Seek V3とGrok 3だけです。
このアップデートの最も印象的な部分は、コーディング能力の向上でしょう。GPT-4oは現在、少なくともベンチマークによれば、推論モデルではないモデルの中ではコーディングに最も優れています。総じて、ネイティブな画像生成機能も追加されたことを考えると、これはかなり大きなアップデートでした。
Xで見かけた別の投稿では、OpenAIが画像エディターをリリースしたと主張していました。画像の一部を選択して、物を追加、削除、または変更できるようになったとのことです。現在は一部のユーザーにのみ提供されているとのことですが、さらに調査したところ、この機能は実はしばらく前から一部のユーザーに提供されていたようです。なぜか私は見たことも聞いたこともありませんでした。もし皆さんが使ったことがあれば、コメントで教えてください。
いずれにせよ、GPT-4oにネイティブな画像生成機能が加わったことで、この機能が新しくなくても、おそらくずっとうまく機能するようになっています。このような画像編集は、ほんの数年前には非常に難しいか、Photoshopに熟練していない限り不可能だったことです。そして今では、ボタンを数回クリックするだけでできるようになりました。私たちがすでにどれだけ進歩したかは驚くべきことです。
進歩といえば、Pabsが「フラッシュバック」という新機能を導入しました。若い頃の自分の画像と現在の自分の短いビデオをアップロードすると、その2つを美しく融合させたビデオが得られます。かなりクールな機能です。いつものように、試してみたい方のためのリンクは説明欄にあります。
今週はIdiogram 3.0もリリースされました。Idiogramはしばらく前からAI画像生成分野のトッププレイヤーであり、彼らの最新の3.0モデルはその理由を証明しています。彼らはこれを「見事なリアリズム、一貫したスタイリング、そして創造性における大きな飛躍」と表現しています。また、非常に高速ですが、最良の部分は全ユーザーに無料で提供されていることです。彼らによれば、プロのデザイナーによる評価では、幅広いプロンプトにわたって、一貫して先導的な画像モデルよりも優れているとのことです。グラフを見ると、ImageGen Flux、さらにはRecraftよりも先行していることがわかります。
このリリースで導入された新機能の1つは「スタイル参照」でした。好みの特定のスタイルや美学を持つ参照画像をアップロードすることで、Idiogramは同じ外観で任意の画像を生成できるようになりました。これはGPT-4oのネイティブ画像生成に非常に似ていますが、私の注目を集めたのは、素晴らしいロゴを生成する能力です。Idiogramによれば、最小限のプロンプトで、プロフェッショナルなロゴ、ポスター、ランディングページのコンセプトなどを生成できるようになりました。マジックプロンプトが重労働を担当し、さらに一歩進んで、このカフェ広告のような完全な広告を作成することもできます。これは本当にデジタルデザイナーにとって厳しい一週間だったのではないでしょうか。
少し話題を変えて、「Video T1: Test-Time Scaling for Video Generation」というタイトルの新しい研究論文について簡単に話したいと思います。ご存じのように、テストタイムスケーリングのこの新しいパラダイムは、OpenAI O1やO3 mini、Deep Seek R1などの「推論モデル」と呼ばれるものの台頭につながりました。しかし、このテストタイムスケーリングの新しいパラダイムをビデオ生成に適用したらどうなるかと考えたことはありますか?
これはまさに研究者たちが解明しようとしたことであり、彼らが考案したのはかなり野生的なものです。「フレームのツリー」または「Toof」と呼ばれる新しい方法を提案しました。基本的に、すべてのフレームを一度に生成する代わりに、Toofはビデオを枝分かれさせ、一度に1フレームずつ生成して評価します。また、テスト時に軽量の検証器を使用して、最良の経路を選び、弱い経路を剪定します。結果として、モデルを変更することなく、より高品質のビデオが得られます。
ご覧のように、Toofは一貫して他の方法よりも優れています。ビデオの品質、プロンプトとの一致度(正確さ)、あるいは一対一の比較で人々が好むものなど、どの面でも優れています。また、必ずしも最終的なパフォーマンスを向上させるわけではありませんが、はるかに少ない計算能力でパフォーマンスを一致させるため、効果的なだけでなく、はるかに効率的で高速です。私は、これから数ヶ月で、予想外の分野での推論時間スケーリングについてもっと耳にすることになると思います。
ここでAnthropicのAIモデル、Claudeの心の中に関する新しい研究について話さなければなりません。これはかなり驚くべきものでした。彼らが述べているように、「AIモデル内部で何が起きているかを調査するための顕微鏡を構築し、それを使ってClaudeのしばしば複雑で驚くべき内部メカニズムを理解する」ということです。ここに、彼らが達成したことを詳細に説明する短いクリップがあります:
「AIはブラックボックスのようだとよく耳にします。言葉が入り、言葉が出てきますが、なぜそれを言ったのかわかりません。それはAIがプログラムされるのではなく、訓練されるからです。訓練中に彼らは問題を解決するための独自の戦略を学びます。AIをできるだけ有用で信頼性が高く安全なものにしたいなら、ブラックボックスを開けて、なぜそのようなことをするのかを理解したいと思います。しかし、ブラックボックスを開けても、見えるものをどう解釈すればいいのかわからないので、あまり役に立ちません。脳を調査する神経科学者のように考えてください。内部で何が起こっているかを理解するためのツールが必要です。モデルがその心の中のすべての概念をどのようにつなげ、それらを使って質問に答えるかを知りたいのです。
今、私たちはAIモデルの内部思考プロセスの一部を観察する方法を開発しました。これらの概念がどのように接続して論理回路を形成するかを実際に見ることができます。Claudeに詩の2行目を書くように頼む簡単な例を見てみましょう。詩は『彼はニンジンを見て、それをつかまなければならなかった』で始まります。私たちの研究では、Claudeは行の最初の部分を書く前からすでに韻を計画していることがわかりました。Claudeは「ニンジン」と「つかむ」を見て、「ウサギ」という単語を考えます。これはニンジンと意味が通じ、「つかむ」と韻を踏む単語です。そして、行の残りの部分を書きます:『彼の飢えは飢えたウサギのようだった』。
モデルが「ウサギ」という単語について考えていた場所を見ると、詩を展開するための他のアイデアが見えます。「習慣」という単語もそこに存在していることがわかります。私たちの新しい方法により、この回路に介入することができます。この場合、モデルが詩の2行目を計画している時に「ウサギ」を抑制し、再びClaudeに行を完成させるよう頼みます:『彼の飢えは強力な習慣だった』。モデルが新しい詩の始まりを取り、それを完成させるためのさまざまな方法を考え、それらの完成に向けて書いていくことができることがわかります。
最終的な行が書かれるはるか前にこれらの変更を引き起こせるという事実は、モデルが実際に前もって計画を立てているという強力な証拠です。この詩の計画の結果は、私たちの論文の他の多くの例と同様に、モデルが本当に自分なりの方法で言うことについて考えている世界でのみ意味をなします。神経科学が病気の治療や人々の健康向上に役立つように、私たちの長期的な計画は、AIに対するこの深い理解を利用して、モデルをより安全で信頼性の高いものにすることです。モデルの心を読むことを学べば、それが私たちの意図どおりに機能していることをはるかに確信できます。」
これは本当に魅力的です。私たちは文字通り、これらのLLMの内部動作を明らかにし始めています。これは以前は知られていないか、少なくともよく理解されていませんでした。ここに、Claudeが基本的な数学の問題「36+59」をどのように分解するかを示す別の例があります。
ご覧のように、解くために2つの別々の経路を取っています。上の経路では、モデルは全体的な大きさを推定し、数字を「30〜70」や「55〜64」などの大まかな範囲にグループ化し、合計を近似しています。これにより、この場合は「88〜97の範囲」のどこかという大まかな合計が得られます。そして下の経路は精度を扱います。「6+9」が5で終わるなど、最後の桁に焦点を当て、それを用いて上の経路からの近似を修正します。最後に両方の経路が合流して、正確な答え「95」を生成します。
私にとって、これは明らかに問題を解く方法ではありません。理由もなく複雑すぎるように思えますが、Anthropicが指摘しているように、Claudeは計算機として訓練されたわけではなく、テキストを予測するように訓練されました。そのため、私たちのように数学を学ぶのではなく、基本的に言語のパターンを使って問題を解決する方法を自ら学びました。公式を暗記するのではなく、独自の内部ロジックを構築することで正解を得る方法を発見したのです。これは本当に驚くべきことであり、このモデルが他に何を独自に解明しているのか疑問に思わせます。また、他のどの分野でこれらのモデルが正しい最終的な答えに到達していても、それを奇妙で複雑な方法で行っているのでしょうか。
このXスレッドには他にもいくつかの興味深い例がありました。時間の都合上、すべてを説明することはしませんが、興味のある方は説明欄のリンクをチェックしてください。
Anthropicに関する他のニュースでは、彼らはAnthropic Economic Indexからの2番目の研究レポートをリリースしました。Anthropic Economic Indexは基本的に、現実世界で人々がClaudeをどのように使用しているかについての詳細なレポートです。最初のレポートでは、Claude 3.5 Sonnetの使用状況を調査し、基本的に使用事例の大部分がコーディング業界からのものであるとわかりました。2番目のレポートでは、彼らの最初のハイブリッド推論モデルであるClaude 3.7 Sonnetの使用状況を調査し、以下が更新された結果です:
コンピュータおよび数学的使用事例(基本的にはコーディング)の3%増加、芸術、デザイン、エンターテイメントのわずかな減少、教育のわずかな増加、そして管理職および社会科学での比較的変化なし。ここには特に目立つものはありません。
しかし、増強(Augmentation)対自動化(Automation)を見ると、Anthropicは人々がClaudeを学習に使用することがいくらか著しく増加していることを発見しました。仕事を代替する(自動化)と仕事を支援する(増強)の間でまだ基本的に50/50の分割でありますが、明らかなのは、人々がモデルを使ってより多く物事を説明させていることです。
私はこの傾向が続き、短期的にはおそらく加速する可能性が高いと思います。個人的な経験からすると、日常的にこれらのモデルを使用していると、複雑な問題をより簡単な用語に分解し、時々関連する類推を提供することに非常に優れていることがわかります。学校時代にAIがあったらどうだったか考えることがありますが、文字通りすべてに使用していたでしょう。学校に対する文字通りのチートコードです。
他のAIニュースでは、アリババがQwen 2.5 Omni 7Bというオープンソースのマルチモーダルモデルを発表しました。実際に2つのモデルの組み合わせであるこのモデルは、「ThinkとTalkerアーキテクチャ」と呼ばれるセットアップを使用しています。Thinkerは脳のようなもので、テキスト、音声、画像からの情報を処理、理解し、それを何が起きているかの高レベルな考えと言いたいテキストに変換します。Talkerは口のようなもので、Thinkerが与えるものを取り、それをリアルタイムで話し言葉やスピーチのトークンに変換します。
Thinkerはトランスフォーマーモデルに基づいており、音や画像を処理するための追加部分があります。Talkerもトランスフォーマーモデルですが、音声生成を処理するように構築されています。彼らは過去のコンテキストをすべて共有して密接に協力するため、システム全体が再び1つのモデルのように機能します。
これがベンチマークです。Qwen 2.5 Omniは70億パラメータのモデルであり、外部の巨大なモデルと比較すると非常に小さいですが、全ての分野で競争力のあるパフォーマンスを提供しています。Omnibenchでは、CVやMMAなどの音声タスクでGemini 1.5 Proを上回っています。Qwen 2 Audioのような専用モデルと肩を並べています。これらは特に音声を生成するために設計されたモデルです。また、画像やビデオの理解においても堅実な地位を保ち、音声生成においては人間レベルのパフォーマンスとほとんど区別がつきません。このスケールのオープンソースで完全にマルチモーダルなモデルとしては、本当に印象的です。
アリババのQwenは、わずか1日後にQvQMaxと呼ばれる別のモデルもリリースしました。これは視覚的推論モデルで、画像やビデオについて考えたり推論したりできます。これは新しいことではなく、O1はすでにこれを行うことができますが、彼らはより研究に焦点を当てています。彼らは実際に思考の連鎖を見ることができ、中国のすべてのモデルと同様に、Apache 2.0ライセンスの下でオープンソースです。現在、中国からは2日に1回の頻度で新しい主要なオープンソースモデルがリリースされているようで、本当に驚くべきことです。
このニューヨークタイムズの記事では、H&Mがモデルのデジタルツインを使用することを模索していると報告しています。これはすでにいくつかの議論を巻き起こしています。記事が指摘しているように、「人工知能によって生成された画像の使用が広がるにつれて、批評家たちは、モデルや、写真撮影の労働力を構成するヘアスタイリスト、メイクアップアーティストなどの他の独立請負業者への影響について懸念を表明している」とのことです。
このような反発があるのは驚くことではありませんが、これはAIが労働に影響を与えるより大きなトレンドを浮き彫りにしています。すでにアーティスト、俳優、そして今はモデルにも影響を与えており、影響を受ける産業の数は拡大するばかりです。これらの産業は、記事が指摘しているように、間接的にあるいは直接的に他の産業にも影響を与えます。何が必要なのかはわかりませんが、私たちは来るべきものに本当に準備ができていないようです。
ところで、これがモデルのデジタルツインです。どちらがそうか当ててみてとは言いませんが、一応下に書いてあります。いずれにせよ、衣料品のウェブサイトでこのような画像を見ても、疑問を持つ理由はまったくないでしょう。
続いて、ByteDanceがInfinite Uを発表した中国からのニュースです。Infinite Uは、あなたの写真を撮り、さまざまなAI生成シーンにあなたを配置するAIモデルです。基本的に、異なる場所であなたの無限の数の写真を作成します。そして、ご覧のとおり、かなりリアリスティックに見えます。
これは先週取り上げ忘れたものですが、アリババのLHMです。これは2D全身画像を、アニメーション可能な3D人間に変換するAIモデルです。これは実際にちょっと怖いですね。私たちは公式に、誰かがあなたの写真と、あなたの話している短いスニペット(これは本当に取得するのが難しくない)を必要とするだけで、あなたが何でも言っているように完全に偽造されたビデオを作成できるポイントに到達しました。
AIビデオ生成が初期段階にあったとき、これは頻繁に話されていた大きな懸念事項でしたが、今はおもしろいことに、そうではなくなりました。
最後に、OpenAIに関するいくつかの新しい数字について話しましょう。記事のタイトルにあるように、OpenAIはソフトバンクが主導する400億ドルの資金調達ラウンドを最終段階に進めています。ちなみに、これは歴史上最大のプライベート資金調達ラウンドとなるでしょう。また、記事では、OpenAIは、有料の人工知能ソフトウェアの強さに支えられ、今年の収益を127億ドルへと3倍以上に増やすことを期待していると述べています。
OpenAIは近い将来に減速するようには見えず、実際に加速しているようです。
以上が今日のAIニュースです。視聴いただきありがとうございました。いつものように、このような将来のAIニュースを最新の状態に保ちたい場合は、必ず購読ボタンをクリックしてください。


コメント