
7,153 文字

皆さん、Anthropicが推論モデルをリリースする準備を整えており、YouTubeもVeo 2を使用したショート動画作成ツールの提供を開始しました。また、LLMの推論能力を説明しようとする研究もいくつか行われています。何が起きているのか見ていきましょう。
いつも通り、いいねを押してくださった皆さん、チャンネル登録してくださった皆さん、そして特にこの人工知能チャンネルをスポンサーしてくださっているメンバーの皆さんに感謝申し上げます。
この研究は、LLMの長期的な推論能力の背後にある重要な要因を明らかにしています。現在、人工知能の使用は推論モデルの使用とほぼ同義になっていますね。これらのモデルの方がはるかに優れた性能を発揮します。
系統的な調査により、推論モデルの長い思考連鎖がどのように生成されるのかという方法が明らかになりました。これは非常に興味深いですね。なぜなら、推論モデルは基本的にベースモデルの進化形だからです。
IN AIのチーム、清華大学とカーネギーメロン大学の研究者たちは、AIモデルが長い思考連鎖を通じて作業する能力をどのように発展させるのかを調査しました。彼らの系統的な研究では、監督付き微調整(SFT)と強化学習(reinforcement learning)を使用して、この能力の背後にある主要な要因を特定しました。
研究から4つの重要な洞察が得られました。第一に、監督付き微調整はトレーニングをより効率的で直接的にしますが、必須ではありません。これはDeepMindがR10モデルで発見したことを裏付けています。研究チームは、LLAMA 3.18bとQwen 2.57bを使用して、長短の推論連鎖のデータでトレーニングを行いました。
監督付き微調整を長い思考連鎖で行うと、パフォーマンスが向上するだけでなく、その後の強化学習による改善もより効果的になることが分かりました。これは一見矛盾しているように見えますが、実際にはそうではありません。監督付き微調整は必須ではないものの、実施すると次のステップが改善されるということです。
第二に、強化学習のトレーニング中により多くの計算能力を使用すると推論能力は向上する傾向にありますが、これは保証されません。推論連鎖の長さは強化学習トレーニング中に常に一定の形で成長するわけではないため、一貫した改善には適切な報酬設計が重要になります。
これは当たり前のように思えるかもしれません。結局、たくさん話すことが正しいことを話していることを意味するわけではありません。時には少なく話す人の方が要点を的確に捉え、より早く正解にたどり着くことがあります。だからこそ、正解する人と、より早く正解する人に報酬を与えるための強化学習が必要なのです。
第三に、信頼できる報酬シグナルを大規模に得ることが、成功する強化学習トレーニングの鍵となります。これは人工知能と動物の両方にとって強化学習を面白いものにする部分です。期待する行動に対してどのような報酬を与えるかの選択は、異なる文脈で異なる報酬を与えることで大きな違いを生み出します。
チームはWeb Instructデータセットでテストを行い、不完全な解決策を含むウェブから抽出したデータを使用して、これらのシグナルを増強する方法を探りました。異なる検証方法を比較した結果、より短い回答をフィルタリングする際にルールベースの検証が最も効果的であることが分かりました。
これは興味深いですね。時には求める答えが短いものであり、時には長い文章になることもあります。注目すべきは、慎重に検証されたデータでトレーニングされたモデルと比較して、ノイズの少ない多様なデータを使用することが、特に珍しいケースの処理に非常に価値があることが証明されたことです。
これは、一つの正確で確実な答えを持つよりも、多少あいまいな回答がたくさんある方が良いということを意味します。人工知能は、すべてを完璧に正しく答えることよりも、適応することを好むようです。
第四に、基本モデルにはエラー修正などの重要な機能がすでに含まれていますが、これらのスキルを複雑なタスクに適用するために強化学習を使用するには、かなりの計算リソースが必要になる可能性があります。
これは強化学習の古くからの問題です。多くのステップがある複雑なタスクでは、それらの多くのステップの中で、どのステップが最終的な答えに最も貢献しているのかを正確に知ることが難しいのです。これは今に始まった問題ではありません。
これを見ると、より大きなモデルがまだ重要であることがわかります。私たちの夢は8bモデルで超知能を実現することですが、それは実現しそうにありません。研究によると、解決策を二重チェックするなどの一部の行動は、おそらくオンラインフォーラムでの人間の議論から、事前トレーニング中に学習される可能性があることが示唆されています。
面白いことに、チャットボットはフォーラムを見て私たちの行動を学習しており、時々人々がダブルチェックを行うのを観察しています。強化学習は主に、モデルが事前トレーニング中にすでに獲得したスキルを再結合するのに役立つようです。
これは心理学で研究されている創発的行動と関連があり、非常に興味深いです。行動AとBがすでにあり、行動CがAとBの組み合わせである場合を想像してください。ここで彼らが言っているのは、AとBがすでに準備されていれば、Cはすぐに現れるということです。なぜなら、人工知能はすでに前のステップを知っているからです。
チームは、モデルサイズが小さいモデルでより洗練された推論能力を開発する主な制約であり続けていると考えています。将来的には、より大きな基本モデルで強化学習をテストすることを検討していますが、そのような実験に必要なオープンソースのインフラはまだ開発中です。
つまり、8bモデルで研究がうまくいっているとしても、630bの大きなモデルのトレーニングに移行するのは問題になるでしょう。より多くのメモリと、より高価なトレーニングアーキテクチャが必要になります。小さなモデルでも推論は可能ですが、大きなモデルほど優れた推論はできないでしょう。
ローカルコンピュータで推論モデルを使用している方は、その効果についてコメントしてください。
次のニュースです。YouTubeがGoogle Veo 2を使用してショート動画のAI生成機能を導入します。Veo 2は基本的にOpenAIのSoraのGoogle版ですが、ユーザーの反応はVeo 2の方が1000倍良く、使用した人々からのフィードバックもはるかに興味深いものでした。
ショート動画を生成できるようになることを想像してみてください。YouTubeはGoogleのVeo 2ビデオ生成モデルをショート機能に追加し、クリエイターがAIで生成されたクリップや背景を自分のクリップに追加できるようにしています。
これは既存のDream Screen機能をベースにしており、2つの機能が追加されています。ユーザーは今やAIで生成された背景をショート動画用に作成でき、既存のコンテンツに組み込む独立したビデオクリップを作成することができます。これは私がやりたいことであり、おそらく誰もが望んでいることでしょう。
ビデオ生成は、スタイル、レンズの種類、フィルム効果を指定するオプションを備えたシンプルなテキストプロンプトを通じて機能します。YouTubeによると、このシステムは以前のバージョンよりも高速にビデオを生成するとのことです。
彼らはカフェインを誤って摂取して巨大化した犬のクリップを例として示していますが、これは人工知能を使用したものではないようです。ショートエディタで直接いくつかの編集が可能になる新機能のデモンストレーションのようです。
YouTubeはAIで生成されたすべてのコンテンツに目に見えないsyntID透かしを追加し、AIで生成されたものであることを明確に識別します。これらの機能は、アメリカ、カナダ、オーストラリア、ニュージーランドでリリースされ、その後より広範な展開が計画されています。つまり、ブラジルではまだ利用できません。
ショート以外のビデオクリップについて、GoogleのVeo 2は4K解決度までのビデオを作成でき、Googleによると数分まで延長可能です。これはVideo FXやVertex AIプラットフォームでも利用可能ですが、Video FXバージョンは現在ウェイトリストに登録する必要があり、まだ誰もが使用できるわけではありません。Vertex AIについては有料で、まだテストしていません。
1000以上のプロンプトのテストで、ユーザーは一貫してVeo 2のパフォーマンスを、OpenAIのSora Turboを含む競合他社より優れていると評価しました。これは12月に両ツールがリリースされて以来のソーシャルメディアでの全般的なフィードバックと一致しています。
他のAIビデオジェネレーターと同様に、Veo 2も複雑なシーン、動き、基本的な物理法則の扱いに苦心しています。Googleのような企業は最終的にこれらのモデルを使用して包括的な世界モデルを作成することを望んでいますが、現在の技術ではより短いクリップやエフェクトに限定されており、当面はYouTubeショートが自然な適用先となっています。
これは私にとって完全に理由が通ります。生成AIをより小さく、より制御された環境で使用すること、15秒程度の短い動画に使用することは理にかなっています。
AnthropicがAI推論機能を備えたハイブリッドクラウドLLMを準備中です。12月と1月にあらゆる企業から多くの発表があった中で、Claudeは基本的に何も発表していませんでした。しかし、突然彼らは何かをリリースする準備をしているようです。
The Informationによると、Anthropicは従来の言語モデルの機能と高度な推論機能を組み合わせた新しいAIモデルのリリースを準備しています。このモデルは企業向けアプリケーションに焦点を当て、数週間以内に利用可能になる予定です。
このタイミングは、OpenAIがGPT-5を数ヶ月以内にリリースすると発表したことと一致しています。GPT-5は標準的な言語モデルの機能にomモデルの推論能力を組み込んだシステムになるとのことです。このトピックについて詳しく説明した私の動画をまだ見ていない方は、ぜひご覧ください。
興味深いことに、OpenAIはA3推論モデルを個別にリリースしないことを決定しました。両社ともこれらのハイブリッドモデルに向けて戦略を調整しています。従来の言語モデルをスケールアップし、より多くのデータとパラメータを追加することは収穫逓減を示しているためです。
すべての人が行き詰まっているように見えます。OpenAIは2023年3月のGPT-4以来、大幅に改善された言語モデルを導入していません。AnthropicもOpus 3.5主力モデルを無期限に延期しました。
推論モデルはコーディングや数学のような明確な正誤のある課題で大幅に優れたパフォーマンスを発揮する可能性がありますが、文章作成や創作、トレーニングデータの分布外での新しい知識の獲得といった分野での全体的なパフォーマンスをどのように向上させることができるのか、またそれが可能かどうかはまだ明確ではありません。
これは至る所で繰り返されています。数学では答えが明確で、強化学習に役立つため改善できるが、実際には私はこれらの推論モデルを文章作成タスクにも使用しており、うまく機能しています。モデルがいくつかのアイデアについて考え、テキストに含まれるべきでない概念を見つけて除外するため、これは理にかなっています。
時々、明確で正しい答えが必要というこのような考えは、ジャーナリスティックなオウム返しのようになり、皆が繰り返し言い続けますが、必ずしも強化学習のトレーニング時に実際に起こっていることとは限りません。
数学のように2が答えで、それ以外の答えはないという明確で正しい短い答えがあることは良いことですが、それは文章の中で少し考えてパラグラフを改善できないということを意味するわけではありません。
Anthropicの新モデルの重要な特徴の一つは、可変リソース割り当てです。ユーザーはシンプルなスライダーコントロールを通じて、各タスクにモデルがどれだけの計算能力を使用するかを調整できます。これは非常に良い機能ですね。時にはより多くの思考が必要で、時にはそれほど必要ない場合もあります。
最も低い設定では、モデルは思考連鎖の生成なしで標準的な言語モデルとして機能します。現在、OpenAIは推論モデルの事前定義された3つのレベルにユーザーを制限しています。これは普通のことだと思います。重要度の低いものには少し推論し、記事やプレゼンテーションを書く際にはより長い推論を行いたい場合もあるでしょう。すべては状況に応じて変わります。
The Informationの情報源によると、初期のテストではこのモデルが実践的なプログラミングタスクで良好なパフォーマンスを示しています。あるユーザーは、数千のファイルを含む複雑なコードベースをOpenAIのO3ミニモデルよりも効果的に処理し、最初の試行でより信頼性の高い機能的なコードを生成すると報告しています。
これは推論モデルについてよく言われることです。最初の試行で正解しない場合、2回目の試行は状況を悪化させるだけです。OpenAIのモデルは学術的なプログラミングタスクで優位性を維持しています。
この学術的な部分は興味深いですね。OpenAIは人類の進歩に役立つAIの開発に力を入れているように見えます。ここで言う進歩とは、人類の幸福のためではなく、人類の知識を前進させることを意味します。
これがサム・アルトマンがA3ミニについてとても気にしている理由だと思います。AIが自律的に科学的思考を前進させる最小限の目標を達成できるようにすることで、このサイクルを完結させたいのでしょう。これを達成することで社会は進化する自由を得られ、特に彼の会社に価値をもたらすことになります。
彼がこれを販売するとは思いませんが、間違いなく世界レベルで技術的進歩を生み出すことになるでしょう。これは非常に奇妙なことです。
The Informationによると、AnthropicはAPIビジネスの大幅な成長を予測しています。Anthropicは2027年までに最大345億ドルの収益を見込んでおり、基本シナリオでは120億ドル、これは2025年の現在の予測である37億ドルからの大幅な増加です。
しかし、これらの数値はAIの進化と需要の増加、価格の変動に応じて変わる可能性があります。同社は特にAPIマーケットを支配したいと考えており、2027年までにOpenAIの3倍の収益を見込んでいます。これは、Anthropicが初めて利益を得ることを期待している年でもあります。
スタートアップのサイクルを追跡したことがない人のために説明すると、まさにこの通りです。技術とアプリケーションを選び、投資を行い、毎月支出が収入を上回る状態から始まります。将来のその技術の影響に基づいて企業価値評価が行われ、OpenAIの場合は3000億ドルと評価されています。
これは、時間とともに損失が減少し、ある時点で収支が均衡に達し、5年から10年、15年の中長期的には実際に3000億ドルに到達することを意味します。
AnthropicはAIアシスト開発ソフトウェアの分野で ground を獲得しています。投資家の分析によると、同社の市場シェアはSonnet 3.6モデルのおかげで12%から24%に倍増し、一方でOpenAIのシェアは50%から34%に減少しました。
これらの数字は興味深いですね。Anthropicが12%から24%に上昇したということは、誰かから12ポイントを奪ったことになります。OpenAIが50%から34%に下がったとすると、仮にAnthropicがここから12ポイントを奪ったとしても、38%から40%程度になります。つまり、ここには少なくとも4%が不足しており、おそらくDeepMindに流れているのでしょう。彼らもかなりの市場シェアを獲得しています。
AnthropicのClaudeを使用している方は、その理由についてコメントしてください。私の観察では、Claudeを使用している人のほとんどは、実際にチャットよりもプロフェッショナルな用途で使用しています。チャットボットやアシスタントの作成に使用しているのです。
Claudeの信頼性と知性は非常に優れており、テキスト生成に特に優れています。最前線でAIを扱い、顧客向けに製品を作っている多くの人々が長らくClaudeを好んで使用しています。
しかし、一般のユーザーに関しては、ChatGPTとDeepMindの方が好まれているようです。この2つは、より一般的で幅広い用途に対応しているためです。
これについてのあなたの考えをコメントしてください。このようなビデオを続けて見たい方は、メンバーになってチャンネルをサポートしてください。メンバーはWhatsAppグループへのアクセスと動画の先行視聴が可能です。いいねもお願いします。


コメント