
8,118 文字

AI企業の価格競争が激しさを増しているため、AI価格は下がる見通しです。また、MicrosoftはWordにネイティブAIを使った自動化機能を導入し始める予定のようです。今何が起きているのか見ていきましょう。
いつものように、いいねをくださった皆様、チャンネル登録してくださった皆様に感謝します。このAIチャンネルをサポートしてくださっているメンバーの皆様には特別な感謝を。
興味深い展開が起きています。中国のテクノロジー大手アリババのクラウドコンピューティング部門が、AI製品の価格を最大85%引き下げることを発表しました。最大の値引きは、CNBCによると、そのビジュアル言語モデル(VL)に適用されるとのことです。
これは、アリババクラウドが大幅な値引きを開始し、AIの利用をより手頃な価格にすることを意味します。中国のテクノロジー企業giants、アリババ、テンセント、バイドゥ、JD.com、ファーウェイ、TikTokの親会社バイトダンスは、過去1年半で大規模言語モデルをリリースしており、製品の差別化を図るため、西側で起きているのと同様の価格戦争に巻き込まれています。
これは非常に興味深い展開です。すでに一部の人々は、AIモデルを持っているだけでは大きな違いを生まない時代が来ると予測していました。なぜなら、いずれモデルは似たような性能になり、テクノロジーは平準化され、テレビのように単にブランドで選ぶようになるからです。しかし、この場合、使用量に応じて料金を支払うため、最も安価なAIホスティングサービスを提供する企業が勝者となり、これは私たちや世界中の人々にとって価格低下をもたらすでしょう。
この記事は特に中国について言及していますが、これはAWS、Azure、Google Cloudなど、AIサービスを提供している全ての企業でも同様に起こるでしょう。特にAzureやAWSなどのサービスを使用する場合、あらゆる種類のAIサービスを利用できるため、一つのブランドに限定されません。
西側での価格戦争は、OpenAIが大幅な価格引き下げを発表し、Googleが2日後にGeminiモデルの価格を最大78%引き下げたことで8月に激化しました。両社は基本的なタスク用により安価な簡易モデルもリリースしています。
これは本当です。GPT-4 Allのミニモデルが最初にリリースされた時点で、そのモデルが非常に安価であることは明らかでした。基本的に自由に使用でき、価格が非常に低いため、ほとんど無料同然です。使えば使うほど使っても、請求額は常に非常に安価です。そして今や誰もが安価なモデルを持っているため、状況はより面白くなってきました。
Anthropicの戦略はより微妙です。小規模なHaikoモデルの価格を引き上げて優れたパフォーマンスに賭ける一方で、主力モデルのOpusの価格の一部でSonnet 3.5モデルを導入しました。これは興味深い点です。Anthropicは価格を最も変更していない企業の一つで、高価格を維持しようとしている企業の一つであり、最も高価なAIの一つです。これは理にかなっています。なぜなら、より一貫性のあるAIモデルを提供しており、ユーザーの評価のほとんどが非常に肯定的だからです。
SonnetがOpusの多くのタスクで同等かそれ以上のパフォーマンスを発揮するため、これは事実上の大幅な価格引き下げとなります。もはや顧客がOpusのプレミアム価格を支払う理由を見出すことは少なくなっています。
その通りです。ほとんどの場合、私たちは低性能なモデルを使用することができ、それらが対応できない場合でも、少し努力すれば高性能モデルのパフォーマンスに匹敵する結果を得ることができます。より高価な価格を正当化するために、AIモデルには明確な競争優位性、投資家が「堀」と呼ぶものが必要です。しかしGPT-4のデビュー以来、改善は主に漸進的なものにとどまっています。
さらに状況を悪化させているのは、MetaのLlamaのようなオープンソースモデルが、ますます高性能で計算効率的になっていることです。私も同じように感じています。誰もが同じような水準にあり、進歩はそれほど大きくありません。O3や推論モデルの方向での進歩は、GPT-4 AllやCloud Sonnetのような基本モデルを使用し、それを改良することを意味します。反射モデルは基本的に、問題についてより長く考え、より長く推論しますが、基本モデルは本質的に同じです。
中国のスタートアップYi-ad Psicは最近、比較的控えめな投資でGPT-4とClaude-3のパフォーマンスに匹敵する成果を示し、この現実を実証しました。これは昨年末に大きな注目を集めました。2025年の新年最初の動画であることを覚えておいてください。彼らは競争力のあるAPI価格を提供しているだけでなく、モデルをオープンソースとして公開しています。
これは多くの人々の注目を集めました。多くの人々が、Y-Psicは実際にはChatGPTだとコメントしていましたが、そうではありません。ChatGPTはオープンソースモデルではなく、彼らはコードを公開し、Y-Psicは非常にコンパクトで効率的です。
興味深いことに、OpenAIはChatGPT Proの購読を通じて利用可能な、より高性能なA1モデルでプレミアム価格を試験的に導入していますが、まだその価値を証明する必要があります。Googleは少なくとも当面は、同様のプレミアムサービスを提供する予定はないと述べています。
実際、月額200ドルという価格は全く意味がありません。私はそれを見るたびに考えます。なぜ200ドルを支払って、20ドルの購読を10回分に相当する金額を支払う必要があるのでしょうか。20ドルの購読を10回購入して、10の異なるサービスを購読する方が合理的です。ChatGPTを9回購読して、9つの異なるアカウントを使用する方が理にかなっています。使用制限に達することはなく、自分でコントロールできる上に、0ドルの割引が得られるのです。この価格設定は非常に奇妙です。
その間、OpenAIは標準のChatGPTサービスに対して異なる戦略を描いているようです。段階的な価格引き上げにより、5年間で費用が2倍になる可能性があり、2030年までに1,000億ドルの収益を達成することを目標としています。Microsoftとの契約によれば、これによりOpenAIは汎用人工知能(AGI)を発明したと主張することができます。
このパズルのピースが組み合わさってきていますね。彼らは実際に財務目標を達成しようとしており、この財務目標はMicrosoftと契約で定められています。今や彼らはこの目標を達成するために戦略を練る必要がありますが、中国との競争で誰もが価格を引き下げている中、これらの数値を達成することは不可能になり始めています。これは私たちユーザーにとっては良いニュースです。
D Informationによると、OpenAIの将来のはるかに強力なモデルは、月額最大1,000ドルの購読料を必要とする可能性があり、この収益目標とそれに伴うAGI宣言への道を加速する可能性があります。
もし人工知能が人々を代替し始めるなら、その価格は人の給与と同程度になると私は考えています。AIが人の仕事をこなせるようになれば、その価格は給与と同程度か、やや安価になるでしょう。なぜなら、人間の方が確実にAIよりも優れている制限があるか、少なくともより自律的だからです。
OpenAIは最近、より高性能なO3モデルを導入しましたが、これはより高い価格を正当化する可能性がある一方で、OpenAIのコストも増加させることになります。ここで興味深いのは、価格は上がっていますが、OpenAIのコストも上がっており、利益率は増加していないということです。
皆様のコメントと私の経験に基づいて言えることですが、高度な反射モデルはほとんどの人々には必要ありません。むしろ、ほとんど誰もそれらを必要としないでしょう。それらは非常に特殊な用途に限られます。
これらのプレミアム価格は、AIモデルが最終的に人間の労働を代替する場合には意味を持つかもしれません。それまでは、モデルプロバイダー間の消耗戦のように見えます。最も強い、あるいは最も資金力のある企業が生き残るでしょう。
これは現実的な状況です。何が起きているかというと、市場シェアを巡る戦いです。2年前まで存在しなかった新しいサービスを必要とする地球上の全ての人々、つまり70億人が潜在的な市場となります。そのため、価格をできるだけ引き下げ、コストに近づけることで、多くの人々がサービスを利用し始め、GPT-4やGemini、Anthropicを購読し、顧客を獲得するという考えです。
しかし、私が観察していることは、人々は1ヶ月購読して次の月には購読を停止し、別のサービスを試し、好みのものを見つけるまでこれを繰り返しているということです。もし全ての人がこのような行動をとり、顧客が彼らが望むほど忠実でないのであれば、この戦略がうまくいくかどうかわかりません。皆さんはどう思いますか?コメントで意見を聞かせてください。
さて、より興味深いニュースがあります。MicrosoftのLarge Action Models(LAM)がWordで一部のタスクを実行できるようになりました。LAMとは何でしょうか?
これは皆さんがすでに知っているもので、Computer UseとRabbit R1に関連しています。このRabbit R1デバイスは当初、非常に注目を集めましたが、実際には大きな詐欺でした。彼らは非常に高価な製品を販売していましたが、適切に機能しませんでした。しかし、このデバイスは、モデルが単に応答を生成するのではなく、アクションを実行するというLarge Action Model(LAM)という考え方を初めて耳にする機会となりました。
このLAMという言葉が再び登場し始めたということは、私たちは基本的な原則に立ち返っているということです。Microsoftの研究者たちは、Windowsプログラムを自律的に操作できるAIとしてLarge Action Modelを開発しました。すでに言及したように、このLAMという言葉はRabbitに由来し、長い間存在していたものです。これはMicrosoftの発明ではありません。
これは、単に物事について話すだけのAIから、実際に物事を実行できるAIへの転換を示しています。そのため、ロボット工学とコンピュータ制御が今、非常に意味を持ち始めています。GPT-4のような従来の言語モデルが主にテキストを処理・生成するのとは異なり、LAMはユーザーのリクエストを実際のアクション、ソフトウェアの操作やロボットの制御に変換することができます。
この概念自体は全く新しいものではありませんが、これはMicrosoft Office製品と特別に連携するように訓練された最初のモデルです。ここで新しいのは、Officeとの統合です。
彼らはここで違いを示しています。例えば、人が「男性用ジャケットを購入して」と依頼した場合、通常のLLMは「ステップ1:ショッピングサイトを開く、ステップ2:男性用ジャケットを検索する」といった指示を出すだけです。一方、アクションモデルは実際にこれらのアクションを実行し、検索をクリックし、ジャケットをクリックし、価格を確認するなど、必要な全ての作業を行います。
LAMsは、テキスト、音声、画像など様々な入力からユーザーが求めているものを理解し、それらを詳細な段階的計画に変換することができます。さらに、リアルタイムで起こっていることに基づいて、そのアプローチを調整することができます。お気づきかもしれませんが、Googleもこれを試みていますが、Geminiがいくつかの細かい部分でつまずいているため、成功していません。
LAMを訓練するには主に4つのステップが必要です。まず、モデルは論理的な手順にタスクを分解することを学習します。次に、GPT-4のようなより高度なAIから、これらの計画をアクションに変換する方法を学びます。第3ステップでは、他のAIシステムを混乱させていた問題にも対処しながら、独自の解決策を探ります。最後に、報酬ベースの訓練を通じてシステムが調整されます。
ここで3つのステップを示す図があります。事前訓練で計画を立て、専門家から学び、自動探索を行い、最後に全てのスキルを統合する報酬学習モデルがあります。これは非常に興味深いです。
現在の大きなブレークスルーは、最後の段階で強化学習を使用することです。この文脈での強化学習の核心は、AIにタスクを与えてその解決方法を観察し、同じタスクを何度もテストすることです。AIの推論の中には役立つものと妨げになるものがあることに気づくでしょう。そこで、望ましい結論に到達するのに役立つ思考を強化し始めます。
これは少し変わった学習方法ですが、効果を上げています。なぜなら、最終的に人々が特定の結論に到達するために使用する、より一般的な推論の、より短く効率的な道筋を得ることができるからです。
テストケースとして、彼らはMistral 7Bをベースにしたラムを構築し、Wordのテスト環境で自由に動作させました。興味深いことに、彼らはMistralという非常に小さな7Bモデルを使用しています。このモデルは71%の成功率でタスクを完了し、視覚情報なしのGPT-4の63%の成功率を大幅に上回りました。
ここで、この最新のニュースが先ほどのニュースと結びつきます。より劣った安価なモデルがより優れたモデルよりも良い結果を出しているのであれば、すべてが変わりますね。結局のところ、大切なのはコストではなく成功率です。
LAMの方が速かったのも注目に値します。タスクあたり30秒しかかからなかったのに対し、GPT-4は86秒かかりました。しかし、GPT-4が視覚情報を得た場合、その精度は75.5%の成功率でより高くなりました。
これは興味深いですね。視覚情報がある場合、状況は完全に変わります。あなたはより明確に推論することができ、推論したいものを見ているようなものなので、これは助けになります。
ところで、自宅で製品を開発し、その製品が成功するかどうかを知りたい方へのアドバイスですが、成功率を評価できるいくつかのテストを作成してください。例えば、美容院を経営していて、予約方法や予約の取り方についての質問に自動的に答えるアシスタントを作りたい場合、予約日を取得するという望ましい結果に到達する固定の質問でテストを作成し、20〜30回テストして、その質問が何回望ましい答えにたどり着いたかを確認してください。
これにより、製品が成功するかどうか、そして必要な顧客に対応できるように十分に訓練されているかどうかを評価することができます。さらに、これらの質問やアイデアを、現在行っているカスタマーサービスから収集し、トレーニングデータを構築することもできます。
チームは、MicrosoftのドキュメンテーションやWikiの記事、Bing検索から29,000のタスク・計画ペアを収集することから始めました。これをさらに拡張するため、彼らはGPT-4を使用して単純なタスクをより複雑なものに変換しました。例えば、「ドロップダウンリストの作成」という基本的なタスクを、「2番目のリストのオプションを選択によってフィルタリングする依存ドロップダウンリストの作成」のように発展させました。
このデータ進化戦略により、データセットを76,000ペアまで150%増加させることができました。これらの例のうち、約2,000の成功したアクションシーケンスが最終的なトレーニングセットに含まれました。
これが彼らがデータを構築した方法です。タスクを収集し、データコレクションを作成し、データをテストし、エージェントに入力してモデルのトレーニングを行い、ベース統合を行い、環境でテストし、オンラインとオフラインで変更を加えています。非常に興味深いですね。このモデルを完全に再現する必要はありませんが、ここに良い出発点があります。
システムはまだいくつかの障害に直面しています。AIのアクションが間違う可能性についての妥当な懸念、回答が必要な規制上の問題、そして異なるアプリケーションへの拡張や適応を困難にする技術的な制限があります。
ここで繰り返し述べていることですが、失敗した場合に大きな損失を被るような重要なタスクがある場合、自動化を試みる価値はありません。非常に高いリスクを冒すことになるからです。一方で、それほど重要ではなく、結果が損失をもたらさないタスクがある場合は、すぐに自動化してください。待つ理由はありません。
もしこれら2つの極端な場合の間にある場合は、価値があるかどうかを評価してください。なぜなら、失敗は確実に起こるからです。100%の成功率を期待することはできません。
人々が一般的に行う評価テストは、同じタスクに対して人間がどの程度のエラー率を持つかをAIと比較することです。例えば、AIが30%のエラー率で人間が40%のエラー率なら、AIを採用します。逆に、人間が80%の成功率でAIが70%の成功率なら、人間を採用します。単純明快で、深く考える必要はありません。人間にもAIにも完璧なシステムは存在しません。
これらの課題にもかかわらず、研究者たちはこれらのアクションモデルがAI開発における重要な転換点を表していると考えています。これらのLarge Action Modelsは、汎用人工知能に向けた重要な一歩を示していると述べています。
単にテキストを理解して生成するだけのAIシステムの代わりに、まもなく現実世界でタスクを積極的に完了するのを助けてくれるAIアシスタントを持つことができるかもしれません。これが夢です。これが実現できれば、基本的にすべてが変わり、大きな転換点を迎えることになります。
すでに私が皆さんに言っていることですが、私たちはもはや知能の問題に直面しているわけではありません。知能の問題はすでに解決されています。人々はまだAIが知能を持っているかどうかについて話していますが、もちろん持っています。長い間持っていました。
このAIがまだ持っていないのは一貫性です。AIは質問に答えて、毎回正しく答えることを保証することができません。しかし、問題を解決するための知能はすでに持っています。これを明確にしておく必要があります。
ある質問を10回尋ねて、少なくとも1回正解するということは、すでに知能を持っているということを意味します。ただし、その成功率がまだ十分ではないのです。そのため、多くの人々がAIが知的かどうかについて議論し討論していますが、実際にはAIが知的であることは明らかです。
問題は、今日彼らが持っている知能で、現実世界のタスクを積極的に完了するのを助けることができないという点です。これが問題です。これは解決される必要があります。
おそらく、このちょっとした詳細のために、LLMsは私たちが望むような真のエージェントにはならないかもしれません。一方で、現在LLMsよりも良い選択肢がないため、私たちは試行錯誤を続け、できる限り改善を続けています。
あなたはどう思いますか?下のコメント欄で教えてください。チャンネルをサポートしてこのようなビデオを継続して見たい方は、メンバーになってください。メンバーはWhatsAppグループへのアクセスや先行公開動画を楽しむことができます。いいねをお願いします。


コメント