このAIは、たった20億個のパラメーターでGPT-4を打ち負かした

3,621 文字

https://www.youtube.com/watch?v=Mj5jeOX8K_s

パリを拠点とするスタートアップ企業Hは、元Google社員によって設立されましたが、静かな船出とは程遠いもんでした。製品を1つも発売せえへんまま、2億2000万ドルのシード資金調達を発表したんです。考えてみてください。市場に製品もない状態で2億2000万ドルですよ。こんなん、めったに聞かへん話ですわ。
その直後、5人の共同設立者のうち3人が、運営とビジネスの意見の相違を理由に退社してしもたんです。一瞬、最も有望な事業でも沈没してまいそうな荒波に見えました。
しかし、この波乱の船出にもかかわらず、Hは前進し続けました。今週、彼らは最初の製品であるRunner Hを発表し、すでに注目を集めています。Runner HはHが「AIのエージェント時代」と呼ぶものに向けて作られました。これは機械が単なる受動的なツールではなく、自律的な問題解決者となる時代のことです。
Runner Hは、Hが独自に開発した小規模モデルによって動いています。20億個のパラメーターを持つ言語モデルと、視覚言語モデルVMが含まれています。これらの数字は、GPT-4の1750億個のパラメーターと比べると小さく見えるかもしれませんが、結果は全く違う物語を語っています。Runner Hのモデルは、効率性と精度において、特に実践的な実世界のアプリケーションで、より大規模な競合を上回る性能を発揮しています。
パラメーターを増やすことで効率性を犠牲にしがちな業界において、これは大きな進歩です。Runner Hは、すでに robotic process automation（RPA）、品質保証、ビジネスプロセスアウトソーシングの分野で影響を与えています。
RPAは何年も前からありますが、システムやテンプレートが変更されるたびに機能が停止する、硬直的なスクリプトベースのツールに制限されがちでした。Runner Hは、採用や入社手続きなどの反復的なタスクを、たった1つのプロンプトで自動化し、これらの変更にも柔軟に対応します。通常何週間もかかるプロセスを一瞬で完了させることができるんです。
品質保証は、Runner Hが輝くもう1つの分野です。ウェブサイトやアプリケーションのテストは、面倒で資源を大量に消費するプロセスでした。Runner Hはこれを自動化し、ユーザーアクションのシミュレーション、ページの可用性チェック、決済方法の互換性確認などのタスクを処理します。ユーザーインターフェースの変更にもシームレスに適応し、開発者は常にデバッグを行う代わりにイノベーションに集中できます。
ビジネスプロセスアウトソーシングは、Runner Hがその価値を証明しているもう1つの分野です。特に歯科保険などの業界における請求ワークフローは、遅く、手作業で、サードパーティー企業に依存しがちでした。Runner Hは保険プランの取得から請求の分析と提出まで、プロセス全体を自動化し、企業に運営の主導権を与え、遅延を減らします。
Runner Hの背後にある技術は、solid benchmarksによって裏付けられています。ライブウェブサイトでのAIのナビゲーションと対話能力を評価するWeb Voyagerテストで、Runner Hは67%のスコアを達成し、Anthropicのcomputer useの52%やEmergenceのAgent Eの61%といった競合を上回りました。Web Voyagerが実際のパブリックウェブサイトを使用していることを考えると、このパフォーマンスはさらに印象的です。理論上だけでなく、実世界の条件下でテストされているからです。
Runner HのビジュアルランゲージモデルであるVMも、際立った機能です。グラフィカルユーザーインターフェース、画像、図表の解釈に優れており、Screen Spotベンチマークでの性能がそれを示しています。このテストは、モデルがグラフィカルインターフェースをどれだけ理解し、対話できるかを評価します。Runner HのVMは、GPT-4やMistralのPixol Largeなど、はるかに大きなモデルを上回る性能を発揮しました。高速で効率的、かつ正確であり、AIにおいて「大きいことが必ずしも良いことではない」ということを証明しています。
言語モデルHLMは、Runner Hの機能の中核を形成しています。高レベルの意思決定とプログラミングタスク向けに設計されており、HumanEvalやMBPPなどのベンチマークでの性能は、その強さを示しています。これらのベンチマークは、モデルのコード生成と実行能力をテストするものですが、HLMの結果は、単に優れた性能だけでなく、効率性と適応性も備えていることを示しています。
Hは、Runner Hの展開について戦略的に進めています。現在、プライベートベータが公開され、開発者はAPIとエージェントのパフォーマンスをモニタリングおよび編集するためのツールであるH Studioにアクセスできます。現在は無料で使用できますが、近々価格モデルが導入される予定です。
このベータ版は、単に製品をテストするだけでなく、実際のユーザーからフィードバックを集めてシステムを微調整することも目的としています。Hはすでに、eコマース、銀行、保険、アウトソーシングなどの分野の顧客と協力して、Runner Hの機能を改良しています。
Runner Hのビジョンは、ウェブの領域を超えています。CEOのCharles Canerは、AIエージェントがあらゆるグラフィカルインターフェースをナビゲートし、タスクを自律的に実行できる「ユニバーサルオートメーション」について語っています。これは長期的な目標ですが、最初にウェブ環境に焦点を当てることで、より大きなビジョンに向けて構築しながら、技術の可能性を実証することができます。
Hの旅は明らかに課題がなかったわけではありません。早期に3人の共同設立者を失うことは壊滅的な事態になりかねませんでしたが、同社は主に潤沢な資金のおかげで持ちこたえることができました。当初の2億2000万ドルの調達以降、Hはさらに1000万ドルを追加し、総額2億3000万ドルとなりました。
この資金調達には、Eric Schmidt、Yuri Milner、Xavier Neilといった著名な投資家や、Amazon、Samsung、UiPathといった戦略的な出資者からの出資が含まれています。これらの大手企業からの支援は、HのAIアプローチへの信頼を裏付けています。
Hを際立たせているのは、大規模な汎用モデルではなく、コンパクトな専門モデルに焦点を当てていることです。この戦略は、コスト削減だけが目的ではありません。それは確かに大きな利点ですが、効率的で効果的、かつ特定のタスクに合わせたAIを作ることも目的としています。より大きいことがしばしば遅く、より高価になる業界において、Hのアプローチは実用的で新鮮です。
Hのコンパクトモデルは、理論上のイノベーションだけではありません。面倒なワークフローの自動化、QAプロセスの合理化、企業の運営管理の実現など、重要な分野で結果を出しています。Runner Hは、適切な文脈において、小規模で焦点を絞ったモデルが大規模なモデルを上回ることができることを証明しています。
Runner Hの発表は、Hが「エージェント時代」と呼ぶものの始まりを告げています。これは単に生産性を向上させたりコストを削減したりするだけではありません。自律性と適応性に焦点を当てることで、Hは人間と機械の新しい形の協力関係の舞台を整えています。
Runner Hの潜在的な応用分野は広範です。採用プロセスの自動化から複雑な請求ワークフローの処理まで、技術はすでにその価値を示しており、ウェブを超えた展開の計画とともに、可能性はさらに広がっていくでしょう。
Runner Hは本質的に、効率性と適応性を念頭に置いてAIを設計した場合に何が可能かを示す声明です。Hのアプローチは、より大きなモデルが常により良いという前提に挑戦し、特化したコンパクトなモデルが適切な文脈で卓越したパフォーマンスを発揮できることを証明しています。
Runner Hがプライベートベータからより広い利用可能性へと移行するにつれて、どのように進化していくか興味深いところです。初期の結果は有望ですが、より多くのユーザーが実世界のシナリオで技術を活用することで、真の試験が行われることになります。
現時点で、Runner HはAIの次の時代を定義するレースにおける有力な候補です。自律性、効率性、実用的なアプリケーションに焦点を当てることで、エージェント型AIが達成できることの高い基準を設定しています。