AIの未来がオープンソースである理由 | マノス・クークミディス

20,954 文字

Why The Future of AI is Open-Source | Manos Koukoumidis

This episode is brought to you by Sonar, the creators of SonarQube Server, Cloud, IDE, and the open source Community Bui...

オープンソースであるためには、オープンデータ、オープンコード、そしてオープンモデルまたはオープンウェイトが必要です。これは、誰かがモデルを再現するための材料とレシピを持つことができるべきだということを意味します。はい、モデル、つまりウェイトを提供することは良いことですが、それを再現できることも重要です。これは非常に良い定義だと思います。ただ、私たちが言っているのは、オープンコード、オープンデータ、オープンコード、オープンモデル、そして私たちが言うオープンコラボレーションが必要だということです。
これは少しわかりにくいかもしれませんが、OSI（オープンソースイニシアチブ）の定義によるオープンソースであっても、コードなどすべてが揃っていても、他の人が再現して構築するのが難しすぎる場合は十分ではありません。なぜなら、それではオープンソースが共同体の取り組みであるという全体の目的が失われてしまうからです。他の人の作業を簡単に構築し、拡張できることが重要です。
GitHubのCopilot、GoogleのGemini Code Assist、AmazonのQ DeveloperのようなAIコーディングアシスタントは、開発者にとって不可欠なツールになりつつあります。これらは驚くべき効率でコードを生成し、開発者の生産性を大幅に向上させます。しかし、AI生成コードの広範な使用には独自の課題があります。バグ、脆弱性、最適ではないコードが知らず知らずのうちに本番環境に入り込み、保守性、安定性、さらにはコストのかかる障害につながる可能性があります。
組織はこれらのAIツールを使用する際、いかにして生産性とイノベーションを最大化しながら、混乱とリスクを最小限に抑えることができるでしょうか？コード品質とコードセキュリティのリーダーであるSonarを使用すると、組織はAIアシスタントと連携して開発者の生産性を高めることができます。合理化されたワークフローで開発者エクスペリエンスを向上させ、すべてのコードの品質とセキュリティの問題が本番環境に到達するのを防ぐことができます。
SonarのSonar Cubeソリューションに搭載されているAIコード保証機能は、AI生成コードの徹底的な検証プロセスを提供し、業界初となるGitHub Copilotから生成されたAIコードを自動的に検出してレビューする機能を持っています。AIコード保証ワークフローは、AI生成コードへの信頼を構築し、適切なデューデリジェンスが実行され、コードが本番環境に対応していることを企業に保証します。
彼らのAIコード修正機能は、コード分析によって発見された問題に対してインスタントAI生成の修正を提供し、開発者がワークフロー内で直接レビューして適用できるようにすることで、生産性と問題解決を加速します。Sonarは、AIコードの検証を合理化し、問題の誘導型修正を提供するツールで、AIとAIエージェントシステムを活用してソフトウェア開発ライフサイクルを再定義するのを支援しています。これにより、開発者はより優れたアプリケーションをより迅速に構築できるようになります。
国防総省、Microsoft、NASA、MasterCardなどの組織から700万人以上の開発者がSonarを使用しています。sonar source.com/onaiにアクセスして無料デモをリクエストし、Sonar Cubeがどのようにチームのマシン生成ソフトウェア開発を支援できるかをご覧ください。それはsonar source.com/onaiです。無料デモをリクエストしてください。
ここにお招きいただき、嬉しく思います。私はUmiのCEOのマノス・クークミディスです。約9ヶ月前までGoogle Cloudにいて、すべての自然言語AIサービスの科学とエンジニアリングをサポートしていました。Cloud AIでいくつかのマルチモーダルなものも構築し、PaLMのクラウド版を製品化する取り組みを立ち上げ、2023年5月の一般提供ローンチまでこの取り組みを推進しました。それがGeminiと呼ばれる前であり、DeepMindに移る前です。
その前にはスタートアップにいました。会話型AIに取り組んでいたMetaにいました。その前にはMicrosoftにいて、2016年にGPT-4のようなマルチモーダルな会話型AIを構築していました。当時、今でいうエンベディング検索やRAGも構築していました。その前には博士課程があり、最初の3年間はプリンストン大学、最後の2年間はMITで過ごしました。その前には学部課程がありました。
UmiはOpen Universal Machine Intelligenceの略です。私たちは、この取り組みに対して明確にオープンであることを示す名前を選びたかったのです。また、他の場合とは異なり、この用語を適切に使用したいと考えていました。AIという言葉は少し使いすぎられている用語だと思うので、機械学習、機械知能から始まったものであるため、Open Universal Machine Intelligenceと呼んでいます。そして「ユニバーサル」は、オープンで知的であり、民主化されたもので、人々がどこでも使用できるものを望んでいたからです。それが名前の由来です。
Umiはプラットフォームですね。私があなたと話したかった理由は、オープンソースについてです。人工知能の世界、特に生成AIの分野では、オープンソース対クローズドソースについての長い議論がありました。初めのうちは「もしこれがオープンソースになったら、世界中の悪人が最も強力なAIを手に入れるだろう」という手振りがたくさんありました。あなたのような人々やヤン・ルカンは、オープンソースが進むべき道であり、むしろモデルに対してより多くの目があることで、より安全なモデルになると主張しました。
確かに、Metaのllamaから始まり、Mistralがそのモデルで続き、そしてDeep Seekが登場して、中国のAI戦略の大きな部分としてオープンソースに注目していない人々の目を覚ましました。あなたの視点から、まずオープンソース対クローズドソースの議論について、どのように感じているか、そして次に、オープンソースは過剰に使用され、定義が不十分な用語であり、オープンウェイト、オープンコード、オープントレーニングデータがあり、オープンソースが本当に何を意味するのかについて誰も同意していないようです。まず、オープンソース対クローズドモデルの議論から始めましょう。あなたはどのような立場にあり、それがどのように発展すると思いますか？
はい、クレイグさん、もしよろしければ、定義から始めましょう。オープンソースについて私が話すとき、それが何を意味するのかについて、同じページにいることを確認しましょう。そうすれば、私がそれが前進すべき道だと主張するとき、私が正確に何を意味しているのかが明確になります。
あなたが以前に言ったように、多くの取り組みがオープンソースと呼ばれていますが、実際にはそうではないものが多くあります。OSI（オープンソースイニシアチブ）のオープンソースAIの定義は非常に的確だと思います。それによると、オープンソースであるためには、オープンデータ、オープンコード、オープンモデルまたはオープンウェイトが必要です。これは、誰かがモデルを再現するための材料とレシピを持つことができるべきだということを意味します。はい、モデル、つまりウェイトを提供することは良いことですが、それを再現できることも重要です。
これは非常に良い定義だと思います。ただ、私たちが言っているのは、オープンコード、オープンデータ、オープンコード、オープンモデル、そして私たちが言うオープンコラボレーションが必要だということです。これは少しわかりにくいかもしれませんが、OSIの定義によるオープンソースであっても、コードなどすべてが揃っていても、他の人が再現して構築するのが難しすぎる場合は十分ではありません。なぜなら、それではオープンソースが共同体の取り組みであるという全体の目的が失われてしまうからです。他の人の作業を簡単に構築し、拡張できることが重要です。
だから私たちの原則は、私たちが構築しているこれらのAI技術はすべて、他の人が使いやすいものであるべきだということです。なぜなら、他の人が行ったことは完全に再現可能であり、プラットフォームは開発者の使いやすさを第一の原則としているからです。また、コラボレーションの側面として、私たちはすでに持っており、さらに広範なオープンコラボレーションの取り組みを計画しています。「ここに目標があり、解決しようとしている問題があり、コミュニティの誰でもそれをより良くするのを手伝うことを招待します」と言うようなものです。
これはある意味、Linuxが Unix と比較して行われていたことに似ています。しかし、これを行うためには、オープンコード、オープンデータ、オープンモデルが必要ですが、誰もが再利用、構築、貢献しやすい方法でなければなりません。これがオープンソースに対する私たちの定義です。それ以下のものはコミュニティに対する不当な扱いであり、この技術を人類として最も良い方法で進めるのに役立ちません。
オープンデータは少し混乱する点です。オープンモデルはソースコードが公開されることを意味し、オープンウェイトはウェイトが公開されることを意味します。私が見てきたモデルでは、人々はデータのソース資料について説明していますが、正確にどのデータが含まれているかを見ることができるデータベースは本当には公開されていないようです。著作権の責任などの懸念があるからだと思いますが、オープンデータとは何を意味し、今日、真にオープンデータを持つオープンソースモデルと称するモデルはありますか？
はい、非常に良い質問です。オープンデータとは、もしケーキを焼くという比喩を使うなら、レシピやオーブンだけでなく、それを作るための材料自体も持つ必要があるということです。現在、非常に多くの企業が「オープンソースモデルを持っています、モデルをオープンソース化します」と言うことがありますが、通常はウェイトだけを意味し、データや場合によってはコードさえもオープンではありません。
現在、真にオープンソースのLLMは非常に少なく、主に大学や非営利団体、例えばAI2のようなところによるものです。その他のすべては、オープンソースと言っていても、実際にはオープンソースではなく、他の人が再現して構築するのが非常に難しくなっています。
Deep SeekはEssentialのようなモデルで、完全にオープンソースだと主張していましたが、データについても説明していました。それは役立ちますか？
Deep Seekが今週発表すると言っている発表を楽しみにしています。毎日新しいことを発表すると言っていますが、現在のところ、DeepSeek-Coder-V1などの彼らのモデルはオープンウェイトであり、昨日のように推論をより効率的に行うのに役立つ推論コードなどのコードをリリースしていますが、まだ誰も彼らの作業を完全に再現することはできません。彼らは一部のステップを詳述したレポートを持っていましたが、それでも、どのようにして正確にそれを行ったのか、そして正確にどのデータを使用したのか、どのように正確にデータを生成したのかについて、業界全体で多くの疑問が残っています。
だから、例えばDeep Seekのコーダーv1を再現することができる人はまだいません。実際のデータが欠けているからです。そして、アルゴリズムの詳細の一部もレポートにすべて含まれているかどうかは明確ではありません。
しかし、あなた方は完全なオープンデータを推進していますね。それは正確には何を意味するのでしょうか？
良い例は、約10日前の金曜日にリリースしたエージェントモデルで、CALMと呼ばれるものです。これは会話型エージェントモデルで、バークレーのベンチマークリーダーボードでGPT-4oをも凌駕しています。このモデルのために私たちが（実際にはUCLAのEmber氏とGandor氏がこの取り組みをリードしていました）キュレーションしたデータ、彼らが生成したデータ、そして私たちがトレーニングを行い、70Bや405Bまでスケールアップする手助けをしたすべてがオープンです。
これは、現在誰でもUmiリポジトリに行き、データセットをアップロードしたHugging Faceへのポインタを見ることができることを意味します。そして、それを再現するには現在2つのコマンドだけで済みます。解決策をインストールするために「install」と入力し、次に構成ファイルの名前を指定して「umi train」と入力すれば、より小さな8Bモデル、70Bモデル、405Bモデルのいずれかを選べます。それだけで2つのコマンドで済み、誰かが他の人の作業をデータ、コード、そのほかすべてを含めてエンドツーエンドで再現するのにそれ以上難しくあるべきではありません。もちろん、モデル自体はLlamaに基づいていますが、少なくともすべての後処理トレーニングなどは完全にオープンソースです。
たとえそれが完全にオープンソースであっても、ライセンスが付随していますよね？完全にオープンソース化して、オープンデータにした場合、人々がモデルをライセンスなしで単に使用することについての懸念はありませんか？
はい、その懸念はありますが、同時に、それはオープンソースの望ましい利点でもあります。つまり、「研究コミュニティとして、人類としてこの技術を改善するために共通の取り組みに貢献し、他の人々もそれをより良くするのを助けるために重要な材料をすべて伝えます」と言っているのです。
ここでの良い例は、数週間前に見たヒトゲノムプロジェクトです。100以上の機関と何千人もの研究者が参加していました。フロンティアの基盤モデルについても同じことが言えます。「自由に収益化するためにブラックボックスとして提供する」または「オープンにして知識を皆と共有する」という選択肢があります。
政治的立場に関わらず、ビル・クリントンが言ったことが私には響きました。彼は、生死に関わるような重要な発見をすべて隠し、人類の進歩を助け、皆が前進するのを助ける代わりに、一部の企業が収益化できるようにボックスに閉じ込めることは「事実上犯罪的だ」と言いました。
基盤モデルについても同じことが言えます。生死との関連性は直感的ではないかもしれませんが、実際にはあります。基盤モデルはテクノロジーや産業だけでなく、材料科学から気候科学、ヘルスケアまですべての科学に使用されています。
実際に、名前を具体的に挙げることは避けますが、米国で最大のいくつかの医療機関のリーダーたちとの議論の中で、彼らが現在これらのモデルを使用して、例えば大腸内視鏡検査のポリープを検出するために適応させていると言っていました。そして彼らが言ったのは、すぐにAIを使用しないことが不正行為になるだろうということです。AIが人間よりも5倍も優れているからです。20%や30%ではなく、5倍程度優れているのです。
これらは人間にとって重要な技術であり、オープンでなく進歩しなければ、そして私たちを含む多くの企業にとってオープンにしても収益化する機会は十分にあります。それが私が思う、あるべき姿です。
より一般的に、これがどのように発展していくと思いますか？オープンデータは増加すると思いますか？クローズドソースの事業者はどうなるでしょうか？すでにDeep Seekは価格設定で彼らに圧力をかけています。
最終的には、物事はより開かれるべきだと思います。もし誰かがクローズドプロバイダーでさえも、使用すべきではないデータを使用しているのであれば、その上でもう少し透明性があるか、誰もが良いプレーヤーであることを確認する必要があります。
事前トレーニングのための大量のデータ、時にはウェブ全体を考慮すると、実際にはすべてを徹底的に説明することは難しいかもしれません。しかし、例えば最近行った研究や大学と行っている研究のような後処理トレーニングについては、それを行うのははるかに簡単です。
質問の第二部、将来的にオープンとクローズドの間でどうなるか、そしてオープンモデルがかけている圧力についてですが、それは約1年前、またはそれ以上前に私たちがこの取り組みを始めたときの強い確信でした。「エンタープライズAIの未来、そしてそれ以上の未来はオープンになる」と思いました。Linuxが Unixよりも優れた理由と同じです。AIに起こっている歴史と並行性について少し詳細に説明できます。
一度これが始まると、Deep Seekによって少し加速されたかもしれませんが、私が予想していたよりもさらに加速され、クローズドソース企業に大きな圧力がかかるでしょう。彼らは大きく膨れ上がった評価額をもはや正当化できなくなり、同じ戦略で実行し続けるために高い評価額で資金調達を続けることができなくなるでしょう。
より多くの人々や投資家にとって、これが単に意味をなさないことが明らかになるでしょう。これらの複雑な技術を開発するためのより良い方法があります。歴史が教えているように、通常はより良い方法があります。そして彼らは資金提供を停止するか、あるいは興味が薄れるかもしれません。
Umiについて見てみましょう。Umiの起源と、正確にUmiのプラットフォームが何をするのか、そして前回お話したときからどのように変わったのか、Hugging FaceやLightning Studioなどの他のプラットフォームとどう違うのかを教えてください。
私たちがUmiを始めた理由は、時々人々が「あなたがUmiを始めた一つの理由は何ですか？」と尋ねることがありますが、実際には一つの理由ではありませんでした。私は人類のために正しいことをしたいだけでなく、実用的な人間でもあり、何かが意味があると確信してから始めたいと思っています。
正しいことについては、先ほどの議論に少し戻りますが、この一般的な技術は電気のようにあるべきで、共通のユーティリティであるべきだと私の心の中で非常に明確でした。科学から産業までのすべてを動かし、それを進めるためには、アクセスを妨げるべきではなく、また、それをより速く、より安全に、そして最も効率的に進めるためには、この技術に対してすべての手が、すべての目がそれをより安全にし、進めるのを助けることによってのみ可能です。
哲学的には、これが人類にとって正しいことだと明確でしたが、その後、私は「これは正しい技術かもしれないが、オープンソースが成功することが実用的ではないため、残念ながら別の道に進むだろうか」と考え続けました。
そして、実際にこれが機能する可能性があり、さらには最も可能性の高いシナリオ、最も可能性の高い結果であることに気づかせた一連のことがありました。最初のものは、後処理トレーニングやこれらの基盤モデルが持つ多くのタスク、多くの能力、私たちがすでに取り組んでいる多くのモダリティ、そしてまだ取り組んでいない多くのモダリティにわたって、必ずしもコンピュートの量によってボトルネックが発生するわけではなく、これらのさまざまな方向性ですべてのタスクとモダリティにわたって革新するために必要な人々の創造性と人々の量によってボトルネックが発生することに気づき始めていました。
つまり、1000人、2000人、3000人だけでなく、桁違いに大きなオープンコミュニティがあれば、適切なツールがあれば、はるかに良い仕事ができるということです。これが私たちがそれらを提供するのを助けている理由です。
同時に、オープンコミュニティがクローズドコミュニティよりも良いことができるという事実に加えて、現在の現状は一部の企業にしか役立っておらず、他の誰もそれを望んでいないことにますます気づき始めていました。人々に言うように、あなたがAIの寡頭政治を目指している人でない限り、そして彼らは誰であるかを知っている少数の人々を除いて、他の誰もこれを望んでいません。
例えば、特定のクローズドソースモデル、GeminiやOpenAIのモデルが支配的になる結果を想像してみてください。誰もが特定のクラウドプロバイダー上の、そのクラウドプロバイダーが持つ好ましいアクセラレーター上のこれらの特定のモデルを使用することになります。つまり、競合するモデルを提供できない他のクラウドプロバイダーや、NVIDIAやAMDを含むすべての主要なアクセラレータープロバイダーは、循環から外れる可能性があります。
なぜなら、クローズドモデルプロバイダーは、モデルがクローズドであるため、ソフトウェアとハードウェア間でより自由に最適化できる好ましいアクセラレーターを持っている可能性があるからです。つまり、エンドツーエンドでより良いエクスペリエンスを提供できるのです。
クラウドプロバイダーとアクセラレータープロバイダーに加えて、消費者企業でさえもクローズドAIが支配することを望んでいないことにも気づき始めました。マーク・ザッカーバーグは最近、メタのような規模の企業でさえも、ある日AIが単一の企業によって制御され、彼らの消費者製品に必要なAIを使用するための許可を得るために彼らの慈悲に委ねられるとしたら、それは問題があるだろうと、何度も公に言っています。AIはどこにでもあるでしょう。これは非常に重要です。
それを考えると、エコシステム内のほとんどのプレーヤーはそれが成功することを望んでおらず、コミュニティ全体でそして彼らの間での努力をより意味のある方法で導くのを助ければ、最終的には何が最も可能性の高い結果でしょうか？オープンソースが成功するか、それともそれぞれの企業が個別に開発したクローズドソースが、それを実現するためのすべての経済的・人的コストを上回るか？
LinuxとUnixの歴史が教えてくれたように、オープンソースが実際に最も実行可能な道であることが私には明らかになり始めていました。これはますます多くの人々にとって明らかになっていると思います。だから約1年前にUmiを始めたのです。これは企業にとって正しいこと、人類にとって正しいこと、そして同時に可能であるということの組み合わせでした。だから、それを構築することは理にかなっていると思ったのです。
Umiはどのように機能するのですか？誰かがプラットフォームを使用して、現代的なデザイン会社であるThumaでオアシスを作成する方法を教えてください。Thumaは家具やホームグッズを専門とし、本質的なもの以外のすべてを取り除くことで、高品質の素材と意図的なディテールを持つ高級ベッドを作っています。
私は家を整理する過程にあり、改装やリデザインの手助けにThumaを真剣に検討しています。Thumaは形、職人技、機能性の完璧なバランスを組み合わせています。177,000以上の5つ星レビューを持つThumaベッドコレクションは、シンプルさが洗練の最も真の形であることの証明です。
日本の継手技術を使用し、無垢材から作られた部品は、無音で安定した基盤のために精密にカットされ、クリーンなライン、微妙な曲線、そしてミニマリストのスタイルを持っています。Thumaベッドコレクションは、あらゆるデザイン美学に合わせて4つの特徴的な仕上げがあります。ヘッドボードのアップグレードは、希望に応じてカスタマイズが可能です。
最初のベッド購入に100ドルの割引を受けるには、thuma.co/onaiにアクセスしてください。それはT-H-U-M-A.co/onaiです。I-on-AI、全て一緒に、E-Y-E-o-n-A-Iです。最初の購入に100ドルの割引を受けるには、thuma.co/onaiにアクセスしてください。
Umiは約3週間半前に発表したばかりなので、非常に新しいものです。GitHubで完全にオープンソースのプラットフォームであり、企業や学術界が基盤モデルを進めるために必要なすべての機能を提供しています。事前トレーニングからすべての異なる後処理トレーニング技術、完全な微調整、パラメータと微調整、RL技術、最も一般的なベンチマークとそれらの増加するリストでの評価、データキュレーション、LMジャッジによる自動評価など、さらに多くの機能があります。
アイデアは、学術界で研究を行うために誰かが必要とするすべてのツールを一つのプラットフォームで提供することです。次のDeepSeekのような次世代モデルを開発したい場合、すべてのステップを単一のプラットフォームで記録できるようにします。そうすれば、あなたのレシピ全体が完全に記録され、他の誰かがそれを再現し、あなたの論文を引用し、それを進化させ続けることが容易になります。それ以上難しくあるべきではありません。それが目標の一部でした。
これらの機能をすべて提供するだけでなく、テキストとマルチモデルの両方をサポートし、企業や研究者にとって重要な100以上のオープンモデルをサポートしています。数億のパラメータから最大445億のLlamaまで、トレーニングが可能です。
また、ソリューションとして、完全にアクセス可能でシームレスなアクセスを提供したいと考えています。つまり、誰かが単に数個のGPUを持つMacBookを持っているか、AWSやAzure、Lambda Labなどのクラウドプロバイダーからコンピュートを取得しているか、あるいは大きなHPCを持っている場合でも、必要なコンピュートがあれば同じ実験を実行できるようにしたいのです。
変更するのは、GPUの数と使用したい数を示す単純なデプロイメント構成だけです。しかし、アイデアはコンピュートをどこから取得するかに関係なく、誰かが同じレシピで再現可能で簡単に利用できるようにすることです。
それがプラットフォームが提供するものです。基盤モデルを構築したり、特定のタスクやドメインに適応させたりするために誰かが必要とするすべての機能を提供しています。それが事前トレーニングであれ後処理トレーニングであれ、評価やデータキュレーションなど、テキストとマルチモデルのモデルをすべてサポートし、あらゆるプラットフォームとあらゆる規模で実行できます。先ほど言ったように、どれだけ多くの大学がこの規模でモデルを生成できたかわかりませんが、それがUCLAの研究者たちが「本当に私たちはあなたの助けが必要です。他の技術を使ってきましたが、これを行うのは不可能です」と言った理由です。良いことに、それは非常に簡単で、今では他の誰にとっても再現するのが非常に簡単です。
これが完全にオープンソースのソリューションです。その上にエンタープライズソリューションも開発し始めています。それについても議論できます。
モデルの構築について、Hugging Faceには今どれだけの数のTransformerベースのモデルがあるか分かりませんが、ゼロから本当にモデルを構築している人はどれくらいいますか？つまり、最初のコードから始めて、データを収集してトレーニングする人々と、Llamaやその他のオープンソースを取得して調整したり、フォークしたりする人々の割合はどうですか？
大多数の人々は既存のオープンモデルを取得しています。なぜなら、その段階まで到達するには相当なコストがかかり、ゼロから生成することは彼らにとって意味がないからです。彼らは既存のオープンモデルを取得し、特定の研究のため、あるいは企業である場合は特定の問題を解決するために、異なる技術で後処理トレーニングを続けます。
これらの基盤モデルを最初から事前トレーニングや訓練している人は非常に少ないです。しかし、良いニュースは、事前トレーニングだけでなく、他のすべての段階でもまだ大きな革新が必要だということです。
前に言ったように、オープンコミュニティは、特に後処理トレーニングや、メタのような企業がこれらの大きなコストをかけて訓練した既存のオープンモデルを取得して、すべての異なるドメインやモダリティ、機能にわたってそれらをより良くするための創造的な方法を見つけることでは、巨大なコンピュートは必要なく、そこには大きな機会があります。
DeepSeek GroupやGropperなど、彼らが発明する新しいものなど、創造的なアプローチで大きなコンピュートは必要なく、研究コミュニティとして、人類としてこれらを進め続ける大きな機会があります。
もちろん、より多くの人々が事前トレーニングを行うことが容易になれば素晴らしいですが、コンピュート制約についてではなく、どれだけ多くの人々、どれだけ多くの創造的な頭脳がこれを進めるかについてより重要な後期段階でも、既存のモデルを取得してキュレーションしたり、それをより良くするための創造的な方法を見つけたりする機会は非常に大きいです。
前の質問に追加し忘れたことですが、プラットフォーム自体を提供するだけでなく、すでに多くの大学と開かれたコラボレーションを行っており、より広範なコラボレーションを立ち上げる計画もあります。「コミュニティとして解決することが意味のある問題がここにあります。オープンに協力して、それをより良くしましょう」というようなものです。
プラットフォームは、オープンコード、オープンデータ、オープンウェイトを必要としますか？
はい、その通りです。基盤モデルを進めるために現在行っているこれらのコラボレーションのいずれについても、すべてがオープンであるべきだと言っています。そして、Umiプラットフォーム上に構築されている場合、まず、エンドツーエンドで実験を非常に簡単に行い、次に完全なレシピを記録することで、他の誰でもあなたのデータ、コード、すべてを簡単に再利用してこの作業を再現し、それからそれをより良くすることができます。
はい、それは絶対に必要な要件です。もしオープンソースが繁栄するのを望むのなら、それが私たちが機能する必要がある方法です。それ以下では単にオープンソースの成功を妨げるだけでしょう。
このプラットフォームを持っていれば、人々は本当にオープンソースのモデルを構築し始めると思いますか？
事前トレーニングについては、現在本当にオープンソースであるものは非常に限られていますが、将来的にはそこでもますます多くのことができるようになるかもしれません。しかし、後処理トレーニングや、少なくとも既存の事前訓練されたモデルを使用し、異なる方法で継続して事前訓練したり、後処理したりすることについては、それはすでに起こっています。学術界の研究者からの大きな需要があります。
ちなみに、前の質問に関連して、それが私たちがUmiをどのように始めたかです。CMUのRuslan Salekdynovとの日曜日の議論から始まりました。彼は（彼はそうは言いませんでしたが）学術界のトップの研究者たちの一人です。彼は「私たちのような人々でさえも、この種の研究を行うのは非常に難しい。私の学生がこの種の研究を行うのに必要なすべての部品を組み立てるのには多くの努力が必要です。そして、マルチノードの分散トレーニングをスケールアップして、より大きなモデルをトレーニングした人はいません。しかし、それは学生が行うには難しすぎます。だから、もしあなたがプラットフォームを構築すれば、私たちはあなたをサポートします」と言いました。
そして彼は、同じくCMUからのAmit Alarも紹介してくれました。彼の言葉で言えば、「私たちは未活用のリソースです。貢献したいと思っていますが、これらのラボは私たちにとって簡単にしてくれないか、正確に言えば可能にしてくれません。あなたが説明したプラットフォームがあれば、本当に助かります。だから、ぜひ構築してください。私たちはあなたを助けます」と言いました。
他の多くの学者からも同じ反応がありました。だからこそ、このプラットフォームを構築し始めたのです。人々が研究を行い、それを基に構築し、そして私たちが言うように、オープンソースにLinuxの瞬間を与えるのを容易にするためです。
長い間疑問に思っていたことがあります。オープンモデルを取る場合、例えばLlamaを例にとると、それは事前訓練されていますよね。ソースコードが公開されており、ゼロからトレーニングできるモデルはありますか？
はい、非常に少ない例がありますが、最も注目すべきな例の一つはAI2の取り組みです。例えば、Aloの論文では、「これが私たちが使用したデータです、これがコードです、そしてこれが結果のモデルです」と言っています。私たちはもっとそのようなモデルが必要です。
私の考えでは、そのようなモデルは単一の組織や小さなコラボレーションによって開発されるべきではなく、コミュニティ全体でより開かれたコラボレーションが行われるべきです。それが私たちが助けようとしていることです。
MetaやAI2のような取り組みがあることは素晴らしいですが、コミュニティにとっての不足しているツール、不足している機能がありました。私たちが呼ぶところのAIのLinuxが不足していました。それが私たちが提供することを望んでいるものです。そしてプラットフォームとして、AI2やMetaによって開発されたモデル、またはコミュニティが開発する新しいモデルと連携できるものです。最高のツールのいずれとも連携できます。だからこそ、他のすべての組織が行っているこれらの取り組みに非常に感謝し、興奮しています。Metaを含め、完全にオープンソースではなく、オープンウェイトだけであっても、それでもコミュニティにとって大きな資産です。
私はオープンソースモデル上に構築し、特定の使用ケースのために微調整していると言う人々と常に話をしていますが、もし元のトレーニングデータにバイアスや正直に言って悪いデータがあると、それはモデルに焼き付けられています。つまり、ウェイトに符号化されています。そのため、モデルがどのように反応するかを完全に制御できないという欠点があるように思えます。それとも、あなたが言ったように、一部のモデルのソースコードを取得して自分でトレーニングするのが単に高すぎるということでしょうか？
それは非常に良い質問です、クレイグさん。もし誰かがモデルが事前訓練された全てのデータと手順にアクセスできれば、モデルが特定の方法で振る舞う理由や、研究者として何を変更すればより良くなるかについて推論することがより簡単になるでしょう。これは実際に、一部の非常に著名な研究者が過去に私が参加したプレゼンテーションで言及していることです。「この研究を行いたいが、もし私たちがアクセスがあれば、これらの詳細を知っていれば、それははるかに簡単になるだろう」と言っています。
そう、それは確かに残念なことです。とはいえ、例えばMetaがLlamaモデルで行っているように、「コミュニティとして、あなたはそれを取得し、デプロイし、テストしたいように自由にテストできます。私はあなたが私のAPIにリクエストを発行する場合、特定の方法であなたを制限したりしません」と言うと、それでもコミュニティにとって問題を特定し、「この問題が示されていると思います。そして、事前トレーニングを続けることで、あるいは通常は後処理テクニックとしてのアライメント技術を用いて、モデルをそのバイアスを減らし、より期待される方法で振る舞うように調整できます」と言う柔軟性がある程度残されています。
後処理でこれらの問題を修正したり修正したりすることはできますが、これらの大きなモデルがどのように振る舞うかをより良く理解するのに役立つ基礎的な研究を行うには、はい、レシピ全体へのより多くのアクセスがあれば、それらがどのように振る舞うかについての基礎的な研究をより多く行うのに本当に役立つでしょう。
最近、世界中のすべての原始的な宗教的テキストでオープンソースモデルを訓練するプロジェクトについて誰かと話をしていました。しかし、事前訓練されたモデルでそれを行う場合、微調整やRAGで行う場合、事前訓練されたモデルには既にそのテキストの多くが含まれています。
インターネット上のこれらの公開モデルについて私を悩ませることの一つは、インターネットがマーケティング資料で満たされると、たとえば会社について質問すると、得られる答えは客観的ではなく、マーケティングコンテンツによって歪められていることです。十分な予算を持つ企業はこれを認識し、インターネット上にマーケティングコンテンツを大量に投入して、それが吸い上げられ、モデルを彼らに有利に偏らせていると思います。
宗教的テキストのようなものに事前訓練されたモデルで作業している場合、おそらくトレーニングデータの分布によって、基礎となるモデルにはいくつかのバイアスがあるでしょう。それをどのように調整しますか？または、世界中のすべての宗教的テキストのようなものは、ゼロからモデルを事前訓練するのに十分なコーパスですか？
ここで推測すると、おそらくすべての宗教的コンテンツは十分ではないかもしれません。または、科学など多くの知識があるかもしれません。非常に包括的なモデルを持ちたいならば、宗教だけでなく、すべての知識にさらす必要があります。
そうは言っても、これもオープンソースの利点の一つです。何が正しい宗教か、または特定の宗教について回答する正しい方法は何かを言うのは難しいです。立場を取るべきか、取らないべきかなど。
異なる国や宗教は、もし望むなら、彼ら自身の宗教について質問に答える彼ら自身のモデルを開発する制御を持つべきです。単一の所有者、例えば一つの特定の大きな技術企業が、みんなの宗教や多くのこれらのトピックに対する正しい答えを決定するべきではありません。
そして、おそらく彼らにとっても難しいかもしれません。なぜなら、ウェブ上で非常によく表現されていない小さな宗教があるかもしれないからです。だからこそ、包括性のために、これらの技術がオープンであり、誰でも自分の言語、方言、宗教、またはより特定のコンテキストのためのツールを簡単に構築できるようにすることが最良の方法です。
ヤン・ルカンは過去に、おそらく既に数ヶ月前、もしかしたら1年前に、オープンソースがクローズドソースよりも優れている理由についても言及していました。それはWikipediaに相当するものであり、人類のすべての知識を包括的に捉え、単一の人が何が正しいことかを決定し、彼が十分に重要だと考えないその他すべてを残すことなく、それをWikipediaのようなオープンな方法で行うのが最善の方法だと。非常に思慮深いコメントだったと思います。
私も同じように見ています。そして、それは私たちが民主化しようとしていることに戻りますが、誰かが彼ら自身のデータにアクセスできる場合、彼らのドメインのために望ましいモデルを得るために、事前訓練を続けたり、後処理訓練をしたりするのが簡単であるべきです。なぜなら、これらの事柄の一部については、単一の技術企業が他のすべての人のために正しい答えがどうあるべきかを決定するべきではないからです。
言語の知識なしに、言語の言語構造だけに基づいた基盤モデルをトレーニングすることは可能ですか？そうすれば、知識を次の段階で追加できます。
あなたはできます。最近、どうすれば最善の方法でモデルの推論と知識を切り離すことができるかについて、多くの議論や研究がありました。推論できるが知識に欠けているモデルは、より小さく、より圧縮され、知識は外部にあり、あなたが十分に賢ければ、物事について推論することができ、必要なときに知識にアクセスできます。特定の知識にアクセスできる小さなモデルを持つことができます。
ある程度それは可能で、おそらくあなたが以前に言及したRAGが、人々がRAGで行っていることとほぼ同じです。彼らは基本的な理解と知識を持つモデルをトレーニングしますが、より特定の知識が必要なとき、テキストを理解し、概念を理解する方法を知っており、この外部知識にアクセスして持ち込み、特定のドメインの専門家のふりをして何かに応答するために使用できます。
正直に言って、それは微調整ほど効果的ではありません。時々人々は理解していません。彼らはRAGがすべての問題を解決すると考えていますが、私が彼らに言うのは、RAGはGoogle検索にアクセスできる高校生のようなものだということです。彼らは迅速に情報を見つけ、処理し、はい、いくつかの一般的な知識があり、あなたに応答できますが、たとえば、あなたが法律会社や弁護士である場合、情報に基づいて応答できる経験と能力を持つ人とは同じではありません。
例えば、あなたが弁護士であれば、単にいくつかの情報に基づいて応答するだけではなく（ここで私が無知でないことを望みますが）、彼らはクライアントをあらゆる角やあらゆるケースでカバーするのを助けるような方法で応答するかもしれません。そこには推論があり、おそらく彼らのトレーニングに特定のルールがあり、情報を考え、推奨を作成する方法についてがあります。
それはモデルが事前トレーニングや後処理トレーニングで学ぶことができるものであり、だからこそ例えば、単に知識にアクセスするだけでは十分ではない場合があります。なぜなら、高校生に本へのアクセスを与えるようなものだからです。彼らはそれを読むことができますが、彼らが正しい直感を持っているとは限りません。場合によっては、最良の可能な答えを得るためにはそれが必要です。
これは話題から外れていますが、より注意深く、より高度にキュレーションされたデータで基盤モデルをトレーニングする取り組みはありますか？単にインターネットをスクレイピングするのではなく。
はい、言おうとしていたことですが、Metaでさえも、オープンウェイトモデルしか持っていなくても、Llama 3についてのレポートは実際に合理的に詳細で役立ちました。例えば、彼らはウェブ上のデータをクリーンアップすることに多くの努力を注いでいることを非常に明確にしています。
多くの人々にとって明確ではないかもしれないことの一つは、クリーンアップとは、攻撃的なデータなどの悪いデータをすべて削除する必要があるという意味ではないことです。なぜなら、何が悪いか、何が良いかを理解するためには、悪いものと攻撃的なもの、そして良いものの両方を見る必要があるからです。それは彼らがすべての側面を見るのに役立ちますが、それでも慎重なデータキュレーションがあります。これにより、これらのモデルをトレーニングするために最も有用なトークン、最も有用なデータを提供できます。
はい、データキュレーションはすでに行われており、非常に重要です。おそらく、これらのモデルを改善し続ける最良の方法の一つは、彼らが晒されるデータの種類についてより注意深く思慮深くなることだけでなく、どのような順序で行うか、カリキュラムトレーニングと呼ばれるものについても同様です。基本的なデータでモデルのトレーニングを開始し、その後おそらくより難しいドメインに移行し、その後、より長いコンテキストを理解できるようにするなどの機能を導入します。
UmiはLlamaのような基盤モデルのためだけですか？それとも他の種類のオープンソースソフトウェアを構築することもできますか？
素晴らしい質問です。現在、主に基盤モデル、つまり生成モデルに関わっています。分類器をトレーニングし、より古典的な機械学習タスクを実行する機能を導入する計画があります。基盤モデルはこれらのより古典的なタスクを実行するための優れたツールでもあります。
エコシステム全体にわたってより多くのことを行う計画があります。データをより良くレビューして改善したり、データの改善に貢献したりする方法など、エコシステム全体にわたってツールを改善するためにより多くの作業を行う計画があります。
もちろん、コミュニティからの貢献も大歓迎です。私たちは、私たち全員の利益のために基盤モデルを進めるコアコミュニティを助けるものなら何でも、それが完全にオープンで制約がないようにしたいと考えています。
それが、人々がゼロからモデルを構築しているのかと尋ねた理由です。完全にオープンソース、オープンデータで、高性能な基盤モデルが本当に必要とされています。人々がデータバイアスなどのすべての疑問を持たずに作業できるようにするためです。
5年後のオープンソースの風景をどのように見ていますか？おそらくUmiがその形成に大きな役割を果たすことを期待していると思いますが、完全にオープンソースの基盤モデル、つまりオープンデータのモデルが出てくると思いますか？人々がそれと一緒に作業できるようにするために。
多くの人々が言っているように、これらの基盤モデルは至る所にあるか、少なくとも基盤モデル上に構築されたアプリケーションがあると思いますか？人々が作業する少数のオープンソース基盤モデルができるか、それとも何千、何万もの差別化された基盤モデルがあるでしょうか？
私は基盤モデルの基盤、つまり一般的な基盤モデル、より多くの人々がより特定のドメインや特定のタスクのモデルを構築し始めるための出発点となる一般的な基盤モデルは、ますますオープンになると思います。
私は単に願望的思考だけでなく、将来、これらのユースケースの大部分がオープンモデルによって支えられると期待しています。1年以上前からそのトレンドを期待していました。最近の数ヶ月、特に数週間で加速しているのを見ています。DeepSeekはこれに大きな影響を与えました。
ますます多くの企業が「6ヶ月前に始めたとき、オープンモデルを使うかどうか確信がなかったけど、今はあなたが言っていたことが分かります。オープンモデルをもっと使いたいです。品質はほぼ同じで、カスタマイズすると、OpenAIやGoogle、他の誰からでも提供されるモデルよりもはるかに優れています」と言っています。
私たちにとっては、オープンモデルを使用し、カスタマイズし、完全なプライバシーとセキュリティ、柔軟性、そして低いコストで品質を向上させることが理にかなっています。自分のモデルをトレーニングするには少しコストがかかりますが、以前ほど難しくはありません。それがUmiを構築した理由です。
基本の基盤モデルはますますオープンになり、既存のクローズドソースAIモデルプロバイダーは、議論したように増加する圧力と、ますます少ないイノベーションとリードを持つでしょう。彼らが実行可能なビジネスとして関連性を保つために、基盤モデルではなく、アドオンアプリケーションにますます移行する必要があるかもしれません。
その利点はますます減少し、実際に既に起こっています。オープンは全体的に、ほとんどの企業にとってより良い選択肢になるでしょう。それが私が予測する未来です。
あなたが言ったように、Umiがこれにおいて重要な役割を果たすことを強く望んでいます。早い段階で人々に言っていたように、「たとえUmiが失敗したとしても、誰か他の人が私たちと同じ戦略で成功することを本当に望んでいます。なぜなら、科学、企業、人類全体の利益のためにオープンである必要があるからです」。とはいえ、確かにUmiがこれを達成するのを助けることを望んでいますが、最も重要なことは、これが私たち全員の利益のために確実に起こるようにすることです。
誰かがUmiを見つけたい場合は、どこに行けばいいですか？
誰かは www.umi.ai に行くことができます。そこには私たちのGitHubとDiscordへのリンクもあり、そこで参加して貢献することができます。既にかなりのGitHubイシューがあり、Discordでも既にいくつかのプロジェクトを始めています。
はい、人々の貢献を歓迎します。前に言ったように、これを実現する最良の方法は、私たち全員が一緒に働くことです。より多くの人々が参加するのを楽しみにしています。
AIコーディングアシスタントであるGitHubのCopilot、GoogleのGemini Code Assist、AmazonのQ Developerは、開発者にとって不可欠なツールになっています。これらは驚くべき効率でコードを生成し、開発者の生産性を大幅に向上させます。しかし、AI生成コードの広範な使用には独自の課題があります。バグ、脆弱性、最適ではないコードが知らず知らずのうちに本番環境に入り込み、保守性、安定性、さらにはコストのかかる障害につながる可能性があります。
組織はこれらのAIツールを使用する際、いかにして生産性とイノベーションを最大化しながら、混乱とリスクを最小限に抑えることができるでしょうか？コード品質とコードセキュリティのリーダーであるSonarを使用すると、組織はAIアシスタントと連携して開発者の生産性を高めることができます。合理化されたワークフローで開発者エクスペリエンスを向上させ、すべてのコードの品質とセキュリティの問題が本番環境に到達するのを防ぐことができます。
SonarのSonar Cubeソリューションに搭載されているAIコード保証機能は、AI生成コードの徹底的な検証プロセスを提供し、業界初となるGitHub Copilotから生成されたAIコードを自動的に検出してレビューする機能を持っています。AIコード保証ワークフローは、AI生成コードへの信頼を構築し、適切なデューデリジェンスが実行され、コードが本番環境に対応していることを企業に保証します。
彼らのAIコード修正機能は、コード分析によって発見された問題に対してインスタントAI生成の修正を提供し、開発者がワークフロー内で直接レビューして適用できるようにすることで、生産性と問題解決を加速します。Sonarは、AIとAIエージェントシステムを活用してソフトウェア開発ライフサイクルを再定義するのを支援しており、AIコードの検証を合理化し、問題の誘導型修正を提供するツールで、開発者がより優れたアプリケーションをより迅速に構築できるようにしています。
国防総省、Microsoft、NASA、MasterCardなどの組織から700万人以上の開発者がSonarを使用しています。sonar source.com/onaiにアクセスして無料デモをリクエストし、Sonar Cubeがどのようにチームのマシン生成ソフトウェア開発を支援できるかをご覧ください。それはsonar source.com/onaiです。