ジョアン・モウラのCrewAI、スタートアップへのアドバイス、マイクロソフトがOpenAIのライバルに、MistralがPDFを読み取る

9,460 文字

João Moura da CrewAI Dá Dicas para StartUPs, OpenAI Terá Microsoft Como Concorrente, Mistral Lê PDF

Aprenda Inteligência Artificial! ▸ Seja MEMBRO: ▸ ▸ Instagram: @inteligenciamilgrau▸ Facebook: ▸ GitHub: 00:00 Intro00:4...

皆さん、マイクロソフトがOpenAIの新たなライバルとなるAIモデルをリリースする計画があるようです。これまでOpenAIはマイクロソフトの大切なパートナーでしたが、状況が変わりつつあります。また、MistralがPDFや文書を読み取るOCRモデルをリリースしました。おそらく現在最高のOCRモデルになるでしょう。
さらに、ジョアン・モウラのLinkedInの投稿に対するリアクションもお届けします。CrewAIのローンチについての彼の経験と、スタートアップ界隈で始めようとしている人へのアドバイスを6つ紹介しています。それでは始めましょう。
いつも通り、いいねやチャンネル登録をしてくれた皆さんに感謝します。特に、このAIチャンネルをサポートしてくれているチャンネルメンバーの皆さんに特別な感謝を。
今日は、CrewAIのジョアン・モウラがLinkedInで投稿した内容に簡単にリアクションするビデオを作ります。ジョアン・モウラはブラジル人で海外に住んでいました。彼はCrewAIというオープンソースの無料プロジェクトに取り組んでいたのですが、彼が構築したエージェントベースの自動化システムが評判になり、多くの人に好評を博しました。
彼は今やブラジル人にとって成功者のモデルとなっています。AIの盛り上がりの中で、多くの人がアメリカや中国ばかりに注目する中、努力と献身的な取り組みがあれば私たちも達成できることを示してくれています。それは時間の問題であり、戦略的な視点で物事を見る必要があるのです。
私たちが不利な立場にあるとき、前にいる人に追いつくために何をすべきかを考える必要があります。ブラジルに対する「努力しても達成できない」「ここでは何も機能しない」という呪いを打ち破りましょう。動けば物事はうまくいくのです。ジョアン・モウラがどのようにしてこの呪いを打ち破り、成功したのかを見てみましょう。
彼はこう語っています：「スタートアップの創業者として私の最大の恐れは、私たちの価値を証明する前に巨大企業に潰されることでした。」これは彼が自分の小ささと、今日のAI業界における自分の立場を認識していることを示しています。
そして彼は6つの直感に反する戦略を共有しています。これらは資金力のある競合他社に勝つためにCrewAIが活用した戦略です。「十分な資金を持った」というのは、無料でオープンソースのプロジェクトを資金なしで行い、競合他社を追い抜くことができたという意味です。
「CrewAIを始めたとき、無限のリソースを持つテクノロジー大手と、大きなチームを持つベンチャーキャピタルに支援されたスタートアップに立ち向かっていました。」当時、Lang Chainという会社がありました。彼らは多額の資金を得ていて、CrewAIはLang Chainのプラットフォーム上に構築されていました。これはCrewAIの大きなマーケティングポイントとなりました。Lang ChainはVCに支援されたスタートアップで、あらゆる場所で話題になっていました。私のチャンネルでも動画を作ったことがあります。
「私はオープンソースプロジェクトを持つブラジル人開発者に過ぎませんでした。」彼は自分を卑下しているわけではなく、自分の規模を認識しているのです。「今日、私たちは毎月5,000万以上のエージェントを稼働させ、IBM、Cloudera、PWC、NVIDIAとパートナーシップを結んでいます。」NVIDIA関連の最近の動画でもお伝えしたように、CrewAIは地球上最大のカンファレンスでJensen HuangがNVIDIAの製品を紹介するスライドにも登場しています。
一つ目のアドバイスは「小ささを速さに変える」ことです。「他の企業が会議で議論している間、私たちは製品を提供しました。私たちの規模が超能力になったのです。誰よりも速く実験することができました。」
これは小さな企業の特徴です。小さな企業では、考えたらすぐに行動できます。大企業では、考えたら、まず上司に伝え、許可を得て、予算を確保し、チームを編成し…といった流れになります。小さな企業は迅速で加速できるという大きな利点があります。
だから私がいつも言うのは、もし製品を作るなら、できるだけ小さく、シンプルにして、オンラインに公開し、人々に使ってもらい始めるべきだということです。人々があなたの製品を使い始め、意見をくれれば速やかに修正して改善できます。これが小さく始めて成長したい人にとって最良の戦略です。
二つ目のポイントは「戦略的に聴衆を構築する」ことです。「私たちはすべての勝利と学んだ教訓を共有しました。それは透明性のためではなく、人々が参加したいと思う運動を作るためでした。私たちのコミュニティが最も強力な支持者になりました。」
これは非常に的確です。旅を共有し、何が起きているかを伝えると、人々は関わり、興味を持ちます。例えば、私はブラジルでOpenAIのようなものを作りたいと何度か共有しましたが、多くの人が興味を示してくれました。私はまだどうやって実現するか計画中ですが、行動を起こすことの緊急性をますます感じています。たとえ不完全でも始める必要があります。あなたたちもこの必要性を感じていると思います。
誰かが始めると、多くの人がそれに続きます。この地球上には多くの人がおり、誰もが何か違うことをする機会を求めています。この二つ目のポイントは、特に私のチャンネルにとって興味深いです。今や私たちは、コミュニティを始め、対話を始め、物事を動かすのに十分な規模と関与があります。
三つ目は「教育が採用を促進する」です。「Andrew NgとのDeep Learning AIでの2コースが全てを変えました。」これは彼がCrewAIの使い方を教えるコースを作った時です。無料で利用できます。「機能を押し付けるのではなく、AIエージェントのオーケストレーションを顧客に教えました。顧客は価値を本当に理解したので、支持者になりました。」
これは理にかなっています。私はいつも不思議に思っていました。なぜ企業は製品を販売するとき、YouTubeでチュートリアルを提供しないのでしょうか？携帯電話でさえ、私たちは手探りで使い、製造元が教えてくれない多くの機能があります。ジョアン・モウラは「私は自分のツールの使い方を教えた人間だった。人々が自分で発見するのを待たなかった」と言っています。
四つ目は「明日の課題に集中する」ことです。「私たちは3〜5年先を見ています。企業は将来、数千のAIエージェントを展開するでしょう。他の人が今日の機能を追いかけている間、私たちは未来のエージェントのためのコントロールプレーンを構築しています。」
2019年に修士課程を始めたとき、私もジョアン・モウラが言っていることと全く同じことを考えていました。世界が成長し、自動化が増加し、サービスリクエストや情報管理の量が増えており、地球上のどんな人間もこれらすべてを管理することはできないと考えました。だから、エージェントを使用した自動管理システムが必要なのです。
将来必要になるものを予測するというこのビジョンは不可欠です。私は未来を見つめ、仕事が変わることを予見しています。何が起こるか正確にはわかりませんが、今日の仕事のやり方はもはや意味をなさず、大きな社会経済的変化が起こるでしょう。失業の波になるのか、AIを使用して全員が改善する社会的改善の波になるのか、正確には知りません。しかし、今日の市場のためのツールを作るなら、それは最大でも2〜5年しか続かないでしょう。物事は将来大きく変わるからです。
五つ目は「サプライヤーではなくパートナーになる」ことです。「ビジネスリーダーは別のツールを望んでいません。彼らはAI変革のビジョンを共有するパートナーを求めています。この考え方がIBMとPWCをパートナーとして引き寄せました。」
これは非常に現実的です。IBMはCrewAIを作るお金を持っています。でも、なぜ作らないのでしょうか？大企業は、誰かがすでに何かを行っており、それがうまくいっているのを見ると、まずパートナーシップを試みます。パートナーシップがうまくいかなければ、自社で作るでしょう。ジョアン・モウラはパートナーシップを結ぶことができ、うまくいっていると示しています。
誰もがツールを作りたいとは思っていません。ログインの問題、データベースの問題、その他のインフラ問題を解決するのに時間を使いたくないのです。だから彼が言っているのは、相手の問題を解決し、一緒に成長するのを手伝い、相手がお金を払って何かをしてもらうのを待つのではなく、先に行動し、将来的に一緒に進むということです。
六つ目は「競争が成長を促進することを許す」ことです。「新しい競合企業が登場するたびに、私たちはより強くなりました。彼らの存在は私たちの市場を検証し、彼らの規模は私たちを機敏にし、彼らの複雑さは私たちのシンプルさを際立たせました。」
これは非常に現実的です。Jinaやその他の企業が新しいモデルで登場し、ChatGPTの方が優れていることを強調したことが何度もありました。そして、DeepSeekが登場して、多くの先駆者が実は劣っていたことを示し、多くの企業を追い抜きました。これにより業界全体が揺さぶられました。DeepSeek自体が他の企業を強化し、先行していた企業もDeepSeekを宣伝しました。この競争の混合により、AIの品質が大幅に向上し、このチャンネルの調査ではClaude 3.7がOpenAIよりも優れていることが示されました。これは私が予想していなかったことです。
主要な洞察：「今日のAIの勝者は単にツールを構築しているだけではありません。彼らは次に来るものに備えています。」これは興味深いトピックです。何でもいいから始めて、今起きていることの経験を積みましょう。後で全てが変わることを知っていても、その経験は変化を理解するために不可欠です。
「間もなく、すべての企業は何百ものAIエージェントを持ち、販売、サポート、コンテンツ、分析を処理するでしょう。あなたはそれらをどのように管理しますか？」OpenAIのDeep ResearchがAIの驚異的な能力を示した今、将来これらの小さな詳細が違いを生むことがますます明らかになっています。これらのAIが人間の仕事に強く浸透する可能性が非常に高いと思います。
今日では、通常のチャットを利用することはほとんどありません。少なくとも思考ツールを使用し、一般的にはDeep Researchタスクを活用しています。
そして彼はこう締めくくっています：「だからこそ私たちはCrewAIを作りました。明日のAIインフラストラクチャーで企業がエージェントをオーケストレーションし、コンプライアンスを確保し、安全にスケールするのを支援します。将来のエージェントに関する情報については、DMを送るか、João Mouraをフォローしてください。」
彼のプロフィール写真がここにあります。彼の顔を知らなかった方は、これが彼です。João M D Mouraにメッセージを送れば、彼が対応してくれるようです。彼はかなりアクセスしやすい人物ですが、現在は非常に多くの人から連絡を受けています。
これについてどう思いますか？会社を立ち上げたくなりましたか？新しいソフトウェアを始めたくなりましたか？オープンソースプロジェクトを始めたくなりましたか？あなたが現在行っていることはすでにこの方向に進んでいますか？より良く作れるツールや、より良く作れるAIがあると気づきましたか？あるいは、皆が行っているが、まだ市場が残っていて参加できるものはありますか？コメントで教えてください。
さて、もう一つのニュースです。Mistral AIが印象的な結果を持つ新しいAI OCR機能をリリースしました。OCRというのは文書の読み取りのことで、PDFを送って読み取りを依頼します。Mistral AIの新しいOCR APIは、Mistral自身のベンチマークテストによると、市場の現在のソリューションよりも高い精度で文書、表、画像を処理します。
Mistral AIによって発表されたシステムは、テキスト、メディア、表、数式を処理し、複雑な文書のインフォグラフィックをデジタル形式に変換することもできます。
OCRがよくわからない方は、この文書、このPDFを見てください。彼らのシステムに送ると、テキストの抽出、そして画像の抽出も行います。見てください、AlphaFold 3の論文のPDFを送ったとき、PDFから抽出されたテキストと画像がきれいに表示されます。Google DeepMindのAlphafoldについての文書が表示されています。
テキストが抽出され、コンピュータ用のテキスト形式になっています。画像も抽出され、キャプション、数式なども含めてトリミングされました。これは非常に高品質で素晴らしいものです。
例えば、マウスを動かすと、元のどこから抽出したのかが表示されます。タイトル、グラフなど、元のものと抽出されたものは正確に一致しています。ただし、フォーマットは少し失われます。センタリングされていたものが左にずれていたり、右端にあった表が少しフォーマットを失って下に来たりします。しかし全体的にはよく機能しています。
これは数学用のOCRで、数式がきれいに表示されています。元のものを見ると、数式のインデックス（40、41、42など）がOCRでは失われていますが、数式自体はきちんと表示されており、テキストも正確です。これは素晴らしいことです。
ここにはヒンディー語で書かれたテキストの例があります。オリジナルの手書きテキストとシステムによる転写です。画像もあります。元の画像は傾いていますが、システムはそれを整え、正しい向きに調整しています。
アラビア語のテキストもあります。元のテキストと転写されたテキストです。私はアラビア語を全く理解しないので、これが良いかどうかはあなたが教えてください。
彼らのノートを見ると、全体結果が94%と最も高く、次いでGeminiが90%です。数学、多言語、スキャン、表など、様々なベンチマークで他のすべてよりも優れており、特にスキャンでは98%と非常に高い結果を示しています。
また、このシステムは生来多言語対応です。「M設立以来、私たちはモデルで世界にサービスを提供することを目指してきました。」ですから、ポルトガル語のものを送っても問題なく処理できます。
他のモデルとの比較も示されており、ポルトガル語の場合、MistralのOCRはAzureの97%、Googleの95%に対して99.09%という結果を出しています。ポルトガル語話者にとっては最高です。
さらに、このシステムはカテゴリ内で最も速いと言われています。「カテゴリ内のほとんどのモデルよりも軽量で、Mistral OCRは競合他社よりも大幅に速く、単一のノードで毎分最大2,000ページを処理できます。文書を迅速に処理する能力は、高性能環境でも継続的な学習と改善を保証します。」
これはどのように使用できるのでしょうか？「Mistral OCRの機能は今日からチャットで無料でテストできます。」Mistralのチャットですでに利用可能です。またはAPIで試すこともできます。「プラットフォームにアクセスしてください。あなたのフィードバックをお待ちしています。モデルが継続的に改善することを期待しています。」
簡単なテストをしてみました。このENEM（ブラジルの高等教育入学試験）の試験を取り、送ってみました。画像がいくつかありますが、チャットで送信したところ、テキストはきれいに抽出されましたが、画像は表示されませんでした。質問部分では画像が表示されないのが問題ですが、デモンストレーションではAPI経由で画像が表示されていました。私はチャットで使用したので、テキストのみが表示されました。コメントで、あなたの結果が異なるかどうか教えてください。
この Mistral OCR APIを使用するコストはいくらでしょうか？価格設定がはっきりしておらず、「1,000ページあたり$」と記載されていますが、金額が明確ではありません。他のサービスでは「$0.01」「$0.10」と記載されているのに対し、ここではドル記号のみで数値が表示されていません。後でMistral AIのサイトを確認する必要があります。
良いニュースは、APIに試用プランがあり、いくつかのテストを行うことができることです。テキストを抽出できるだけでも良いスタートですが、画像も必要な場合はAPI経由での利用が必要です。
次のニュースです。マイクロソフトが2025年にAPI提供予定のOpenAIとAnthropicに対抗する社内AIモデルを準備中です。
理解しておくべきことは、OpenAIとマイクロソフトは大きなパートナーで、マイクロソフトはOpenAIに多額の資金を投入してきました。しかし、今起きているのは、例えばAnthropicはAmazonとパートナーシップを結んでいますが、Amazonも独自のモデルを作ろうとしています。マイクロソフトはOpenAIとパートナーシップを結んでいましたが、今はマイクロソフトが独自の道を歩もうとしているようです。
これは非常に奇妙で、DeepSeekがR1をリリースした後に活発化しました。基本的に、誰もが最初の一歩を踏み出し、独自のモデルを作ることが容易になったのです。
「マイクロソフトはAIのCEOであるMustafa Suleimanの指揮の下、独自の言語モデルファミリーを開発していると伝えられており、OpenAIとAnthropicが提供する能力に匹敵することを目指しています。同社は今年中にAPIを通じてこれらのモデルをリリースする計画だと言われています。」
マイクロソフトは以前から並行して小規模なモデルを持っていましたが、「マイクロソフトのAIチームは、’Myo’として知られる内部モデルファミリーで重要なマイルストーンに達しました。テストによれば、これらのモデルは標準ベンチマークでOpenAIとAnthropicの主要な製品とほぼ同じレベルのパフォーマンスを示しています。このファミリーには、OpenAIのO1リソースに対応するように特別に設計された推論モデルが含まれています。」
2023年、2024年に新しかったものは今では新しくなく、基本モデルに推論モデルとディープリサーチモデルを追加することがモデルの進化であることが明らかになっています。
「これらの新しいモデルは、コストとパフォーマンスのバランスに重点を置いたマイクロソフトの以前のPhi seriesよりもはるかに大きいです。マイクロソフトは年末までに外部開発者向けにAPIプロセスを開放し、同様のサービスを提供するOpenAIやその他のAI研究所と直接競合する可能性があります。」
疑問が残ります：OpenAIはこの揺さぶりに耐えられるでしょうか？他の全ての企業が独自のモデルを作り始めた今、製品を持たないOpenAIは生き残れるでしょうか？
MetaにはFacebook、Instagram、WhatsApp、GoogleにはGoogleの検索エンジン、マイクロソフトにはWindowsがあります。OpenAIには現在ChatGPT以外に頼れるものがありません。
「マイクロソフトは社内開発だけに限定されていません。同社はすでにCoPilotでxAI、Meta、DeepSeekのモデルを、現在のOpenAIモデルの代替として評価していました。この戦略は、マイクロソフトのAIパートナーへの依存度を減らすのに役立つかもしれません。」
これは興味深いです。OpenAIは大きく進歩しましたが、同時に多くの論争にも巻き込まれました。2023年から見ている人は、Sam Altmanが解雇され、その後復帰したことを覚えているでしょう。ChatGPTが結果を示した後、成長段階での論争は彼らが求めていた最後のものでした。
「独立したAI能力を構築することは簡単ではありませんでした。The Informationによれば、1年間の開発過程で、プロジェクトは技術的な課題、方向転換、重要なチームメンバーの離脱に直面しました。その間もOpenAIは新しいモデルバージョンをリリースし続けていました。」
あらゆる企業からの従業員の出入りが最も頻繁に起きていることです。誰もがスタートアップを立ち上げる機会を見ており、モデルを作ることはそれほど難しくないと気づいており、問題は技術よりもお金の問題だと認識しています。
「PhiプロジェクトをリードしていたSebastian Bubeckの退社は特に痛手でした。彼はOpenAIに移り、多くのマイクロソフトの研究者を連れて行きました。」
「この期間中、SuleimanのOpenAIに対する不満は高まりました。特にOpenAIチームがO1モデルの内部動作の詳細を明かさなかったことが原因でした。」これはOpenAIを離れた人々と関連する複雑な問題で、オープンであるべき彼らがますます閉鎖的になり、制限的な政策を持ち、公開されるパブリケーションがほとんどなくなってきたことです。今日では、OpenAIからのオープンな公開物をほとんど見ることができません。しかし、他にもそれを行う人はほとんどいません。
「それでも、Karen Simonyanの下でのAIチームは、思考連鎖技術を使用して比肩する推論能力を開発することができました。2024年春の報告では、約5,000億パラメータを持つ’My1’と呼ばれるマイクロソフトのモデルについて言及されていました。」
「マイクロソフトのCTIOであるKevin Scottは、Myoの存在を確認しましたが、OpenAIとの継続的なパートナーシップを強調しました。新しいモデルには、マイクロソフトが6億5,000万ドルで買収したSuleimanのAIスタートアップInflectionのトレーニング技術とデータが組み込まれています。」
つまり、Anthropicとパートナーシップを結んでいるAmazonも、OpenAIとパートナーシップを結んでいるMicrosoftも、パートナーシップと並行して独自のモデルを作成しているようです。Anthropicがうまくいかなければ、Amazonには独自のモデルがあり、OpenAIがうまくいかなければ、Microsoftには独自のモデルがあるという状況です。
これについてどう思いますか？うまくいくと思いますか？何が起こると思いますか？このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはWhatsAppグループやビデオの先行視聴にアクセスできます。いいねを押してくれてありがとう。