AI最新ニュース:Copilotエージェントビルダー、IBM Granite 3.0、新Claude Sonnet、オープンソースのテキスト動画生成!

AIに仕事を奪われたい
この記事は約13分で読めます。

7,295 文字

AI News: Copilot Agent Builder, IBM Granite 3.0, NEW Claude Sonnet, Open-Source Text To Video!
What a HUGE week! Copilot Studio, new Anthropic models, new GenAI, and so much more!Try Vultr by visiting Use promo code...

昨日は人工知能のニュースとしては、これまでで最大級の日やったかもしれませんな。たくさんの発表があって、昨日からここ数日の出来事を全部お話ししていきたいと思います。めっちゃ盛りだくさんなんで、早速始めていきましょか。
まず、Microsoftがエージェントをリリースしました。Copilot Studioというエージェントスタジオのプレビュー版を公開して、エージェントの作成や実行、基本的にWindowsの環境のあらゆる部分にエージェントを組み込めるようになりました。Microsoftはこれに大きく賭けてはるんです。
発表の中から興味深い部分を読ませていただきますと、Copilot Studioでの自律型エージェントの作成機能は来月パブリックプレビューに入ります。まだ完全リリースではありませんが、もうすぐですね。
それから、Dynamics 365に10個の新しい自律型エージェントを導入して、営業、サービス、財務、サプライチェーンの各チームの能力を強化します。つまり、企業環境向けにエージェントを開発してるわけです。
このブログ記事や、MicrosoftのCEOであるサティア・ナデラが行った基調講演、そしてMicrosoftが発表した別の記事によると、彼らはエージェントが企業環境のあらゆる側面に浸透すると見込んでいます。今後数年で何百万ものエージェントが職場に入ってくると考えているんです。私もその考えに賛成です。
最初はかなり単純な基本的な自動化から始まると思いますが、モデルが改良されて、生の知能の周りにあるエージェントフレームワークが良くなるにつれて、これらのエージェントはますます事前対応型になっていくでしょう。その時々に割り当てられたタスクに反応するだけじゃなくなっていくんです。
でも、Microsoftの発表を素晴らしいと思ってない人もいます。実際、マーク・ベニオフはMicrosoftのすべての発表について批判してます。マーク・ベニオフといえばSalesforceのCEOで、かなり個性的な性格の持ち主です。
思い出してほしいんですけど、Salesforceの始まりには「ノーソフトウェア」という有名なモットーがありました。当時はすべてのソフトウェアがオンプレミスで提供されて、インストールすると停滞してしまうような状況でした。彼はクラウドにソフトウェアを持ってきた先駆者の一人でした。
彼は昔、ソフトウェアと書かれたピンバッジを作ったんですが、今回はそれと同じデザインでCopilotと書いたものを作っています。MicrosoftがCopilotをエージェントとしてリブランディングしているのを見てください。これはパニックモードですよ。正直に言いましょう、Copilotは失敗です。なぜならMicrosoftには、本物の企業インテリジェンスを作るためのデータ、メタデータ、企業セキュリティモデルが欠けているからです。
でも、それは本当とは違いますね。Microsoftはすべてのデータを持ってます。今や実質的にすべての企業の98%で使われていて、どのビジネスもMicrosoftを何らかの形で使用してます。だからデータは持ってるんです。セキュリティがないって言うかもしれませんが、本当は既に持ってるかもしれませんし、持ってなくても作れる人材は揃ってます。
彼はこれを「クリッピー2.0」と呼んでて、それは面白いと思います。この企業同士の小競り合いは実際好きですね。たとえそれが誇張であって、マーク・ベニオフ自身が言ってることを本当には信じてないとしても。もちろん、Agent Forceという競合製品も出してきてます。
だから、Copilot Studioが出たら即試してみて、どんな感じか報告させていただきますね。
次に、IBMが複数のオープンソース・オープンウェイトモデルを世界に公開しました。先週、ニューヨークでIBMを訪問した際に、これらの発表のプレビューをたくさん見せてもらいました。
そして今、それらが実現しました。Granite 3.0の8Bと2B、そしてGraniteモデルのMixture of Experts版も登場しました。これらは完全にオープンソースで、完全にオープンウェイトで、Apache 2.0ライセンスの下で提供されています。
また、これらのコアモデルに知識を追加する新しい手法も開発しました。これは完全なRAGでもファインチューニングでもない、その中間的なものです。Graniteモデルとこれらの手法についての詳細なビデオをもうすぐ公開する予定です。
次に、昨日最大のニュースとして、AnthropicがClaude 3.5 Sonnetをリリースしました。また、Claude 3.5 Haikuという新しい小型モデルも発表しました。これはClaude 3.0 Opusよりも優れているというのは、考えてみると驚きですね。OpusはAnthropicの最大モデルでしたが、3.5 Sonnetは非常に優れたパフォーマンスを示しています。
もしまだ私のビデオを見てない方は、説明欄のリンクからチェックしてください。Claude 3.5 Sonnetの完全なテストも行いました。アレックスが今編集の最終調整をしていて、近日中に公開できる予定です。まだ登録してない方は、このすごいモデルのパフォーマンスを見られるように、ぜひチャンネル登録をお願いします。
そして昨日のAnthropicからの最も注目すべき発表は、Computer Use Toolでした。これは本当に驚くべきものです。基本的に、AIモデルにコンピュータを制御する能力を与えようというAnthropicの試みです。
Open Interpreterなど、オープンソースプロジェクトでも同様の試みはありましたが、必ずしもうまく機能してませんでした。今回Anthropicが挑戦するわけです。ただし、実験的な段階で、ミスを起こすことがあるという注意書きがついています。
実際、モデルが突然タスクを中断して、急にイエローストーンの調査を始めるなど、奇妙な行動の例も示されています。面白いけど、ちょっと変な感じですね。これはAPIで、既に試すことができます。まだビデオは作ってませんが、チュートリアルや試用の様子を見たい方は、コメント欄で教えてください。
ここで、今回の動画のスポンサーであるVultureの紹介をさせていただきます。世界最大の独立系クラウドプロバイダーの恩恵を受けられます。GPUワークロードをVultureに移行すると、最新のNVIDIA GPUを6大陸32ヶ所で利用できます。
Vultureは業界をリードする価格対性能比と、真剣なアクセシビリティと信頼性を提供します。Vultureのグローバルで完全に構成可能なクラウドインフラは、アプリケーションをユーザーの近くに移動させ、ベンダーロックインから解放します。独自のネットワーキングやデータベースソリューションを持ち込むことができます。
単一のクラスターを超えてスケールする必要がある場合、Vultureのkubernetesエンジンを使用すると、デプロイメントを完全にコントロールでき、100%無料のコントロールプレーンを提供します。
他のプロバイダーでGPUを待つのに疲れた方は、ぜひVultureを使ってください。即座にあらゆる規模でデプロイでき、H100s、L40などが今すぐ利用可能です。カードの一部から完全に専用のベアメタルシステムまで選べ、ハードウェアとスループットを完全にコントロールできます。
また、高度な機械学習ワークロードに必要なすべてのアプリケーションをワンクリックでインストールでき、数時間ではなく数分で開始できます。
Vultureの違いを体験してください。深刻な待ち時間や限られた場所に悩まされることはありません。get.vulture.com/burmanを訪れて、チェックアウト時にコードburman300を使用すると、最初の30日間で300ドルのクレジットを無料で試すことができます。再度、このビデオのスポンサーとなってくれたVultureに感謝します。
次に、先週Metaが大量のオープンソースプロジェクトをリリースしました。Metaのオープンソースへの貢献には引き続き感心させられます。
ここでは全ての機能を紹介します。Segment Anything 2.1です。もしまだ見てない方は、基本的にどんな画像や動画でもクリックするだけで、画像内の何でも自動的にセグメント化できます。人物を画像から切り取りたい場合でも、風船や建物など何でも、とても簡単にできて、高精度です。
それから、テキスト読み上げ用のオープンソース言語モデルであるSpirit LMもリリースしました。さらに、トレーニングを容易にしたり、推論を高速化したりするための、非常に技術的なプロジェクトも多数リリースしました。詳しくは、説明欄に記載するブログ記事のリンクをチェックしてください。
次に、OpenAIの元CTOであるミラ・モラディが、OpenAIを去ったばかりですが、既に大量の資金調達と新会社の立ち上げ、人材採用の噂が出ています。まだ初期段階の話ですが、彼女の評判と独自のモデルをトレーニングするために必要な資本を考えると、1億ドル以上を調達する可能性があります。
もちろん、彼女は独自のモデルを構築しています。そのモデルの上に製品を構築するかもしれませんが、誰かがその知識を持っているとすれば、間違いなくOpenAIの元CTOでしょう。彼女には最高の人材を雇い、大量の資金を調達できる評判があります。私は大賛成です。競争が多いほど良いと思います。
次に、OptimusロボットのChinese copycat企業が新しいビデオと新しいヒューマノイドロボットを公開しました。時々少しぎこちない動きはありますが、Optimusロボットほど滑らかではないものの、それでも素晴らしいです。繰り返しになりますが、競争が多いほど良いですね。
多くの人がこれはOptimusロボットのほぼ完全なコピーだと言っています。確かにかなり似ていますが、必ずしもコピーとは限らないと思います。Optimusロボットもこの企業も、そんなに長く存在していないので、秘密を盗んでこんなに短期間で再現したというのは考えにくいですね。でも、ヒューマノイドロボットが大好きなので、すべての進歩を歓迎しますし、この企業も頑張ってると思います。
次に、Stability AIがStable Diffusion 3.5をリリースしました。これは彼らのテキストから画像を生成するモデルの新バージョンです。Stable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turboがあり、10月29日にはミディアムサイズ版もリリースすると発表しています。
Stable Diffusionの素晴らしい点は、オープンソースであることです。ダウンロードして自分のコンピュータで実行できます。企業がオープンソースコミュニティに貢献してくれることには、いつも感謝しています。
ここにいくつか例があります。この人物画は信じられないほど本物に見えます。区別がつかないくらいです。光の表現も素晴らしく、髪の毛も完璧で、すべてが正しく見えます。もちろん、これらの写真に手は写っていませんが、それはAIにとって最も難しい部分のようですね。
他の例もあります。これは明らかにアート作品です。このマグカップはかなりリアルに見えますが、ハンドルの位置が少し不自然ですね。そしてこちらも別のアート作品です。
これらのモデルには、Stability AI API、Replicate、ComfyUI(ローカルで実行可能)、そしてDeep Infraを通じてアクセスできます。
さらに、AOGが新機能「AOG Canvas」をリリースしました。基本的に無限のキャンバスボードのようなもので、画像から始めてどんどん追加したり、周りに加えたりできるんです。本当にクールですね。自分の顔やブランドのビジュアルをideogramキャンバスに持ち込んで、業界をリードするマジックフィルと拡張機能を使って、AIで生成したクリエイティブなコンテンツとブレンドできます。
新しいインターフェースはこんな感じです。画像を生成して、選択して、拡張して、追加できます。本当にクールですね。マジックフィルはこんな感じです。画像を取って、その一部を選択して、基本的に好きなものに変更できます。
拡張機能はアウトペインティングツールで、画像を取って周りに好きなものを追加できます。アンドレ・カーパシーも「大好きです。試すのが待ちきれません」と言ってますし、私も同感です。
次に、LM Studioが素晴らしいアップデート0.3.5をリリースしました。今回はヘッドレスモードが追加されました。AMAの動作に非常に似ていて、基本的にインターフェースがなく、LM Studioのインターフェースは得られますが、本質的に消して、タスクバーだけで使用できます。
開発者にとってはこれが完璧です。私はLM Studioが大好きで、投資もしているし、本当によく使います。システムトレイに最小化できるので、UIを開いておく必要がないんです。これは開発作業にとって本当に完璧ですね。
次に、Perplexityの CEO であるアービンが、彼らのモデルに「思考」能力を追加したと発表しました。おそらく01モデルを使用していると思われます。深い研究やそのレベルの知能を必要とするものに関して、私の気持ちはご存知だと思いますが、この機能を使えるようになりました。
彼らはこれを推論駆動型検索エージェントと呼んでいます。そしてClaude 3.5 Sonnetが出たので、Perplexityのプロユーザーであれば、この新しいモデルも利用可能です。もちろん私はすぐに有効にしましたが、Perplexityでのモデル間の違いはあまり感じません。通常、Perplexityは単に優れていて、どのモデルを使っているかは気にしませんが、試してみるのは面白いですね。
私にとって非常に興味深いのは、モデルが発表された日に、どうやって問題なく追加できるのかということです。プロンプトやキャッシュなどを再設計する必要がないのはなぜでしょうか。彼らが構築したものは非常に堅牢なシステムのようです。
次に、新しいオープンソースのテキストから動画へのモデルが登場しました。Moi-1と呼ばれ、Genmo AIによって開発されました。見た目も良く、すべてが一貫していて、物理的な動きも良好です。デモビデオを見る以上の試用はまだしていませんが、もし試した方がいれば、コメント欄で感想を教えてください。
オープンソースなので、技術的には自分のコンピュータにダウンロードして実行できます。私はそういうのが大好きです。今すぐ無料で試すこともできますし、もちろんGitHubでモデルが公開されているので、ダウンロードして試すことができます。
さらに、Runwayが新機能を発表しました。Runwayはオープンソースではありませんが、それでも素晴らしいですね。Gen-3 Alpha内で、単一の駆動ビデオとキャラクター画像を使って表現力豊かなキャラクターパフォーマンスを生成する新しい方法である「Act-1」を導入しました。
自分の顔やビデオ、自分に関する何かを取って、テキストを動画に重ねることで基本的にキャラクターをアニメーション化できます。ゴラムが実際の人間によって演じられたのと非常に似ていますが、その時は大量のフェイストラッキング技術や高価な技術が必要でした。でも今は自分のビデオだけあればいいんです。
本当に素晴らしい動画を作るコストが劇的に下がってきているんです。Runwayの発表、おめでとうございます。
次に、簡単なニュースですが、xAIついにAPIが利用可能になり、価格も競争力があります。Grockモデルが好きな方は、ぜひ試してみてください。新しいGrockモデルがもうすぐ登場することも分かっています。
現在はGrock Betaという単一のモデルがあり、価格は入力トークン100万個あたり5ドル、出力トークン100万個あたり15ドルです。開発者で、AIアプリケーション用のモデルの選択肢を増やしたい方は、ぜひチェックしてみてください。
次に、現在出てきている生成AIについて、私は本当に大好きなんですが、Eleven Labsが声を説明して、その声でスクリプトを使用できる機能をリリースしました。既存の音声ファイルや声をクローンする代わりに、基本的に欲しい声を説明するだけで使えます。
例を聞いてみましょう。「深いゴロゴロした声の大きなイエティ」:「私は、あなたの先祖が登山を夢見る前からこの神聖な頂を守ってきた」。「ささやくような声の怖い魔女」:「月は今夜秘密をささやき、星々はあなたの運命を私に告げた」。
本当に素晴らしいですね。今日、人々が手に入れているクリエイティブツールの数々は、誰でも信じられないような映画、テレビ番組、ポッドキャストを作れるようになるでしょう。クリエイティブな人にとって、本当にワクワクする時代です。
今日はここまでです。これらが全てのニュースでした。私が録画しているのは水曜日なので、今週の残りにどんなことが起こるか分かりませんね。今週は本当に信じられないほど忙しいので、もしかしたら今週中にもう一本ニュース動画を作るかもしれません。
この動画を楽しんでいただけたなら、ぜひ「いいね」とチャンネル登録をお願いします。それでは、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました