Netflix、AI導入。ChatGPTがDeep Researchを強化、Claudeが新機能を解放

7,332 文字

NetFlix Agora Tem iA, ChatGPT Amplifica Deep Research, Claude Libera Novas Funcionalidades

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

みなさん、いつものように様々な人工知能関連の最新ニュースがあります。ChatGPT、Anthropic、Hugging Face、Microsoftの新機能に加え、金融・ビジネス分野で幻覚を起こさないソリューションを提供するスタートアップの話題もあります。お金や取り扱いが難しい事柄に関わる分野では、幻覚は絶対に許されませんからね。
それでは始めましょう。いつも通り、チャンネル登録とライクをくださった皆さんに感謝します。特に、このAIチャンネルをスポンサーしているメンバーの皆さんには特別な感謝を。メンバーの方々は、インテリジェントエージェントの専用動画へのアクセスがあり、エージェントの作成方法やWhatsAppへの統合方法を説明した完全なプレイリストが利用できます。また、先行公開動画も視聴できます。
ChatGPTが小さいけれど重要なアップデートを行いました。今、GitHubリポジトリをDeep Research（詳細検索）に接続できるようになりました。質問をすると、検索エージェントがソースコードとPR（プルリクエスト）を読み込み、検索し、引用付きの詳細なレポートを返してくれます。Deep ResearchとGitHubにアクセスして始めましょう。
もし「GitHubって何？」と疑問に思っている方のために説明すると、これはインターネット上のサイトで、おそらく一度は見たことがあるかもしれませんが、初見では怖気づいたかもしれません。実はこれはプログラミングコード専用のサイトです。例えば、これが私のチャンネル「Inteligência 1000 gra」のGitHubで、ここには私が使用したコードや、視聴者が無料で利用できるプログラムがあります。
例えば、私のチュートリアル動画フォルダには「Crew AI」というフォルダがあり、その中に基本的なCrew AIコードがあります。これはCrew AIを実行するためのプログラムで、その使い方を説明する動画も作りました。このコードは10ヶ月前に公開されたものなので、おそらく更新が必要かもしれませんが、当時は機能していました。
さて、ChatGPTに行き、調査機能でGitHubを選ぶと、ChatGPTとの接続認証が求められます。接続タブにGitHubが接続されましたが、最初は何も表示されませんでした。「なぜリポジトリが表示されないのか」という質問に対しては、一般的に接続後5分ほど遅延があると説明があります。
しかし5分経っても表示されなかったので、さらに調査すると、GitHubリポジトリの承認が必要だということがわかりました。リンクをクリックして「ChatGPT Connector」をインストール・更新すると、すべてのリポジトリへのアクセスではなく、選択したリポジトリだけを承認するオプションがあります。私はエージェントとチュートリアル動画の2つだけを選びました。
インストールして承認すると、チュートリアル動画のリポジトリは表示されましたが、エージェントのほうは表示されませんでした。このツールはまだベータ版なので問題があるかもしれません。チュートリアル動画リポジトリを選び、「このリポジトリにあるプロジェクトの要約を作成してください」とリクエストしました。
AIは「どのフォルダやファイルを分析し、具体的な焦点を当てるべきか指定できますか？」と尋ねましたが、私はすべてのディレクトリを分析するよう指示しました。そこには様々なプロジェクトがあります。ウェブカメラ、音声からテキスト変換、Crew AI、GPT for Mini、GPT Forow Tabajara、Hugging FaceのLlamaなど、多くのものがあります。特に「人工生命」の動画は最も興味深いものの一つでした。10ヶ月前のものですが、今でも通用する内容です。
興味深いことに、AIが詳細な深層検索を行っていることがわかります。この小さなリポジトリに対しても詳細な検索を行っているのです。9分後、35のソースを調査し、30回の検索を実行して、AIはリポジトリ内のプロジェクトの詳細な要約を提供しました。Python ChatGPT、基本的なアシスタント、コードの詳細と内部引用、Crew AIの基本、協調エージェントなど、様々なプロジェクトについて説明しています。
驚くべきことに、これらのコードにはコメントが一切ありませんでした。AIはコードを読み、解釈し、その内容を説明しています。感情分析、自動ビデオ生成、ブラウザでのウェブカム、音声からテキスト変換など、リポジトリ内のすべてを見つけました。また、冗談で作った「Marsal椅子ゲーム」も見つけています。
これはGitHub内での詳細な検索です。個人的には、こんなに深い検索ではなく、もう少し単純な検索でも十分役立つと思います。このようなGitHub統合に何か用途を見出せるか、コメントしてください。
次のニュースです。AnthropicがAPIにウェブ検索機能を追加しました。つまり、プログラミングを行い、検索機能が必要な製品を開発している方々は、AnthropicのAPIを通じてウェブ検索を行うオプションが利用できるようになりました。
「でもAnthropicのサイトで直接検索できるんじゃないの？」と思う方もいるでしょう。もちろんできます。しかし、製品を開発していて、その製品にウェブ検索機能を持たせたい場合、これまではプログラミングを通じてウェブ検索ができませんでしたが、今後はできるようになります。
彼らの例では、TypeScript 5へのウェブアプリの更新について質問しています。これには、このアップデートでの変更点を検索する必要があります。AIはツールを有効にし、プロンプトを実行します。AIの応答は「TypeScript 5の最新情報を検索して、このアプリの更新をお手伝いします」というもので、ウェブ検索を行い、2つの結果を見つけて、必要な変更点を説明します。
プログラミングの文脈外にいる方々にとっては、ウェブ検索は簡単なことに思えるかもしれませんが、プログラミングの世界では、データのスクレイピングや情報収集は複雑です。誰かがこれを代わりに行ってくれるのは非常に便利です。
彼らは金融サービス、リアルタイムの株価を分析するAIエージェント、法的調査、最新の裁判所の判断や規制変更、法的ニュースにアクセスするツール、開発者がAPIの最新ドキュメントを参照できるツール、GitHubのリリース、技術アップデート、生産性向上のためのエージェントなど、様々な使用例を挙げています。
特定のドメインをブロックする設定や、アクセス許可リスト、ブロックリストを管理することも可能です。価格は1000検索あたり$10です。OpenAIの同様のウェブ検索ツールが1000検索あたり$25〜$30であることを考えると、かなり安価です。初めてClaudeがOpenAIより安価なツールを提供するということです。
次のニュースです。MicrosoftがGoogleのオープンA2Aプロトコルを活用して、相互運用可能なAIエージェントを実現します。これはどういう意味かというと、Googleがエージェント同士が会社や場所が異なっていても会話できるプロトコルを作成したということです。
例えば、MicrosoftのAzure（Microsoftのクラウド）でエージェントを作成し、さらにCrew AIのインフラで実行されるCrew AIエージェントもある場合、この2つのエージェントをどうやって通信させるかという問題があります。GoogleのA2A（Agent to Agent）プロトコルがこれを解決します。
Microsoftは、AIエージェントが異なるプラットフォーム間で連携できるようにするため、オープンA2AプロトコルをAzure AI FoundryとCopilot Studioに追加しています。今はギリシャ語のような話に聞こえるかもしれませんが、10年後には誰もが使用し、今日のスマートフォンにWhatsAppを持つことと同じくらい必須になるでしょう。
A2Aサポートにより、Copilot Studioのエージェントは、Microsoftのエコシステム外や、LangChainやSemantic Kernelなどのツールで開発されたエージェントを利用できます。Microsoftによると、Fortune 500企業の90%を含む23万以上の組織がすでにCopilot Studioを使用しています。
開発者は2つのエージェント間の自動会議スケジューリングなどのアプリケーション例にアクセスできます。A2Aプロトコルは、クライアントエージェントがタスクを策定し、リモートエージェントがそれを実行する方法を定義します。タスクは同期的に管理することも、長期間にわたって管理することもでき、結果のステータスはプロトコルを通じて交換される「アーティファクト」として知られています。
タスクには順序がある場合もありますが、並行して実行できる場合もあります。例えば、犬の世話をする場合、餌、水、庭の掃除が必要です。これら3つのタスクは並行して行うことができます。したがって、エージェントの調整は複雑です。
MicrosoftはMicrosoft Entraや監査ログなど、既存のセキュリティとガバナンスシステムとの完全な統合を約束しています。GoogleはA2Aを4月に発表しました。A2Aは、フレームワークやベンダーに関係なく、HTTPやJSON、RPCなどの標準化されたインターフェースを使用してエージェントが連携できるように設計されています。また、音声、ビデオ、インタラクティブなユーザーインターフェースもサポートしています。
Azure FoundryとCopilot StudioでのA2Aのパブリックプレビューがまもなく公開される予定です。私はCopilot Studioを調査しましたが、まだこの機能を見つけることができませんでした。おそらくすぐに登場するでしょうし、登場次第、その仕組みを示す動画を作成します。
GitHubには、A2Aプロトコルのオープンソースコードがあります。ここには、Crew AI、Langraph、LlamaIndex、Marvin、Kernel、MCPなど、多くの興味深いインテリジェントエージェントプラットフォームを含む、エージェントの操作方法に関する説明とコードがあります。
次のニュースです。Hugging Faceが、Operatorに似た無料AIエージェントツールを発表しました。これは非常に興味深いです。Operatorとは、あなたと会話し、コンピュータを制御して作業を代行してくれるものです。Hugging Faceチームは、クラウドでホストされたコンピュータを使用するAIエージェントを無料で提供しています。
ただし、非常に遅く、時々エラーを起こすことがあります。しかし、これは本質的に遅いからではなく、Hugging Faceの仕組みによるものです。彼らは他とは少し異なる発想を持っています。エージェントを実行するためのサービスを提供していて、無料サービス、やや遅いサービス、中程度のサービス、高速サービス、超高速サービスがあります。遅いと不満を言っている人々は無料版を使用していますが、より速いバージョンを使用したい場合は、アカウントをアップグレードする必要があります。
Hugging FaceのOpen Computer Agentはウェブからアクセス可能で、Firefoxを含む様々なアプリケーションがプリロードされたLinux仮想マシンを使用できます。OpenAIのOperatorと同様に、タスク（例：GoogleマップでパリのHugging Face本社を探す）を完了するようにOpen Computer Agentに依頼できます。
このエージェントはCAPTCHAテストでよく失敗します。自動ナビゲーションプログラムをテストすると、予期せぬ結果になることがあります。例えば、航空券の価格を調べていたら、エージェントが既に座席を選択していたということがありました。彼らは完璧ではなく、指示された作業を実行していきます。CAPTCHAの問題や画面に表示される質問に対して、エージェントが単に「受け入れる」ボタンをクリックするケースもあります。
Open Computer Agentを使用するには、需要によって数秒から数分かかる仮想キューで待つ必要があります。例として、アレキサンダー大王の軍隊がギリシャからパキスタンのタキシラまで歩いた場合、GoogleMapによるとどうなるかという質問が示されています。エージェントはコンピュータにアクセスし、GoogleMapsを開き、この2つの場所を検索し、徒歩での経路を表示します。徒歩で1247時間かかるようです。
Hugging Faceでは、コンピュータとウェルカムメッセージが表示されます。このコンピュータはマウスで操作でき、通常のLinuxです。ターミナルを開いて入力することもできます。エージェントに「パリのHugging Face本社をGoogleMapsで探す」と指示してみましたが、エラーが発生しました。
2回目のチャンスで再ロードすると、Linuxが起動し、同じプロンプトを送信しました。エージェントは開始できましたが、すぐにまたエラーが発生しました。Hugging Faceはオープンで無料で誰でも使用できますが、このような問題があります。
Hugging Faceの興味深い点は、このプログラムのコードを表示できることです。カレンダーアイコンをクリックしてヘッダーを表示し、「files」をクリックすると、アプリケーションの仕組みが表示されます。Python用のプログラムがあり、ローカルで実行したり、テストしたり、コードの仕組みを理解したい場合は、Pythonコード全体にアクセスできます。
次のニュースです。NetflixもChatGPTの時代に参入しています。NetflixがiOS向けにChatGPTを活用した検索機能を提供開始しました。NetflixはOpenAIのChatGPT技術を活用した新しい検索機能を導入し、ユーザーが自然言語で検索できるようにしています。
タイトルや単語を入力する代わりに、「面白いけど、ばかばかしくないものが見たい」のようなフレーズで検索できるようになります。この新機能はiOSデバイス向けにベータ版としてリリースされ、オーストラリアとニュージーランドで最初のテストが行われています。ブラジルではまだ提供されておらず、提供されても現時点ではiOSユーザーのみが対象です。
Netflixはまた、タイトルをユーザーの好みの言語に自動翻訳する計画も発表しました。その他のアップデートには、リデザインされたビデオホームページと、短い動画の縦型フィードが含まれます。NetflixがAI時代に参入し、ユーザー体験を向上させる機能を導入し始めています。近い将来、ブラジルでもNetflixのAI機能が利用できるようになるでしょう。
最後に、しかし重要なニュースとして、AIデータスタートアップのWisdomAIが幻覚を避ける賢い方法で2300万ドルを調達しました。この会社はWisdom AIで、「あなたのデータについてもっと質問してください」というスローガンを掲げています。
データや企業情報を扱う人々の主な懸念の一つは、価格や値段などの情報を扱う際に幻覚が発生することです。この会社は、構造化データ、非構造化データ、さらには「汚いデータ」（入力ミスなどのエラーがあるデータ）からビジネスインサイトを生成できるAIデータ分析を提供しています。
データをあるがままに扱うことがビジネスインテリジェンスソフトウェアの聖杯であり、それが彼らが2300万ドルという巨額の資金調達をリードした理由です。重要なポイントは、Wisdom AIは幻覚を引き起こさないということです。
多くの企業はAIアプリケーションの精度向上に焦点を当て、AIモデルのトレーニングに使用されるデータ、モデルのサイズ、プロンプトエンジニアリング、RAG（検索拡張生成）技術などに注力しています。しかし、それでもAIが生成した虚偽の回答のリスクがあります。
Wisdom AIはクエリの作成にはAIを使用しますが、回答の生成には使用しません。AIは幻覚を起こす可能性がありますが、彼らのモデルではAIは検索クエリを作成するだけで、データを検索しない偽のクエリを作成したとしても、質問への回答自体が捏造されることはありません。
これは特に価格やテーブル値を扱う場合に推奨する方法です。クエリを作成してテーブルから数値を検索し、それらの値をユーザーに提供する際には、テーブルにあるとおりに正確に渡します。AIにそれらのデータをコピーさせるのではなく、情報について会話したり解釈したりすることはできますが、実際のデータ、グラフなどはソースから直接生成されるべきです。
これは実現可能であり、データ、テーブル、価格、企業情報、数量などを扱う方々へのヒントです。AIを検索に使用し、検索結果が見つかったら、その検索結果からデータを取得します。AIを使ってそのデータが正しいかどうかを分析することもできますが、ユーザーに情報を表示する際には、コピー＆ペーストするか、その情報を処理する特定のプログラムを作成します。
以上です。チャンネルをサポートして、このような動画を継続的に視聴したい場合は、メンバーになってください。メンバーは、インテリジェントエージェントの限定動画と先行公開動画にアクセスできます。いいねもお願いします。