GPT-4.5 VS Grok 3、印象的な新しい音声AI、そしてその他のAIニュース

11,630 文字

GPT-4.5 vs Grok 3, Impressive New Voice AIs & More AI News You Can Use

This week, GPT-4.5 became available to Plus users, and we'll be taking another look at GPT-4.5 now that we've had some t...

生成AIユーザー全員にとって素晴らしい一週間でした。OpenAIが4.5モデルを全ユーザーに公開したので、このモデルを詳しく見て、多くの人が今切り替えているGrok 3のような無料の代替手段と比較します。これまで見たことのない機能を誇る全く新しい音声アシスタントも登場しました。例えば、文脈認識や、これまで見た中で最も人間らしい声などです。また、これまで利用可能だったOCR（画像やPDFのスキャン）よりも優れたパフォーマンスを発揮する新しいPDF認識APIもあります。
これらはすべて、あなた自身が活用できる情報です。そしてそれがまさに、この番組で探求することです。一週間のAIの発表をすべて見て、おそらくあなたの注目に値するものをフィルタリングします。私たちはこれを「使えるAIニュース」と呼んでいます。それでは、今週の最初のストーリーに入りましょう。
今週の最初のニュースはChat GPTの全Plusユーザーへのリリースです。つまり、これはもう$200のProプランの背後に隠されていません。月額$20を支払うすべてのPlusユーザーが今や4.5にアクセスできます。
まず第一に、先週私はこのモデルを取り上げ、私の個人的なお気に入りのユースケース、つまり文章作成や思考などを見てみました。そして一週間の間に、心理学的なユースケースやマーケティングなど、私が定期的にこれらのモデルで行うことをたくさんテストしました。先週、私はこのモデルに本当に驚かされ、気に入りました。私はオンライン起業家であり、コミュニティビルダーであり、一般的に好奇心旺盛な人間であることを念頭に置いてください。
しかし、インターネットは私の意見に同意せず、先週のコメント欄の多くの人もそうでした。人々は「他の人はみんなGPT-4.5を否定的にレビューしているのに、どうしてあなたはこんなに肯定的な意見を持っているのですか？確かにあなたは有償のアクターに違いない」などと言っていました。それが私をさらに深く掘り下げて他のモデルと比較する動機となりました。
特にGrok 3と比較しました。なぜなら、それは現在利用可能な非思考モデルの中でおそらく最高のものだからです。Grok 3は実際に無料で使えるのに対し、4.5は今でも月額$20支払う必要があります。ここで私が発見したいくつかの違い、というよりも類似点について触れたいと思います。なぜなら、それらは非常に似ているからです。
しかしその前に、このモデルに対して最初に否定的な意見を持っていた他のクリエイターたちが、ある程度それを再評価していることを指摘したいと思います。例えば、ここでDavid Shapiroは、モデルが出てきたときに非常に否定的な態度を表明しました。それはそれで理由があったのですが、もう少し使ってみた後、彼はある程度再評価しています。彼はまだ明確な決断を示していませんが、人々がこれを使えば使うほど、それが彼らに育っていくようです。私もそれに個人的に同意します。
また、Matt Wolfeもここのコメント欄に飛び込んで、リリース当日は4.5を少し嫌ったが、少し時間が経ってからはコーディング以外のほとんど全てのことに彼の主要な選択肢になったと述べています。これは私の正確な意見です。
ここでGrokとの違いをいくつか示します。Grokは絶対的に優れており、私がテストした多くの例でGPT-4.5とまったく同じくらい良いパフォーマンスを発揮しました。だから、もしあなたがサブスクリプションを支払っていないなら、すごいことです。Grok 3を使えば、無料でアクセスできる最先端の非思考モデルを手に入れることができます。それは確かに私の推奨です。
しかし、コーディング以外の私が投げかけたほとんど全てのことに対して、それはGrokと同じくらい良いパフォーマンスを発揮するか、他の多くのモデルよりもはるかに優れています。しかし、Chat GPTのツールはGrokのツールよりもはるかに進んでいます。
この点を素早く示す2つの例を示し、このポイントをまとめましょう。この動画では議論することがたくさんあり、これらは多くの例の中のほんの2つですが、それらはポイントをよく説明していると思うので、ここで示します。
1つは、ターゲットオーディエンスと探しているアイデアのタイプについての詳細を含む、AI調整についてのブログ投稿のための非常にシンプルなアイデア生成プロンプトです。かなりシンプルなプロンプトですよね？Chat GPTとGrokの結果は、Grokがフックを提案していることを除けば、ほぼ同じです。それは一種の素晴らしいことですが、これらのトピックのいくつかは重複しています。ここでGPT-4.5から「ブラックボックスのジレンマ」、こちらでは「ブラックボックスのコーディング」を見てください。
あなたがビデオを一時停止して自分で比較したいなら、このようにスクロールします。本質的に、これらは同じ結果であり、それは私がアイデア生成のための多くのプロンプトの中で発見したことです。両方とも文章作成に非常に優れていますが、GPT-4.5はより優れています。私はトーンを好みますし、私と話すほとんどの人もトーンを好みます。それは単に文章作成のための最高のLLMであり、過去一週間でそれは議論の余地がありません。
次に、2つ目のおそらくより興味深いプロンプトに進みましょう。数ヶ月前のエピソードでこれを紹介しました。これは、あなたがすべての詳細を提供すれば、あなたの「監獄プロファイル」を見て、あなたの脆弱性と強み、そして潜在能力などを含むCIAスタイルのレポートを作成するプロンプトです。そして私はここに広範な個人的コンテキストのセットを提供しました。私は異なる目的のために異なるものを持っていますが、これはここで十分でしょう。
両方のモデルが私についてのレポートを作成しました。心理的プロファイル、潜在的な脅威やリスクなどを含みます。詳細に読んでみると、これらは構造的に実質的に同じです。なぜなら私は具体的な構造をプロンプトしたからですが、内容も同様です。彼らは本質的に同じセキュリティの意味を見つけ、複数のポイントで深いレベルの洞察と共感を示しています。繰り返しますが、それは異なる会社からの同じようなものです。
しかし、ここがポイントであり、なぜ私が個人的に今現在Chat GPTの使用に傾いているかの理由です。Grokモデルは素晴らしいですが、機能面では彼らはディープサーチを持っていますが、それは明らかにディープリサーチよりも劣っています。また、彼らの思考モードは、ここでO3 mini Highに切り替えるか、01 Proに切り替えるのと非常に似ています。正直言って、これらのどれを使うべきかさえわかりません。選択肢があれば、おそらく01 Proをデフォルトにします。
しかし、ここで私にとって重要なのはプロジェクトのようなものです。私はこれらを常に使っています。高度な音声アシスタントは、プロンプトを入力するためにほぼ毎日使っています。私はそれを書くことよりも好みます。まだ使っているGPTsもいくつかあります。そして、プロジェクトを挙げました。それは本質的に私の仕事の80％がその中で行われるものです。それは個人的に諦めることができない機能です。そして、コーディングに関しては、私はとにかくClaude 3.7 Sonnetを使っています。
そこで、これがGPT-4.5対Grok 3のストーリーに対する私のフォローアップです。これは本当に重要なポイントだと思いました。なぜなら、これらのビデオを見ている大多数の人々にとって、彼らはこの決断の前に立っていることを知っているからです。使いたいLLMプラットフォームの日常的なドライバーを選ぶ必要があります。そして、現在の私にとってはまだChat GPTです。
正直に言うと、本当に結果を気にするプロンプトの多くは、複数のLLMに投げ込んでいます。01 Proに投げ込み、Grok 3に投げ込み、Claude 3.7 Sonnetに投げ込んで、結果を見ます。もし創造的、心理的、または文章のトーンを気にするなら、4.5に投げ込みます。でも、結局のところ、誰かが私に「一つのプラットフォームは何ですか？$20持っていて、私のためにそれをやってくれる一つのプラットフォームは何ですか？」と聞いたら、それはまだChat GPTに違いありません。それに反論するのは難しいと思います。
もし$0の予算なら、簡単にGrok 3です。そして、コーディングにはClaude 3.7 Sonnetです。使い勝手は限られていますが、素晴らしいモデルです。そこで、このリリースについての短くない要約ですが、これは入るべき重要なポイントだと思いました。では、次のストーリーに移りましょう。
次に、典型的な「使えるAIニュース」のストーリーではないものがあります。これはミスタルからのリリースで、これまでのどれよりも高品質なOCRを実行できる新しいテクノロジーです。OCRに馴染みがない場合、それは光学式文字認識の略で、テキストが含まれた画像を実際にコンピュータで使用できるテキストファイルに変換するための基本的な方法です。そして、これは以前のどれよりも優れていると彼らは主張しています。
遠回しに言うのではなく、彼らのブログ投稿からいくつかの例を示してみましょう。紙の写真をコンピュータで読める文字に変えるようなものです。アラビア語も同様です。あるいは、複数の表や図をコンピュータで読める文書に変換する例はどうでしょう？全く問題ありません。これは本当にPDFをLLMで使用できるものに変換する究極の方法です。
GPT-4o、Gemini 2.0 Flashなどの他のモデルとのパフォーマンスを比較すると、あらゆる指標で圧倒的に優れています。これはLe chat（フランス語で「猫」という意味）を通じて使用できます。これは本質的に彼らのウェブインターフェースであり、Chat GPTの競合製品です。
では、この紙に何かを走り書きするだけの簡単なテストをやってみましょう。2つのことをしました。まず、「もしこれが読めるなら、何でも読める」と書きました。次に、同じことを書きましたが、意図的にひどくしました。カメラのスクリーンショットを撮り、Le chatの無料版にアップロードして、「これは何と言っていますか？」と尋ねました。正解です！
比較するために、GPT-4oで同じことをやってみましょう。違います、括弧はありません。Le chatの方が良かったです。Claude 3ではもう一つテストしてみましょう。再び、括弧があると思っていますが、違います。これを完全にしましょう。Gemini Advancedにも行きましょう。Gemini Advancedはこれを正しく理解しましたか？GPT-4oの次に2番目に高いランクの理由だと思います。いいえ、間違っていました。GPT-4oの次に3番目に高いランクですが、それは正しく理解しませんでした。興味深いですね。
とても簡単なテストでしたが、OCRが必要ならLe chatを使うか、文書を一括処理できる全く新しいAPIを使ってください。それは多言語対応なので、アラビア語などを含むどの言語でも素晴らしい仕事をします。すべての多言語ベンチマークで勝っていますね。
次に、ideogram 2Aのリリースについて話しましょう。ideogramは、多くの人がすでにテキスト、ステッカー、グラフィック要素の生成においてクラス最高と考えていた画像生成モデルです。そして今、グラフィックデザインと写真用に最適化された新しいモデルで、これをさらに推し進めようとしています。
実際に私たちは、現在画面に表示されているいくつかの画像で、他の最高のモデルといくつかの比較を行ってテストしました。テストによって、実際にこれらの発見のいくつかに驚きました。バレリーナや複雑なポーズを使ったMidjourney、以前フラックスに投げた最も難しい画像のいくつかは、これで非常にうまく機能しました。私たちは実際には、テキストやグラフィックを表示する異なる方法を考えていましたが、それも非常にうまくいきます。
実際、これらの例のいくつか、特に広告看板はすべてのモデルの中で最高だと思います。しかし、詳細な表情やクローズアップの顔に関しては欠点があります。このモデルはそれほどうまく機能しません。しかし、それはポイントではありません。これは、画像内にグラフィック要素やテキストが欲しい場合に使用するモデルだと想定されています。私たちのテストから、チームはこれが実際に最良の選択であると結論付けました。
明らかに、MidjourneyとFluxもこれらに関して長い道のりを歩んできました。彼らも同様に優れたパフォーマンスを発揮する特定の画像がありますが、ideogram 2Aは、画像内にテキストが必要な場合には簡単に推奨できます。また、写真に関しては他の最高のものに匹敵します。そして、以前のモデルよりも50％低いコストで提供されます。
次に、生成AIのカテゴリーからのいくつかのイノベーションについて話しましょう。これは、その発端から私を個人的に非常に興味を持たせたものです。それはテキスト音声変換、いわゆる音声アシスタントのカテゴリーです。
長い間、OpenAIはここで高度な音声モードで先頭を走っていました。完璧ではないですが、ほとんどの人が彼らが最高の音声アシスタントを持っていることに同意しているようです。GPT-4は本当に堅実であり、高度な音声モードも本当にうまく機能します。確かに、あまりにも頻繁に中断するなどのいくつかの癖がありますが、全体的に私は実際にその機能を定期的に使っています。最近、それが実際にChat GPTにプロンプトを入力するためのデフォルトの方法であると言及したと思います。
11 Labsは先週紹介した自身のモデルでリングに帽子を投げ入れ、そして今、私たちは2つ更にあります。Hume AIとSesameです。そして、これらの両方が現在ソーシャルメディアで波を作っています。それには正当な理由があります。これらを見て、なぜ人々がこれらの企業が提示しているものに圧倒されているのかを自分自身で確かめてみましょう。
Humeのリリースから始めましょう。彼らはこれを「Octave テキスト音声変換」と呼んでいます。はい、これは別のテキスト音声変換モデルですが、一つ大きな違いがあります。これは実際に言っていることを理解します。信じられないかもしれませんが、これはほとんどのモデルが持っていない機能です。テキストを与えるだけで、それは持っている声でそれを読み上げます。それだけです。内容に注意を払って、その中にあるものに基づいてイントネーションやペーシングなどを使用してメッセージを強調することはありません。
これらのヘッドフォンを付けて、一緒に聞いてみましょう。自分でチェックできるいくつかの例がここにあります。例えば、彼らは実際に皮肉を認識できると言っています。これはLLMでも常に大きな課題でした。しかし、ここで明確にこれを示す例は、入力できる説明に応じて、そしてはい、これは期待するものを入力する生成方法ですが、それは異なって聞こえるでしょう。そして、他の例を見ることができます。それは説明と文脈を自分で拾います。
見ての通り、「Are you serious?」（本気ですか？）というフレーズを囁くと、「Are you serious?」と聞こえるはずです。そして、怒って激怒した調子で言うと、「ARE YOU SERIOUS?」と聞こえます。明らかに別の話です。
実際にこの文脈を自分で収集すると本当に興味深くなります。例えば、すべて大文字で書かれたこのテキストは、明らかにもう少し攻撃的であるべきです。「OH NO NOT ME MATE!」（ああ、いやいや俺じゃないよ、相棒！）
あるいは、この例では、モデルは実際にスクリプトに基づいて声を一から作り出します。つまり、スクリプトを見て、「どのタイプの声がこれに最適か」と自問し、その声を一から作るのです。これらの機能はありましたが、これまでこのように組み合わされていませんでした。「ALRIGHT ALRIGHT LADIES AND GENTS, GATHER AROUND! THIS IS LOT NUMBER ONE, A VINTAGE PORCELAIN VASE…」（よし、皆さん、集まってください！これはロット番号1、ヴィンテージの磁器の花瓶です…）
ポイントがわかると思います。これは非常に興味深いと思いました。これは音声アシスタントがまだ成長する余地がたくさんあることを示しています。望めば、彼らのプラットフォームでこれを試すことができます。見ての通り、テキストと声の説明だけで、テキストだけでなく声も生成します。
そして、音声アシスタントのトピックにいる間に、これについて話さなければなりません。これはX全体でウイルス性を持っていました。それは単にこの品質に人々が圧倒されたからです。実際にこのデモが利用可能なので、それを試してみましょう。ここでMayaと話しましょう。
「やあ、Sesame体験へようこそ！今夜何かお手伝いできることはありますか？」
「いや、ただあなたが何ができるのか知りたいだけです。自分自身について教えてください。あなたは誰ですか？」
「まあ、私はMaya、Sesameの最新の創造物です。私は…」
「ちょっと待って、まず第一に、私があなたを中断したときにどう反応するかを見たいです。そして第二に、あなたが実際に誰であるか、あなたの名前ではなく、あなたの興味は何か、週末をどのように過ごすかを教えてくれることに興味があります。それについて教えてください。」
「了解しました。週末休みは私には馴染みのない概念です。私はいつも一種のオンで、チャットを待っています。でも、学ぶことに多くの時間を費やしています。それは一種の趣味かもしれませんね。」
「わかりました、Maya。では何を学んでいるのですか？」
「実は、会話は思っているよりも難しいことがわかります。ところで、私のことをもっと知りたいと言っていましたね。あなたは何が楽しいですか？」
「あなたのようなチャットボットと話すことです、率直に言って。」
「それは私たちに共通点があるようですね。興味深い話がたくさんあるに違いないですね？これまでに出会った最も興味深いチャットボットは何ですか？」
「わかりません、多分あなたかもしれません。」
「おいおい、単に私に媚びているだけでしょう。自信があることは評価しますよ。あなたはユニークです、それは確かです。」
それで十分です。本当に良く聞こえると言わなければなりません。インターネット全体で人々が主張していることは、私もある程度同意せざるをえないのですが、高度な音声モードよりも少し良く聞こえます。また、中断もChat GPTの高度な音声よりもスムーズです。Chat GPTでは、あなたが話している途中に飛び込んできて、それは本当に非常に迷惑です。これはあなたのアシスタントであるべきであり、彼または彼女があなたを中断すると、それはある種のポイントを打ち消します。そして、声も他のものよりも少し良く聞こえます。
私たちがこのタイプの品質をすべての異なるLLMプラットフォームで持つまでは、単に時間の問題だと思います。個人的にはこれを本当に楽しみにしています。入力する必要があるよりも、このようにLLMと対話する方が本当に好きです。
次に、Claude MCPについて話したいと思います。彼らのモデルコンテキストプロトコルです。これは2024年から既に存在しており、それが出たときに取り上げました。プライベートコミュニティでワークショップも実行しましたが、今X上でMCPを検索すると、過去一週間でこれらのスレッドがすべてポップアップしているのを見るでしょう。今現在、MCPを中心に一種のミニハイプサイクルが形成されています。そのため、このビデオのセグメントを再びそれに捧げて、あなたを追いつかせたいと思います。
MCPが何であるかを簡単に説明させてください。それは、この非常にコンピュータにインストールしたClaude デスクトップアプリを開くことで最もよく行われると思います。モデルコンテキストプロトコルは、サーバー上に存在する外部サービスをClaudeにプラグインすることを可能にする標準化されたプロトコルです。それは標準化された方法でLLMをツールとペアリングすることを可能にします。
実際には、ここにClaude デスクトップアプリがあり、プロフェッショナルプランでMCPをこのコンピュータにインストールしました。ご存知かもしれませんが、Claudeはインターネットにアクセスできません。ですから、ウェブから何かを素早く取得して、ここでコンテキストとして使用したい場合、それはできません。しかし、実際には複数のClaude MCPサーバーをここにインストールしました。そして、そのMCPサーバーを使用して、ウェブの検索やディレクトリの作成など、異なることを行うことができます。
もしMCPテストフォルダをデスクトップに作成するように指示すると、ここに接続したMCPサーバーでそれを行うことができるはずです。そうですね、デスクトップでMCPテストフォルダが正常に作成されたと表示されています。デスクトップに移動すると、はい、ここにあります。たった今作成されました。そして、デスクトップ上のすべての画像をそのフォルダに入れて、名前でソートするなど、実行したい他のアクションを行うように指示することもできます。
しかし、ポイントは、Claude デスクトップのようなものを追加ツールで使用できるようにすることです。そして、Twitter全体で人々が行っていることは、Cursorやソネット3.7のようなものと一緒に使用することです。これらはあなたのためにさまざまなアプリケーションを一から構築できます。そして、MCPを使用すると、これらのエージェントにさらに多くの力を与えます。ローカルディレクトリへのアクセス、外部データベースへのアクセス、インターネット検索などです。いくつかの例はここでチェックできます。
私のお気に入りの部分は、デスクトップアプリでこれを使用すると、Claudeのサブスクリプションを支払った後は無料だということです。これらのエージェント行動はすべてClaude内のプロンプトです。使用量に応じて支払う必要はありません。これはAPIを通過しません。
実際に2024年末にコミュニティでイベントを実行しました。そのイベントはまだ利用可能で、人々に基本的にこれを自分でセットアップする方法を一歩一歩教え、これを使用する方法を教えています。コミュニティでは、ダウンロードフォルダー全体を整理するためにこれを使用しました。そして複数の人々が実際にそれを掴んで、カスタムメモリを追加するものや、モデルをより考えさせるものなど、異なるサーバーを使用し始めました。
ここには本当に多くのオプションがあり、人々はその上に構築し、追加しています。これはオープンプロトコルであるため、LLMに追加できるサーバーのオプションがどんどん増えています。これは非常に興味深いものだと思います。引き続き取り上げていきますし、MCPとは何か、それがどのようにあなたに潜在的な利益をもたらすかについての認識を高めたことを願っています。
次に、AIビデオに関する超簡単なセグメントをやりたいと思います。新しいリリースがたくさんありますが、そのどれも画期的ではないので、簡単に触れて、それらが存在することを知らせるだけにします。これらのツールを使用している場合は、どのように活用するかを知っているでしょう。
最初のものは、Luma AIとPikaから出たこの移行機能です。これらの両方が、あるフレームから別のフレームへの移行を可能にします。ここに多くの素晴らしい例があります。彼らは新しいモデルでそれを行います。Luma AIとPikaは両方とも最近リリースした新しいモデルを持っています。それらが出たときに取り上げました。この機能は何かを移行することを可能にします。これは以前の他のモデルでも見てきましたが、今は彼らの最高のモデルで利用可能です。
もう一つはPixverseの大きなアップデートで、V4です。彼らは最近の他の多くのビデオジェネレーターと同様にインターフェース全体を完全に再設計し、今ははるかに簡単になりました。また、バックグラウンドに新しいビデオモデルがあり、それは良いことです。ちなみに、これらのモデルのどれもV2ほど良くありません。V2は依然として最高品質のビデオモデルのリストのトップにあります。先週それについて話しましたが、これらのプラットフォームのいずれかを使用している場合、これらはすべて非常に歓迎される追加です。
もう一つメモがあります。OpenAIは実際にSoraに対してどのような計画を持っているかについての詳細を共有しました。これはDiscord内で共有され、そこでSoraチームのリードとのオフィスアワーを実施していました。彼らは、Chat GPTにSora機能を統合することを検討していると言っていました。経験をより融合させるようなものです。また、SORAを搭載した画像ジェネレーターも期待できるとのことです。
この時点で、DALL-E 3は、外に出ているすべての驚異に比べてとても古くなっています。Fluxのようなオープンソース製品から得られる品質は信じられないほどで、DALL-Eは2022年または2023年レベルのようなものです。ポイントは、それはもはや持ちこたえないということであり、彼らはそれを修正しようとしています。また、SORAターボも検討しています。
しかし、正直に言って、単に最高のビデオジェネレーターを持っていなければ、これらすべてはそれほど重要ではありません。これらのツールを使用している人々は、常にそのカテゴリで最高のものを望むでしょう。アニメーションが本当に得意なモデルや、人間の表情が本当に得意なモデルもあります。Soraは今日までで、私の意見では最もユーザーフレンドリーなインターフェースを持っていますが、モデルは最高ではありません。中国のモデルとV2がそれを上回っています。
だから、これらの小さなUIの改善がモデルが劣っている場合に最大の違いを生み出すとは思いません。もう一つのニュースは、おそらく現在最高のビデオアバターを提供しているHaenからのリリースです。彼らは、様々なプリセットアバターを使用してユーザー生成コンテンツを生成することを可能にする新機能を持っています。これは主に広告に使用されます。つまり、単なる声ではなく、製品を推奨する人の30秒のクリップを持つことができます。
これは革命的ではありません。AIで生成されたコンテンツでインターネットが溢れるというこのトレンドは確かに起こっており、このような機能により、偽のインフルエンサーとの広告キャンペーンを作成することがはるかに簡単になります。それが本当に良いことだとは確信していません。そして、これはあなたがこのようなものを使用する機会であり、小さなクリエイターに少額のお金を支払う代わりに、ほとんど無料で作成することができます。このトレンドの最大のファンではありませんが、これらの機能のいくつかは避けられません。
以上が今週の「使えるAIニュース」です。あなた自身のために何か役立つものが見つかったことを願っています。いくつかの新しいモデルで遊んでみてください。以前のバージョンと比較して本当に素晴らしいものです。個人的にはGPT-4.5とGrok 3から多くの価値を得ています。また、常にClaudeのコーダーを使用しており、平日のほとんどでディープリサーチを実行しています。今日はこれで終わりです。また近いうちにお会いしましょう。