GPT-4.5は史上最も人間らしいAI &他のAIユースケース

AGIに仕事を奪われたい
この記事は約20分で読めます。

11,434 文字

GPT-4.5 Is The Most Human AI EVER & More AI Use Cases
Monica lets you use advanced AI on ANY web page, try it for free today! 👉 was a HUGE week in AI! OpenAI finally released...

現在、生成AIは急速に発展しています。OpenAIはGPT-4.5をリリースし、AnthropicはClaude 3.7 Sonnetをリリースしました。どちらも特定の分野で最先端の性能を持っています。さらに、新しい音声文字起こしモデルや、ついに利用可能になった最高の動画モデル、そしてその他多くの進展がありました。
今週のAIニュースでは、先週の生成AIのリリースをすべて見て、今日からすぐに活用できるものだけを厳選してご紹介します。まずはGPT-4.5について話しましょう。
これについては絶対に触れておく必要があります。私は深夜に録画していて、このモデルは数時間前にリリースされたばかりです。専用の動画は作成しません。いくつかのコンテンツのアイデアを実現するには少し時間がかかるので、ここでの最初の印象をお伝えし、実際に試してみましょう。
まず、重要な事実を簡単にまとめておきます。残念ながら、今日2月28日金曜日の時点では、このモデルはProユーザー(月額$200のプラン)のみが利用できます。しかし心配はいりません。1週間以内にすべてのTeamsとPlusユーザー(月額$20のプラン)にも提供される予定です。その後、教育機関や企業アカウントにも提供されます。無料プランにはしばらく来ないでしょうが、1週間以内に標準の有料プラン(ChatGPT Plusの月額$20)ですべての人が利用できるようになるはずです。
なぜこのモデルに注目すべきなのでしょうか?ここではベンチマークを見ません。これは久しぶりに完全にベンチマークを無視する機会です。最近のモデルはベンチマークの数値を押し上げることが主眼でした。コーディングや数学的評価でより良いパフォーマンスを示すこと、それが「思考モデル」の背景にある物語です。しかしGPT-4.5は思考モデルではありません。
特に、これから話すことの一部は、特に毎日この分野をフォローしていない人にとっては少し分かりにくいかもしれません。近いうちに、異なるLLM(大規模言語モデル)を整理し、どのモデルをどのユースケースに使うべきかを説明する別の動画を作成する予定です。
簡単に言うと、GPT-4.5については、「文章作成やブレインストーミングをしたいなら、世界で最高のモデル」と言われています。すぐに自分で確認してみますが、それが彼らの主張であり、インターネット全体での一般的な意見のようです。そのため、私も期待しています。
コーディングに関しては、みんなClaudeモデル、Claude 3.5 Sonnetや現在のClaude 3.7 Sonnetを常に愛用していました。Claude 3.7 Sonnetについては別の動画を作成しましたが、後で少し追加の考えをお話しします。そのモデルはコーディングの王様です。
最新のデータが必要なら、Grok freeが最適な選択肢です。TwitterのフィードにつながっているからこそGrokは最も最新のモデルとなっています。数学や科学関連の問題を扱いたい場合は、「推論モデル」のいずれかを検討すべきでしょう。おそらくo1 mini highかDeepSeek R1が良いでしょう。何かを調査したい場合は、OpenAIのDeep Researchが現在争う余地のない王者です。
これが現在人々が使用している異なるモデルの非常に簡単な概要です。もちろん、もっと多くのモデルがあり、すでに別の動画を作成して、すべてのLLMプラットフォームの状況を説明する予定です。
GPT-4.5に戻りましょう。これはベンチマークを打ち砕くようなモデルではありません。なぜなら思考モデルではないからです。私たちがGPT-4、GPT-4o、Claude Sonnet 3.5などで慣れ親しんだ通常のモデルのようなものです。これらのモデルは回答する前に考えるわけではなく、すぐに回答を提供します。そのためベンチマークでは優れた成績を残せません。
しかし、彼らの主な売りは、高いEQ、より良い雰囲気、より人間らしい感じがすること、より優れたブレインストーミングパートナー、より優れた文章作成パートナー、より優れた創造的パートナーであることです。個人的にはこれを聞いてとても嬉しいです。なぜならこれが私のLLMの主な使用ケースだからです。ブレインストーミング、執筆、書き直しに使うのが好きで、創造的なパートナーとして、さまざまなワークフローのアシスタントとして使用するのが好きです。
では、最初の試用をしてみましょう。ChatGPT Proアカウント($200のサブスクリプション)に入り、GPT-4からGPT-4.5に切り替えます。そして、標準的なベンチマークプロンプトの1つを実行して、このモデルのトーンがどのようなものか見てみましょう。
「オフィスの壊れたコーヒーマシンについて上司にメールを書いてください」
他のモデルが提供するものとはかなり違う表現です。「もしよろしければ、修理手配のお手伝いもさせていただきます」というのは親切ですね。助けを申し出ているのも違います。
少し偏見があるかもしれません。より人間らしいと聞いていたからですが、これははるかに人間らしいです。このようなプロンプトを実行するたびに、画面上で比較を表示して、以前のモデルGPT-4oやClaude Sonnet 3.5(多くの人が今まで文章スタイルに関して王者と考えていた)と比較できるようにします。これらの比較から、どれが最適かご自身で判断できるでしょう。
言えることは、GPT-4.5が明らかに最高だということです。問題解決において上司に共感を示し、手助けを申し出ています。また、デフォルトで非常に簡潔です。
もう一つの標準プロンプトを試してみましょう:「ペンギンについてのエッセイを書いてください」
これはおそらく私がすべてのLLMで最も多く実行したプロンプトです。主観的に判断してみましょう。「直立姿勢、タキシードのような色彩、魅力的な歩き方で知られるペンギンは、進化の適応の驚異を証明しています」。これははるかに優れています。教科書のようではなく、実際の人間が書いたもののように聞こえます。他の選択肢よりも退屈さが少ないと思いませんか?明らかにより人間らしいです。素晴らしい。
「ブコウスキー風のスタイルで」と追加するとどうなるでしょう?「ペンギン、タキシードを着た小さな悪党たち、閉店時間にバーを出る酔っ払いのように凍てついた荒野の上を腹ばいで滑っていく」
素晴らしいですね。GPT-4の出力と比較すると「ペンギン、存在の宇宙的冗談を体現する鳥があるとすれば、これらの小さな悪党たちだろう」となります。このスタイルでは、実際には両方のモデルが非常にうまく機能していますね。本当に違いが出るのはデフォルトのトーンなんですね。興味深い。
アイデア生成のために、YouTube動画のタイトルのブレインストーミングを手伝ってもらうという非常に標準的なことをしてみましょう。LLMは一般的にこれがあまり得意ではありません。「ChatGPT、Claude、Geminiなどの様々なLLMプラットフォームを比較するYouTube動画のタイトルとして、感情的に魅力的なアイデアを生成してください」というプロンプトをGPT-4.5、GPT-4o、Claudeで実行してみましょう。
すぐにこれが優れていることがわかります。これらは本当にいくつかのプロンプトだけの試用であり、包括的なテストではないことは承知していますが、このようなプロンプトを何度も実行してきました。品質が高く、実際に使えるタイトルです。これは本当に良いです。これも本当に良い。これも本当に良い。他のモデルの結果を見ると…これも良いですね。実際にGPT-4oも向上していますね。
Claudeはこの点ではやや冗長です。一般的に、アイデア発想はCludeの本当の得意分野ではありませんでした。間違いなく優れていますが、Claudeは文章の作成や書き直し、もちろんコードで私が本当に好きだったモデルです。
少し追加のプロンプトを試してみましょう:「他にどのような類似した動画を作れますか?」
GPT-4.5はカテゴリを提案し、私が言及すべきだったけれど意識的に言及しなかったターゲットオーディエンスについて話しています。「仕事用の最高のAI」は良いコンセプトです。「Claude について皆が間違っていること」、私自身がクリックしたくなるようなタイトルです。素晴らしいアイデアがたくさんあります。詳細なプロンプトなしでこれだけの結果が出せるのは素晴らしいですね。
GPT-4oはどうでしょうか?同様の構造ですね。多くのチャレンジタイプの動画を提案しています。バーチャルアシスタントを…私の個人的な観点から言うと、この中で使えそうなものは1つか2つしかないように思います。このチャンネルにとっては。
一方、GPT-4.5では、これらのアイデアの2つに1つは、さらに追求したいと感じるものです。素晴らしい。
Claude 3.5は、予想通り、チャンネルのコンテンツにまったく合っていません。とても一般的なアイデアで、作りたいと思えるものは1つもありません。一方、GPT-4.5は私にインスピレーションを与え、さらに多くの良いアイデアでモチベーションを高めてくれました。
そこで、初めて本当に人間らしく聞こえるモデルができました。共感能力があり、これらのモデルで私が探していた最も重要なことです。Advanced Voiceを好きだった理由もそれです。GPT-4.5にはその特性が組み込まれているようです。
ほんの数個のプロンプトに過ぎないことは分かっていますが、リリースされたばかりなのでテストしてみただけです。週末を使って様々なプロンプトを試し、より詳細な評価を行い、どのモデルをいつ使うべきかについて詳しく説明する予定です。
誰もが同意しているように、そしてOpenAIが言及しているように、これは最高の文章作成モデルであり、最高のブレインストーミングおよび創造的モデルであるようです。彼らはこれが人類史上最大のモデルである可能性が高いと言及していて、それは結果の品質と一致しているようです。
1週間以内に、Plusプランを利用している人全員がこれを利用できるようになることを願っています。その間、GPT-4oがリリースされたときと同じようなことをします。試してほしいプロンプトがあれば、コメントを残してください。いくつかを選んでGPT-4.5で実行し、回答を返信します。Proを持っていなくても、自分のプロンプトをテストできます。もちろん、全員に回答できるとは限りませんが、最初の1、2日の間にできるだけ多くのコメントに返信するよう努めます。
GPT-4.5についてもう一つ言及したいことがあります。これは驚くべきことです。APIを通じてこのモデルを使用したい場合、これまでで最も驚くべきLLM価格設定となっています。100万入力トークンのコストは75ドルです。比較のために、DeepSeek R1をAPIで使用した場合、100万入力トークンのコストは14セントです。
出力トークン(モデルが返信する部分)については、100万トークンあたり150ドルです。150ドルというのは、使用ケースの99%にとって事実上使えない価格設定です。そのため、ChatGPTを通じてこれが利用できることは本当に恵まれています。API費用は現時点では実現可能ではありません。
これでGPT-4.5の話題は終わりですが、次にClaude 3.7 Sonnetの話題に移りましょう。これについては別の動画を作成しました。これは特にコーディングに優れた素晴らしいモデルで、思考モデルです。以来、Claude Coderを使用していましたので、その動画の続報をお伝えします。
すでに動画をご覧になった方には、Claude Coderが何をするのか、Sonnetの概要をお伝えしました。言及し忘れたのはClaude CoderのAPI費用です。Sonnetは無料で、claude.aiで自由にアクセスできます。Claude Coderも無料で、サブスクリプションは不要ですが、Claude CoderはAPIクレジットを消費します。
過去5日間、毎日30分から60分ほど使って、小さなChromeの拡張機能や、様々なAIアプリとプリセットを含む小さなダッシュボードを構築しています。私の平均使用量は1日あたり10ドルです。小さなアプリケーションとしては10ドルはまあまあですが、ほとんどの場合、他のサービスの月額10ドルや20ドルのサブスクリプションで得られるものよりも劣ったバージョンです。決して安くはないので、それを明確にしておきたいと思いました。Claude Coder自体は無料ですが(人気のため現在はウェイトリストの後ろに置かれていると思います)、APIリクエストは無料ではありません。
次のセグメントに移りましょう。Chromeブラウザを使用しているすべての人のためのものです。これは、ブラウザ内で様々な推論モデルを使用できる便利なChrome拡張機能です。Monicaという名前で、今回の動画のスポンサーでもあります。
初めて見たとき、これは今まで見た中で最も興味深いChromeプラグインの一つだと思いました。私が説明するよりも、実際に見せたほうが良いでしょう。
ランダムなWikipediaの記事を開いて、学校のための研究論文を書いているふりをしてみましょう。ここにある情報すべてをLLMで使用したい場合、いくつかの方法があります。検索を使用するか、これをすべて選択して大規模言語モデルにコピーするか、あるいは複数のウィンドウやタブを管理する代わりに、今いるウィンドウにとどまることができます。
Monica拡張機能を使えば、DeepSeek R1のようなモデルをこのページで直接実行できます。このタブで作業したい場合は、ここに行って「このページとチャットする」を選び、「要約」をクリックするだけです。
新しい会話が始まり、完全な要約がここに表示され、DeepSeek、Grok free、mini、その他様々なモデルを切り替えることができます。
この拡張機能は非常に広範囲にわたるものだと明確にしておきたいと思います。ページとのチャットは表面をなでただけです。異なるタイプの要約が欲しい場合は、プロンプトライブラリに行くことができます。
私が保存した「density summarizer」というプロンプトがあります。これは自分のワークフローでも使用しているプロンプトで、徐々に密度が増す5つの要約を作成します。通常、4番目か5番目の要約がAIが生成できる最高の要約だと思います。
このケースでは、Wikipediaの記事との会話で、プリセットのプロンプトを使用できます。自分で入力したりコピーペーストしたりする必要はなく、プロンプトプリセットを適用するだけで、5つの要約が得られます。徐々に密度が増す5つの要約です。通常、4番目と5番目を見ると、単純なプロンプトで得られる1つの要約よりもはるかに優れています。
もちろん、このライブラリに独自のカスタムプロンプトを追加したり、音声入力を使用したり、ウェブを検索したりなど、お気に入りのLLMで使い慣れたすべての良い機能がこのアプリケーションに組み込まれています。
ここでお見せしていたのは無料トライアルです。すべての機能を完全に使用し、1日に40リクエスト以上を行いたい場合は、有料プランを購入する必要があります。
このチャンネルをしばらくフォローしている方なら、これが私たちが紹介した初めてのブラウザ拡張機能であることに気づいたかもしれません。数多くのリクエストをいただきますが、特にこれは非常に優れていて、パワーユーザーのニーズにも応えられると思いました。多くの他の機能も備えているからです。
無料プランで自分で試してみてください。動画説明の一番上にあるリンクからMonica Chrome拡張機能をダウンロードしてください。登録する場合は、コードTA10を使用してすべてのプランから10%オフを取得できます。また、現在もう一つのオファーがあります。登録から24時間以内にサブスクライブし、年間プランを取得すると、25%オフになります。
さて、利用できるAIニュースに戻りましょう。次のセグメントは、ついに、ついにChatGPT Deep Researchをすべての有料ユーザーに展開するというものです。Proプランだけでなく、$20のChatGPT プランやTeamsプラン、教育プランを利用している場合、月に10回のDeep Researchが利用できるようになります。
私はこれが、GPT-4以来、消費者にとって最も重要なAIリリースだと考えています。まだ試していなければ、今がその時です。過去1週間、私はこれについて定期的に話しており、このツールの12の素晴らしいユースケースを見る別の動画を作成しました。
その動画をまだ見ていない、またはツールへのアクセスがなかったために動画を見なかった場合、今がそのときです。下の説明にリンクを貼っておきます。すべてのChatGPT Plusユーザーは、ついにDeep Researchを使用できるようになりました。
また、他のすべてのユーザーにも変更がありました。月額$200を支払っているProユーザーは、月に20%多くのDeep Researchが利用できるようになりました。これは実際に重要だと思います。私たちは複数のアカウントですでに上限に達しましたが、まだ1ヶ月経っていません。
また、Deep Researchがサイトから直接引用された画像を出力するようになりました。多くのコンテンツと同様に引用元が明記されています。また、アップロードされたファイルの理解が向上しました。これは素晴らしいことです。多くの場合、ドキュメントを与えても無視され、リンクに焦点を当てていました。5ページの会社コンテキストのドキュメントをアップロードした場合、Deep Researchでより適切に参照できるようになったことを嬉しく思います。
私の意見では、最も強力なAIツールが、ついにより広いオーディエンスにアクセス可能になりました。これを使って時間を節約してください。
同様のことで、Perplexityには、先週言及したDeep Researchの弱いバージョンがあり、それが現在Perplexityの無料アカウントで自由に利用できるようになりました。今週、彼らはAPIを通じてそれをリリースしています。
OpenAI Deep Research APIはまだありませんので、プログラムで呼び出したり、自動化に組み込んだりすることはできません。Perplexityがこれを提供し始めました。私はDeep Research APIが近いうちに登場することを期待しています。多くの自動化において、最初のステップとして「インターネットで30分調査して、それから自動化を開始する」というようなことをしたいと思っています。現在、Perplexity SonarのDeep Research APIを使って実装し始めることができます。
次はVO2のリリースです。これは先週の終わり頃に起こったので、前回のニュースラウンドアップ動画では取り上げられませんでしたが、VO2、多くの人が同意する最高のAIビデオモデルがついに利用可能になりました。
これまでは、プレビューと多くの例があっただけで、Googleと連絡を取っていた一部の人だけが早期アクセスを持っていましたが、今では誰でも使えるようになりました。利用できるソースは2つあります。1つはfreepeekで、もう1つはfile.ioです。どちらのリンクも動画の説明に含めます。
私たちはいつものように基本的なテストプロンプトを実行し、現在の最先端モデルと比較できるようにしました。プールでくつろいでいる素晴らしいスロースや、すべての例でVO2が成功しています。ほとんどすべての他のモデルよりも人間の表情をうまく表現し、水も非常にリアルに見えます。
これが最高のAIツールだという言葉を100回聞いたことがあるかもしれませんが、それは本当です。この種のツールの中で最高です。そのような声明を頻繁に聞くのは、生成AIが非常に急速に進歩しているからです。
すべてのビデオジェネレーターの追跡を失い、何が最適か疑問に思っていた場合、それはこれです。これらの2つのサイトで使用できます。もし、もっと微妙な答えが欲しい場合は、私たちのコミュニティの無料エリアで毎月公開しているビデオツールランキングをご覧ください。そのリンクも以下に含めます。
基本的に毎月、チームと一緒に座り、すべてのビデオツールを再ランク付けし、新しくリリースされたものを追加して、トップにある画像と一緒に、最高のツールが何かをすぐに示すようなブログ記事として投稿しています。画像ツールやすべてのLLMプラットフォームについても同じことをしています。完全に無料です。私たち自身がこれを常に把握するために行っていることを、他の人々のためにも公開しています。
次はPikaからのリリースです。これはAIビデオジェネレーターで、特にこれは面白いと思いました。特定のオブジェクトをAIビデオで置き換えることができます。これについては、編集者にお任せします。例えば、この私が持っているフライパンを何かに置き換えて、楽しんでもらいましょう。次に進みましょう。
次に、11 Labsの新しいモデルを紹介します。これは最先端の音声からテキストへの文字起こしモデルで、他のすべてのモデルをベンチマークで上回り、とても鮮明に聞こえます。「営業部につないでいただけますか?」
これは文字起こしモデルです。つまり、私の口から今出ている言葉を最も正確で柔軟な方法でテキストに変換できます。99の言語で、文字起こしの正確さでは他のすべてのモデルを上回ります。
これはYouTubeやNetflixの動画など、字幕を使用できるすべてのものを近い将来支えるでしょう。最近、Netflixが更新を行い、多くの映画が30の異なる言語の字幕で利用できるようになったことに気づいたかもしれません。1年前はそうではありませんでした。
音声も同じです。多くの映画にはかつて2つか3つの音声トラックしかありませんでした。英語、ドイツ語、そして映画のネイティブ言語くらいでした。今では10〜15の異なる音声トラックの選択肢があります。Netflixはその多くがAIであると話しています。すべてではないと思いますが、このようなモデルが最終的にすべてのプラットフォームにこれをもたらすでしょう。
YouTubeの動画がすべての言語に完璧に文字起こしされ、吹き替えされることを期待できます。私たちが入ろうとしている世界は驚くべきものです。今利用可能だからこそ、これを取り上げたかったのです。
もう一つ付け加えると、今週チャンネルで11 Labsと動画を作成し、コメントセクションが非常に好評でした。人々はその動画を気に入ってくれたようです。まだ見ていない方は、ぜひチェックしてみてください。
一言で言えば、それは書かれたテキスト、リンク、またはPDFファイルを取り、完全に無料で音声ファイルまたはポッドキャストに変換する無料のモバイルアプリです。本当に制限なく、クレジットカードなども必要ありません。これは素晴らしいことで、このチャンネルの視聴者の多くがその動画を楽しみ、アプリを楽しんでいるのを見てうれしいです。もう一度言及しておきたいと思いました。11 Labsは現在本当に素晴らしい仕事をしています。次に進みましょう。
これは今週の動画に絶対に含めなければならないと思ったものです。これが史上最もクールなリリースの一つに違いないと思いました。おそらく私だけかもしれませんが、私はこれらのゲームで育ったため、新しいClaudeを搭載したエージェントを作って、ゲームボーイエミュレーターにアクセスし、オリジナルのポケモンゲームの一つをプレイさせたのです。
それだけでなく、デモンストレーションもありましたが、このビデオが公開される頃にもまだ利用可能であることを願っています。現在、1,900人の人々がClaudeを使用してリアルタイムでポケモンをプレイするエージェントを見ています。ポケモンバトルや攻撃の選択、マップのナビゲーション、ジムの攻略など、その決断をリアルタイムで見ることができます。実際に成功しています。
ポケモンファンの皆さんには、このストリームをチェックして、リアルタイムで何が起きているかを見ることをお勧めします。エージェントがポケモンチームの体力について考え、前のバトルログのような不要な情報を削除し、このケーブから脱出するためにエスケープロープの使用を検討しています。
個人的には、これを見るのがとても魅力的だと思いました。5歳から8歳の頃、私たちはこれに夢中になっていました。クラスでリンクケーブルを使ってポケモンを交換していたことを覚えています。女の子たちは歩くことさえできなくて少し怒っていましたが、私たちは5歳でポケモンを全部集めようとオタク化していました。そして今、AIが自分でそれをしています。
すべてが美しいスレッドにまとめられており、もしこれに興味を持ったなら、ぜひ読むことをお勧めします。ポケモンに興味がなくても、これは今日のAIモデルが何をできるかというデモです。1年前にはこのようなことはまったく機能しませんでしたが、AIはこのような軌道を描いています。より多くのユースケースが解禁されることを期待し、それについてここで報告していきます。
次に進みましょう。これも少し特殊なものです。「Signs」と呼ばれるもので、基本的にはAIの助けを借りて手話を学ぶアプリです。これは非常に楽しいアプリで体験なので、簡単にデモをお見せしたいと思います。
チュートリアルを始めて、カメラにアクセスを許可します。「スペースを確保し、カメラを調整して、顔がボックス内に収まるように近づくか遠ざけてください。右利きの場合は右手を入れてください。素晴らしい。まず基本を教えましょう。最初に教える単語は”こんにちは”です。やり方を見せましょう。指を伸ばし、親指を内側に曲げます。次に右手を頭に触れるように動かし、そして手を外側に動かします。それだけです。では、あなたの番です。指をコピーすることから始めましょう。素晴らしい。次に手を外側に動かしてください。素晴らしい。もう2回やってみてください。よくできました。”こんにちは”と言いました。
次の単語は”ありがとう”です。平らな手で始め、あごに触れ、次に手を”ありがとう”と言っている相手に向かって外側に動かします。試してみてください。素晴らしい。
これが”誰”のサインです。指を口の近くに置き、次に人差し指を曲げ、伸ばし、もう一度曲げます。それが”誰”でした。指を口の近くに置き、人差し指を下げ…手をどうすればいいのかわかりません。伸ばして最後にもう一度曲げる。それが”誰”でした。よくできました。簡単でしたね。」
これがSignsです。カメラの使用方法と、すべての指を認識する様子が本当に興味深かったです。このような対話型の学習体験がさらに増えていくことが予想されます。手話を学びたいなら、これは素晴らしい方法でしょう。
今週はこれだけです。これらの様々なトピックについてより詳しく掘り下げた動画をいくつか提供できることを楽しみにしています。何か興味を持ったものがあれば幸いです。また近いうちにお会いしましょう。

コメント

タイトルとURLをコピーしました