OpenAI GPT 4.5:このモデルを何に使うべきか? – TESTED

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,055 文字

OpenAI GPT 4.5: What Should We Use This Model For? - TESTED
OpenAI GPT 4.5: What Should We Use This Model For? - TESTED👊 Become a YouTube Member for GH access:🤖 Great AI Engi...

OpenAIは昨日GPT 4.5をリリースしました。これは私がどのようにこの動画を作るべきか少し悩んだ初めてのケースです。価格を見ると、O3 miniより34倍も高価であり、良い使用例を思いつくのが本当に難しいです。では、このモデルを何に使うべきでしょうか。
コーディングには使わないでしょう。また、STEM分野の推論にも使わないと思います。なぜなら、O3やGrok Reasoning、DeepSeek R1がありますから。そして間違いなくエージェント型ワークフローにも使いません。これも価格に関係していますが、単に高すぎるからです。
考えてみると、創造的なタスクや文章作成に適していると考える人もいるようです。私は今後の動画シリーズのためにビジネスプランを作りたいと思っていたので、それがこのモデルをテストしたい唯一のことでした。ビジネスプランのプロンプトを試して、本当に良いものが得られるか見てみましょう。
それ以外は、正直なところ、このモデルを1日使っただけでは何に使うべきか判断するのは難しいです。何か良いアイデアがあれば、コメントで教えてください。価格がネックになりますが、OpenAIは「これは推論モデルではないのでトークンをそれほど消費せず、そのため高価ではない」と言っていますが、この価格では大きなプロジェクトに使うことは正当化できないと思います。
また、一部の人々はDeepSeek R1やDeepSeekがGPT 4.5を使用してトレーニングデータを作成するためにこのモデルを使うべきではないと主張していますが、真偽は分かりません。
では、ダッシュボードのプレイグラウンドに行って、私のビジネスプランのプロンプトをテストしてみましょう。創造的なタスクもいくつか試してみるかもしれません。コーディング、推論、エージェント型ワークフローには使わないと思いますが。
例を見る前に、ブログ記事に目を通して、システムカードから興味深い点をいくつか見てみましょう。
彼らは「GPT 4.5は会話のための最大かつ最高のモデル」と言っています。これは興味深いですね。つまり、STEMやコーディングのための最高のモデルとは言っていないのです。GPT 4.5との対話はより自然に感じられ、より広い知識ベース、意図に従う能力の向上、より高いEQを持ち、文章作成、プログラミング、実用的な問題解決に役立つタスクがあるとのことです。また、幻覚が少なくなると予想されています。統計を見ると、単純なQAの幻覚率(低いほど良い)は実際に少なくなっているようで、それは良い進歩だと思います。
彼らは、4.5は人間が意味することをより理解し、微妙なニュアンスで暗黙の期待や手がかりを解釈すると指摘しています。4.5は応答する前に考えないため、O1のような推論モデルとは特に異なる強みを持っています。O1やO3 miniと比較して、より汎用的で本質的に賢いモデルであり、推論能力があると彼らは信じています。
彼らは、今後のGPT 5で見られるように、これら2種類のモデル(推論モデルとベースモデル)を分離することに力を入れ始めています。
AIの安全性スペースに注目している方なら、Apollo Researchは4.5がO1より低く、4.0より高い策略的推論の評価スコアを持つと発見しました。したがって、4.5からの策略関連リスクはO1より低いと彼らは考えています。同様に、化学的・生物学的脅威の作成スコアは「中程度」です。少なくとも「高」ではないので、それは良いことでしょう。説得力については「中程度」のスコアで、4.5は文脈的説得の評価において最先端のパフォーマンスを示しています。成功率を比較すると、4.5は緑色で57%、詐欺師モデルは8%です。
このレポートカードの一部をGrokに入れると、4.5の二面性について次のように要約しています:技術的成果としては肯定的ですが、間違った手に渡った場合の潜在的危害は無視できません。開発者はこの問題を認識しており、現実世界のリスクに対応するためにアプローチを再考しているようです。つまり、技術的には肯定的な成果ですが、誰かに愚かなことをするよう説得するという観点では否定的な成果とも言えます。
このチャンネルで気にしているエージェント型タスクのスコアを見ると、右側の4.5は4.0とほぼ同じパフォーマンスで、大きな違いはありません。なぜかDeepSeekは大きな上昇を示しています。次の動画ではDeepSeekをコーディングタスクに使用してみるかもしれません。それは興味深いかもしれませんが、先述の通り、価格が高すぎるため、4.5をエージェント型タスクには使用しないでしょう。
私が好きなベンチマークの一つはS Lancerです。これはUpworkから実際のタスクを取り、実世界のケースを試すものです。これは私のお気に入りのベンチマークの一つです。Upworkのタスクからできるだけ多くのお金を稼ごうとするものです。ここでもDeepSeekは良い成績を示していますが、以前の論文ではClaude 3.5がこのベンチマークで非常に良かったことを覚えています。右側の4.5を見ると、O1とほぼ同等で、4.0にも近いです。大きな向上は見られないので、4.5でこのタスクも試すつもりはありません。
彼らの結論では、GPT 4.5は能力と安全性に顕著な改善をもたらしますが、特定のリスクも増加させるとしています。内部および外部の評価を経て、全体として4.5は適切な安全対策を講じた上で「中程度のリスク」と評価されています。彼らは、繰り返し行われる実世界でのデプロイメントが、AIの安全性に関するステークホルダーを奨励する最良の方法だと考え続けています。つまり、これらのモデルが安全かどうかをよりよく理解するために、公衆に向けてこれらのモデルを引き続き提供するということです。彼らはまだ「中程度のリスク」にあるというのは興味深いですね。
では、私の例に移りましょう。ChatGPT Proのサブスクリプションを持っていないので、プレイグラウンドからAPIを使って試してみます。GPT 4.5プレビューを選択し、温度を0.5くらいに下げ、最大トークン数を少し増やします。基本的にAPIから実行します。現時点では、私にとってProサブスクリプションの価値はないと思います。
先ほど言ったように、大きなアイデアはありませんが、AIを使ってゼロからビジネスを構築する様子を追う新しいYouTubeシリーズを作業中です。このプロンプトについてはしばらく作業していたので、詳細には触れませんが、自分自身についての情報、何ができるかなどを多く入力しました。これが私のプランと、賢明だと思うことに関する私の考えです。
基本的にノルウェーのビジネスにアウトリーチして、より多くの露出を得たいと考えています。ノルウェー中の企業を回って、従業員向けに講演やウェビナー、ワークショップなどを行えるようにしたいというのが私のアイデアです。ここにLLMに手伝ってほしいタスクを記載しました。LLMやAIツールを活用し、短時間でこれを行い、AIモデルを活用したいと思っています。このプランには、LLMやAIツールをどのように使用するか、1日以内(できればもっと早く)にほとんどの作業をAIで行う方法、ビジネスを迅速に立ち上げるための段階的で実行可能な詳細なプランを含める必要があります。
システムメッセージや構造化された出力は使用せず、このまま4.5モデルに通します。もちろん、これは非常に大きなモデルなので、彼らが言うところの「インテリジェンス」を多く持っているはずです。ただ、価格を考えると、そこまで賢いのかどうか疑問です。実行して何が得られるか見てみましょう。
3日間のプランが返ってきました。まあ、それでいいでしょう。最初のステップは強力なマーケティング資料を準備することのようです。それは良いですね。コンテキストを収集する必要があります。基本的に私と私の活動に関するすべてのことです。AIを活用したコピーライティングで必要なすべてのコピーを書き、LinkedInのアウトリーチメールなどを作成します。それで良いと思います。オンラインプレゼンス、ランディングページの更新、LinkedIn、ターゲットを絞ったアウトリーチリストなどです。
ここでいくつかのノルウェー企業を提案してくれたのは、正直かなり良いと思います。パワフルなアウトリーチメール、メディアカバレッジの依頼、講演の機会、対面ワークショップ、スケールでのアウトリーチメールなどです。多くの企業を見つけて既存のLinkedInネットワークを活用するというのは良いですが、かなり一般的ですね。フォローアップメールシーケンス、クイックウィン、財務関係の新聞やジャーナリストに直接メールを送り、ストーリーを提案し、15万人の登録者を持つAIエキスパートとしての独占インタビューやフィーチャーを提供するなど。なかなか悪くないかもしれません。
日ごとのプランも得られました。他のLLMからも多くの似たようなものを見てきました。他に何か試してみましょうか。アウトリーチメールを書いてみて、どう思うか見てみましょう。コンテキストを集めて、私のアイデアを売り込むアウトリーチメールを書いてみましょう。
タスクは、自然で効果的なアウトリーチメールを書くこと、興味深く聞こえるようにすること、AIを使用して従業員のスキルアップを行うための講演について一緒に何かをする提案をすること、私のバックグラウンドと経験に言及するが、読みやすく興味深い短さにすることです。今見たくないのは非常に一般的なものです。もしそうなら、これは役に立たないと言うでしょう。このためにちょっと温度を上げ、トークンを4Kに下げてみましょう。実行してみましょう。
件名:「AI upskilling for [企業名] – 潜在的な協力の可能性」。それはかなり良いですね。「ノルウェーを拠点とするAI教育者が、企業がAIツールを実践的に適用して生産性を向上させ、日常的なタスクを効率化するのを支援します。私はいくつかの企業向けにワークショップ、ウェビナー、トレーニングを提供しています」。それはかなり良いです。「アップスキリング・イニシアチブについて協力する機会を探りたいと思います。おそらくターゲットを絞った講演、ワークショップ、ウェビナーなどです。私の活動についてはこちらでご覧いただけます」。それも気に入りました。「今後数日間に簡単な電話をして、これについてさらに話し合う機会を設けていただけますか?」
これは良いと思います。かなり良いアウトリーチメールだと思います。長すぎず、要点をついていて、参考文献も含まれています。かなり良いと思います。4.5でアウトリーチメールを書くことについては、かなりポジティブな印象を持ちました。ただ、他と比較していないので、これは単に私の主観的な意見に過ぎませんが、雰囲気としてはかなり良いと思います。これを今後のシリーズで使うかもしれません。4.5でこのような作業をするのは良いかもしれません。
現時点では他にテストしたいものはあまりありません。なぜなら、コーディング、推論、エージェント型ワークフローは行わないつもりだからです。基本的にもう少し考える必要があり、おそらく別の動画で戻ってくるかもしれません。今後のビジネスシリーズに4.5を含めるべきかもしれません。
それ以外には、非常に高価であることを除けば、あまり言うことはありません。かなり良いと思いますが、価格がこれを正当化するかどうかは分かりません。待って様子を見る必要があります。判断するには少し早すぎると思います。
コメントで教えてください。このモデルを使うつもりですか?まだPlus(有料)ユーザーにも提供されていないと思います。少なくとも私には提供されていません。おそらくProユーザー向けで、後でPlusに来るのだと思います。これがどう発展するか見守り、将来的にまた取り上げるかもしれません。
視聴していただきありがとうございます。最も高価で興味深い動画ではなかったかもしれませんが、一部分を楽しんでいただければ幸いです。またお会いしましょう。

コメント

タイトルとURLをコピーしました