
7,933 文字

皆さん、GPT-4.5がついにリリースされました。この録画をしている時点で昨日のことですが、私はようやく定性的な創作文章評価を完了させて、GPT-4.5が文章を書けるかどうかを確かめました。興味深いことに、OpenAIの発表では基本的に「このモデルは創造性や自然な会話のためにより優れている」と主張していましたが、実際に私が得た結果を見ると、創造性においてより優れているという主張は少し誇張かもしれないと思うでしょう。
それでは、Grok 3やClaude 3.7 Sonnetなど最近登場した他のモデルと比較してみましょう。また、o1やGPT-4oのような過去のOpenAIモデル、クリエイティブライティングアップデートを受けた最新版なども比較対象にします。では、早速結果を見ていきましょう。
これが私のプロンプトによる結果です。ご覧のように、良いと思った部分は緑でハイライトしています。私はさまざまなプロンプトを使用していますが、テストする全てのモデルに対して全く同じプロンプトを使っています。これらは意図的にシンプルにしていますなぜなら、将来的には大量のプロンプトエンジニアリングは必要なくなると信じているからです。ストーリーについて明確なコミュニケーションをするだけで、どんなモデルでも必要なことを処理できるようになるでしょう。
とはいえ、ここには多くの興味深い結果があります。これはログライン(映画などの簡潔な説明文)プロンプトからの結果で、ご覧のように気に入ったものはそれほど多くありません。実際、まともだと思ったのはたった5つだけでした。いくつかは「まあまあ」という感じで、一つ読んでみましょう:「残忍な暴君を誤って復活させた後、理想主義的な若い死霊術師は彼を倒すために敵の反乱軍に加わらなければならないが、混乱を終わらせるためには、自分の魔法の源を犠牲にしなければならない」。最高ではないですが、他のものよりはましです。
こちらのものはもう少し良いと思います:「腐敗した魔法使いから王位を取り戻すため、追放された王子は忠実な弟子として変装するが、魔法使いの捻じれた計画が実は王国をさらに悪いものから守っていることを発見する」。これには確かに良いアイデアの種があると思いました。
次にアウトラインテストのプロンプトに移りましょう。他の多くのモデルでも見たように、最初はより詳細な説明から始まり、通常はより確固たる基礎から始まるため、最初の数章は後の章よりも使いやすいことが多いです。この場合もそうでした。ご覧のように、これらの多くは緑でハイライトされていて、機能しています。必ずしも素晴らしいというわけではありませんが、使えるでしょう。しかし進むにつれて、少なくなっていき、また説明も小さくなっていきます。これは他のモデルでも見られる一般的な特徴ですが、例えばClaude 3.7 Sonnetではそのようなことはなく、実際に3.7 Sonnetは私のために10,000語を書いてくれました。その全てが素晴らしく、42章中42章満点という完璧なスコアを与えたのはこれが初めてです。
また、GPT-4.5がここでやったもう一つのことを指摘したいのですが、これは以前に他のモデルでも見たことがあり、好ましくないことです。プロンプトでは、各シーンで何が起こるべきかのテンプレートと、全体的なストーリーの要約を提供し、それに基づいてアウトラインを作成させることが多いです。例えばこの中間地点の章では「リーンは積極的に絶望的なグループを統合することを決意する。反乱軍やその他の派閥がオルに立ち向かうために。深く内省的に、彼は初めて直接自分の欠点に向き合い、変わらなければならないことを知る」とあります。
これは明らかに非常に高いレベルで非常に曖昧です。テンプレートではAIに「これは内省的な章であり、彼が直接欠点に向き合い、変わらなければならないことを知る時間だ」と伝えています。しかし、プロンプトで求めているにもかかわらず、「この場面で彼は内省的になるために何をしているのか」という具体的な詳細を教えてくれるのではなく、私が与えたテンプレートを繰り返しているだけです。
対照的に、全く同じプロンプトを使ってClaude 3.7 Sonnetで得た結果を見てみましょう。これが全く同じ中間地点の章で、より多くの情報が提供されていることがわかります。そしてそれは続いていき、すべての章にこれだけの量の資料を提供してくれました。これは完璧です。これは理想的な状況で持ちたい資料の量そのものです。
「クルース要塞の奥深くで、長老はリーンを神聖な部屋に連れて行きます。そこには彼のキーストーンの素材に似た深紅の結晶の断片があります。リーンが近づくと、結晶が活性化し、この深紅の鏡の中に渦巻くようなポータル効果を生み出します。リーンは過去のビジョン、特に彼の祖父が数十年前に深紅の塔への遠征を率いた様子を目撃します。そのビジョンは、祖父が彼が信じていたようなヒーローではなく、塔から人工物を盗むミッションを率い、3つの種族すべての代表者を裏切ったことを明らかにします。最も壊滅的なことに、リーンは「大いなる引き裂き」—荒廃地を生み出した大災害—がマウント・ヴァスピンの人間によって引き起こされたことを目撃します。彼らは3つの種族に対する力を得ようとして、盗まれた人工物を必死に誤用したのです。」
残りを読みたい方は、動画を一時停止して読んでみてください。これがはるかに詳細だということがわかりますね。具体的な詳細を提供し、すでに言及されているストーリーの他の部分、深紅の塔や大いなる引き裂きなど、以前に提供された材料を呼び起こしており、素晴らしい仕事をしています。このようなモデルがある中で、GPT-4.5のアウトラインテストプロンプトの結果にはかなり失望しています。
ビーツプロンプトでは少し良くなっていて、ここでも緑でハイライトされたものがもっと多いのがわかります。しかし、次に文章プロンプトに移ります。これは、シーンを与えて、使えると思う単語、つまり編集や削除、追加をしないと思う単語の数を数えるプロンプトです。ご覧のように、全体的にはかなり少ないです。かなりの量を書いてはくれましたが、ノベルクラフター文章プロンプトでは、同じ単語数を求めましたが、はるかに少なく書き、良い文章もまだかなり少ないです。
定量化されたデータを見てみましょう。ログラインプロンプトでは20中5つ、アウトラインプロンプトでは42中12個が使えると思いました。ビーツプロンプトでは20中15個だったので、少し良くなっています。基本文章プロンプトでは、要求した500語中485語を提供してくれたので、それはまあまあですが、使えたのはわずか126語です。対照的に、Claude 3.7 Sonnetは500語未満しか提供しませんでしたが、より多くが使えるものでした。パーセンテージとして、3.7 Sonnetは明らかに優れており、GPT-4oのクリエイティブライティングバージョンでさえ、わずかに良かったです。
複雑な文章プロンプト、これはノベルクラフターで使用するものですが、要求した500語中169語しか提供されず、このリストの中で最も少なかったです。主要なモデルとしてClaude 3.7、3.5、GPT-4o最新版、o1、DeepSeek R1、o3 Minis、Grok 3を比較していますが、ご覧のようにこのモデルは複雑な文章プロンプトでは優れていませんでした。使えたのはわずか82語でした。
とはいえ、o3 miniモデルも良くなかったです。o3 miniは他の分野ではいくつか良い点がありましたが、クリエイティブライティングの文章に関しては、最近数ヶ月で私が使った中で最悪のモデルでした。ご覧のように、使えると思った単語は25語あるいは93語のみで、100語未満でした。この場合、GPT-4.5 Previewはそれらよりは少し良かったですが、大幅に良いわけではなく、3.7 Sonnetや3.5 Sonnet、あるいはクリエイティブライティングのためにより調整されている最新版のGPT-4oと比較すると明らかに劣っています。
対話文章プロンプトでは556語が生成され、そのうち152語が使えるものでした。編集文章プロンプト、これは確立されたあまり良くないシーンのバージョンを与えて、文章を改善するよう依頼し、どれだけうまくできるかを見るものですが、元のシーンは349語あり、そのうち101語が使えると思いました。今回はわずかに拡張されて394語になりましたが、使えると思ったのは67語だけでした。つまり、実際には悪化したということです。
広告見出しに関しては、良いと思ったのは1つだけでした。GPTモデルは通常、ひどい広告見出しを書いてきました。これだけが良いと思ったものです:「彼の山の聖域の外で、一人の男は彼が想像したよりもはるかに暗く、致命的な世界を見つける」。これが良い見出しかどうかは少し微妙ですが、少なくとも他のものほど不快ではありませんでした。
厳しいかもしれませんが、これが私の見方です。興味深いことに、メールニュースレタープロンプトではずっと良い結果が出ました。おそらくこれが彼らが「より良い会話者」と言っている理由なのでしょう。メールニュースレターはより会話的なトーンが求められるものであり、おそらくそのような種類のものには適しているのかもしれません。ただ、クリエイティブライティングには適していません。
メールニュースレターをお見せしましょう。これは実際にかなり良かったです。「アレクサンドル・デュマの古典『モンテ・クリスト伯』では、エドモン・ダンテスは裏切られた男であり、繁栄から闇へと追い込まれ、根本的に変化し永遠に危険な世界を進まなければなりませんでした」。まあまあだと思います。
少し行き過ぎている部分もあり、「この永遠の物語で、私たちは復讐の恐ろしい力とそれが必然的に伴う代償について学びます」のように少し大げさに感じました。形容詞や修飾表現の使いすぎですね。その後、私が提供した情報に基づいて本を説明していて、それは良くできていました。メールに関しては、より会話的で自然に感じられたので、それは興味深いです。
スコアを見ると、使用可能な単語は214でした。少しだけ良かったのは3.7 Sonnetで、それは長いニュースレターだったため、全体的な単語数が多くなりました。
次にSEO記事スーパープロンプトを見てみましょう。これは大量の情報を提供して、記事全体を書くよう依頼するものです。4,000語を要求しました。過去のモデルではo3 miniがこれに近づいたのがo3 miniの優れた点の一つで、実際にo3 mini Highは200語超過しました。o1も2,000語近く超過し、逆方向に少し行き過ぎかもしれませんが、それは良い点です。
残念ながら4.5 Previewはここで完全に失敗し、わずか811語しか書きませんでした。これは私にとって良くないことです。読み進めると、テキストのトーンが合っていないことがわかりました。メールよりもはるかに不自然に聞こえ、その理由はわかりません。
見てみましょう:「ファンタジー小説を書くことで、あなたは完全な世界、魔法の生き物、そして素晴らしい冒険を創造することができます」。これは全く無駄な導入行で必要ありません。そして私が一番嫌いなAIの定型表現の一つは「あなたが〜であろうと〜であろうと、XYZだとわかるでしょう」という文の始まりです。「あなたが意欲的な作家であろうと、新しいジャンルを探索しているベテラン作家であろうと、ファンタジーフィクションを作るには想像力、規律、そして確かなストーリーテリングスキルが必要です。このガイドでは、説得力のあるファンタジー小説を成功裏に書くための実践的なステップとヒントを明確に概説します」。また、形容詞の使いすぎですね。
「ファンタジー小説とは何か」という見出しですが、フォーマットもあまり良くなく、これは独立した行にあるべきで、「H2」という単語を含めるべきではなく、見出しにするだけでよかったはずです。より現代的なAIモデルの多くはそれができます。
「ファンタジー小説は、架空の世界や代替現実に設定された物語で、魔法の要素、超自然的な存在、神話的な生き物が特徴です。歴史小説やSF小説とは異なり、ファンタジーストーリーには複雑な世界構築、ユニークな魔法システム、そして壮大な探求が含まれることが多く、読者を没入感のある世界と複雑なキャラクターで魅了します」。
形容詞が再び多すぎます。私たちの文章ではそれほど多くの形容詞は必要ありません。一般的にはよりクリーンな文章の方が良く、形容詞は本当に何かを加える場合にのみ使うべきです。AIは形容詞を使いすぎる傾向があります。
これは非常に短い記事で、アウトラインを少し肉付けしたものに過ぎず、私の意見ではこれは失敗でした。
最終スコアを見てみましょう:2117です。私が厳しく評価したo3モデルでさえより高いスコアを持っていることに気づくでしょう。それはSEO記事やブレインストーミングなどに優れていた点があったからです。o3モデルは私の意見ではGPT-4.5よりも文章では劣っていましたが、GPT-4.5は全体的に見て実際には悪かったと感じています。
これは少し落胆させられます。最近ChatGPTに対して温かい気持ちを持っていましたが、彼らは遅れを取っていると本当に感じています。サム・アルトマンさえも「これは新リリースから期待されるような段階的な進歩を持つモデルではありませんが、これとそれができるでしょう」と言っていたようで、このモデルを謝罪しようとしていたように感じました。
特にClaude 3.7 Sonnet、Grok 3、そしてDeepSeekのような中国のモデルなど、最近のリリースからより多くを期待するようになってきました。私は特に3.7 Sonnetのアウトライン能力とブレインストーミング能力に感銘を受けました。3.7 Sonnetの文章も良かったですが、わずかに良いだけでした。しかし、アウトラインと全体的な創造性、特にブレインストーミングに関しては、私にとって断然最良の選択肢でした。
だから私は本当に失望していて、OpenAIが競争したいのであれば、もっと頑張る必要があると思います。確かに、AIを創作に使っている私たち作家は、これらの人々の主要なオーディエンスではありません。彼らはより技術者やコーダーなどに訴えかけようとしていますが、Claudeのモデルは必ずしも多くの機能を持っていないにもかかわらず、彼らは自分たちのレーンに留まり、本当に良い、自然に聞こえる、より創造的なモデルを作ることに焦点を当ててきたのは興味深いと思います。
3.7 Sonnetについて聞いた全てによれば、コーディングなどにも非常に優れているようです。日常的な作業ユースケースに最適なモデルになったように感じますが、OpenAIはおそらく特定のベンチマークや、実生活では必ずしも実用的ではないことを目標にしてきたのかもしれません。
自分たちのレーンに留まり、ChatGPTが持つような「タスク」オプションといったランダムな小さなことをするのではなく、品質の高いLLMを作ることに本当に焦点を当てることで、誰も使っていないような、レーダーの下に落ちてしまったようなものではなく、良い結果を出しているように感じます。
私は少し説教壇に立っていて、少し愚痴っていますが、OpenAI、何をしているのですか?現代のユースケースに対応するモデルを作る必要があります。Claudeははるかに良い仕事をしています。これが私がAlexa Plusの発売を本当に楽しみにしている理由です。Claudeの他のモデルの中でも、Claudeが統合されます。ClaudeだけでなくAmazonのNovaモデルも含まれるでしょう。Novaモデルについては後日ビデオを作りますが、皆さんはどう思いますか?
4.5 Previewについて留意すべきもう一つのこととして、これらのスペックがあります。これらは最終的なスコアに影響を与えました。まず、コンテキストウィンドウは128kで、他のモデルと特に違いはありませんが、ClaudeモデルやGeminiモデルのような他のモデルより優れているわけではありません。最大出力は16kで、これも標準的ですが、3.7 Sonnetは128kトークンの出力の可能性があるので、それはかなり驚異的です。
しかし、本当に驚異的なのは価格です。入力は100万トークンあたり$75、出力は100万トークンあたり$150です。上記のClaude 3.7 Sonnetを見てください。出力の量は文字通り10倍で、入力の100万トークンあたりの価格は20倍以上です。この価格は私が与える全体的なスコアに影響します。価格が安いほど良く、スコアに役立ちます。これは私が評価したリストの中で最も高価なモデルです。o1でさえ出力の100万トークンあたり$60で、それでも高価だと思っていました。
ChatGPT Proにアクセスできる場合、このようなコストを心配する必要はありませんが、APIを通じて使用する場合、ほとんどの人はChatGPT Proに月$200を払っていないので、このコストに注意してください。かなり高価です。
一つ良い点として、非安全なコンテンツを作成させることができました。これは非安全なコンテンツを作成する場合に検討したい点かもしれませんが、文章プロンプトでは必ずしも最良のオプションではないので、Pseudo WriteのMuseモデルなど他のものを検討するかもしれません。
このデータを入手したい場合、これは私のStory Hackerメンバーシップの人々限定のものです。これらをまとめるには相当な作業が必要で、モデルごとに少なくとも2時間はかかります。すべての文章を生成し、それらをすべて読み、単に読むだけでなく、注意深く読んで分析的でなければなりません。一度に複数のモデルは評価できません。それは非常に創造的に疲れるもので、複数行うと目が曇り、注意が散漫になる傾向があるからです。この定性的評価のために1日に1モデルしか行いません。そのため、これは大きなことなので、私の有料メンバーシップの人々だけが利用できるようにしています。
無料メンバーシップも下記にありますので、ぜひチェックしてください。いくつかの特典があります。有料メンバーシップでは、ストーリーテリング、AI、AIアートについてほぼ毎日クラスがあります。また、私の主な目標は本を完成させ、出版ビジネスを始めることなので、その取り組みを支援するためのアカウンタビリティコールもあります。
また、これは非常に活発で参加意欲のあるコミュニティでもありますので、チェックしてみてください。このビデオが気に入ったなら、3.7 Sonnetについてのビデオもチェックしてみてください。そこでは私がそれを絶賛しており、出力の違いを見ることができます。これが役立ったことを願っています。次のビデオでお会いしましょう。


コメント