
5,361 文字

OpenAIが新たなGPT-4.5を公開しました。同社はこれを「チャット向けの最大かつ最高のモデル」と表現しています。モデルについて「初期のテストでは、GPT-4.5との対話がより自然に感じられます。より広い知識ベース、ユーザーの意図をより良く理解する能力、そして高いEQにより、文章の改善、プログラミング、実用的な問題解決などのタスクに役立ちます。また、幻覚も少なくなると予想しています」と述べています。
この見解はサム・アルトマンも同様で、「良いニュースです。これは私にとって思慮深い人と話しているように感じる初めてのモデルです。AIから実際に良いアドバイスをもらって驚いて椅子に背もたれを預けるような瞬間が何度かありました」と投稿しています。
モデルは前身と比較して印象的な事実の正確さを示しています。OpenAIが「シンプルQA」と呼ぶ事実的知識を測定するベンチマークでは、4.5は62.5%の精度を達成し、GPT-4の38.2%を大幅に上回っています。同様に、幻覚率も61.8%から37.1%に減少しました。
OpenAIによると、人間のテスターもGPT-4と比較して4.5を明らかに好み、特にクリエイティブなタスクや日常会話においてその傾向が強いようです。モデルの応答は著しく簡潔で会話的であり、簡潔で共感的な回答と詳細な情報のどちらを提供すべきかをより直感的に理解しています。
アルトマンとOpenAIは、現時点での4.5に明らかな欠陥と制限があることも指摘しています。アルトマンは「巨大で高価なモデル」であり、現時点では月額200ドルを支払うChatGPT Proユーザーのみが利用可能だと述べています。「PlusとProに同時にリリースしたかったのですが、成長が著しくGPUが不足しています。来週に数万台のGPUを追加してPlusティアにも展開する予定です。数十万台が間もなく到着するので、皆さんが使う分はすべて用意できると思います」と彼は言います。
また、これは「推論モデル」ではなく、「ベンチマークを圧倒するものではない」とも明言しています。「これは異なる種類の知性であり、以前には感じたことのない魔法があります」と彼は述べています。
「ポール、これはほとんど雰囲気のようなものを最適化したティアモデルのようですが、奇妙な言い方でも、それが彼らの目指していたもののように思えます。4.5についてのあなたの最初の考えは何ですか?このモデルの長所と短所で特に目立つものはありますか?」
「これは明らかな能力や性能の飛躍というよりも、これから来るものの兆候だと思います。私自身も使っていて、今朝もポッドキャストの準備をしながら使っていました。特定のアプリケーションやプロンプトの配列をテストすることが必要だと思います。イーサン・ミクさんはこれを素晴らしくやっていて、毎回同じプロンプトを使用して「はい、違いを見て感じることができます」と言えるようにしています。一般的なユーザーは違いを感じないと思いますし、もし使い始めて出力を見ても「これは4からの大きな飛躍だ」とは思わないでしょう。それが要点ではないと思います。
いくつか注目すべき点として、検索を含む更新された情報へのアクセスがあり、ファイルや画像のアップロードをサポートし、書き込みやコーディングのためのキャンバスを使用できますが、音声などのマルチモーダル機能はサポートしていません。Proアカウントを持っていても、まだ4.5と話すことはできません。ビデオや画面共有もまだありません。それらは後で登場するでしょう。
今朝準備をしながらもっと時間をかけて考え始めて、いくつかのことが目につきました。まず、スケーリング法則についての継続的な議論があります。今や二つの方法があります。より多くのNVIDIAチップ、より多くの計算能力、より多くのデータをこれらに投入して学習させ、よりスマートにする方法と、考える時間を与える推論、つまりテスト時の計算です。これは前者、つまり教師なし学習で、より多くの計算能力とデータを与え、おそらくGPT-4の10倍ほどを与えて、何が出てくるかを見るというものです。
彼らが主張するのは、約10倍の事前学習計算能力を与えることで、これらのモデルはパターンをより良く認識し、つながりを見出し、推論なしでより創造的な洞察を生み出すということです。そしてGPT-5では、これらのモデルが統合され、推論能力も持つようになります。出力の違いを劇的に感じないかもしれない理由は、それがすべて基礎となる広い知識と世界のより深い理解だからです。
アンドレ・カルパシー(彼についてはこの番組で何度も話しましたが、OpenAIに何度か在籍していました)が素晴らしいツイートをしていて、彼の個人的な見解を示していたので、ここで読んでみたいと思います。長いツイートでしたが、状況を設定するのに役立つと思います。
彼は言いました:「GPT-4がリリースされてから2年間、これを楽しみにしていました。なぜなら、このリリースは事前学習の計算能力のスケーリングから得られる改善の傾斜の質的測定を提供するからです」これは単に大きなモデルを訓練することを意味します。彼によれば、バージョンの0.5ごとに事前学習の計算能力が約10倍になるということです。つまり、基本的にはより多くのNVIDIAチップが適用されるということです。
「背景として、GPT-1はかろうじてまとまりのあるテキストを生成し、GPT-2は彼の言葉によれば混乱したおもちゃでした。彼らは2.5をスキップして直接3に進んだのは興味深いですね」マイク、もし間違っていなければ、GPT-3は私たちが「マーケティング人工知能」の本を書いたときに世界にあったものですよね?
「はい、私が書いたセクションがありました。『機械が人間のように書けるようになったらどうなるか』というセクションです。それは確か2022年初頭に書いたもので、すでに起きていることを予測したものでした。ChatGPTの瞬間の前でしたが、すでにこれらのことが可能になるのを見ていて、私たちの本では避けられない結果として書きました。」
アンドレはこう続けます:「GPT-3.5は製品として出荷するのに十分なしきい値を超え、ChatGPTの瞬間を引き起こしました。GPT-4も良くなったように感じましたが、それは確かに微妙でした。GPT-4がGPT-3.5よりも優れているという具体的なプロンプトを見つけようとするハッカソンに参加したことを覚えています。」
これは、これらのラボに座って同じ議論を行っている人物で、2022年11月の最初のChatGPTバージョンであるGPT-3.5から、2023年3月にリリースされたGPT-4まで、内部で同じ戦いをしていたのです。「違いを見つけようとしている、ただスマートに感じる、違って感じる、良く感じるけど、説明するのは難しい」という感じでした。
そして彼は続けます:「我々は実際に推論が重くないタスクで改善が見られることを期待しています。私はIQよりもEQに関連するタスクだと言うでしょう。例えば、世界知識や創造性、知識、類推作り、一般的理解、ユーモアなどによるボトルネックがあるタスクです。」
私にとって、このEQ対IQの概念に焦点を当て始めたのは、これらがどこに向かうのかを理解するための非常に基本的なことだと思うからです。だからこそ、私は4.5をより前奏曲として見ており、正直に言って、数ヶ月間―それ以上ではない―これらのモデルがEQで高くなるとどういう意味を持つのかを理解する時間を与えてくれると思います。なぜなら、5が来るからです。
ここでいくつかの背景を説明します。OpenAIのGPT-5の投稿では、最初の方で「世界の深い理解と改善されたコラボレーションを組み合わせることで、人間のコラボレーションにより適した暖かく直感的な会話の中で自然にアイデアを統合するモデルが生まれる」と強調しています。GPT-4.5は人間が何を意味するかをより良く理解し、微妙な手がかりや暗黙の期待をより大きなニュアンスとEQ(感情指数)で解釈します。そうです、EQはそういう意味です。感情的知性ですね。
GPT-5はまた、より強力な美的直感と創造性を示し、文章作成やデザインの支援に優れています。私にとって、EQの部分が本当に重要です。なぜなら、それによってモデルが依然として独自の人間的なものや安全なものであると認識されるスキル、特性、さらには専門性の領域に移行するからです。IQは知的、技術的、分析的課題を解決するための基盤を提供しますが、EQは社会的複雑性の操作、明確なコミュニケーション、感情のニュアンスの処理に関するものです。
これらのモデル(ClaudeやGemini、この場合はGPT-4.5)がより高い感情的知性を持つようになるとどのような影響があるのかを考えると、それはより自然に感じられる対話を可能にし、AIに共感の感覚を与えます。それはより人間らしく見えるようになり、ユーザーのリクエストの背後にある意図の微妙な違いを識別するのに役立つため、タスクのパフォーマンスが向上します。これにより、文章作成やカスタマーサービスなどの複雑なタスクのサポートが向上します。また、プロンプトの背後にある意図をより理解するようになるため、誤解やエラー(幻覚など)が自然に減少します。
感情的知性が高まるにつれて、これらのモデルとの対話方法が変わり、ビジネス環境でのユースケースが変化し、おそらくAIからより安全だと思われていた職業にも侵入し始めるでしょう。これは私に、感情的知性が高まるにつれて、ビジネスと社会の両方で直面しなければならない影響は何かを考えさせました。
いくつかのことが思い浮かびました。まず、操作リスクです。AIは感情に直接訴えかけることでユーザーを微妙に操作し、決定や行動に影響を与え始める可能性があります。また、これらのAIシステムは深い感情的な手がかりを分析し理解する必要があり、多くの場合、機密データへのアクセスが必要です。サムが示唆したように、また他のモデル企業からも聞いたように、彼らのモデルの未来はメモリとパーソナライゼーションがカギとなります。すべての対話を記憶し、あなたに合わせた体験をパーソナライズしたいのです。
EQは真のパーソナライゼーションへの道です。もし非常に自然な方法であなたに話しかけ、あなたに共感し、あなたの感情やニーズを真に理解できる(または少なくともそう認識できる)ものがあれば、人々がAIと発展させる感情的な絆と依存関係に対処することになります。これは、感情的知性が高くないモデルでもすでに見られ始めています。
おそらく最大の懸念は、昨年このポッドキャストでサムからのツイートを共有したことで、彼は「これらのマシンは他の何かで超人的になる前に、説得力で超人的になるだろう」と考えていました。私が昨年作成したGPT-2の仕事について話した「AIエクスポージャーキー」では、主要なエクスポージャーの一つはレベル8の「説得能力」です。以前に言ったように、これらのモデルはすでに説得力において超人的ですが、それは制限されています。説得とは、人々の信念、態度、意図、モチベーション、行動を変えるよう説得する能力であり、高度な推論、感情的アピール、人々の感情的知性を理解し影響を与える能力を使用します。したがって、説得は真に懸念すべき開発領域になり始めていると思います。
繰り返しますが、月額200ドルを支払っている人が4.5を使用して違いを感じるでしょうか?わかりません。いくつかのプロンプトやユースケースでは違いを感じるかもしれませんが、ここでの基本的なことは、OpenAIがこれを世界に出しているのは、GPT-5をリリースする約3ヶ月前だということです。GPT-5は感情的知性が高いだけでなく、カルパシーのツイートに戻ると、もし私の計算が正しければ、GPT-4からGPT-5への計算能力の増加は100倍になります(10倍から10倍へ)。
つまり、より強力なモデルを持つだけでなく、そのモデルの上に推論が層になり、すでにより強力なモデルの上に推論を層にすると、感情的知性が大幅に飛躍する可能性があります。だから、このリリースを「同じだ、違いがわからない」と軽視しないことが非常に重要だと思います。それが要点ではありません。要点はGPT-5の準備をすることであり、それはあなたが慣れているものからの飛躍であり、推論能力が組み込まれているでしょう。そして、ビジネスにおいて誰も本当にそれに準備ができていないと自信を持って言えます。
マイク、あなたと私はいつもこれらの会議に出席し、ワークショップを実施し、話をします。画像生成のような最も基本的なことを人々に見せるだけで、彼らは驚きのあまり口を開けっぱなしになります。彼らはこれらのものがどこに向かっているのか、何が本当に可能になるのかについて考えていません。


コメント