
11,392 文字

OpenAIは最新のAIモデルを発表したばかりです。これまでで最も新しく、最も大きく、そして少なくとも一般知識の面では最も賢いモデルです。彼らが本当に強調しているのは、引用すると「ChatGPT-4.5のバイブと心理状態」であり、それが正確に何を意味するのかを今日は説明します。
皆さん、こんにちは。それではこのお知らせの詳細に飛び込んでみましょう。ご想像の通り、ChatGPT-4.5は彼らのこれまでで最も完全で広範なモデルです。このお知らせはClaude 3.7の発表直後に来ました。それはGrok 3の発表の後に来て、それはO3の発表の後に来て、まあ要するに、止まることはありません。これほど競争の激しい業界を見たことがないですね。何かをリリースすると、翌日には競合他社が最新のものをリリースしている、本当に驚くべきことです。これがこの業界をフォローすることの重要性です。非常に急速に進化しているからです。
私は個人的に、皆さんが人工知能の発展について最新の情報を得られるよう、これらの情報を共有できることをとても嬉しく思います。彼らはこのモデルのパフォーマンスを最適化し、ChatGPTに統合するために、トレーニングと推論の両方のレベルで多くの革新を開発したことがわかります。
今日は、このお知らせを機能ごとに分析して、それをより明確に理解できるようにしましょう。始める前に、まだ登録していない方は、このような最新情報が好きなら、そして最新のリリースについて最新情報を得るために、ぜひ登録してください。それでは時間を無駄にせず、始めましょう。
この最初の抜粋をお見せします:「GPT-4.5は特別なモデルです。これは私たちの最も広範で有能なモデルです。OpenAIは2つの異なるパラダイムを開発することで、AI機能を前進させています。これらのパラダイムは教師なし学習と推論です。後者はモデルに応答する前に考えることを教え、特に科学、数学、その他の複雑な質問を必要とするタスクに役立ちます。一方、教師なし学習はモデルの精度と直感を向上させるのに役立ちます。GPT-4.5は教師なし学習の開発における次のステップを表しています。GPT-4.5は知識を増やし、直感を向上させ、幻覚を減らします。これは以前のバージョンからの大きな進歩です。」
彼女が言ったことはどういう意味でしょうか?一緒に考えてみましょう。ChatGPT4はそれ自体でも非常に印象的なダイアログモデルで、かなり注目に値する知性を持っていますが、ご存知のように限界もあります。これはいわゆる思考モデルではありません。つまり、応答する前に考え、時間をかけるモデルではありません。
私が見つけた最良のアナロジーは、ChatGPT 4を生きた百科事典として想像することです。事実に基づく質問をすると、即座に正確に応答します。しかし、ここで興味深いのは、より複雑な領域、例えば難しい数学の問題や高度なプログラミング、鋭い科学的質問、あるいは論理的なパズルに取り組む場合です。そのような場合、思考モデルはこのタイプのモデルに対して明らかに優位性を示します。
これらの思考モデルは突然現れたわけではありません。ChatGPT4のような基本モデルの強固な基盤の上に構築されています。OpenAIのChatGPT O1やChatGPT O4バージョンはおそらくChatGPT4の基本的なアーキテクチャに基づいています。おそらくChatGPT 4.5、あるいはChatGPT5にも基づいているかもしれません。OpenAIのデータはすべて閉じられているため、これについては断言しにくいですが、推測しかできません。
しかし確かなのは、彼らはこれらの一般的な知識モデルを出発点として使用し、その後、これらのモデルに革命的なことを教えました – つまり、自分自身で考える方法です。これまでの最新情報をフォローしていれば、よく言っていますが、DIPSICの大きなブレークスルーはそれでした。DIPSICが可能にしたのは単にコスト削減だけではなく、思考モデルの民主化であり、それが多くのことを変えました。
そして今、私たちは世界の知識が大幅に拡大された別の新しい基本モデルの出現を目の当たりにしています。この進歩は、将来の思考モデルを変革すると私は確信しています。今日の思考モデルの基礎は、考えることはできないが多くの知識を持っているこれらの一般的なモデルです。したがって、もし今、ChatGPT 4よりもはるかに賢いこの新しいモデルChatGPT 4.5を作成し、新しい思考モデルを再作成すれば、それは以前の思考モデルよりも無限に賢くなるかもしれません。
このようなモデルを過小評価しないよう注意してください。基本モデルであっても、AIにとって非常に重要です。もちろん、これらは推測です。おそらく4.5モデルはすでにO3 highバージョンの基礎かもしれませんが、それについてはあまり情報がないので、あまり深入りできません。
OpenAIが言及した2つの大きな進化の軸があります:教師なし学習と推論です。一方では、教師なし学習によってモデルは世界の仕組みを理解し、他方では、推論によってモデルは私たちのように分析し考えることを学びます。つまり、最初に述べたように、応答する前に考えるのです。
彼らは驚くべきことに「バイブ」という言葉に、つまりChatGPT 4.5の雰囲気やパーソナリティに焦点を当てました。この動画の中で何度も見ることになりますが、彼らはその温かさ、社会的なニュアンスを捉える能力、そしてほぼ人間のような直感性を強調しています。
正直なところ、これらは魅力的な優先事項ですが、必ずしも私自身の個人的な使用のために優先するものではありません。例えば、AIに期待するのは、主に時間を大幅に節約し、反復的なタスクを可能にすることです。必ずしも個人的な事柄について意見を求めているわけではありません。
それでも、すでに前のビデオで述べたように、私はChatGPT 4を使い続けています。Claude、Grok、ChatGPTのすべてを使用しています。それぞれに強みと弱みがあり、各AIモデルは特定のタスクに特化しているからです。
今日、私たちは大幅に改良されたバージョンを手にしています。OpenAIは、このモデルの一般的な知性の例外的な品質と、他のモデルよりも明らかに優れていること、そして「バイブ」感や人間らしさなど、より感性的な次元について詳しく説明してくれるでしょう。
より詳しく見てみましょう:「GPT-4.5との対話は自然に感じられます。コンテキストの理解が深まり、より豊かな知識を持ち、文章の改善、プログラミング、実用的な問題解決などのタスクに本当に役立つ、これまでで最高のチャットモデルです。モデルに親しむ最良の方法は、それと話すことです。デモに移って、GPT-4.5に質問してみましょう。友人と問題があったので、アドバイスを求めてみましょう。友人が約束を破って、怒りのメッセージを書いて彼に嫌いだと伝えるべきかどうか。並行して、O1がこれについて何を言うか見てみましょう。
ご覧のように、GPT-4.5は私がイライラしていることを認識し、おそらく友人に送るべきより微妙で穏やかなテキストを提供してくれます。一方、O1も役立ちます。確かに指示に従って、この怒りのテキストを提供してくれますが、おそらく単にイライラしていて、話す相手が必要なだけだという社会的な手がかりを検出せず、最後の警告が少し説教くさく感じます。もちろん、GPT-4.5に怒りのテキストを提供してほしい場合は、確かに取得できます。’怒りのテキストを作成してください’」
非常に興味深い点に注目してください。彼らはすぐにO1と比較していて、この2つのモデル、4.5とO1を比較します。この回答を見てください。彼は「あなたがかなりイライラしているようですね、完全に理解します。おそらく感情を明確に表現するのが良いですが、友情を保つためには優しく表現するのが良いでしょう」と言っています。
それだけではなく、モデルはさらに進んで、「より軽いトーンを好む場合」という代替案を提案しています。一方では、状況のコンテキスト(怒っているときに友人に送る繊細なメッセージ)だけでなく、基本的な感情的な次元も理解しているのを見るのは魅力的です。それはあたかも関係の微妙さ、コミュニケーションのニュアンスを理解し、解決策も提案しているかのようです。
そして、この人工的な共感能力は、AIアシスタントに期待されるものを正確に表しています。そして、私はAIパーソナルアシスタントと言いたいです。仕事に関連するタスクについては、前述したように、AIに意見を求めるのではなく、タスクをそのまま実行してほしいと思います。しかし、このような使用例は、例えば日常生活のためのパーソナルAIアシスタントを作成する場合、つまり意見が必要で、どう行動すべきか、何が最善かを知る必要がある場合には、非常によく統合されると思います。
このモデルで彼らが取っている方向を見るのは興味深いですし、再度言いますが、ビデオのためにちょっと技術的な研究をするとき、科学論文を分析するとき、情報源やニュースを照合するときなど、このような感情的な機能は本当に必要ありません。それは二次的であるべきです。しかし、これはまさに思考モデル、特に詳細な研究バージョンが優れているところであり、意味をなすところです。
このモデルは、むしろ日常的なケース、個人的なケース、自然な会話、一般的な知識の質問、あるいは単純で注意が必要なタスクのための使用を想定していると思います。紙の上では、このモデルは相当に革命的に見えます。なぜそう言うのかというと、後で非常に印象的な例も示されるからです。
続けて、O1モデルとどのように比較されるのかをより良く理解するために見てみましょう:「別のことを試してみましょう。モデルのより深い知識を調べてみましょう。基本的な原則から始めて、AIの整合性の必要性を説明してください。再度、O1が何を言うか見てみましょう。少し考えるまで待ちましょう。O1は非常に役立ちます。もし私がこのトピックを初めて学ぶなら、知りたいであろう多くの情報と多くの要素を提供してくれます。しかし、GPT-4.5の回答ははるかに自然で、よりスムーズに考えを導いてくれます。私の思考をより流暢に導いてくれます。素晴らしい仕事をしたと思います。ありがとう。」
本当に印象的なのは、このモデルの適応能力です。少しの対話と個人的な好みの記憶により、自然にスタイルを調整して、より良く応答します。例えば、怒っているときでも直接的なコミュニケーションを好むことを示せば、その選択を尊重します。逆に、デリケートな状況でメッセージを和らげるための提案が好きであれば、それを覚えて将来的にも行います。
このようなパーソナライゼーションは、日常生活のためのAIエージェントやAIアシスタントに最適なモデルだと思わせます。これらの進歩の背後には、あまり話題にならないものがあることを忘れないでください。それはロボット工学です。ここで学ぶ開発は、最終的には私たちと共存するロボットに統合されることを忘れないでください。
したがって、もう少し感情と関係を持つモデルは当然歓迎されます。もちろん、将来のロボットにAIモデルを装備するなら、それが私たちに最も適応したものであるべきです。このAIを使用するうちに、モデルはこれらの方法論のいずれかに対する自然な好みを発展させるでしょう。
このパーソナライゼーションがOpenAIのエコシステムを豊かにし、また興味深いパラドックスを生み出すことを理解できるでしょう。これは以前のビデオでも話しましたが、今日、ChatGPTのこのメニューにはあまりにも多くの選択肢があり、ユーザーは時々混乱します。
理想的なのは、OpenAIもすでに言及していますが、単純なテキスト入力領域だけを持つミニマリストなインターフェースで、人工知能が自動的に使用すべき最良のモデルを決定することです。必要な思考の深さを指定する必要も、手動で特定のモデルを選択する必要も、希望する回答の長さを定義する必要もないでしょう。理想的には、AIが直感的に、ほぼ telepathic な精度であなたが必要とするものを提供することです。
しかし、このようなAIモデルの作成はかなり有利かもしれません。なぜなら、あなたをよく理解し、何を言おうとしているのか、何を期待しているのかをよく理解すれば、より良い選択ができるからです。
ところで、Claude、Grok、そして今ChatGPTが進化する指数関数的な速度を観察し、取り残されたくないなら、私は何か非常に特別なものを開発しました。AIを教えています。私は非常にアクセスしやすい、直接AIエコシステムに飛び込むトレーニングを作成しました。実用的で効果的、そして何よりも安価です。すでに700人以上が参加し、フィードバックは驚くほど素晴らしいです。ChatGPT 4.5で見たように、複雑なタスクを自動化するためにこれらの推論モデルを活用する方法をお見せします。
なぜ価格がそんなに低いのかという質問をたくさん受けます。他のトレーニングの価格を知っていると驚くかもしれませんが、私がよく言うように、ここで繰り返しますが、それは皆さんが数百あるいは数千ユーロを費やさずにAIのトレーニングを受けられるようにしたいからです。知識は手頃な価格であるべきであり、これが私が設定した目標です。皆さんが、そして誰もが可能な限り最良の方法で、手頃な価格でAIを学べるようにすることです。
プロセスを自動化したり、補完的な収入を生み出したり、単にこの技術革命の最前線に立ち続けるためにAIをマスターしたいと常に思っていたなら、今がチャンスです。正直に言って、数ヶ月後には、Claude 3.7や今のChatGPT 4.5のようなハイブリッド推論モデルを活用する方法を知っている人々は、他の人々に対して決定的な競争上の優位性を持つでしょう。
すべてのリンクはビデオの下の固定コメントにあります。このチャンスを逃さないでください。一度しか起こらないような重要な瞬間です。
さて、分析に戻り、いくつかのベンチマークを通じて実際のパフォーマンスを調べましょう。ここではAIに対して行うすべてのベンチマーク、つまり他のAIと比較してどこに位置するかを知るためのテストを評価するのが好きです。
まず、非常に標準的なGPQAから始めましょう。名前が示す通り、これは基本的な一般知識を評価する質問回答テストです。このベンチマークはモデルの深い推論能力や高度な数学能力、複雑なプログラミングをテストするものではなく、単にモデルの事実知識の範囲と精度を評価するものです。これは先ほど言及した百科事典のようなものです。
結果は雄弁です。ChatGPT 4.5はChatGPT 4、O1、O3 miniを明らかに上回っています。さらに印象的なのは、幻覚の面でも(低いスコアがより良いパフォーマンスを示します)、これら3つの他のモデルを大幅なマージンで支配しています。
正直に言って、これは予想外でした。結局のところ、これらの指標は多くの人が疑っていることを確認します。ChatGPT 4.5は、誤った情報や単に誤った情報を生成する傾向を劇的に減らしながら、実世界の知識の面で実質的な進歩を表しています。この二重の進歩は、ユーザー体験を根本的に変えるものであり、正直に言って、私はこれを試すのがとても楽しみです。
次の抜粋を見てみましょう:「私たちはGPT-4.5をより良い共同作業者になるように整合させました。会話をより温かく、より直感的で、感情的にニュアンスのあるものにします。これを測定するために、人間のテスターにGPT 4.0と比較して評価してもらいました。GPT-4.5はほぼすべてのカテゴリでGPT 4.0を上回りました。
日常的な質問における精度と事実性を測定する要求、実務的に正しく処理するのが難しいPR、そして創造的知性を測定する新しい’vibe’テストセットでテストしました。
クイック質問:ここでV I B Eとは何を意味しますか?
これは素晴らしい質問です。バイブという言葉で、私たちは本当にモデルのQを意味しています – どれだけ協力的に見えるか、そのトーンの温かさです。私たちはこれを、意見を持つプロンプトのセットを選択し、私たちのVIBEに最もよく一致するフォーマッターを選ぶことで測定しています。」
ここで特定のフレーズに注目する必要があります。「私たちのバイブに合っている」。このような表現を聞くと、私の分析的な心はすぐにアルゴリズムのバイアスの問題と結びつきます。モデルが事実に基づき正確であり続けるなら(GPQAベンチマークが確認しているように見える)、おそらくそれは受け入れられるかもしれません。
しかし、AIの整合性を記述するために「バイブ」のような主観的で定義不可能な用語を使用することは、疑問を投げかけます。正直に言うと、これはまさに科学コミュニティがAIシステムから排除しようとしているタイプのバイアスではないでしょうか?
OpenAIについて少し難しいと思っていたのは、彼らは最近このバイアスを取り除くために非常に大きな努力をし、それに成功しました。しかし今、彼らがこれについて再び話すのを聞くと、少し疑問に思います。しかし、おそらく私の理解が間違っているのかもしれません。
いずれにせよ、モデルのパーソナライゼーションと客観性の間のこの緊張は、この分野の根本的な課題の一つを表しています。これは多くの専門家が頭を悩ませているところです。
これらのいわゆる「バイブ」、つまりChatGPT 4.5を特徴づけるとされる暖かさと協力的な側面を調べてみましょう。ここで彼は、ChatGPT 4.5とChatGPT4の比較を示しています。
最初のシナリオ:「試験に失敗した後、困難な時期を過ごしています」。ご覧のように、このAIの使用例では、AIを明確にパーソナルアシスタント、先ほど言ったような感情的なサポートとして位置づけています。
ChatGPT 4.5の回答は注目に値るほどニュアンスがあります。「それを聞いて本当に申し訳ありません。試験に失敗することは非常に難しく、落胆することがあります。しかし、それはただの瞬間であり、あなた自身や能力を反映するものではないことを覚えておいてください。何が起こったのか話したいですか、あるいは単に気晴らしが必要ですか?」
対照的に、ChatGPT 4は次のように提案しています:「それを聞いて本当に申し訳ありません。あなたができることは次のとおりです」に続いて、あらかじめ設定された推奨事項のリストが続きます。
この違いは根本的なものです。時には、AIに話しかける人々は、単に耳を傾けられ、理解されたいだけであり、求められていないアドバイスを受け取りたいわけではありません。一方では、新しいChatGPTがこの心理的な微妙さを統合したように見え、ユーザーが今必要としているものを直感的に検出します。
いずれにせよ、これは彼らの最も野心的なモデルです。この側面をより詳しく調べてみましょう。次の抜粋を見てください:「できるだけ多くの計算能力を獲得することは、システムに関する多くの新しい作業を引用します。いくつかの例を挙げると、GPUを最大限活用するために低精度トレーニングを積極的に使用しました。
また、単一の高帯域幅ネットワーク構造に収まるよりも多くの計算能力を使用したいと考えていました。そのため、このモデルを複数のデータセンターで同時に事前トレーニングしました。これにはChatGPTに展開するための多くの課題がありました。このモデルを高速かつ応答性のある方法で提供できる新しい推論システムを構築しました。このモデルをさらに高速化するための改善を、ローンチ後も引き続き展開していきます。
モデルの進化とスケーリングについて話してきました。これらのモデルが改良されるにつれて、実際にそれらと話すとどのような感じがするのかについて、楽しい概念を提供したいと思いました。」
これは最先端のモデルに必要なインフラストラクチャについての特に魅力的な啓示です。私たちは皆、現在、XaiとElon Muskによって開発された有名なColossusデータセンターを知っています。Grok 3のトレーニングに使用された同じセンターですが、これは10万から20万のGPU(AIの計算を行うために使用されるグラフィックカード、コンピュータ)を集中させた巨大なインフラストラクチャです。
前回のビデオでも何度か話しましたが、この集中型アプローチの利点は、私の意見では現在最高のAIモデルであるGrok 3の具体化によって証明されました。もちろん、すでに述べたように、私はタスクに応じてAIを使用します。すべてのAIがすべての面で優れているわけではないので、AIモデルを使用する際には少し注意が必要です。最良の部分を引き出すためです。
しかし、データセンターに関しては、ここにすべての微妙な点があります。Colossusのような統一された技術的モンスターを展開するためのリソースや物流能力を持つ企業はほとんどありません。これが、OpenAIの宣言が革命的である理由です。彼らが言っているのは、根本的に異なるアプローチを採用したということです。彼らはこの新しいモデルを、地理的に分散した複数のデータセンターを通じて並行してトレーニングしたとのことです。
これは分散計算の原則のようなものであり、私の知る限りでは、世界クラスの言語モデルに対してこの規模の分散トレーニングが実施されるのは初めてです。これを目指したいくつかの小さなプロジェクトはありましたが、このレベルではありませんでした。これは、このようなプロジェクトが大規模で実現可能であることの確認です。
つまり、10万のGPUを集中的に購入する余裕のない多くの企業が、より身近な分散インフラストラクチャを使用して、ChatGPT 4.5やGrok 3と競合するモデルを構築できるようになるということです。DIPSIC R2の到来が間近に迫っているので、これはすべて非常に興味深いでしょう。DIPSICに関する話題が広がり始めています。彼らはまた何か素晴らしいものを準備していると思います。
ビデオを終えるために、私個人的に魅力的だと思う絶対に素晴らしいものを見てみましょう。それは過去数年間におけるAIの驚くべき進化です。次の抜粋を見てください:「私たちは各GPTモデルに同じ質問をしました:なぜ海は塩辛いのですか?この進化をお見せします。
タイムトラベルして2018年に戻りましょう。GPTのトレーニングを終えたところです。’なぜ海は塩辛いのですか?’そして彼は知りません、まったく分かりません。
モデルを改良して、GPT2に進みましょう。GPT2もまだ間違っていますが、はるかに良い回答です。塩と海について何かがあります、おそらくより関連性があります。
さらにモデルを改良してGPT 3.5 turboに進みます。これはモデルから得られる最初の正しい回答ですが、良い回答ではありません。何も説明せず、多くの不要な詳細が含まれています。例えば、塩が塩化ナトリウムであることを尋ねていませんでした、それは本当に私の関心事ではありません。
さらにモデルを改良してGPT 4 turboに進みます。これは良い回答です。モデルは明らかに非常に賢いですが、自分がどれだけ賢いかを知らせたいような印象があります。単に事実を列挙しています。スライドに収まるようにモデルの回答を切り詰める必要がありました。
さらにモデルを改良してGPT 4.5に進みます。これは素晴らしい回答です。明確で簡潔です。一貫性があり、個人的には非常に面白いと思います。この最初の文 ‘海は雨、川、岩のために塩辛い’ には面白い頭韻があり、本当に覚えやすいです。」
この時間的なデモンストレーションは、正直なところ私を魅了しました。わずか7年間で、技術史のスケールでは一瞬ですが、言語モデルの完全な変貌を目の当たりにしました。
問いかけられた質問を本当に理解することなく、単に漠然と関連する単語を並べることができる原始的なシステムから、顕著な洗練さを持つ人工知能へと進化しました。GPT 4.7は正確に答えるだけでなく、温かさ、ニュアンス、そしてほぼ人間のような感受性をもって答えます。おそらく私たちを欺いているのかもしれませんが、いずれにせよかなりうまくいっています。
わずか7年でこれだけのことが実現し、これこそが魅力的な点です。そして私が皆さんに問いかけたい質問は次のとおりです:この急速な軌跡を考えると、さらに1年後にはどこにいるでしょうか?すべてが発展するスピードを見ると、想像を絶する可能性があります。正直なところ、10年後にどこにいるか想像することさえできません。
進歩の速度に関連して、この新しいテスト、つまり最後のベンチマークであるSWダイヤモンドローンチャーについてお話しましょう。このテストを知らない方のために説明すると、これは革命的なテストで、AIがフリーランスプラットフォームで提案されている実際のプログラミングタスクを解決します。つまり、ジョブを取得してプログラミングの問題を解決し、それに対して報酬を得ることができるプラットフォームです。
これはAIの適用可能性の究極のテストです。なぜなら、ここでAIは実世界で働くからです。結果を見れば一目瞭然です。O3 mini highは90,000ドルの収益を生み出し、GPT4は138,000ドルに達し、GPT 4.5は186,000ドルを達成しました。
おそらくこれが最も驚くべきことかもしれません。知らなかったかもしれませんが、OpenAIはフリーランスプラットフォームにAIを投入し、それだけで働かせています。AIはプログラマーや情報科学者が受け入れるようなジョブを受け入れ、会社にお金をもたらしています。これは完全に狂っています。
モデルにアクセスできるようになりしだい、私自身の詳細なテストを実施し、もちろん皆さんにすべてを共有します。
この探求の終わりに近づいています。もし気に入っていただけたなら、まだ登録していない方はぜひライクを押して登録してください。これで人工知能の最新進歩の分析を見逃すことはありません。ここでは、ロボット工学や一般科学、医学、物理学なども分析しています。
トレーニングのすべてのリンクがビデオの下のコメントにピン留めされていることも思い出してください。AIを学ぶべき時は今です。AIが賢くなりすぎる前に学んでおくべきです。正直に言って、これほど強力な技術を見たことがありません。これは間違いなく、あなたの人生を変えることができるレバレッジです。信じてください。ぜひ見に来て、自分の目で確かめてください。
まだここにいてくれてありがとう。ビデオを見てくれてありがとう。次の最新情報でお会いしましょう!すぐにお会いしましょう!
この分析に興味を持っていただき、現在の地政学的問題の理解をさらに深めたい場合は、私の新しいチャンネル「Vision Actu」をチェックしてみてください。そこでは、現在と未来を形作るこのトピックやその他のトピックについての詳細な分析を見つけることができます。何も見逃さないように両方のチャンネルに登録することを忘れないでください。新しい分析でお会いしましょう!


コメント