
4,101 文字

ChatGPTがつい先ほど、新しいモデルを2つリリースしたんですわ。この動画でお見せしたいと思います。
1つ目は「o1 プレビュー」言うて、今までで最も高度な推論モデルなんです。
2つ目は「o1 ミニ」言うて、高速推論用のモデルです。
この2つのモデルのユニークな点は、もっと複雑な質問に答えられるように設計されてるっちゅうことです。
ちょっとプレビューをお見せして、実際の動作もお見せしますわ。
これ、私がこの動画を録画し始めた30分ほど前に公開されたばっかりなんです。
他のChatGPTモデルと比べて、このモデルのユニークな点は、応答する前にもっと時間をかけて考えるように設計されてるっちゅうことです。
複雑なタスクを推論して、より難しい問題を解決できるんですわ。
特にコーディングと数学が得意で、ChatGPTで数学の問題を解いたことがある人やったら分かると思いますが、今までは全然ダメやったんです。
でも、今日からこれができるようになりました。
これはChatGPT PlusユーザーとTeamsユーザーが使えて、APIでもティア5の開発者が使えるようになってます。
ほんで、Xに面白い投稿がありましてな。
OpenAIが答える前に考えて、ユーザーに応答する前に長い内部的な思考の連鎖を生成できるっちゅうんです。
思考の連鎖っちゅうのは、私がずっと使ってるプロンプト技術なんですけど、モデルに話す前に考えさせようとするもんです。
これは内部的にそれをやって、より複雑な推論ができるようにしてるんです。
もっと詳しくこのモデルの仕組みを説明した記事も出してはるんですけど、ちょっと気になったところをお話ししますわ。
最も難しいジェイルブレイクテストの1つで、今日までで最高の推論モデルやったGPT-4.0が22点やったのに対して、o1プレビューモデルは84点を取ったんです。
22点から84点に跳ね上がったんですわ。
そして、複雑なプログラミングやコーディング、複雑な数学の問題に関するベンチマークを見てみると、大規模言語モデルは一般的に数学が苦手なんですけど、これはめっちゃ良い成績を出してるみたいです。
もちろん、もっと詳しいテストが必要ですけど、今のところこのページに載ってるベンチマークの結果やねんけどな。
数学に関しても、GPT-4.0が特定の試験で13.3%しか解けへんかったのに対して、この推論モデルは83%解けたんです。
これもまた大きな飛躍ですわ。
コーディング評価でもコンペティションで89パーセンタイルを記録しました。
もっと詳しく読みたい人はここを見てもらえたらええんですけど、私はこれを実際に動かしてみて、次の動画で他のモデルと比較してもっと深掘りしたテストをしたいと思います。
ほんじゃ、ChatGPTに入ってみましょか。
モデルのドロップダウンをクリックすると、Plusプランか、Teamsプランを持ってる人は2つの新しいモデルが見えるはずです。
APIで自分のアプリを作ってる人も、今すぐこの2つにアクセスできるはずやね。
古いモデルは別のタブに移動してはりますわ。
o1プレビューを使いたいんです。これが最も高度な推論モデルになります。
もう一つは高速モデルで、今回は必要ありません。今は一番ええやつを使いたいんです。
ほんじゃ、あの有名な質問から始めましょか。
「Strawberry」の中に「r」は何個ありますか?
大規模言語モデルのテストでよく見かける問題ですけど、多くのモデルが間違えるんです。
これがどうなるか見てみましょ。
ほな、考えてる、って出てきて、数秒かかりました。
「3つの「r」があります」っちゅう答えが返ってきました。
次は、SATの最も難しい数学の問題の1つを出してみます。
SATの中で最も難しい問題トップ15にランクインしてる問題です。
ちょっと止めて見たい人は見てくださいね。
この問題には選択肢があって、私は既に答えを知ってます。
どうなるか見てみましょう。
送信してみます…ほな、展開すると、バックグラウンドでどんな思考の連鎖をしてるか見えますね。
方程式を分解して、簡略化して、仮定を見直して…おお、これはめっちゃええ思考の連鎖のプロンプト技術をバックグラウンドでやってますわ。
式を並べ替えて、分離して…まだ続いてます。
普通はこういうのは折りたたまれてて見えへんのですけど、どう考えてるか見たかったら、こんな感じです。
はい、84秒かかって答えが出ました。
また、バックグラウンドでの推論も全部見れますし、答えは0やと言うてます。
私がこのウェブサイトから問題を持ってきたんですけど、実際の答えはBの-3なんです。
正解じゃありませんでした。
もう一回やってみましょう。今度はSATみたいに、実際に選択肢も与えてみます。
答えが0じゃないのは分かるはずですからね。今度は正解するか見てみましょう。
めっちゃ時間かかりましたけど、本当に限界まで追い込んでるんです。
文字通りSATで最も難しい問題を選んで、どこまでできるか試してるんです。
今回は74秒くらいかかりました。
ちなみに、プロンプトが上手くなりたい人は、ここの下を見てみるといいですよ。
質問をどう分解してるか、この思考の連鎖のプロンプトをどう作ってるか、ステップバイステップで進めてるかが分かります。
そして、答えを出す前に自分の応答を分析してるんです。
人間みたいに考えようとしてるんですわ。
ただ答えを出すんじゃなくて、その答えを推論しようとしてる。
まだ普通のLLMみたいに動いてますけど、バックグラウンドでめっちゃ面白いプロンプト技術を使ってるんです。
ここでめっちゃ長い答えが出てきました。
6つのステップを経て、答えは-3やと。これは正確です。
この問題で3回テストしましたけど、選択肢を与えたら正解してるみたいです。
オープンエンドにしたら、100秒でも120秒でも答えを見つけるのに苦労してるみたいでした。
でも、こういう答えは今までどんな大規模言語モデルからも出てこなかったんです。
ほんじゃ、こんな面白い質問もやってみましょか。
「先に来たのは鶏と卵のどっち?」
どう分析するか見てみましょう。
4秒かかって、「進化の観点から言えば、卵が先です。鶏が進化する遥か前から、卵を産む動物は存在していました」って答えが返ってきました。
「したがって、最初の鶏が孵化した卵は、鶏自体より先に存在していたのです」
思考プロセスを見てみましょう。
「鶏と卵のジレンマの起源を分析し、生物学的進化を調べています」
「情報をまとめています」
これめっちゃ面白いですね。ChatGPTが普通どのモデルでもバックグラウンドでやってることが見えるんです。
普通は見えへんのに、これは裏側でどんな技術が動いてるか見せてくれてるんです。
今度は、チェッカーゲームのPythonコードを書いてもらいましょう。
これは大規模言語モデルからある程度は出てくるんですけど、完全じゃないんです。
ここでどうなるか見てみましょう。
25秒くらいかかって、プロセスを説明してくれて、ここにコードが出てきました。
テキストドキュメントにコピーして、Macで実行してみます。
これが最初のバッチのコードで、このゲームを動かしてます。
どうなるか見てみましょう。
うまく動いてます。めっちゃうまく動いてる。
ちょっと早送りして、全部問題ないか確認してみます。
わお、完璧に動いてます。
今まで一発目で完璧に動くチェッカーゲームなんて出来たことありませんわ。
じゃあ、チェスもやってみましょう。
初めてですけど、この小さな画像をどこで手に入れられるかまで教えてくれました。
このウェブサイトに行って、全部の画像を保存して、デスクトップにフォルダを作りました。
その手順も教えてくれたんです。
ほんで、これがゲームです。ゲームのロジックが動くか見てみましょう。
どの方向に動けるか教えてくれてます。これは正しいです。
黒の番、白の番、これも正しいです。
この駒を取れるか見てみましょう。
はい、駒を取れました。
ナイトが動くか見てみましょう。
おっと、ナイトは動きません。これは正しく動いてませんね。
これも正しく動いてません。
ほな、これらは一度に一つの駒しか動かせへんみたいです。
ゲームのロジックは完全には正しくないですね。
ポーンは正しく動くけど、他の駒は正しく動いてないみたいです。
完璧じゃないですけど、めっちゃ良く見えます。
他の大規模言語モデルを使って、こんなに見た目のいいチェスゲームができたことなんてありません。
でも、まだ一歩足りないですね。
また行ったり来たりして、次の動画で完全に機能するゲームができるか試してみます。
これはほんま、最初に書いてもらったコードだけです。
やり取りは一切せずに、最初の印象でどこまでできるか見たかったんです。
今のところ、これはGPT-4.0の代わりにはなりません。
見てのとおり、めっちゃ遅いです。
これは本当に複雑な推論、プログラミング、数学、答える前に考える必要があるものを対象にしてるんです。
だから、ChatGPTを使う他のことには使わんほうがいいです。
文章を書いたり、内容をまとめたり、分析したりするのには向いてません。
今のところ、そういう機能もありません。
コンテンツをアップロードして分析する機能も、ウェブブラウジングの機能もありません。
このモデルは、他のモデルの下にあって、複雑な推論が必要な特殊なタスク用みたいです。
きっと、2つを組み合わせるか、この機能をもう一つのモデルに与えて、バックグラウンドのプロセスをもうちょっと速くするんやと思います。
見たように、数学の問題の中には答えを出すのに100秒近くかかるものもありましたからね。
また、通常のChatGPTと比較して、もっと深掘りした動画を作って、もっとテストしてみます。
今、ディズニーワールドにいるんで、ライドから降りてホテルに走って、この新しいモデルを公開日に見せるためにこの短い動画を作らなあかんかったんです。
次の動画でまた会いましょう。見てくれてありがとう!


コメント