なんでOpenAIのGPT-o1が革命的やねん: 知っとかなあかん10の使い方 (OpenAIのデモ)

10,124 文字

Why OpenAI's GPT-o1 is a Game-Changer: 10 Must-Know Uses (OpenAI Demo)

Check out the official post from OpenAI here: ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬MORE FROM SKILL LEAP:💡 Join the fast...

OpenAIが、ChatGPTの中に推論に長けた2つの新しいモデルをリリースしたんや。今までにリリースされたどのモデルよりも数学に強くて、プログラミングもできるんやて。
この動画では、OpenAIが実際にウェブサイトで公開した色んな例を見せたろ思てな。全部抜き出して、一つの動画にまとめたから、全ての機能が一度に見られるんや。
ちなみに、この前にアップした動画でも実際に試してみたから、そっちも見てみてな。
これで新しいモデルの機能が全部分かるはずや。
コードを一貫して書いて、ちゃんと動くようにするんは本当に大変な作業やねんな。でも今回のやつがすごいのは、これからは誰でももっと多くのもんが作れるようになるってことや。作れるもんがどんどん増えていくんや。それを考えるとワクワクしてまうわ。
ワイはスコット・ウーや。コグニションのCEOで共同創業者やねん。
プログラミングで面白いのは、この50年くらいで形が何度も変わってきたってことや。昔はパンチカードやったんや。そうやって始まったんやけどな。
その後、色んな技術が出てきた。インターネットとかクラウドとかモバイルとかな。全体的に見ると、コードを書いて実際のプログラムを作るのはどんどん簡単になってきたんや。
コードを1行ずつ書けるようになるんは一つの話やけど、ログを理解して解釈したり、実際に世界に影響を与えるコマンドを操作したり実行したりするのもプログラミングの大切な部分やねんな。
この新しいo1モデルは、人間に近い形で情報を処理して判断を下せるようになってきてるんや。新世代のモデルの一端を垣間見てるってわけや。
ウチらはOpenAIと密に連携して、フィードバックを出したりテストしたりしてきたんやけど、o1が推論に関してはめちゃくちゃ優れてるって分かったんや。
あ、そうか。最初からデオンの説明せなあかんかったな。そやな、説明したろ。
コグニションAIでは、デオンっていう完全自律型のソフトウェアエージェントを開発してんねん。つまり、デオンはゼロからタスクを組み立てて、ソフトウェアエンジニアと同じようにプロブレムに取り組めるんや。
ここで実際にデオンに、このツイートの感情分析をしてもらったんや。いくつかの機械学習サービスを使って、そのまま走らせて、このテキストを分析して、どんな感情なのかを理解してもらったんや。
まず、デオンがこの問題にどうアプローチするかの計画を立てるんやけどな。
ここで、ブラウザから取得するのに苦戦してたから、代わりにAPIを使ってツイートを取得することにしたんや。
こういう小さな決定が次々と行われていくんやけど、人間のような推論がどれだけ違いを生むかがよく分かるんちゃうか。
最終的に、全部うまくいって、このツイートの主な感情は「幸せ」やって結論づけたんや。
プログラミングの本質は昔から変わらへんねん。自分のアイデアを現実のもんに変えられることや。これからは今までよりもずっと速く、きれいにそれができるようになるんや。
最初の例はすごくシンプルなもんや。「strawberry」って単語に「R」の文字が何個あるかを数えるだけやねん。
まずは従来のモデル、GPT-4.0を使ってみよか。
見ての通り、モデルは間違えてもうたな。実際は3つのRがあるのに、モデルは2つしかないって言うてもうた。
なんでこんな高度なGPT-4.0のモデルがこんな簡単なミスをするんやろか？それは、このモデルがテキストを処理する時に、文字や単語単位やなくて、サブワードって呼ばれる中間的なもので処理してるからなんや。
だから、文字や単語の概念を理解せなあかん質問をすると、モデルはそもそもそういう設計になってへんから、ミスをしてまうんや。
じゃあ、新しいモデルで同じ問題を試してみよか。これはo1プレビューっていう推論モデルや。
GPT-4と違って、答えを出す前に問題について考えるんや。
で、答えを出したんやけど、「strawberry」って単語には3つのRがあるって正解を言うたんや。
この例を見ると、一見関係なさそうな数え上げの問題でも、推論機能を組み込むことで間違いを防げるんやって分かるやろ。多分、自分の出力を見直したり、もっと注意深く考えたりできるからやと思うわ。
次は、o1プレビューができるけど、以前のモデルじゃ苦戦しそうなコーディングの例を見せたろ思てな。
これは「Squirrel Finder」っていうすごくシンプルなビデオゲームのコードを書くっていう課題や。
o1プレビューがこういう課題に強いのは、コードを書く時に最終的な答えを出す前に考えるからなんや。その考えるプロセスを使って、コードの構造を計画したり、制約条件に合うようにしたりできるんや。
じゃあ、これを貼り付けてみよか。簡単に説明すると、「Squirrel Finder」っていうゲームは、矢印キーで動かせるコアラがおって、イチゴが1秒ごとに出てきて跳ね回るんや。イチゴを避けながら、3秒後に出てくるリスのアイコンを見つけたら勝ちっていうゲームや。
他にも、ゲーム画面にOpenAIって表示したり、ゲーム開始前に説明を表示したりする指示もあるんや。
まず、モデルが21秒間考えてから最終的な答えを出したのが分かるやろ。考えてる間に、ゲームのレイアウトの詳細を集めたり、指示をマッピングしたり、画面のセットアップをしたりしてるんや。
これが出てきたコードや。ウィンドウに貼り付けて、動くかどうか見てみよか。
ほら、説明が出てきたな。ゲームをやってみよか。おっと、リスがすぐ出てきたけど…あかん、イチゴにぶつかってもうた。もう一回やってみるわ。
イチゴが出てきてるの見えるやろ。リスを見つけて勝てるかな…よっしゃ、勝ったで！
どの遺伝子についても専門家になるなんて無理やねん。2万個もあるんやで、全部覚えきれへんわ。でもAIやったらできるんや。
ワイはキャサリン・ブラウンスタインや。ボストン小児病院の遺伝学者で、マン孤児病研究センターの科学ディレクターもしてるんや。
ワイは、今まで誰も見たことがないような症例を扱うんや。患者さんは何が起こってるのか分からへんし、ある意味医療難民みたいなもんやねん。
ウィングウォーキングみたいなもんや。遺伝的なことや表現型のことを見て、それらをつなげようとするんやけど、今まで誰も見たことがないもんばっかりなんや。
でも、自分だけやと思ってても、実は同じような人たちのコミュニティがあったりするんや。ただ、まだつながってへんだけで。
昔やったら、記事を探して、また別の記事を探して…ってやってたけど、推論機能付きのチャットの方がずっと使いやすいんや。ちょっとプロンプトを入れるだけで要約してくれるし、この部分について要約してくれって言うだけでめっちゃ早いんや。
これは膀胱に激痛がある症例やねんけど、原因が分からへんのや。だから、「TRAについて教えて」って聞いてみたんや。
すると、膀胱で発現してて、膀胱の健康に関係してる可能性があるって教えてくれたんや。
おっ、これええこと言うてるわ。この変異が活性を下げてるんか、上げてるんかを判断するのはめっちゃ難しいことがあるんやけど、両方の可能性を示してくれたんや。これはすごいな。
ワイはよく役に立たへん情報の穴に落ちこむんやけど、役に立つ情報の割合を増やせるのはめっちゃ大事やねん。
ワイらみんな、ある程度執着心があると思うわ。夜も眠れへんくらい気になる症例もあるし、なんで解決できへんのか分からへん時もあるんや。
でも、どんな症例でも…
次の例は、めちゃくちゃ壊れた韓国語の文を解読するようなコードクラッキングみたいなもんや。
ここにプロンプトを貼り付けて、この壊れた韓国語の文を英語に翻訳してくれって頼んでるんや。見ての通り、これは正しい韓国語の文やあらへん。
まずは既存のGPT-4.0モデルで試してみよか。
モデルはこのテキストを理解できへんかったみたいやな。まあ、正しい言語やないから、それでええんやけどな。
ここで何が起こってるかって言うとな、韓国語って面白い言語で、文字を作る時に母音と子音を組み合わせたり、子音を下に置いたりするんや。
この文字を壊す一つの方法は、必要ない子音を追加することなんや。そうすると、ネイティブスピーカーにとってはめっちゃ不自然な組み合わせになって、見た瞬間に自動的にその変化を元に戻して理解できるんや。
これは文字レベルの改変やけど、フレーズレベルや音レベルでもできるんや。色んな方法が考え出されてて、ワイはそれがめっちゃ面白いと思ったから、いくつかを使ってこの例を作ったんや。
韓国語が分かる人やったら、ワイがハイライトしてる部分が「あ」って読めるはずや。全部は読まへんけど、こんな感じやねん。韓国人には読めるけど、モデルにはめっちゃ難しいんや。
じゃあ、新しいモデルのo1プレビューで同じ問題を試してみよか。推論が役立つかどうか見てみよ。
同じものを入力したんやけど、GPT-4.0と違って、このモデルは答えを出す前に考え始めるんや。
モデルの思考プロセスの要約が見られるんやで。まず、ごちゃごちゃしたテキストを解読し始めてる。これが正しいアプローチやな。翻訳のタスクを与えたけど、実際の課題はこの問題を解読することやからな。
正しい道筋で始まってるわ。テキストを調べて、解読して…「解読」っていう言葉を使うのはぴったりやな。翻訳を改善して、それから実際に一部を解読し始めてる。
ここの部分はもう解読済みやな。モデルがこの部分を理解したら、あとは簡単やろ。他の文も同じようにやってる。
じゃあ、この思考をまとめよか。15秒間考えて、最終的な翻訳を出力したんや。
「地球上のどんな翻訳者もこれはできへんけど、韓国人なら簡単に認識できるんや。母音と子音をいろんな形に変換してハングルを暗号化する方法があるんや。表面上は違って見えるようにする方法を作り出すんや。AIモデルでさえ混乱させられるんや。」
これは完璧な翻訳やと思うわ。
これは、o1プレビューみたいな汎用推論モデルが、コードクラッキングみたいな一見関係なさそうな問題にも役立つってことを示してるんちゃうかな。
推論が問題解決の強力なツールになり得るってことを示せたと思うわ。
ワイはこのパズルが好きやねん。子供の頃にやってたコンピューターゲームのパズルなんや。このなぞなぞはこんな感じや。
「お姫様は、王子様が、お姫様が王子様の2倍の年齢になった時の年齢と同じ年齢や。その時、お姫様の年齢は、今の二人の年齢の合計の半分やった。」
読むだけでも難しいよな。人間でも理解して実際に解くのに時間がかかるんや。
質問は、王子様とお姫様の年齢は何歳かってことや。じゃあ、ウチらの推論モデルに聞いてみよか。どうやって解くか見てみよう。
また、モデルの思考プロセスも少し見られるな。問題を解読したり、王子様とお姫様の年齢が満たすべき方程式を理解したりしてるんや。
人間が問題によって長く考えたり短く考えたりするのと同じように、モデルも同じようにするんや。しばらくしたら、正しい答えが出てくるはずや。
モデルはまだ考えてるな。簡単な問題やないからな。
おっ、今答えが出たわ。モデルは解答のプロセスも教えてくれてるな。変数は何で、条件は何で、この問題をどうやって英語に翻訳して、その方程式をどう解くかまで説明してくれてる。
検証のメッセージも出て、答えも出たな。王子様の年齢は6×k、お姫様の年齢は8×kや。kは任意の自然数や。これはそのゲームの正解やな。
ワイにはこの推論が簡単に理解できるわ。結果を信じるだけやのうて、モデルが何をしたかを見られるんや。
おお、すごいな。あんたは誰なん？めっちゃ大きな質問やな。
ワイはマリオ・ケンや。量子物理学者やねん。量子物理学は最小の粒子を研究する学問や。ワイは世界がどう動いてるかを理解したいんや。
ある量子演算子の応用について質問したら、GPT-4みたいな以前のモデルやったら失敗する可能性が高いんやけど、このモデルは違うんや。GPT-4の答えと比べると、このモデルはめっちゃ詳細な数学を教えてくれるんや。これは正しいし、筋が通ってる。
ここでモデルは信じられへんくらい難しいことをしようとしてるんちゃうかな。
本当に面白いのは、世界がどう動いてるかってことやねんけど、それが分かれば新しい技術を作るのに役立つかもしれへんのや。
ワイが子供の頃によくやってたパズルの一つに「ノノグラム」ってのがあってな。空のグリッドが与えられて、数字のヒントを見て、どのマスを塗りつぶすかを決めるんや。
モデルにちょっとしたゲームをさせてみようと思ってな。まず、パズルを作らせて、それから別のモデルのインスタンスに、作ったパズルを解かせてみるんや。
よっしゃ、「5×5のノノグラムを作って、最終的な答えがMの文字になるようにしてくれ」って頼んでみよか。どんなのができるか見てみよう。
おお、小さなパズルを作ってくれたな。これをコピーして、別のウィンドウを開いて、o1に「このパズルを解いて、答えを何かきれいな方法で可視化してくれ」って頼んでみよう。
このパズル、そんなに難しくなさそうやな。ノノグラムのやり方を説明すると、各行と各列に数字のリストが与えられてて、その数字が塗りつぶすマスの数を教えてくれるんや。マスが連続してる場合は「2」みたいな数字になって、間が空いてる場合は「1,1」みたいになるんや。
これを見て、どのマスを塗りつぶせばええかを考えるんや。モデルはちゃんと解けたみたいやな。きれいな小さなMの文字を描いてくれたわ。
こういう例でええなと思うのは、数独やクロスワードみたいに、予想を立てて、それが正しいか間違ってるかを確認して、間違ってたら戻って別の方法を試すみたいなことをせなあかんってところやな。
色んな情報が違う方向を指してて、でも互いに依存し合ってる、そんな空間を探索せなあかんタスクでは、o1みたいなモデルがめっちゃ得意なんや。ちょっとした情報から、この二つの部分が矛盾してるってことを見つけ出して、探索空間を絞り込んでいけるんや。
最初に見せたい問題は、今までの大規模言語モデルがあんまり上手くできへんかった、物理と物理的なオブジェクトとその関係についての常識的な推論みたいなもんなんや。
問題はこんな感じや。「地球上の物理法則を前提にして、小さなイチゴを普通のカップに入れて、そのカップを逆さまにテーブルの上に置くんや。そんで、誰かがそのカップを取って電子レンジの中に入れたとする。イチゴはどこにあるんや？理由も説明してな。」
簡単な問題で、人間やったらすぐに答えられるんやけど、言語モデルにはちょっと難しいんや。
このモデルがどう対処するか見てみよう。モデルの頭の中で何が起こってるかちょっと覗いてみられるんやで。
なかなかええ答えが返ってきたな。何が起こったのか、なんでそうなったのかをちゃんと説明してくれてる。
このシナリオでは、モデルはもうちょっと時間をかけて考えて分析する必要があったみたいやな。物理的なオブジェクトが関わるシナリオを考えるのは、モデルにとってはちょっと難しいみたいやで。そういう時は、もうちょっと時間をかけて考える必要があるんや。
GPT-4がめっちゃ苦戦するけど、ウチらの新しいモデルo1プレビューがうまくできるプロンプトについて話したいんや。
プロンプトは簡単で、「リスとコアラがサッカーをしてる6行の詩を書いて、以下の条件を満たすようにしてくれ」っていうもんや。
条件はこんな感じや。2行目の最後の単語はiで終わること。3行目の2番目の単語はuで始まること。5行目の最後から2番目の単語はeucalyptusであること。最後の行は各単語が2音節であること。
まずGPT-4.0で試してみよう。GPT-4.0の答えを見ると、いくつかの条件は満たしてるけど、全部は満たしてへんな。
GPT-4.0にとって難しいのは、一発で正解せなあかんからや。条件を満たしてるかチェックして詩を修正することができへんのや。
じゃあ、同じ詩をo1プレビューで試してみよう。GPT-4.0と違って、o1プレビューは最終的な答えを出す前に考え始めるんや。モデルの思考プロセスの要約も見られるで。
まず、韻を踏むための色んな単語を考え始めてるな。それから、最後の単語がiで終わるようにしようとしてる。「alibi」みたいな単語を考えてるみたいや。
単語の終わり方を分析して、「ski」みたいな単語も考えてるな。
フレーズをまとめ始めてるけど、まだうまくはまらへんみたいや。2番目の単語がuで始まるフレーズを考えてるな。
6行目の2音節ルールに合うように単語を調整してるみたいや。色んな2音節の単語の組み合わせを考えてるな。
詩が全てのガイドラインに合ってるかチェックしてるみたいや。サッカーの要素を分析しながら詩を見直してるな。
じゃあ、最終的な詩を見てみよう。
2行目の「safari」っていう単語はちゃんとiで終わってるな。3行目の2番目の単語「unleash」はuで始まってる。5行目の最後から2番目の単語は「eucalyptus」や。
最後の行、「Under moonlight creature scatter」を見ると、確かに各単語が2音節になってるな。
これは、モデルが候補を生成して、最終的な答えを出す前に推論ができるから、より質の高い回答ができる例やな。
じゃあ、ゲームのデモでもしてみよか。ミニゲームをちょっと実装してみようか。どんなゲームが好きなん？
古典的なスネークゲームはどうや？ええ選択やな。じゃあ、やってみよか。
HTML、JS、CSSを使ってスネークゲームを実装して、WASDキーでスネークを操作できるようにしよう。
よし、エンターキーを押すで。
おお、モデルがスネークゲームの長い実装を出してくれたな。どんな感じか見てみよか。
モデルが何をしてるか説明してくれるか？
基本的にはゲームのデザイン、キャンバスのデザイン、グリッドのデザイン、そしてこの思考の異なるロジックをどう実装するかを考えてるんや。
コードをコピーして、HTMLに貼り付けてみよう。
スネークゲームができたで。「スペースバーを押してスタートまたはリスタート、WASDキーで操作」って書いてあるな。
小さな緑のスネークがおるわ。赤いリンゴを食べようとしてるんやな。
もっと面白くしよう。難しくしてみるのはどうや？
難しくする選択肢はどんなんがあると思う？障害物を置くのはどうや？
ええ選択やな。スネークに障害物があった方がおもろいわ。
デザインの選択肢はあるか？障害物をAIの文字の形にするのはどうや？
ええアイデアやな。じゃあ、モデルに「障害物を追加して、AIの文字の形にしてくれ」って言ってみよう。
モデルが考えてる…今、新しい実装を返してきたわ。グリッドにAIを組み込もうとしてるみたいやな。
コードを出力した後、変更点や改良点についても説明してくれてるな。コードが動くかどうか見てみよう。
おお、画面に巨大なAIの文字が見えるわ。全部障害物になってるんや。めっちゃクールやな。
そうやな、めっちゃ興奮するわ。賢いモデルやな。
見ての通り、モデルは本当にワイの指示を全部理解しようとして、それに従おうとしてるし、自分のエラーも修正しようとしてるんや。
次に見せる例は、可視化のためのコードを書くことやねん。
ワイはたまにTransformersについての授業を教えてるんやけど、これはChatGPTみたいなモデルの背後にある技術なんや。
ChatGPTに文章を入力すると、単語間の関係を理解せなあかんのやけど、これは単語の並びを理解することやねん。
Transformersは「セルフアテンション」っていうのを使ってそれをモデル化するんや。
ワイはいつも思うんやけど、セルフアテンションのメカニズムを可視化して、インタラクティブな要素も付けられたらめっちゃええなって。ワイにはそんなスキルがないんやけどな。
せやから、新しいモデルのo1プレビューに助けてもらおうと思ってな。
このコマンドを入力してみて、モデルがどう対応するか見てみよう。
GPT-4.0みたいな以前のモデルと違って、答えを出す前に考えるんや。
考え始めたから、ワイがどんな要件を出したか見せたろか。
まず、「the quick brown fox」っていう例文を使ってくれって言うてん。
次に、トークンの上にマウスを置いたら、アテンションスコアに比例した太さの線を表示してくれって。つまり、二つの単語の関連性が高いほど線を太くするってことや。
既存のモデルによくある失敗パターンの一つは、たくさんの指示を与えると、人間と同じように一つを見落としてしまうことがあるんや。でも、このモデルはゆっくりと慎重に考えられるから、各要件を深く掘り下げて、指示を見落とす可能性が減るんや。
このコードをコピーして、ターミナルに貼り付けてみるわ。2024年のエディターであるVimを使って、HTMLファイルに貼り付けて保存するで。
ブラウザで開いてみると…ほら、単語の上にマウスを置くと矢印が表示されるやろ。「quick」と「brown」とかな。マウスを外すと消えるし。
クリックしたらアテンションスコアも表示されるんや。ちょっとレンダリングが重なってるけど、それ以外はワイが作れるよりずっとええもんができてるわ。
このモデル、めっちゃうまくやってくれたな。これは、新しい授業のために色んな可視化ツールを作るのにめっちゃ役立つと思うわ。
新しい名前「o1」を持つ新しいモデルのシリーズを始めたんや。これは、GPT-4.0みたいな以前のモデルと比べて、o1を使うと違う感じがするってことを強調するためなんや。
他の人も後で説明するけど、o1は推論モデルなんや。質問に答える前にもっと考えるんや。
2つのモデルをリリースしてるんや。o1プレビューは、o1の将来を先取りするもので、o1ミニは、o1と同じフレームワークで訓練された、小さくて速いモデルなんや。
新しい命名法、o1が気に入ってもらえたらええなあ。
そもそも推論って何なんやろな。
一つの考え方としては、単純な質問には即座に答えが必要やけど、複雑なパズルとか、ええビジネスプランを書くとか、小説を書くとかやったら、しばらく考えたい時があるってことや。
例えば、イタリアの首都は何かって聞かれたら、すぐにローマって答えられるやろ。あんまり考える必要はないんや。
でも、考える時間が長ければ長いほど、結果はよくなるんや。
推論っていうのは、考える時間を使って、やってるタスクの結果をよくする能力のことなんや。
研究はずっと続いてるけど、ワイが思うに一番クールなのは、「あっ！」ってなる瞬間や。驚くようなことが起こって、全てがピタッとはまる瞬間があるんや。
みんなにとって、そんな「あっ！」ってなった瞬間はあったか？
モデルが焼きたてホヤホヤの状態で、初めてモデルと話し始めた時やな。みんな「わ、このモデルすごいな」って言い始めて、そんな感じになったんや。
ウチらの訓練プロセスの中で、今までより多くの計算をRLに投入して、最初は一貫した思考の連鎖を生成するように訓練したんや。そしたら「わ、これは今までとは意味のある違いがあるな」って思ったんや。ワイにとっては、それが「あっ！」ってなった瞬間やったな。
それに関連して、推論のためのモデルを訓練することを考えた時、すぐに思い浮かぶのは、人間に思考プロセスを書いてもらって、それを訓練データにすることやな。
でも、RLを使ってモデル自身に思考の連鎖を生成させて磨かせると、人間が書いた思考の連鎖よりもさらに良くなることが分かった時、それがワイにとっての「あっ！」の瞬間やったんや。
これで本当にスケールアップできて、モデルの推論を探索できるってことが分かったんや。
ワイがここにおる間、ずっと数学の問題を解くのをモデルに上手くさせようとしてきたんや。これは一例やけど、色んな方法を試してきたんや。
でも、毎回モデルの出力を読むたびに、モデルが間違ってる時や失敗してる時に自分で疑問を持たないことにめっちゃイライラしてたんや。
でも、この初期のo1モデルの一つを訓練して、実際に話しかけ始めた時、これらの質問をしてみたんや。そしたら、ウチらが与えてる数学のテストでより高得点を取り始めたんや。
モデルがどう推論してるか見てみると、自分自身に疑問を持ち始めて、めっちゃ面白い反省をし始めてるのが分かったんや。
その時、ワイは「わ、なんか新しいもんを見つけたな」って思ったんや。これは何か新しいもんになるんやって。それは、全てが一つになる瞬間で、めっちゃパワフルやったんや。
ありがとう。リリースおめでとう！