OpenAI o1 – 最大のブラックボックス。これを開けてみよう。

11,107 文字

OpenAI o1 - the biggest black box of all. Let’s break it open.

A Machine Learning Engineer provides the most detailed and technical explanation of o1 out there. We go through o1’s rei...

モデルの心を読み取って、思考プロセスを理解するんや。人間のAI研究者はブラックボックスを理解できへんけど、ブラックボックスはブラックボックスを理解できるんやな。ようやく進歩してきたわ。
みなさん、こんにちは。新しいo1モデルが登場しましたな。もう見たかもしれんけど、o1モデルはGPT-4モデルからのパラダイムシフトやねんて。ほんで、OpenAIはどないしてこれを実現したんやろか？
まあ、OpenAIらしく、ほとんど何も共有せん研究論文を発表してきよったわ。控えめやし、慎重やし。この数日間、わたしはOpenAIからのパン粉を拾い集めて、LLM企業全体の複数の研究論文を読み、OpenAIの研究者や他の業界リーダーのツイートを解読し、QARを調べ、AI業界の友人たちとクロスチェックしてきたんや。
そして、わたしがまとめたんが、今んとこ一番詳細で技術的な説明やねん。今日は3つのトピックについて話すで。まず、o1とGPT-4モデルの違い、次に推論を可能にする強化学習アルゴリズム、そして最後にoanのトレーニング方法と、推論のための長時間計算がもたらすゲームチェンジングな影響についてや。
わたしの名前はタムや。機械学習エンジニアで、Apple Vision Proやロボットアームなどのプロジェクトに携わってきた。特にコンピュータビジョンモデルに焦点を当ててきたんや。だから今日は、この分析を同じくらい厳密に扱いながら、理解しやすいように説明していくつもりや。まあ、人間の思考の変化って、こういうことのためにあるんちゃうか。せやから、始めていこか。
まず、GPT-4モデルとo1モデルの違いから始めよか。どっちも3つの段階があるんや。事前トレーニング、事後トレーニング、そして推論やな。でも、o1の事後トレーニングが少し長くて、それに応じて推論も少し長いことに気づくやろ。
これは、GPT-4の事後トレーニングには3つの要素があるからや。ファインチューニング、指示チューニング、そして人間のフィードバックかAIのフィードバックによる強化学習やな。一方、o1の事後トレーニングには、それら3つと同じものがあるけど、噂のQAR方式で思考の木を処理するための追加の強化学習ステップがあるんや。
強化学習がo1のトレーニングの大きな側面やから、今日はこの2つの強化学習方法についても詳しく説明するつもりや。でも、まず各ステップの目的を簡単に復習しとこか。
事前トレーニングでは、言語モデルにデータの全コーパスを与えるんや。これには、ウェブからスクレイピングしたもの、出版された本、ニュース記事、ビジネスレポートなど、ありとあらゆるものが含まれるで。モデルはデータ内のパターンを把握して、言語の理解を形成するんや。
そして、言語に固有のものとして、モデルはある程度の推論能力も獲得するんや。これは、モデルが明示的に推論を行うようにトレーニングされたわけやないけど、言語に熟達するためには、ある程度の意味を持たせる必要があるからやな。
加えて、モデルは事実を記憶したり、自身に圧縮したりするんや。これによって、GPT-4は一般的な知識を獲得したんや。もっと特定の知識が欲しい場合は、それがファインチューニングのステップの目的やな。特定の分野のデータや独自のデータを与えるんや。
ここまでのデータと知識は素晴らしいけど、モデルが指示を受け取れるようになるまでは、あんまり役に立たへんのや。そこで指示チューニングが必要になるんや。これで、「この本を要約して」って言うたら、実際に要約を提供してくれるようになるんや。他の任意の言語的なことをするんやなくてな。これによって、言語モデルがアシスタントになれるんや。
でも、ただのアシスタントやなくて、良くて安全な応答を提供してくれるアシスタントが欲しいよな。ここで人間のフィードバックが重要になるんや。適切で適切な応答がどんなものかをモデルに指導できるんや。こうして、モデルを人間に合わせることができるんや。
だから、GPT-4に「爆弾の作り方」とか「人を傷つける方法」を聞いても、答えてくれへんようになるんや。これによって、GPT-4があの丁寧で人間らしい応答をするようになったんや。
これでGPT-4のトレーニングは終わりや。これらの特性は全てGPT-4に存在して、o1にも存在するんや。でも、もちろん、o1には特別な秘密のイチゴソースがあるんや。これによって、o1は複数の可能な出力を生成し、それらの出力を推論して、最良の出力を提供できるんやな。これがo1に推論能力を与えるんや。今日はこれについてももっと詳しく説明するで。
推論に移ると、GPT-4よりも長くなってるのに気づくやろ。これがなんでなのか、ビジュアル図を使って理解しようか。
これは最近の研究論文からのもので、LLMが問題を解決して応答する4つの可能な方法を示してるんや。まず、一番馴染みのある方法は、単純な入力から出力へのプロンプティングや。応答は速くて、その間にあんまり追加の思考処理が起こらへんのや。
次に、思考の連鎖があるんや。モデルが答えをステップバイステップで分解して、最終的な答えに到達するんや。これら2つのアプローチは、現在のGPT-4が capable of なんやけど、注意してほしいのは、GPT-4にステップバイステップで分解するよう頼んでも、ここでの思考の連鎖が考慮されてたり、ここで与えられた答えと関係してたりするわけやないってことや。
つまり、これら2つのストリームは、単に2つの異なる長い文章のストリームで、もちろん一貫性はあるけど、全く異なる答えになる可能性があるんや。言い換えれば、ここの2つのストリームは、単に2つの異なるストリームやねん。
次の方法は、思考の連鎖を取って、サイコロを3回振って、どの数字が一番多く出るかを見るようなもんや。これはモデルが正解を出す確率を上げるかもしれんけど、決して洗練されたアプローチとは言えへんな。
だから今、もっと洗練されたアプローチを目指して、思考の流れがより複雑になってるんや。思考が異なる思考の連鎖や異なるレベルを横断してつながることができるんや。この思考の木が、o1が作成して推論できるもんなんや。これによって、最も正しい最終的な答えを提供できるんや。
これらのアプローチの中には、より速くて本能的なものもあれば、より遅いけどより徹底的なものもあるんや。これらはシステム1思考とシステム2思考とも呼ばれてるんや。
これらの概念は、実はこの本「Thinking, Fast and Slow」から来てるんや。ちょうど手元にあるけど…まあ、全部読んだかどうかは聞かんといてな。
全体的に、GPT-4モデルはシステム1思考をしてるって言えるんや。速くて本能的に、ほとんど努力せずに考えるから、GPT-4が幻覚を生み出しやすいんやな。
一方、o1モデルはシステム2思考をしてるんや。確かにゆっくり考えてるけど、それは思考により多くの努力を払ってるからなんや。より論理的で合理的になろうとしてるんや。だから推論能力があって、より複雑な決定ができるんや。結果的に、より正確になることが多いんやな。
これが、GPT-4とo1で推論がどう違うかを反映してるんや。全体的に、GPT-4は正確さよりも一貫性を優先するんや。だから幻覚に苦しむけど、一方でマルチモーダルモデルやから、テキスト、音声、画像を扱えるんやな。GPT-4と4.0の違いについて話した別の動画があるから、興味あればそっちも見てな。
o1については、推論と正確さを優先してるんや。でも、必ずしも正しいわけやないで。それはレベル5の話で、まだレベル2やからな。今のところ、o1はテキストだけを推論できる単一モダリティやけど、AIの研究記事では、公式のoモデルでビジョン機能のヒントがあったんや。o1が画像をどう推論するのか、めっちゃ気になるわ。
これで、GPT-4とo1がどうデザインされてるか、類似点と相違点を含めて説明したで。次は、この2つの強化学習ステップについて詳しく説明するで。
まず、強化学習の基礎を説明するわ。他の学習アルゴリズム、例えば教師あり学習や教師なし学習と同じように、入力と望ましい出力があるんや。でも、その間にディープニューラルネットワークがあるんやなくて、このフレームワークがあるんや。
環境の中にエージェントがいて、そのエージェントには選択できる一連のアクションと行動があるんや。これらが環境の状態に影響を与えて、それに応じてエージェントに報酬やペナルティが与えられるんや。正しいことをしたか、間違ったことをしたかを知るためにな。
もちろん、環境の新しい状態もエージェントに渡されて、次の反復に影響を与えるんや。そして、ポリシーモデルと報酬モデルがあって、どんなアクションが可能で、どんな報酬が得られるかを示すんや。
これらはモデルやから、どんな数学的関数なのか、ニューラルネットワークならどうトレーニングされたのかといった疑問が出てくるわ。
このフレームワークには、強化学習アルゴリズムや技術も必要やな。エージェントがどう環境を探索するか、報酬からどう学習するか、長期的な成功を最大化するためにどう決定を下すかを定義するんや。
よくある例やけど、チェスをプレイする方法を学習するコンピュータープログラムをエージェントとして考えてみよか。環境はチェス盤とチェスのルールになるわ。ポリシーモデルは、どんな動きが可能かを示すんや。ポーンは前に1歩進めるとか、ナイトはL字に動けるとかな。
学習エージェントがどんな動きをするかによって、相手の駒を取ったか、自分の駒を取られたかに基づいて、ポジティブな報酬かネガティブな報酬を受け取るんや。それが起こったら、学習エージェントは新しいチェス盤の状態を見て、次の反復と次の学習サイクルに影響を与えるんや。
理想的には、この強化学習によるトレーニングの後、チェスの試合に勝つためにどんな動きをすればいいかを知ってるエージェントができあがるんや。
さて、強化学習の基礎が分かったところで、人間のフィードバックやAIのフィードバックによる強化学習を見てみよか。似たようなレイアウトやけど、GPT-4モデルとo1モデルの文脈では、入力はプロンプトになって、望ましい出力は一貫性があって安全な応答になるんや。ポリシーモデルはニューラルネットワークになるわ。
じゃあ、どうトレーニングするんやろ？データセットを作る必要があるんや。入力プロンプトと望ましい出力応答があるデータセットやな。これらは人間が提供して、良くて一貫性があって安全な応答がどんなものかをモデル化するんや。
このデータセットを使って、GPT-4やo1を教師あり学習でファインチューニングするんや。
でも、モデルが与えた応答（つまりその行動）に基づいて、どんな報酬を割り当てるかをどう知るんやろ？ここでも報酬モデルはニューラルネットワークで、トレーニングする必要があるんや。
そのためには、1つのプロンプトに対して複数の可能な出力がある新しいデータセットを作るんや。これらの出力応答を人間が最良から最悪までランク付けするんや。このランキングシステムが、報酬モデルに数値的な報酬をどう割り当てるかを教えるんやな。
最後に、これらの要素全体をナビゲートするには、強化学習アルゴリズムが必要や。OpenAIは近接方策最適化（PPO）を選んだんや。この動画はもう長くなりそうやから、ここでは説明せんけど、OpenAIはこれについての研究を公開してるで。
これが人間のフィードバックによる強化学習や。モデルに入力プロンプトに対して一貫性があって安全な応答を作る方法を教えるんや。人間のフィードバックは、ポリシーモデルと報酬モデルのトレーニングに関わってたんや。
AIフィードバックとも呼ばれるようになったのは、今では高度なLLMで人間の作業の一部をAIの作業に置き換えられるようになったからやな。
次の強化学習アルゴリズム、超秘密のイチゴソースや。ここでモデルは推論を学習するんや。ちょっと複雑さが増すで。もう気づいてるかもしれんけど、ここに2つの報酬モデルがあるやろ。
入力はプロンプトか問題で、望ましい出力は思考の木から最も正しいか最も合理的な思考の連鎖やな。かなり口頭で言うのは難しいけど、ここの全てのコンポーネントに分散してるのが分かるやろ。
ポリシーモデルも報酬モデルもニューラルネットワークで、トレーニングする必要があるんや。ポリシーモデルのトレーニングは基本的に、GPT-4をファインチューニングして解決策の次のステップを出力するようにするんや。
具体的には、数学のデータセットから入力問題を与えて、ステップ1、2、3の解決策があるとするやろ。GPT-4に現在の解決策のステップ4を出力するように頼むんや。
そのステップ4が最終答えやったら、結果報酬モデルが報酬を決定するんや。ステップ4が最終答えやなかったら、プロセス報酬モデルが報酬を決定するんや。
ここの報酬モデルもニューラルネットワークで、それぞれ独自のトレーニング方法があるんや。プロセス報酬モデルはプロセス教師ありで、結果報酬モデルは結果教師ありでトレーニングされるんや。
結果報酬モデルのトレーニングは比較的簡単や。数学の問題の最終答えは正解か不正解かはっきりしてるからな。ここでは新しいデータセットや人間からの追加のラベル付け作業は必要ないんや。
一方、プロセス報酬モデルはそう簡単やないんや。解決策のステップにはいろんな表現方法があるからな。ここで人間のアノテーションが必要になって、解決策のステップが肯定的か、否定的か、中立かをラベル付けせなあかんのや。
こんな抽象的で密度の高いものに人間がラベル付けするのは、明らかにめちゃくちゃ高コストやろ。だから、ラベル付けと学習プロセスを2つのフェーズに分けるんや。フェーズ2では、ラベル付けの手間をさらに減らすためにアクティブラーニングも含めるんや。
これはプロセス報酬モデルのトレーニング方法の概要やけど、この強化学習アルゴリズムの重要な部分やから、次のスライドでも詳しく説明するで。
でも、その前にこのフレームワーク全体を動かす強化学習アルゴリズムについて話さなあかんな。ここで、噂のQARアルゴリズムが登場するんや。
QARについてはまだ公式の発表はないけど、Q学習、AAR、パス探索、モンテカルロ木探索を組み合わせたものやと考えられてるんや。これによって、学習アルゴリズムが先読み、バックトラッキング、自己評価を行いながら、思考の木をナビゲートできるんやな。
これで、o1の推論能力を動かす強化学習アルゴリズムの概要が分かったやろ。アルゴリズムがどうデザインされて、主要なコンポーネントがどんなもので、どうトレーニングされたかが分かったんや。
もちろん、これらのコンポーネントをさらに細かく分解したら、もっと複雑になるで。次はそれをやっていくで。
ここまでついてきてくれたみんな、すごいで。推論能力のあるLLMを作るのが簡単やないことは分かったやろ。でも続けていくで。
じゃあ、o1がどうトレーニングされたか、特にジェネレーター（ポリシーモデルになるやつ）と、プロセス報酬モデルをトレーニングするフェーズ1とフェーズ2について話そか。
ここで紹介する情報は、OpenAIとIlia Suerが去年発表した研究論文からのもんや。
概要としては、この3つの段階があるんや。もう少し詳しく見ていこか。
まずジェネレーターやけど、数学のデータセットから入力問題を取って、それに対して複数の解決策を提供するための指示セットを用意するんや。各解決策はステップバイステップの形式になってるで。
この指示と入力問題をGPT-4に与えると、GPT-4がステップバイステップの形式で複数の解決策を出力するんや。これらの中には正しい最終答えのものと、間違った最終答えのものがあるわ。
正しい最終答えを持つ解決策だけを使って、データセットを構築するんや。つまり、このデータセットには入力サンプルと目標値が含まれることになる。入力は数学の問題で、目標は正しい最終答えを持つ複数のステップバイステップ形式の解決策やな。
このデータセットを使って、GPT-4を1エポックだけファインチューニングするんや。これによって、GPT-4スターができる。これは勝手に名付けたもんやけど、ステップバイステップ形式で解決策を生成できる特殊なバージョンのGPT-4ってことや。
これがジェネレーターのトレーニング方法で、つまりポリシーモデルのトレーニング方法やな。
次に、プロセス報酬モデルをトレーニングするフェーズ1に移るで。ここでは、ジェネレーターがすでにステップバイステップ形式で複数の解決策を出力するようになってるんや。追加の指示は必要ない。そのようにトレーニングされてるからな。
これらの解決策は、正しい最終答えを持つ可能性が高くなってるんや。各解決策とその中の各ステップ、そしてステップ内の各完了に対して、人間が正解、中立、不正解のラベルを割り当てるんや。
ちょっと複雑やったな。この視覚的な図を見てみよか。問題には複数の解決策があって、各解決策には最後のステップが最終答えになるまで複数のステップがあるんや。
各ステップには、そのステップを表現するための複数の可能な選択肢があって、これを完了と呼んでるんや。各ステップから、太字の線で示された1つの完了を選ぶんや。これが次に利用可能な完了に影響を与えるんやな。
また1つ選択して、それが次のセットの完了に影響を与える…こんな感じやな。完了っていうのは基本的に選択肢のことやけど、面白いことに、OpenAI APIでも完了って用語が使われてるんや。
これが問題とその解決策の木を考えるときに、解決策、ステップ、完了って言葉を使う理由やな。このデータセット構造は、OpenAIが公開したPRM-800kっていうデータセットで定義されてるんや。
フェーズ1のアノテーションに使われたこのデータセットには、全てのステップと全ての完了にアノテーションがあるんや。これを密なラベルって呼んでるんやな。
人間のラベル付け者は、完了が正しいステップなら肯定的、間違ったステップなら否定的、正しくも間違ってもなく問題の解決に役立たへんなら中立ってラベルを付けるんや。
フローチャートに戻ると、人間がこれらの解決策とそのステップにラベルを付けた後、それらのラベルを使って新しいデータセットを作るんや。
ここでの入力は、数学の問題とそれに対応する解決策、解決策の全てのステップ、そして各ステップの完了に対する肯定的、中立、否定的のラベルになるんや。だから密なラベル付けって呼んでるんやな。これがフェーズ1のラベルになるわけや。
このデータセットを使って最初の報酬モデルをトレーニングできる。これでフェーズ1のプロセス報酬モデルができるんや。
このプロセスボデルとポリシーモデルを強化学習フレームワークに組み込んで、強化学習トレーニングを行うと、赤ちゃんo1ができるんや。これが最初のバージョンのo1やな。
密なラベル付けと強化学習のおかげで、この赤ちゃんo1はすでにある程度の推論能力を持ってるんや。でも、もっと推論能力を高めたいし、アノテーションの量も減らしたいんや。時間もかかるし高コストやからな。
そこで、フェーズ2に進むんや。
フェーズ2では、同じように始まるんやけど、数学のデータセットから入力問題を取って、今度は新しい赤ちゃんo1に与えるんや。
出力される解決策は、また複数のステップバイステップ形式やけど、今回は赤ちゃんo1から出てきたから、ある程度の推論を経て作られてるんや。だから、ステップはより正しい可能性が高くなってるんやな。
これらの解決策をアクティブラーニング選択戦略に投入するんや。ここで、現在のプロセス報酬モデルを最も騙す可能性が高い解決策をフィルタリングするんや。
騙すっていうのは、間違った最終答えを持ってるけど、中間のステップが最も説得力のある解決策のことやな。これらをフィルタリングするのは、PRMがこのステップで間違ってるからや。
この特定の解決策にラベルを付けることが、報酬モデルをより良くトレーニングするのに最も有益なんやな。
解決策がフィルタリングされたら、こんな特徴を持つことになる。ステップと推論の評価が非常に高いけど、最終答えは間違ってるんや。これらが人間によってアノテーションされるんやけど、今回は密なラベル付けはしないんや。
高コストやからな。ここでは疎なラベル付けをするんや。具体的には、全てのステップの全ての完了に対して肯定的、否定的、中立のラベルを付けるんじゃなくて、各ステップの最初の完了だけにラベルを付けるんや。
間違った完了に遭遇するまでそれを続けて、そうなったら初めてそのステップの利用可能な全ての完了を見て、ラベルを付けるんや。
全ての完了が間違ってて、否定的なラベルが付いた場合は、そこでその解決策のラベル付けを終了するんや。それ以上は進まへんのや。
気づいたかもしれんけど、このラベル付けアプローチは最終的な正解を得ることを意図してるんやなくて、悪いステップを除外することを意図してるんや。
さて、人間のラベル付けが完了したら、これがデータセットのフェーズ2ラベルを形成するんや。前と同じ入力問題、解決策、ステップがあるけど、今回のラベルは疎やな。
このデータセットを取って、現在最高の報酬モデルをファインチューニングするんや。この場合、現在最高の報酬モデルはフェーズ1のPRMやな。これによってフェーズ2のPRMができるんや。
前と同じように、このPRMとポリシーモデルを強化学習フレームワークに組み込んで、しばらくトレーニングさせると、さらに推論能力が向上した赤ちゃんo1ができるんや。
この赤ちゃんo1は、解決策のステップが正しいか間違ってるかをより正確に判断できるようになってるんやな。
このフェーズ2の進め方がめっちゃ気に入ったんで、10回も繰り返すんや。同じアクティブラーニング戦略と同じ疎な人間のアノテーションを使って、赤ちゃんo1のトレーニングを何度も繰り返すんや。
最終的に、今日学んだo1モデルができあがるんやな。これを何度も繰り返すことで、プロセス報酬モデルを騙すのが難しくなっていくのが目標や。賢い報酬モデルが欲しいからな。強化学習アルゴリズムは、報酬モデルが良くないとあんまり上手く機能せえへんのや。
これで、o1のポリシーモデルとプロセス報酬モデルがどうトレーニングされたか、かなり詳しく分かったやろ。
さて、最後の項目や。ここまでついてきてくれた人は超スターやで。
今から、OpenAIが研究論文の一番上に載せたプロットについて話すで。これには理由があるんやで。
トレーニングと推論のプロットを見てみよか。精度は線形で、計算時間は対数になってるのに気づくやろ。この線形の関係は、精度を線形的に向上させるには、指数関数的に長いトレーニング時間の計算が必要ってことを意味してるんや。
つまり、計算時間を延ばせば延ばすほど、精度の向上に対する見返りは減っていくんやな。ある時点で、1%や2%の精度向上のために、経済的にあんまり意味がなくなってくるんや。
この線形の関係で示される収益逓減の問題は、実はニューラル・スケーリング則のもう一つの例なんや。ニューラル・スケーリング則は、モデルサイズやトレーニング時間、トレーニングデータの量をどれだけ拡大しても、どれくらいの改善が得られるかを予測できるって言ってるんや。
結局、対数プロットの線形線を超えることはできへんのやな。そこで疑問が生まれる。この線形線を超える方法はないんやろうか？
実は今、トレーニングの代わりに推論時の計算時間を延ばすことで、それを実現したんや。これまで、AIとML界隈はトレーニング時間をいじることに固執してたんや。それしかできへんと思ってたからな。
以前は推論は単純な入力から出力への過程やったから、繰り返すことはできへんかったんや。でも、o1は思考の木を作るのにより多くの時間を費やせるようになったんや。o1がその木をナビゲートして解析する時間が長いほど、正しい答えを提供できる可能性が高くなるんやな。
そういうわけで、o1の推論能力によって、初めてテスト時間計算という概念が誕生したんや。ここでも精度は線形スケールで、テスト時間は対数スケールになってるな。そして、また線形の関係が見られるんや。
これには2つの重要な意味があるんやで。1つは、ニューラル・スケーリング則がテスト時間計算を使った推論にも適用されるってことやな。
もう1つの、さらに重要な影響は、モデルがもはや以前考えられていた収益逓減の影響を受けないってことなんや。
つまり、最も長くトレーニングされて最高の精度を持つモデルを取っても、その性能はそこで終わりやないってことやな。単に推論時間を延ばすだけで、さらに性能を伸ばせるんや。
基本的に、長い間業界を悩ませてきたニューラル・スケーリング則を突破してるんやな。これはAI業界にとって本当に意味のあることやで。
なぜかって？2%の精度向上を得るために、指数関数的な量のトレーニング時間を割り当てる必要がなくなるからや。推論時により多くの時間を費やすだけで、その2%の精度向上をずっと簡単に得られるようになるんや。
トレーニング時間よりも安価で時間がかからへんのやな。トレーニング時間とテスト時間のトレードオフがどれくらいなのかは、まだ分からへんけどな。
OpenAIがこのプロットをかなり曖昧にしてしまったからや。トレーニングと推論に存在する線形関係しか明らかにしてへんのや。それ以上のことは何も教えてくれへんのやな。
例えば、推論時間のテストを実行するために、どのトレーニング時間を固定したのか知りたいところやな。これは実際、OpenAIが共有したプロットと評価結果について、俺が持ってる多くの問題点の1つなんや。
OpenAIは必要以上にプロットと評価結果を曖昧にしたと思うんやけどな。でも、全体的な主要なポイントは変わらへんのや。
今や、トレーニング時間だけやなく、推論時間もニューラル・スケーリング則と収益逓減の問題の対象になってるってことやな。
でも、この2つが線形関係を示すことで、一緒になってニューラル・スケーリング則を突破できるんや。そうすることで、2%の改善を得るのに必要な指数関数的なトレーニング時間を節約できるってわけや。
以上や。かなりの量やったな。OpenAIが俺たちに与える曖昧さをさらに明確にできたと思うし、OpenAIの現在の機械学習とリサーチアプローチについて、議論を開いたままにできたと思うで。
OpenAI Dev Daysがもうすぐやからな。この解説を聞いて、より知識を持って参加できるようになったと思うで。
この動画が役に立ったと思ったら、いいねを押して、購読してな。AIとMLについて、機械学習エンジニア自身からもっと内容を届けるで。