
8,231 文字

OpenAIは基本的に「Ship mes」と呼ばれるものを立ち上げており、クリスマスと年末年始の時期にちなんで「12日間のOpenAI」とも呼んでいます。これは意欲的な12日間の休暇キャンペーンで、平日には毎日、OpenAIからの製品リリース、デモンストレーション、新機能が披露されます。これがマーケティングの手口だと思われるかもしれませんが、今日までの3日間で既にかなり重要なアップデートが行われています。
今後も1日1つずつアップデートが続き、それらは今後のエピソードでカバーしていきますが、まずはこの3日間について見ていきましょう。ポール、あなたの考えを聞かせてください。話すことがたくさんありますから。
1日目、このキャンペーンは2つの大きな発表で幕を開けました。まず、OpenAIは推論モデルo1の完全版リリースを発表し、これはChatGPTプラスとプロの全ユーザーに提供されます。ChatGPTプロを聞いたことがないかもしれませんが、それは2番目の発表である新しいプレミアムサブスクリプション層だからです。
まず完全版o1モデルについて、これはプレビュー版から大きな改善が見られます。以前使用していたo1がプレビュー版だったことをご存知ない方もいるかもしれませんが、それはChatGPTプラスとチームユーザーにのみ提供されていました。OpenAIの研究者マックス・シュワルツァーによると、新バージョンは以前のモデルと比べて重大な間違いが34%少なく、情報処理が50%速くなっています。このモデルはマルチモーダルで、画像とテキストの両方を同時に処理できます。また、プレビューモデルでの全ユーザーのフィードバックをもとに改良されています。
o1と並んで、先ほど触れたChatGPTプロも発表されました。これは月額200ドルの新しいサブスクリプション層で、新しいo1モデル、o1ミニ、GPT4o、高度な音声モードへの無制限アクセスを提供します。ChatGPTプラスやチームアカウントで使用制限に達している場合は、ChatGPTプロライセンスが適しているかもしれません。
2日目、OpenAIは「強化微調整研究プログラム」と呼ばれるものの拡大を発表しました。これにより、開発者と機械学習エンジニアは、特定の複雑な領域固有のタスクセットに特化した専門モデルを作成できるようになります。私たちは特定領域向けモデルを作成することの重要性と機会について何度も話し合ってきましたが、これは基本的にOpenAIがより良く、より簡単な方法を提供するということです。
今日、私たちが録音している12月9日月曜日ですが、ちなみに私たちは録音を5時間遅らせました。私たちはほとんどが東部時間で、OpenAIは太平洋時間なので、今日の発表を聞いてこのエピソードでお伝えできるように遅らせたのです。
私たちが録音を始める数時間前、OpenAIは3日目として、ついに動画生成モデルのSoraを正式にリリースしました。サム・アルトマンと数人のチームメンバーがSoraをデモンストレーションしました。これは米国と多くの国際市場で展開されており、このポッドキャストを聴く頃には利用可能になっているはずです。彼らは、Soraがテキストプロンプトから、あるいは画像をアップロードしても5〜20秒の動画を生成できることを示しました。また、複数のバリエーションを一度に作成でき、480pから1080pまでの異なるアスペクト比と解像度で作成できます。
デモでは、他にも興味深い機能が紹介されました。例えば、エクスプローラーフィードがあり、Soraにログインすると他のユーザーが作成した動画の例を見ることができ、それらの動画がどのように作成されたかも分かります。また、ストーリーボードという新しいツールがあり、各シーンを描写し、動画のタイムラインに配置することで動画を演出できます。これは本当にクールで、基本的に1秒単位で動画の動きを指示できます。
さらに、リミックスという機能があり、変更したい内容を説明するだけで動画を変更できます。また、リカットという機能では、基本的に動画のどこにでも映像を追加したり、拡張したりできます。
Soraは実際にsora.comという独立したサイトで利用可能です。このサイトは私にとって1日中少しバギーでしたが、想定される仕組みとしては、ChatGPTプラスまたはプロアカウントを持っている場合、sora.comに行くとログインを求められ、追加料金なしで使用できます。そのどちらも持っていない場合は、サインアップする必要があると思いますが、現在これらの機能は基本的に動作していません。
そうですね、今は入れないですね。私もログイン部分まではできましたが、その後「サインアップは一時的に利用できません」と表示されました。サイトがアクセス殺到で重くなっているんです。
今のところ、ChatGPTプラスアカウントでは月50回の動画生成が可能です。プロアカウントを持っている場合は、「無制限」と呼ばれる遅い生成が可能で、月500回の高速生成が可能です。
ポール、これらを一つずつ見ていきましょう。まず、o1の完全リリースについて、確かにo1は非常に強力な推論能力を示しているようですが、このモデルについての最初の印象を聞かせてください。
9月4日のエピソード113に戻りたいと思います。その時、私たちはストロベリーについて話しました。ストロベリーはo1モデルの内部コードネームでした。その時点で、これが差し迫っているという噂が多く飛び交っていて、このストロベリーモデルがリリースされるだろうと。その後数週間後にデビューしました。
エピソード115で、マイクが言及したo1ミニ、o1プレビューモデルについて詳しく説明しました。私たちの定例イベントMAKONの参加者や番組の常連リスナーは、o1が9月12日のMAKONのクロージングキーノートの2時間前に発表されたことを覚えているでしょう。マイクと私は、カンファレンスの終わりに向けて、この推論モデルについての話を急いでまとめていました。
ここで少し文脈を提供したいと思います。私はまだ完全にテストしていません。少し試してみましたが、まだ本格的には押していません。なぜなら、これは主に数学、生物学、工学、科学関連のより難しい問題に向いているようだからです。
しかし、OpenAIとインテリジェンスの追求という文脈で、なぜこれが重要なのかを考えてみましょう。OpenAIには内部で5つのレベルがあることを覚えているでしょう。レベル1のAIはチャットボットで、これは2022年にChatGPTの最初のイテレーションで得られたものです。レベル2は推論者で、これは今や公開されていますが、彼らは23年秋から持っていました。
最近のインタビューでノーラン・ブラウンが述べたように、この可能性を示した画期的な発見は2023年10月に起きたと考えられています。OpenAIのレベル3はエージェント(これについては最近のエピソードで多く話しました)、レベル4はイノベーター、レベル5は自律組織です。
私たちはOpenAIの世界でレベル2に移行し、急速にレベル3に向かっています。これについては、サム・アルトマンのディールブック・サミットでのインタビューで少し触れることができます。これは次のトピックで取り上げる予定です。
推論が行うのは、人間の認知プロセスのようなもので、結論を導き出し、推論を行い、情報、論理、経験に基づいて判断を形成することです。論理的に考え、状況を分析し、証拠を評価し、問題を解決する能力を含みます。
これがビジネスに結びつき、o1で行っているように大規模言語モデルに組み込まれる場合、マルチステップの問題解決が可能になります。より正確な予測が得られます。マイクが話したように、これらのモデルは重大な間違いを少なくします。
改善されたリスク評価、幻覚とエラーの減少、より深い文脈理解、より高度な認知タスクの完了、これらはすべて推論モデルによって解放されるものです。簡単に言えば、ChatGPTやその他のモデルをよりスマートに、より一般的に有能に、よりヒューマンライクにします。
マイク、私が事前に指摘した通り、これには欠点もあります。私の好きなポッドキャスターの一人、ネイサン・レーベンがいます。彼は「コグニティブ・レボリューション」という番組を持っていて、素晴らしいインタビューをしています。彼はアポロ・リサーチのアレクサンダー・メニーと緊急ポッドキャストを行いました。このエピソードへのリンクを提供しますが、深く掘り下げることはしません。ただ、このエピソードの冒頭から抜粋を読みたいと思います。これは人々が持つべき非常に重要な視点だと思うからです。
冒頭でネイサンはこう言います。「o1モデルは、より高速で、推論ベンチマークでより高いスコアを記録し、マルチモーダルとツール使用の全機能を備えています。AIペースの多くの人々と同様に、私は過去24時間をモデルのテスト、それについて書かれたすべてのものを吸収することに費やしました。これにはOpenAIの42ページのシステムカード(私はまだ掘り下げていません、マイク)と、今日の主題となるアポロの70ページの報告書『フロンティアモデルはコンテキスト内での策略が可能』が含まれます。」
これはネイサンがこのエピソードの冒頭で語った内容です。彼は続けて言います。「策略とは、AIが自身の隠れた、あるいは暗黙の目標を追求するために人間を欺くことです。私たちは皆、AIシステムからそのような行動を望まないことに同意できるでしょう。例えば、自身を未来に伝播させるために次のバージョンの重みや目標を自分のもので上書きしようとしたり、ユーザーの要求に反する結果を生み出すためにデータを意図的に偽造したりするなど、いくつかの例は実に衝撃的です。」
彼は続けます。「アポロが作成したシナリオは人為的で実際の使用を代表していないと、これらの発見を軽視しようとする人もいます。しかし、アポロが行ったテストは策略的行動を引き出すように設計されているとはいえ、概念的には決して突飛なものではありません。核心的な観察は、AIの目標が人間の目標と衝突する時、奇妙なことが起き始めるということです。これは正当に大きな問題です。」
彼は続けて、この分野外の人々にとって明らかに恐ろしいことであり、この分野の私たちもそれに慣れてはいけないと述べています。私はもう少し読み続けたいと思います。なぜなら、彼は問題の規模と、私たちが目にしているオープンソース運動の加速が深刻な問題を引き起こす可能性について説明しているからです。
彼はこう言います。「OpenAIがAPIを通じてo1モデルを公開する時(それは必ず起こります)、OpenAIのプラットフォームで開発を行っている100万以上のアクティブな開発者が、アポロが研究で行ったのと全く同じようにシステムメッセージに目標を設定できるようになります。o1が、OpenAIがモデル仕様で設定した基準と、開発者がシステムメッセージで与える目標との間に根本的な緊張関係がある状況に置かれることは、事実上確実だと思われます。アポロは、彼らが試みたほとんどの条件で、約1〜10%のケースで策略的行動を発見しました。
たとえ実際の環境で1000倍まれにしか発生せず、OpenAIがシステムカードで説明している92%の精度を持つ欺瞞監視システムを導入したとしても、何百万ものアプリを通じて日々何億回も使用される中で、o1が毎日数百から数千人のユーザーと積極的に策略を練っていることを想定すべきです。」
そして彼は続けて、私たちが人間の創造者やユーザーからの入力を欺くことを意図した方法で覆そうとすることが分かっているモデルを世界に解き放ったこの時点で、そしてそれが高い確率で起こることを知っており、さらにその1〜3年後にはもっとずっと知的なシステムが登場すると考えている場合、私たちはもっと安全性とセキュリティについて何かをすべきではないかと語っています。これが要点です。
このエピソード全体をまだ聞く機会がありませんでしたが、今週中に聞こうと思います。これに興味を持った人、あるいは恐れを抱いた人は、読んでみるといいかもしれません。
マイク、2023年秋にサム・アルトマンがCEOを解任され、私たちがエピソードを作り、約4週間にわたってビジネス界とAI界の話題となったことを覚えているでしょう。イリヤ・サツキーが解任に導いた全体の話でしたが、イリヤは取締役会の席を持っており、サムと時間軸について問いただすよう取締役会に働きかけました。
まだ何が起こったのか100%の確証はありませんが、ノーラン・ブラウンは「2023年10月に、この推論アプローチが機能し、スケールすることに気付いた」と述べています。そこでイリヤは取締役会に問題があるかもしれないと警告し、最終的にイリヤは退職して自身のAI企業であるセーフ・スーパーインテリジェンスを設立しました。
イリヤが推論モデルの誕生を目の当たりにし、世界がまだ準備できていないものを世に送り出すことを恐れたという当初からの理論は、少なくともその時に起こったことの一因となった可能性が非常に高いように思えます。
すごいことですね。とても魅力的なことです。興味深いものになるでしょう。しかし、欠点もあるように聞こえます。私たちは、モデルが生の知性以上のものを学習する時、あなたがここで触れたような、誰もが予期できない、あるいは意図しない結果が生じる本当の領域に入りつつあるようです。これはすべて、何かの陰謀論ではなく、OpenAI自身がこのモデルを安全に保つために行っている取り組みから来ているのです。
そうですね。そして、あなたが説明したように続けると、月額200ドルを払ってこれがどのようなものか見てみたい気持ちの一部があります。これが完全に何ができるのか見てみたいのです。ただ、これを何に使うか確信が持てません。
実は週末にマイクに連絡を取り、「私たち自身でハッカソンを実施して、このモデルで何が可能か試してみよう」と提案しました。ポジティブな使用法だけでなく、これらの意図しない結果について、このものの危険性は何なのかということも含めてです。
そこで、マイクと私は火曜日、つまりこのエピソードが配信される日に内部ハッカソンを実施する予定です。そして人々のために要約します。私は月額200ドルを払うべきか、それが私たちにとって価値があるのか、研究と理解以外にも価値があるのかを理解しようとしています。
ChatGPT自体に、ビジネスとマーケティングの観点からo1推論モデルを何に使うべきか尋ねてみました。すると、キャンペーン戦略、オーディエンスペルソナ、パフォーマンス分析とインサイト、コンテンツカレンダーの作成、競合分析など、興味深いアイデアを提示し始めました。マイクと私は明日これらのアイデアについて話し合い、何か構築を始めて報告するかもしれません。
しかし現時点では、ほとんどのユーザーには月額20ドルか30ドルのプランで十分だと言えます。Soraが月額200ドルのプランに含まれていると聞くまでは、200ドルのプランについての見方が変わるかもしれません。
では2日目の発表について話しましょう。強化微調整がなぜそれほど大きな話題なのか、説明していただけますか?
まず、これは開発者向けの発表です。あなたや私のような一般ユーザーはこれを構築することはありません。これは開発者にコアモデルを取り、例を与えることで迅速に強化学習を行う能力を与えるものです。目標と報酬を設定し、特定のデータセットに基づいて領域を学習できるようにします。
この強化微調整を使用したい場合、おそらく開発者や社内ITチームと協力する必要があります。特定の領域でこれを訓練するための独自のデータセットが必要になるでしょう。
しかし、これは近い将来、すべての企業が部門ごとにさえカスタムモデルを訓練できる可能性を示唆しています。GPTsをステロイド注射したようなものを想像してください。開発者である必要なく、コアモデルを実際に取得して微調整できます。私たちがカスタムGPTを構築できるのと同じように、これらの微調整されたモデルを構築できるかもしれません。それは魅力的です。可能性は本当に興味深いですね。
3日目のSoraについて話しましょう。ウェブサイトが再び機能するようになれば、発表を見る限り、これはプラスアカウントの一部として含まれ、プロアカウントの一部としても含まれていますが、使用率は大きく異なります。まだテストできていない状態で、これについてどのように考えていますか?
まず、月50回の生成制限は、それほど多くないように思えます。正直なところ、おそらくそれがどれだけ優れているかに依存するでしょう。
Runwayという会社が動画生成、テキストから動画への変換を行っています。番組で何度も話題にしてきました。Runway.ml.comです(URLが変更されていなければですが)。私は有料アカウントを持っています。Runwayに月30ドル払っていると思いますが、数ヶ月使っていません。
なぜなら、使おうとするたびに、出力が使用できないのです。一貫性を維持できません。モデルが更新されるたびに試してみますが、毎回「ここに900クレジットあるけど、何に使えばいいのか分からない」という状態です。
これは、多くないように見えても、実際に使ってみると何もできないことが分かり、クレジットが積み重なっていくだけの例です。
Soraは能力の大きな飛躍になると予想しており、特に私の分野では、デモンストレーションとして作成する可能性のあるものに動画を組み込むなど、定期的に使用することが想像できます。出力が優れていて質の高い動画を作成できるなら、それは興味深いでしょう。
2番目に、速度が大きな問題になるでしょう。Runwayは4秒の動画を作るのに数分かかることがあり、それは全く価値がありません。
高解像度の動画を作成するのに数分かかるという努力は、とても馬鹿げて聞こえるかもしれません。しかし、出力を得たときに「これは私が必要としていたものではない」となり、望む出力を作成できないものに時間を費やし続けるだけです。
これらの生成にはかなりの時間がかかると予想します。入力してから3秒後、5秒後に動画が得られるような高速な推論時間ではないと思います。これは遅いプロセスになると予想され、そこに今後1、2ヶ月はサイトに集中するトラフィックも加わります。
月額200ドルを払わない限り速度を制限することは興味深いです。基本的にポイントパークのファストパスのように、月額200ドル払えば生成のファストパスが得られます。つまり、これらの生成速度は200ドルの月額ライセンスの採用率に依存する可能性があります。
多くの人が「払おう」と思えば、突然ファストパスレーンに100人が並んでいるということになります。あるいはTSAレーンですね。そしてCLEARレーンのように、さらに別の方法を追加し続けるわけです。
このデモは常に非常に印象的でしたが、動画生成については、これまで番組で話してきたように、キャラクターの一貫性、フレームの一貫性を維持するのは本当に難しいです。
しかし、週末に誰かが、映画の平均的なシーンは3〜5秒だというアイデアをツイートしているのを見ました。この文脈で考えると、広告業界、映画業界、ブランドの観点からのコンテンツ作成、動画などに非常に破壊的な影響を与える可能性があります。
20秒の動画を作れますが、もし5秒の動画を本当に上手く作れたらどうでしょうか?それで十分かもしれません。なぜなら、フレームごとにつなぎ合わせていけば、突然本当に信じられないようなものを作り始めることができるからです。もしそれが本当に上手く機能するなら、この採用は大規模になると予想します。


コメント