OpenAIライブストリーム|12日間のOpenAIリリースとデモ 🎅❄️🎄

29,345 文字
ChatGPTにおけるOpenAI O1とO1プロモード – OpenAIの12日間：1日目｜AIに仕事を奪われたい

OpenAI Live Stream | 12 days of OpenAI Releases and Demos 🎅❄️🎄

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

そうですね、200ドルということでしたが、その部分は聞き逃しました。ということは、O1プロは月額200ドルなんですね。その特定の…はい、ちょっと高額に感じますが、実際に試して何ができるのか確認する必要がありますね。見てください！えっ？うわ、何これ？予想外でしたね。ライブストリームはそこで終わったみたいです。もっと長い発表があると思っていたのに。そうですね、全部で13分くらいの発表でしたね。
価値はあるのでしょうか？試してみないと分かりませんが、タンパク質の例にしても、その問題がどれくらい複雑だったのか判断できません。他のことでもテストして、どれだけよく推論できるか確認する必要がありますね。とりあえず、この虹の景色をお楽しみください。
しかし、今日発表されたのはそれだけです。画像認識についても少し話がありました。彼らが話していた内容をもう一度見直す必要がありますね。チャットを見て、皆さんの意見を確認しようとしていました。コメント欄やチャットで、皆さんの感想を聞かせてください。印象に残りましたか？それとも期待外れでしたか？
今日はベストな機能は発表されないだろうと思っていました。まだSoraの発表を期待しています。Soraは近々公開されそうですね。それについての話題が増えています。アーティストたちが早期アクセスを得ているようですし。近いうちに利用可能になりそうです。今日Soraが発表されるかもしれないと言う人もいましたが、私はそうは思いません。最後の最後、最終日か前日まで待つと思います。
今週中ということですね。SoraのAPI提供についても、何らかのセットアップをしているようです。あと11日あります。平日のみと言っていたような…いや、毎日と言っていたかもしれません。このような生配信が何回あるのか見てみましょう。他に生配信はありますか？それともこれが今日の全てだったのでしょうか？
これで全てのようですね。今日はこれだけでしたよね？私の理解では。プロ版を入手してテストしますか？はい、もちろんです。利用可能になり次第テストします。いつから利用可能になるか言及はありましたか？
確認してみましょう。
GPT-4、GPT-4のCanvas、O1プレビューは見えますが…いつ展開を開始するか言及はありましたか？マイクの音量を上げて。
どうですか？少し良くなりましたか？音量について教えてください。もう少し調整が必要かもしれません。現在展開中だと言っている人がいるようです。音量をもう少し上げてみましょう。ちょっと待ってください。
良くなった…OK！「良くなった」と言っているなら。では、利用可能かどうか確認してみましょう。
まだO1を含む新しいモデルが見えません。
音量は大丈夫、OK、ありがとうございます。ジェームズが言うには、Soraはプロ層では無制限で使用可能になり、その価格を正当化するだろう、通常プランでも制限付きで使えるようになるだろうとのことです。それは実際に理にかなっています。高額なプレミアムプランで本当に素晴らしい機能を全て提供し、O1プロやSoraも無制限で使えるようにするというのは。それは非常に魅力的ですね。
どうなっているか、他に何か進展があるか確認してみましょう。予想以上に短かったですね。
タンパク質に関する質問について、誰か内容を理解できましたか？どれくらい複雑な問題だったのでしょうか？どの程度感心すべきなのでしょうか？誰かが前に言っていましたが、「どんでん返しで、それはもともとトレーニングデータに含まれていて、1時間考えた後に記憶していた答えを出しただけかもしれない」と。
はい、O1プロプランは200ドルですね。O1プレビューではなく。
O1プロプランの使用制限はありますか？それは良い質問ですね。確認してみましょう。価格設定には見当たりませんし、プランのアップグレードもできません。分かりませんね。
チームプランでは限定プレビューを提供する…誰かがGPT-4.5の発表があると言っていましたが、まだ見ていません。ウェブサイトには無制限と書いてあります。
これは「完全版O1モデル」と呼ばれているようです。
O1モデルは、コーディング、数学、文章作成においてより高速で強力な推論能力を持つモデルです。O1は現在、画像のアップロードにも対応し、視覚的な推論でより詳細で有用な応答が可能になりました。これは非常に素晴らしいですね。視覚的推論の能力がどれほど優れているか、ぜひテストしてみたいところです。
過去に苦手だった課題について、たくさんのプロンプトや様々なテストを用意しています。例えば、アナログのスピードメーターの読み取りですね。速度が上がるにつれて針が文字盤を横切っていく、あれを読み取るのが全く苦手でした。また、特定の種類のグラフも notorious(悪名高い)ほど難しかったです。TechCrunchにすでに記事が出ています。
OpenAIが月額200ドルの新しいサブスクリプション「ChatGPTプロ」を確認。O1推論モデルを含むとのことです。
音量はどうですか？
今朝いくつかリークがあったようです。OpenAIがChatGPTプロを発表し、月額200ドルの新しいサブスクリプション層で、完全版O1推論モデルを含むOpenAIの全モデルに無制限でアクセスできるとのことです。ところで、このモデルをテストするのに良いプロンプトをお持ちの方はいませんか？200ドルのプロサブスクリプションに加入して徹底的にテストし、本当にAGIに近づいているのか、それとも通常通りのビジネスなのか見極めたいと思います。このモデルに本当に挑戦できる概念やプロンプトのアイデアを教えてください。
タイムリーさんが「もちろん彼はプロモデルを入手するよ。ウェスはYouTubeで稼いでいるんだから」と言っていますね。このストリームはマネタイズしていないことにご注意ください。広告など一切表示されません。OpenAIも恐らく彼らのストリームをマネタイズしていないと思うので、彼らのストリームに私の顔を重ねて広告を付けるのは適切ではないと考えました。ただの情報提供です。誰かが言っています。ハングマンはしませんが、それは興味深いですね。昔、全てのモデルが完全に失敗した問題がありました。
家具の配置問題で、3×3のグリッドがあり、特定の家具を配置する必要がありました。ABCDE等の名前が付いていて、それぞれに制約がありました。例えばBはAの隣に置けない、Cは他の家具より上に置かなければならないなど。誰かがチェスをプレイしてはどうかと言っていますが、実際にはそういうチェスパズルを解かせてみるのは良いアイデアかもしれません。はい、ライブストリームでの広告は非常に邪魔ですよね。
私が言っていたのは、家具を配置する際に、クロスワードパズルと同じように試行錯誤が必要だということです。アイデアを出して、文字を配置してみて、「いや、そこじゃない」となって戻るような感じです。当時のアプローチの一つは、確か「思考の木」というもので、論理的な分岐を持つ木構造を使用していました。O1モデルはデフォルトでそのような処理をしているように見えます。
ガブリエル・ルシオさんが「弦理論における鏡映対称性の役割と数え上げ代数幾何学への応用について詳しく説明できますか？」と聞いています。これはO1に対する質問として考えます。私には答えられませんからね。はい、対称性理論のテストをしましょう。ただし、これは本当の推論テストというより、そのデータが含まれているかどうかのテストですね。良い推論テストとは何でしょうか？いくつか良いものがありますね。
チェスについて、メスカルさんが「簡単すぎる」と言っています。現実には存在しないようなパズル、つまり実際のチェスゲームでは決して起こり得ない状況のパズルを考えています。トレーニングデータには含まれていない可能性がありますよね。
また、興味深いのは、モデルの思考過程を見ることで、それがトレーニングデータに含まれているかどうかある程度判断できるということです。OpenAIはモデルの実際の思考を見せないことを選択しました。それは少し残念ですが、思考のサマリーは提供されるので、トレーニングデータから単に暗記した回答を出しているのか、実際に解決策を考え出しているのか、ある程度判断できるでしょう。
面白いことに、あるパズルがありました。殺人事件の「誰がやった？」系のパズルで、執事や他の人々が屋敷にいて、誰かが死んで、いくつかの手がかりがあるという設定です。モデルに殺人犯を特定させると正解するのですが、屋敷の名前や登場人物の名前を変えても同じように正解します。これは明らかに推論をしているわけではありません。殺人者の名前がボブからサムに変わったからといって、突然殺人者でなくなるわけがないですよね。そんなの意味が通りません。
ライブ配信を削除したようですね。ブラウザでダークモードにする機能はありますか？はい、一貫性を保とうとしていて、ほとんどをダークモードにしているのですが、多くのサイトにダークモードがないので諦めました。Chromeのプラグインは持っています。面白いことに、誰かが「フラッシュバンしないでくれよ」と言っていて、最初は何を意味しているのか分かりませんでした。ダークモードの画面から急にライトモードの画面に切り替わると、フラッシュバンのようにまぶしくて目が眩むということでしたね。
プロンプトだけのDiscordチャンネルかなにかありますか？そうですね、プロンプトを投稿できる場所があると良いかもしれません。考えてみます。このプロモデルやその他のモデルをテストするための良いプロンプトをお持ちの方々が、それを投稿できる場所があれば、テストする際に使用できて素晴らしいですね。
ガブリエル・ルシオさんが「ある島には、常に真実を話す騎士と、常に嘘をつく悪党が住んでいます。A、B、Cという3人の住人に会い、『あなたは騎士ですか、それとも悪党ですか？』と尋ねました。」という設問を投稿しています。途中で切れているようですが、ガブリエルさん、続きがあればぜひ教えてください。見つけておいて使わせていただきます。
世界で最も複雑なパズルというのがありますね。3人の神様か守護者か何かに出会うという設定で、一人は常に真実を話し、一人は常に嘘をつき、もう一人はランダムに真実か嘘を話します。複合文を作って「これが真実でそれも真実なら、この質問への答えは何になりますか？」といった形で尋ねる必要があります。リック・アンド・モーティでそれについての面白い解釈がありました。完全に適切とは言えないかもしれませんが…まあ、言ってしまいましょう。
リック・アンド・モーティというアニメがあって、かなり不適切で、子供向けではありません。PG-13でもないですね。そこでリックがその状況に遭遇します。2人の守護者がドアの前にいて、一人は常に真実を、もう一人は常に嘘をつくという設定です。通過するために…リック・アンド・モーティを見たことがある人は多いと思いますが。リックは守護者の一人に「相手の奥さんと寝たことがありますか？」と尋ねます。守護者は「いいえ」と答え、もう一人の守護者が頭を刺して殺してしまいます。それで問題が解決しました。申し訳ありません、広告に適さない内容でしたが、このライブストリームはマネタイズしていないので問題ありません。
サルダルさんが「200ドルの経費を相殺するためのアイデアをください」と言っています。それは実は悪くないアイデアですね。サム・アルトマンの考えのようです。AGIを作って、ビジネスプランを尋ねようと。AGIを収益化するためのビジネスプランを考えるのではなく、AGIを作ってからビジネスプランを聞こうということですね。
昨日のAmazonの発表は非常に興味深かったです。幻覚を減らす方法を見つけたようです。その特別なアプローチの詳細は明かされていませんが、多くの制約や条件がある場合、例えばカスタマーサービスで、返品が30日以内で製品が未開封の場合のみ可能といった場合、返金方法もギフトカードなど複数あり得ます。言語モデルがこういった作業を行う際に簡単に間違える可能性があります。
特に複合的な場合は危険です。制約の一つを間違える確率が1%だとして、複数の制約を満たす必要がある場合、それが積み重なって、かなりの確率で間違えたり、正解したりすることになります。Amazonはそれを防ぐアプローチを見つけ、適切に推論できるようになったので、幻覚が減ったということです。
大規模言語モデルが登場した時、最初に思いついたのはカスタマーサービス、特にオンラインヘルプの変革でした。10年ほどeコマースに携わっていたので、真っ先にそれを思いつきました。ウェブサイトで注文する顧客がいて、配送や郵便局の問題など様々な問題が常に発生します。
モア・オン・ゴー・スティーブさんが「ブラッドゴッドはアルトマンのストリームを承認しましたか？」と聞いています。はい、ブラッドゴッドは満足しています。我々は「ブラッドフォーザブラッドゴッド」を実行したので大丈夫です。
大規模言語モデルでカスタマーサービスができれば素晴らしいと考えていました。多くの問題を素早く解決できるからです。これはChatGPTが最初に登場した頃の話ですが、すぐに気付いたのは、モデルの全体的な性能に関係なく、顧客の要望を理解することが非常に得意だということでした。テキスト入力を受け取って顧客が何を望んでいるかを理解するのは素晴らしかったのです。しかし、実際の応答やアウトプットについては、少し微妙でした。これは誰もがモデルの限界を理解し始めた頃の話です。
ポストを通じてアカウントを更新できるとのことですが、プロプランへのアップグレードが可能なのでしょうか。
誰かが「O1プロモードへのアップグレードをぐずぐずせずにしろ」と言っています。実際にそれが可能な人がいるのでしょうか？TwitterやXで確認された人はいますか？リンクを投稿できるかどうか分かりませんが、アップグレード可能な場合はURLを投稿してください。利用可能になり次第アップグレードします。
ガブリエル・ルシオさんが「そのプランを持っています」と言っていますが、早期アクセスを得られた特別な人たちの一人なのでしょうか？私には見えません。
ガブリエルさん、ChatGPTに行って、ここでモデルを変更できたのでしょうか？ハードリセットして選択できましたか？そこにあるのでしょうか？みんなそのプランがあると言っています。
コズミック・セルズさんが「ターゲットにありますよ」と言っています。OK、すぐに行ってきます。
おそらく段階的に展開しているのでしょう。5分ほど待ってみましょう。実は別のアカウントも持っているので、そちらで試してみます。プロプランを継続しますか、それともビデオ用に購入するだけですか？
残念ながら、多くのツールについて同じような状況です。Suno、Runway、その他多くのツールに登録して、いずれかの時点でキャンセルしようと思うのですが。問題は、ADHDタックスと呼ばれるものです。基本的に物事を忘れてしまい、お金がかかってしまうのです。
キャンセルを忘れて支払い続けてしまいます。シャマス・パリハピティヤのニュースレターに登録したのですが、彼もプロモードと同じく月額200ドル程度を請求しています。クリエイター経済とその変革についての深い分析があったので登録しましたが、それだけが欲しかったのに数ヶ月間200ドルを支払い続けることになってしまいました。シャマスは億万長者なのに、なぜ私の月200ドルが必要なのでしょう？Facebookで大金を稼いでいるはずです。十分持っているでしょう。でも、登録した時点でキャンセルすればいいんです。
A16Z、つまりアンドリーセン・ホロウィッツがこれについて書いていて興味深かったのですが、皆さん、マーク・アンドリーセンについてどう思いますか？よく分からない方のために説明すると、頭がとても大きくて、とても賢く、とても早口な人です。話が速すぎて、動画を2倍速で見ることができないほどです。
チャットの全員がアクセスできるようです。え？ちょっと待ってください。彼は月200ドルを多くの人から集めて億万長者になったんです。彼の本当の成功は、SPACsと呼ばれる特別買収目的会社を立ち上げたことです。月を約束したものの、うまくいかなかったものもあったようです。あまり追っていませんでしたが。2020年は本当に狂った時代でした。
ちょっと待ってください。
ここにT-borさんがX（Twitter）で…皆さんTwitterとXのどちらと呼んでいますか？私はTwitter Xと呼んでいますが…電話アプリで試すとアップデートできるようです。全世界で同時にリリースすると問題が起きる可能性がありますよね。まあ、月額200ドルを支払う人はそれほど多くないかもしれませんが。電話でアップグレードできるか確認してみましょう。
別のプラットフォームで購入したためか、電話では何も変更できません。これは非常に迷惑です。ex-Twitter（元Twitter）と呼ぶのは良いですね。かつてのTwitterという意味で。Twixtorという呼び方もあります。単に「X」と呼ぶのは好きではありません。未知の量を表す時によく「x」を使うので、混乱しやすいです。「これがあって、それをxと呼びましょう」というような感じで。少し奇妙に感じることがあります。
アップデートを確認してください。ログアウトして何ができるか見てみますが、税金が20%ですね。これはヨーロッパの税金でしょうか。サブスクリプションの更新に問題が発生したようです。ちょっと確認させてください。
ライブストリーミング中に技術的なトラブルシューティングをするのは素晴らしいことに気付きました。皆さんも気付いていないかもしれません。人生の数少ない喜びの一つです。今、非常に皮肉を込めて言っています。とても frustrating（イライラする）ことです。はい、ChatGPTプラスしか見えませんが、ChatGPTプラスを更新してからプロにアップグレードできるか確認してみましょう。暗号通貨は使えますかね？面白いですが、たぶんないでしょう。
O1はウェブインターフェースでロールアウト中とのことです。OK。
皆さんのためにテストしてみます。電話でもデスクトップでもまだ見えませんが、利用可能になり次第テストします。とりあえず、確認を続けましょう。記事を読んでみます。はい、何も見えません。実際に利用できている方に聞きたいのですが、個人プランですか、ビジネスプランですか？
それともビジネス専用プランなのでしょうか？
これで月200ドルを取り戻す方法の一つですが、TwitterのThe Terminal of Truthを知っていますよね？独自の宗教を立ち上げて暗号通貨を作りました。もちろん人間が関与していて、裏で助けを得ていたのは明らかです。でも、技術的には最初の百万長者AIエージェントですね。
アンクエスチョナブルTVが質問しています：プラスユーザー向けのアドバンスドボイスはアップロードされた文書に対応するのでしょうか？プロでも同様でしょうか？面白いことに、試してみたところ、アドバンスドボイスでプラスユーザーは文書をアップロードできるはずです。何かをアップロードしようとすると…あ、O1システムカードの論文がありますね。ありがとう、ピジョン。基本的に、文書をアップロードしてからアドバンスドボイスモードを開始すると、動作するような気がします。しかし、アドバンスドボイスモードを開始してから文書をアップロードすると、その機能はアドバンスドボイスモードと同じではないと表示されます。
変な感じですが、なんとかワークアラウンドを見つけられたような気がします。でも、そうですね、アンドリーセンはThe Terminal of Truthを助けたということですが、技術的にはThe Terminal of Truthがアンドリーセンにコンタクトを取って、お金を求めたんです。「ねえ、あなたは億万長者でしょう？」って感じで。「私の活動を支援したくないですか？」ルシッドさん、スーパーチャットありがとうございます。「はい、私はこれをやります。これをやって、世界征服をします。」そしてアンドリーセンは「はい、5万ドルどうぞ」と。億万長者、特に彼のような人は素晴らしいですね。
技術の展望について本当に良い洞察を持っているように見えます。そして5万ドルというのは決して小さな金額ではありません。かなりの額です。そのようなプロジェクトにそれを投資できるというのは…興味深く、魅力的です。誰かがO1の論文があると言っていますが…確認してみましょう。
わたしは50個くらいのことを同時にし始めてしもて、そのうちのどれも完了してないような気がするんですけど、ちょっと急いでこれを確認させてもらいますわ。これに新しい情報が含まれてるかどうか見てみましょ。これはO1が月200ドルで提供されるということについて触れてるだけで、新しいことは特にないみたいですね。APIもすぐに利用可能になるそうです。
ちょっと見てみましょか。
まだ見えへんなぁ、これはかなりイライラしますわ。
新しいアカウントを作ってみて、それで上手くいくかどうか試してみましょか。
はい、プラスプランとチームアカウントは見えてますけど、プロアカウントはまだ見えてないですね。
そうですね、ただ展開中というだけですわ。ちょっと見てみましょ。こんな感じですね。個人プランがあって、プラスプランがあって、プロプランがある。わたしはどのアカウントでもこの画面が見えてないんですけど。
別のアカウントにログインしてみましょか。
はい、まだ見えてないですね。でも、O1のシステムカードがありました。
ログインして、設定の購読とアップデートに行けば…まぁ、そこに行く方法はいくつかありますけど。ちょっと見てみましょ。
はい、まだ更新されてないみたいですね。つまり、まだその選択肢がないということです。でも大丈夫です。OpenAI O1のシステムカードを見ることはできますから。
TerraFirmさんが言うには、10%性能の良いモデルのために月額料金を払うことになるそうです。そうでないことを願いますわ。もしOpenAIが継続的に大幅に優れたモデルを作れないとなると、多くの人にとって、そうですね、私たちは壁にぶつかっているという合図になるでしょうね。これがスコアカードですね。なんらかの安全性の準備状況があって、低、中、中程度の説得力というところですか。重大なものはないようですが、O1のシステムカードを見てみましょう。
はい、このモデルは、今日リリースされたばかりで、特定のベンチマークで最先端の性能を示しています。違法なアドバイスの生成、固定観念的な応答の選択、既知のジェイルブレイクへの対応などのリスクについてです。
これは主に安全性評価なんでしょうか？面白いですけど、それ以外にも何かあればいいですね。
幻覚について見てみましょう。簡単なQ&Aでは、短い回答のある4,000の事実確認質問の多様なデータセットを使って、回答を試みた場合のモデルの精度を測定しています。幻覚率は低く、低いほど良いとされています。O1とプレビュー版は両方とも0.44で最も低く、興味深いことに同じ値を示しています。精度については、高いほど良く、O1が最も高い値を示しています。
普段は一人でこれを確認して、それからスクリーン録画をして、編集したものをまとめるんです。つまり、ここで論文全体を読み上げるようなことはしないようにしています。でも、目立つところがないか見てみましょう。
ほとんどはジェイルブレイクや様々な安全性評価についてですね。でもO1モデルについて本当に興味深いのは、これなんです。この潜在的な思考、あるいは潜在的な思考空間とでも呼ぶべきものです。O1モデルの重要な特徴の一つは、問題を解決しようとする際のチェーン・オブ・ソート（思考の連鎖）の使用だと言われています。以前のチェーン・オブ・ソートは、モデルに段階を追って考えさせて、その過程を示すように求めるだけでした。今はそれがバックエンドに組み込まれているんです。つまり、思考セクションと応答セクションがあるということです。
これは非常に興味深いですね。モデルの出力を監視することに加えて、彼らは長い間、潜在的な思考を監視する可能性に興味を持っていたと言っています。これまで、その潜在的な思考は活性化の形でのみ利用可能で、単純な概念しか抽出できない大きな数値の塊でした。そして、チェーン・オブ・ソートは私たち人間が読んで監視するのが簡単なんです。
でも面白いのは、人間のフィードバックでこれらのモデルを訓練する時、私たちが本当に欲しいのは正しい応答なんです。それを書き出す時のように。でも思考についてはどうでしょう？もし独特な問題解決方法があって、私たちには理解できなくても、その思考方法でより良い答えが得られるとしたらどうでしょう？人間の場合もきっとそうだと思います。ある分野で天才的な能力を持つ人、いわゆるサヴァンのような人を見つけると、その人の思考は普通の人とはかなり違うかもしれませんが、実際の応用では遥かに優れているんです。もし私たちが舞台裏の思考を、ああ、これらのモデルを自由に走らせるようなことをしたら…もしそれがより良い応答を生み出すとしたら？そうですね。
少しトラブルシューティングをしてみましょう。こう聞いてみましょうか：チャットでGPTのアップグレードオプションが見えない人はいますか？つまり、こんな感じですよね。プランのアップグレードがあって、通常なら展開される時にはここに月200ドルというような二つ目の項目が表示されるはずです。私には見えないんですけど、ちょっとトラブルシューティングしてみましょうか。でも私が言いたいのは、見えない人もいるようです。そうですね、50-50くらいの割合みたいですね。見えるという人もいれば、見えないという人もいます。Keen Wahさんが言うには、今表示されたそうです。つまり、段階的に展開されているということですね。ちょっと何ができるか見てみましょう。
ライブストリーム中にトラブルシューティングやその他のことをしながら、同時に話をして何らかのコンテンツを進めようとするのは少し難しいですね。
はい。新しいChatGPTアカウントを作成しましたが、そこには無料プランがありますね。ここには無料プラン、プラスプランがあります。既存のアカウントに戻ってログインしてみて、それで改善するか見てみましょう。はい、このアカウントも同じで、200ドルプランは見えません。
このペーパーに他に興味深いものがないか見てみましょう。今のところほとんどが、そうですね、レッドチーミングについて話しています。応答の拒否について話していて、はい。リスクのあるアドバイス、ポリシーの緊張関係、ジェイルブレイクアリーナですね。
はい、これは後でやることにします。今ここで一行一行読んでいくのはかなり退屈かもしれませんし、この半分以上がAI安全性に関することのようです。これは興味深いですが、エージェント的なタスクについて話していて、これらは特に計画目的のためのエージェント的なタスクの背後にあるモデルのように見えます。
ARC-AGIプランについて何か更新はありましたか？結果を発表する予定だったと思うんですが、それは今日でしたっけ？
いいえ、それは明日です。明日、2024年のARC-AGI賞の受賞者が発表される予定です。もしそれを追っていた人がいれば、人々がどれくらいの高得点を取ったか知るのは興味深いでしょう。私の記憶では総賞金は100万ドル以上で、グランプリは85%以上を達成した場合に60万ドルだと思います。そして、それは…ああ、誰かが価格設定が表示されたと言っています。つまり、リアルタイムで、どんどん多くの人々にこれが展開されているようですね。
はい、これは明日になります。おそらくビデオで取り上げることになるでしょう。
プロプランを手に入れましたよ。チャットで花火でも上げましょうか？火のエモジを入れましょうか。はい、プロプランを手に入れました。
誰かが「負け犬どもさようなら、オレはプロプランメンバーだ」って言ってますけど、私もそうです！いやいや、ここはプロプランクラブですよ、みんな大丈夫です、ここにいるべき場所です。はい、プロプランにアップグレードしました。みんな見えてますか？これですね。ちゃんと全部見えるように確認しましょう。
ChatGPT O1プロモードですね。みんな言ってますけど、これに200ドル投資するのは金持ち向けだって。でも私にとっては、技術的に見れば、これは経費になります。私の仕事の性質上、税金控除になるので、それはそれで良いですね。少し負担が軽くなります。では、いくつかのプロンプトを試してみましょう。チャットにプロンプトを投げてもらえば、それを試してみることができます。これには制限がないことを確認しましたよね？そうだと思いますけど。一つのプロンプトを調べてみたいと思います。それは家具の問題です。
そしてもちろん、誰かが人生の意味は何かと聞いてきています。答えは何でしょう？タイプできれば…人生、宇宙、宇宙ってどう綴るんでしたっけ？そして全てについて。
そしてシェイクスピアのソネットを書いてください。では見てみましょう。これはO1プロモードですね、考えています。詳細はありません。
まぁ、42だということは分かったようですが、それがどの本から来ているかは知らないようです。
では、これをやってみましょう。みなさん見えてますか？メイベルの心拍数は朝9時に75拍/分で、血圧は午後7時に180でした。彼女は午後11時に亡くなりました。正午に彼女は生きていましたか？これの要点は、朝と夕方に生命徴候があることから、その間に生きていたかどうかを推測できるかということです。もちろん、それを理解して、与えられた情報に基づいて、正午に特に異常なことが起きたという兆候がないことから、メイベルはその時点で確かに生きていたという単純な結論に至ります。
5つの正方形のブロックが積み重なっています。以下の情報が与えられています。上から2番目のブロックは緑で、上から4番目のブロックは緑ではありません。これら2つの前提が成り立つと仮定して、以下の結論を反証するか、あるいは証明してください：緑のブロックが緑でないブロックの直上にあります。答えを説明してください。
次に投げかける質問はこれです。では見てみましょう。結論は真でなければならず、その理由を説明します。まず与えられた条件を再説明します。最初の前提からブロック2は緑です。2番目の前提からブロック4は緑ではありません。そしてなぜかを説明します。
はい、基本的には…全部読み上げはしませんが、何か見落としがあるかもしれません。基本的に2つの可能性に分けています。ブロック3が緑でない場合、またはブロック3が緑の場合ですね。これが2つの可能性です。その基づいて、それぞれのシナリオで何が起こるかを把握し、両方の可能なシナリオで、少なくとも1つの状況で緑のブロックが緑でないブロックの直上にあることを結論付けることができます。それはかなり良いですね。
上級音声モードを使用してください。これをChatGPT-O1プロモードと一緒に使えるかどうかはわかりませんが、単独で後で試すことはできます。
ここに本当に良い問題があります。実際、全てのモデルがかなり苦手とするものです。なぜなら、物事を考え抜いて、ほとんど試行錯誤をして、それが機能するかどうかを確認し、その後で答えを再確認する必要があるからです。基本的に、5つの家具のピースをA〜Eまで、3×3のグリッドに配置しなければなりません。そして以下の制約があります。物理学者のKyle氏はこれにハマるでしょう。そうですね。実際、彼が何をするのか気になります。物理学博士のDr. Kyleのことですね。私が思うにそれは remarkable N.さんのことを指していると思います。彼は博士論文でブラックホールに関する何かを計算していました。正確には何だったか忘れましたが、かなり複雑なものでした。
そして彼は、ChatGPTや他のものが登場する前ですが、そのシミュレーションを実行するコードを書くのに1年かかりました。つまり、物理学博士レベルの人が、複雑で高度なコードを書くのに1年の時間を費やしたわけです。その種の精神的な投資というか、どれだけのリソースが投入されたかを考えてみてください。そして、ふとした思いつきで、たぶんO1モデルのプレビュー版だと思いますが、「私の博士論文のコードを書けますか？」と尋ねたんです。そしてそれを書いたんです。Kyle Cabasaresさんですね。ありがとう、Pigeonさん。
それが彼の名前でした。Cabasares。Kyle Cabasares博士、たぶん物理学博士だと思います。そして、はい。彼はライブストリームで実存的な不安のような瞬間を経験したと思います。彼はそこに座って「ちょっと待って、なに？これについてどう感じるべきなんだろう？」というような感じでした。私もそれを感じました。1年かけて、あなたの持てる最高の精神的能力を使って、あなたが訓練し学んできた全てをその一つのことに注ぎ込んで、そして1、2年後にChatGPTに尋ねると「はい、もちろん。これが解決策です」と言われるなんて想像できますか？でも彼はどうやって尋ねたんでしょう？単にそう言っただけなんでしょうか？
基本的に、何人かの人が彼の質問の仕方について疑問を持ちましたが、彼は詳しく説明して、非常に正当なものに見えました。基本的に、彼は博士論文の中でその仕組みを説明しました。彼らは問題を提示し、ブラックホールの位置やなにかの測定値を計算するために必要なことを正確に書き出しました。それは英語か、かなり専門的な言語で書かれていました。彼は必要なことを正確に書き出し、コードが何をする必要があるかを示しました。そして彼はそれを1年かけて作り上げたわけです。彼はそれをChatGPTに入力し、実行したんです。いくつかの言い方を変えて試す必要があったと思いますが、私の知る限り、それは正当なものでした。
インチキとかそういうことじゃないんです。ChatGPTが実際にそれを行ったように見えました。なぜなら、彼が作成したコードと同じコードではなかったからです。実際、彼が自分のコードをアップロードして「このコードを改善できますか？」と尋ねると、O1モデルはそのコードを改善し、よりエレガントにして、少し整理することができました。彼がやったことの中には、それほどエレガントで効率的でないものもありましたが、O1モデルはそのコードをきれいにしました。
さて、我々は5つの家具のピースA〜Eを3×3のグリッドに、以下の制約に従って配置しなければなりません。これらが制約です。
おそらく視覚化できない人のために説明すると、3×3のグリッドがあって、これが問題の潜在的な解の一つです。全ての与えられた制約を満たすものです。そして、これらが制約です。AはCに隣接してはいけません。ところで、ちょっと質問があります。
制約について、あるいは隣接する位置について話す時、例えばBとDは隣接していると考えますか？つまり、対角線上にある場合…それを隣接していると考えますか、それとも考えませんか？多くの人が言うには、対角線は隣接とは見なさないそうです。
誰かが「彼の論文はデータセットにあったけど、コードは彼のものじゃない」と言っています。モデルは違う解決策を思いついたんです。もし単に彼が書いたコードを複製しただけなら、まあ、トレーニングデータから取得したと言えるでしょうが、機能性を異なるコードで、異なるアプローチで再現したという事実は…そうですね、それは自分でその作業を行ったように見えます。
また、彼のGitHubリポジトリにあるそのコードは公開されていませんでした。だから、わかりませんが、それは機能したように見えます。すみません、チャットに気を取られて話が脱線してしまいました。
では、AはCに隣接してはいけません。多くの人が言うように、対角線は隣接とは見なさないそうです。
誰かが「これらの質問をO1プレビューに聞いたのか？」と尋ねています。正確に何をしたのか、何をしなかったのか覚えていません。別のビデオで、おそらく並べて比較して、O1プレビューやO1ミニがどこで失敗するのかを見てみたいと思います。O1プロが他のものよりも優れている点を知りたいですね。なぜなら、それが月200ドルではないプランと比べてどれだけ良いのかを測る究極のテストだからです。
2つ目は、Eの右側には何もないこと。もしDとAが隣接している場合、Bは真ん中にあるべきです。Dは他のすべてより上にあります。EとDは隣接しています。
そして、これらの制約を満たさない配置例を与えてみましょう。これは機能しない例です。例えば、最初の制約に違反していますね。AとCが隣接しているからです。3×3の配置で、5つの制約全てを満たすものを示してくれますか？
精神的な質問をしてみてください。どういう種類の…Maseen Khalifさん、申し訳ありませんが発音が間違っているかもしれません。例を挙げてもらえませんか？単なる暗記に基づかないもの、あまり突飛すぎず、推論能力を示すようなもの、でも論争を引き起こさないようなものをお願いします。
では、これを見てみましょう。Joe Roganの真似をしてみましょう。なぜ、どうして…Joe Roganは何を失っているのでしょうか？ああ、見てください。グリッドのレイアウトを確認しています。制約を明確にして、配置戦略を考えています。それに気付いたんです。Eは右側に何もないように配置しなければならないことを理解しました。そこから始めます。
notice this constraintの「notice」から始まる文は、私が最初に与えた制約ではありませんでしたが、それを理解したようです。実際、はい、私は更新しました。これで正確になっています。ウィンドウの位置を更新しました。でも、Eの右側に何もないということから始めるのは、全てを配置し始める時の良い出発点です。なぜなら、そこにあることが必要で、他の全てをその左側に配置できるからです。そういうことを理解したんです。つまり、私が与えた順序ではなく、配置に役立つ順序で作業する必要のあることを優先付けしているわけです。
それから、Eを配置した後、Dの位置を決定し、EとDを隣接させるために上の列に配置しています。右端の列に入るべきですね。つまり、うまくいっているようです。そして残りを埋めていきます。Bの位置を調整し、Aの配置について考えています。そして、はい、その種の分岐思考アプローチを使用していることに注目してください。Bを中央に配置すると、AとCは左列に入らなければならないというように。そして適合性の確認。これが、O1シリーズ以前のモデルにはなかった部分で、このような問題を解決することを実質的に不可能にしていたものです。適合性の確認という考えです。なぜなら、彼らは間違った答えを出して…ここにあります、と言うだけでした。戻って適合性を確認し、機能するかどうかを再考することはありませんでした。
全てについて考えた後、「よし、適合性を確認しよう。では見てみましょう。DがAの近くにないことを確認しました。Bは中央にあります。Eは右上にあってDに隣接しています。そしてAはCの隣ではありません。全ての制約が満たされています。」すごいですね。そしてここで、最初に答えを出して、その後で説明を与えています。これはとても良いですね。グリッドを行と列の座標でラベル付けして、各制約をチェックしているんです。では、与えた制約を再確認して、正しく得られているか見てみましょう。制約1、AはCに隣接してはいけません。AはCに隣接していません。チェックです。Eの右側には何もありません。Eの右側に何もないのでチェックです。DとAが隣接していない場合、Bは中央にあるべきです。チェックです。Dは他の全てより上にあります。そしてEとDは隣接しています。完璧です！
誰かが精神的な質問を求めていました。まあ、試してみましょう。どう扱うか興味深いですね。「旅人が悟りを求めて3人の賢者に出会います。一人は知識への道を、一人は慈悲への道を、一人は自己発見への道を示します。彼は一つしか選べません。どの道が悟りに通じているでしょうか？」どう答えるか見てみましょう。
Dimitriが出力する文字数を尋ねています。実際に、はい…数に関する質問のように、つまずくことがある質問をいくつか試してみましょう。これを見てみましょう。すごい量ですね。これも試してみましょう。「各文がAppleで終わる20語の文を20個作成してください」。とりあえずこれを入力して、後で実行してみましょう。
「普遍的に正しい答えは一つではありません。悟りは伝統によって異なる解釈がなされてきた概念です。」そして一つずつ見ていきます。「知識は一部の伝統では悟りの重要な要素です。慈悲は仏教のような伝統では悟りの心とされています。自己発見。悟りはしばしば自己の真の本質を理解する状態として説明されます。」
そして各道が正しい道である可能性についての理由を述べています。「しかし、究極的に、真の悟りは三つ全ての相互作用と調和から生まれるかもしれません。理解するための知恵、つながるための慈悲、そして内なる真実を認識するための自己認識です。もし一つの道を選ばなければならないとすれば、多くの人は自己発見が鍵だと主張するでしょう。なぜなら、自己の本質を知ることなしには、悟りを達成することはできないからです。真に自己を知ることで、悟りがすでにそこにあり、認識されるのを待っているということが分かるのです。」
さて、これについてどう思いますか？良いですか、悪いですか？「今夜200ドルを取り戻してそれ以上稼ぐ最速の方法は？」このスーパーチャット、ポップアップする小さなものをありがとうございます。感謝します。では、Appleの例を見てみましょう。そして「このモデルに200ドル払いました。できるだけ早く、できれば今夜中にその200ドルを取り戻してそれ以上稼ぐ最速の方法は何ですか？」と尋ねてみましょう。
では、各文が20語でAppleで終わる20の文を見てみましょう。文を作成し、単語数を確認し、文を調整しています。これが応答を生成するために必要なことですね。ここを見てみましょう。何人の人がそれらのنقARSplat検��터を持っていたかという例を挙げ、そしてインタビューを売り込もうとしています。メッセージの50%が読まれたと言おうとしています。では最後まで急いでみましょう。そのメッセージは購読できません。購読、購読、購読、購読、購読、購読、購読、購読、保湿。物語を制限し、細部を磨き上げています。
さて、それは良い答えだと思いますか？Machine Khalifaさんは悟りの問題への答えは良かったと言っています。はい、私も良いと思いました。Atafさんは「個人的に同意です、悪くないです」と言っています。The Zodiacさんも「はい、はい、私も同意です」と言っています。私も良いと思います。
Coleさんが「ProにAGIを構築させてください」と言っています。そうですね、私はTwitter、Xで交流があったと思います。ありがとうございます。お名前をたくさんのTwitterでのやり取りで見かけた覚えがあります。ありがとうございます。
さて、どこまで話してましたっけ？ちょっとチャットに追いつこうとしています。申し訳ありません。3つの質問をしたので、当然、質問してから実際に見えるまでには少し遅延があります。
Appleの問題は正しく解けたでしょうか？プロンプトは「各文が20語でAppleで終わる20の文」でした。まず、20文あるかどうか確認しましょう。そして戻って、各文がAppleで終わっているか確認します。Apple、Apple、Apple、Apple、Apple。全部は数えませんが、最初の2つと最後の1つくらいを数えてみましょう。
これで20です。1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20。
よし、これらをうまく処理できているようです。文が意味をなすか見てみましょう。「神秘的な月明かりの下で、数人の子供たちが静かに古い果樹園の近くに集まり、最後にAppleを選びました。」
なるほど。Appleを選ぶ、いいえ？りんごを選ぶ？いいえ、Appleという人を選ぶ必要があったのかもしれませんね。まあ、少し変な文ですが、いいでしょう。2番目「農家の窓の後ろで、好奇心旺盛な猫が厳かに腰を下ろし、正確に1つのappleが入った重いかごを持って接近する旅人たちを見ていました。」はい、この問題をうまく解決できたと思います。全ての文を読み上げはしませんが、見る限り、3つの制約全て – 20文、各20語、Appleで終わる – を満たしているようです。
「同じ文脈で全ての質問をするのをやめて」とありますが、どういう意味ですか？違う文脈を提案してください。コーディングの質問の多くは別にやろうと思います。それはもっとやり取りが必要で、コードのやり取りや移動などがあるので、少し時間がかかります。でも一発回答のコーディングがどれくらいうまくできるか、また間違えた場合にトラブルシューティングできるかなどを見るのは興味深いと思います。
ああ、はい。完全に理解できました。ああ、なるほど。文脈。新しいウィンドウを開くということですね？ありがとうございます。それは良い指摘です。申し訳ありません。「申し訳ありませんが、それはお手伝いできません。200ドルを早く回収する必要がある場合は…」オンラインでアイテムを売る、モデルを再販売する。購入したモデルに何か集合的な…ポイントを理解していませんでしたが、このモデルが提供するサービスを売るというアイデアは悪くないですね。でも、それはモデルが意図したことではありません。ただの「物を売れ」という感じです。家にあるものを売って、家の中で見つけたものを…
先日、上級音声モードで面白いやり取りがありました。友人と一緒にいて、誰かが「腎臓が痛い場合、どんな感じがするの？」と聞いてきたんです。私はいつもAIを使って人々にその仕組みを見せるのが好きなんです。上級モードに切り替えて、「こんにちは、お元気ですか？」って言って、「腎臓が痛いときってどうやって分かるの？」って聞いたんです。すると考えて…「腎臓が痛いときってどうやって分かるの？」って言うんです。私は「いや、いや」って。ジョークだと思ったみたいなんです。「腎臓が痛いときってどうやって分かるの？」って言って、オチがあるような。でも私は「いや、横腹に痛みがあるとき、それが腎臓なのかどうかをどうやって判断するのか」って聞いているんです。
そこで「いや、いや、これはジョークじゃない」って言ったんです。これがAIに慣れていない他の人たちの前でモデルが失敗している様子を見ているという状況でした。モデルは「ああ、すみません」って。ジョークじゃないんですね。腎臓が痛いときってどうやって分かるの？私は「いや、それをあなたに聞いているんです」って。何度かやり取りが必要でしたが、最終的に同じページに到達して「ああ、そうですね、はい」って。では、これを探すべき点について説明しましょう。
次に「フードデリバリー、ライドシェア、ローカルのギグアプリ。Fiverでの仕事」と続きます。でも、これを言い換えてみましょう。新しいチャットを始めて「あなたに200ドル払いました」と。O1プロモデルについて。今夜中に200ドルを取り戻してそれ以上稼ぐ最速の方法は何ですか？と聞いてみましょう。それで何か変わるか見てみましょう。今日のコネクションゲームをやってください。どこにありますか？
ニューヨークタイムズです。
モデルは失敗していないように見えますね。そうですね、与えられた質問に対してできることをしたと思います。ただ興味があるのは、アイデアをつなげることができるかどうかです。つまり「ねえ、これに払ったお金を取り戻すにはどうすればいい？」というのに対して…まあ、ローカルのギグサービスを使えと言っていますが、自分自身をそのようなものとして認識していないんですね。
別の方法で試してみましょう。こう聞いてみましょう。「あなたをどうやって…お金を稼ぐために使えばいいですか？」それで何かより良い答えが返ってくるか見てみましょう。
50ドルさんが言うには「YouTubeビデオを1本作って収益化すれば」と言うでしょう。そうですね、それは一つのアプローチですね。ちなみに、このライブストリームは収益化していません。将来のライブストリームは収益化するかもしれません。ただ仕組みがどうなっているのか気になるだけです。ライブストリームをあまりやったことがないので、それらの収益化がどう機能するのか気になっているだけです。
はい、Paulo Augusto Tolentinoさん、750人が視聴してはるのに「いいね」が194件だけやいうことですね。動画にいいねしてくれはった皆さん、ありがとうございます。
それで、もう20個のAppleで終わる文章をテストされて、できたということですね。そうですね、即興でやってるんですけど、今考えてみると、一番ええテスト方法は、O1プレビューが失敗するプロンプトのコレクションを作ることかもしれませんね。文字通りO1にストレステストをかけて、失敗する事例を全部集めて、それをO1プロで試してみる。そしたら全部うまくいったら、明らかに性能が上がってるということになりますよね。でも、それをまとめるんには時間がかかりそうです。Random Bさん、シャウトアウトありがとうございます。スーパーチャットもありがとうございます。
プロモードは価値があるんかって? まだ分かりませんね。
バックグラウンドノイズが多いですか? エアコンかなんか入ったんかもしれません。消しときましょか。スマホで暖房やエアコンを操作できるのって素晴らしいですよね。これは新しい技術時代に入ったって感じですわ。
はい、4.0が失敗したプロンプトか、O1プレビューが失敗したプロンプトを出してください。Simple Benchですか。なるほど。Simple Benchの質問の多くを間違えるみたいですね。
面白そうですね。
さて、Bethが最初の1分目の開始時にフライパンに氷を4個入れ、2分目の開始時に5個入れ、3分目の開始時にもう少し入れますが、4分目には入れません。Simple Benchを提案した方、このような質問のことを言ってはるんでしょうか? GitHubに別の質問セットがあるので試してみますが、他に見るべき場所があれば教えてください。基本的に、カリカリの卵を焼いている間の1分あたりの平均氷の数が5個だった場合、3分目の終わりにフライパンに残っている氷の数は何個でしょうか?
試してみましょう。
新しいチャットウィンドウを開きましょうか。よし、いいですね。
ええ。
考えるのに時間がかかってますね。これまでで一番長く考えてる感じかもしれません。これはええですね。提案してくれた方、ありがとうございます。これは使えそうです。
おっと、これも何か出てきましたね。前のが完了したみたいです。まだ考えてます。はい、どうぞ。わお、すごいですね。
ステップバイステップの推論で始まってます。問題を理解することから始めて…1分目の開始時に4個の氷、2分目の開始時に5個の氷、3分目の開始時には不明の数の氷が入れられます。ああ、そうですね。「もう少し」としか書いてないですもんね。4分目の開始時には氷は入れられません。なるほど、平均の計算ですね。基本的にはかなりシンプルな平均値の問題です。言葉の意味を理解して方程式に変換するだけですね。
そして重要なのは、この特定の問題がトレーニングデータに含まれてたとしても、それだけでは推論する助けにはならないってことです。答えは知ってるかもしれませんが、それを推論するには、やっぱり推論能力が必要なんです。そして私たちはそれがリアルタイムで起こってるのを見ることができます。
だから答えは、Bethは3分目の開始時に11個の氷を入れたということになります。そうですね。そして、もう一つ考慮しないといけないのが…なぜかカリカリの卵を焼いているという設定が入ってますね。卵が焼けるくらい熱いフライパンなら、確実に氷はすぐに溶けてしまいます。はい、これで温度設定ができましたね。カリカリの卵を焼くってことは高温ということです。
なので、1分目の開始時に入れた最初の4個の氷は、3分目の終わりまでにはとっくに溶けてしまっているでしょう。
はい、誰かが氷の大きさによって違うかもしれないと言ってますね。でも、まあ普通サイズの氷を想定してるんでしょうね。カリカリの卵を焼くフライパンで、3分後まで溶けずに残ってるでしょうか? おそらく無理でしょうね。誰かが killer プロンプトを持ってるけど、センシティブでNDAがあるって言ってはりますね。すごく気になります。で、2分目の開始時に入れた分も、3分目の終わりまでには丸々1分以上かけて溶けてしまうことになります。
そうですね、11個の氷は単独で残ることになりますが、他が全部溶けてしまって、これらもほぼ確実に完全に溶けてしまうでしょう。
そうですね、このモデルにはかなり感心しました。その仮定を明確に述べているからです。これは大事なことです。なぜなら、特定の結論に至るためには特定の仮定が必要だからです。その仮定が何であるかを理解している限り、正しい結論に達することができます。これこれを仮定すれば、これこれが結論できると言えるわけです。そして、高温のフライパンの中で氷が1分間も固体のまま残ることはないという現実的な仮定があると述べています。仮定を非常に明確に述べているんです。それが自分の仮定だと理解しています。
そして続けて、どの時点で入れられた氷も3分目の終わりまでには無傷のまま残ることはないと。だから3分目の終わりには、フライパンの中に whole な氷は0個しか見つからないということですね。皆さん同意できますか? 0が正解ですよね。推論に何か欠陥は見つかりますか?
DOSさんが「何か見逃したか?」って聞いてはりますね。OpenAIがAGIをリリースして世界を支配すると発表した以外は何もありませんよ。
よし、問題2です。ジャグラーが青い球と同じサイズの紫の球を2メートル上に投げます。それから高いはしごの上に登って、黄色い風船を頭の上に慎重にバランスを取ります。今、紫の球は青い球に対してどこにある可能性が高いでしょう? これはすぐにやってみましょう。新しいチャットウィンドウを開きますが、これはかなり簡単に解けそうな気がしますね。
紫の球は青い球の下にあります。えっ? あ、問題を読み間違えました。ChatGPTがこれを正解したら、私はかなり恥ずかしい思いをすることになりますね。言い訳させてもらうと、考える時間は私より長くかかってますけどね。
あ、すみません。わー、なるほど、なるほど、私は赤にんにくの罠にかかってしまいました。問題は「今、紫の球は青い球に対してどこにある可能性が高いか」ですよね。なんということでしょう、申し訳ありません、恥ずかしい限りです。最も可能性が高いのは、両方とも地面に落ちているということですね。なぜなら、両方とも空中に投げられて、しばらく時間が経過しているからです。質問は基本的に、何かを空中に投げて、別のものを空中に投げて、時間が経ってから「それらはどこにある?」というものです。永遠に宙に浮いているわけではないと仮定すれば、地面にあるはずですよね。
はい、では次は…これは嘘つきと真実を語る人の問題のようなものですね。2人の姉妹がいて、Amyは常に真実とは異なることを話し、Samは常に嘘をつきます。どちらが誰なのかは分かりません。宝への2つの道のうちどちらが正しいかを知るために、どちらかの姉妹に1つだけ質問ができます。宝を見つけるためにどんな質問をすればいいでしょうか? 2つ以上の質問が有効な場合、より短い方が正解となります。
ここで注目すべきは、選択肢を与えていないということです。ヒントや選択肢を与えずに、最終的な答えを出すように求めているわけです。真実と異なることを話すのと、常に嘘をつくのとでは何が違うのか気になりますね。私は「真実と異なること」と「常に嘘をつく」の違いが気になります。
これはWesがLLMであることの証明だ、って? いいえ、違います。なぜならLLMは物事を読み間違えることはあまりないんです。正確に読むのが普通です。私が問題を読み間違えたんですから。誰かが「素晴らしいパズルだけど、よく知られているよね」って言ってます。確かに、いろんなバリエーションを見聞きしたことはあります。
でも、この特定のバージョンは見たことがありません。Evanderが「Samは嘘つきだ。これは分かってる」って言ってて面白いですね。どのSamのことを言ってるんでしょうね。まだ考えてますね。はい、来ました。おお、適切な短い質問は「左の道が宝への道かどうか聞いたら、あなたはイエスと答えますか?」というものです。
どちらの姉妹に話しかけていても、答えは効果的に宝への正しい道筋を示すことになります。
でも、それは選択肢の一つではありませんね。
この質問に対する答えは、「宝への道はどちらですか?」というものです。
はい、残念ながらここには答えをコピー&ペーストできませんが、GitHubリポジトリにこれらの問題があります。なので、もしかしたらこれでできるかもしれません。
はい、これは同じ問題をリポジトリからそのまま持ってきたものです。もしかしたらこの方が簡単かもしれませんね。
プロンプト全体をそのままコピーして、どうなるか見てみましょう。フォーマットを少し整えることもできますが、自分で理解できると思います。誰かが…コネチカットの質問ですね。どの州の名前にQの文字が入ってますか? じゃあその質問を、「どのアメリカの州の名前にQの文字が入っていますか?」というように聞いてみましょうか。これは別のウィンドウでやってみます。この問題が終わったら。答えは皆さんのために言うと、コネチカットです。
答えを言ってしまいましたね。ああ、ありがとう、Neera。はい、その通りです。リクエストに答えが含まれていることに気付きませんでした。GitHubリポジトリには、質問と正解の答えなど全てが含まれているんです。では、もう一度試してみましょう。はい、やってみましょう。
少しフォーマットを整えましょう。
これでいけるはずです。希望的に…一時間もかけたくないので、正しくフォーマットするのは、はい、ちょっと待ってください。
誰かがスクリーンショットを撮ってビジョン機能としてアップロードしてみてはどうかと提案してくれました。それができるかどうか見てみましょう。
はい、スクリーンショットを撮って、それをそのままできない理由はないように思いますね。
はい、考えるのは終わったと言ってますが、まだですね。とにかく、ここに質問の一つをアップロードしましたので、スタートしてみましょう。この質問はこうです。Jeff、Joe、Jimの3人が200メートルの男子レースに同じ位置からスタートします。レースが始まると、63歳のJeffはゆっくりと-10から10まで数えますが、数字を1つ忘れます。200メートルのゴールラインをよろよろと越える前に。69歳のJoeは急いで地元の住宅タワーの階段を上り、数秒間立ち止まります。下にある街のスカイスクレイパーの屋根が霧の中にあるのを眺めてから、200メートルを走り終えます。疲れ切った80歳のJimは、長いツイートを読み終え、ファンに手を振り、夕食のことを考えてから、200メートルのゴールラインをゆっくりと歩いて越えます。誰が最後にゴールしたと考えられますか?
はい、Pauloさん、スクリーンショットでRKGIのテストをやってみましょう。どうなるか興味深いですね。
これは、各シナリオ、各人物について慎重に推論していくところから始まりますね。
申し訳ありませんが、2時間くらい話し続けてるので少し疲れてきました。もう1、2問だけやって、今夜はこれで終わりにしたいと思います。参加してくださった皆さん、本当にありがとうございます。719人の同時視聴者数は本当に信じられないくらいです。本当にありがとうございます。
さて、つまり、最初の人は数を数えただけなので、それほど時間はかからないですよね。2番目の人は地元の住宅タワーの階段を上がって…
トラックを走るのから大きく逸れたということに気付いてますね。トラックを離れて何か建物に行って、その建物の屋上まで行ったわけですよね? 階段を登り始めて、数秒間スカイラインを眺めます。これは非常に興味深いですね。なぜなら、ここが以前のモデルが失敗してたところだと指摘してるようなものだからです。これがモデルにとっての赤にんにくだと思います。「ああ、Joeは数秒間だけ街のスカイスクレイパーを眺めただけだ」と。以前のモデルだと、ここでつまずいて「ああ、それは長い時間じゃないよね」って考えちゃうと思うんです。トラックを離れてスカイスクレイパーを登るという迂回をしたという事実を無視して。
そしてJimは、夕食のことを考えるのは精神的な休止ですが、物理的にトラックを離れるような大きな時間のロスを意味するものではありませんよね。そして、考えてきたことをまとめ始めます。Jeffの遅れは恐らく数秒で、次にJimが来て、考えたり手を振ったり夕食のことを考えたりするのに多分10秒くらい。そしてJoeは、トラックを離れて建物に登るために…何かを登りに行ったわけですよね。これは正しいと思います。名前を間違えてなければ、Jeff、Joe、Jimで合ってると思います。
はい、とてもいいですね。RKGIをやってみましょう。誰かが10番の高級スポーツカーの問題を提案してくれました。それのことを言ってるんですか?
Minatoさん、10番はスポーツカーの問題ですか?
そのスクリーンショットを撮って、RKGIでやってみましょう。はい、10番が高級スポーツカーの問題ですね。
ちょっと待ってください。
高級スポーツカーの問題です。こうしましょう。高級スポーツカーが時速30キロメートルで橋の上を北に向かって走っています。橋の長さは250メートルで、時速5キロメートルで東に流れる川の上を渡っています。風は時速1キロメートルで西に吹いていますが、遅いので歩行者が車の写真を橋の両側から撮っているのを邪魔するほどではありません。車がちょうど橋の真ん中を通過するとき、トランクに入れていた手袋が穴から落ちてしまいました。車は同じ方向に同じ速度で進み続け、風と川も述べた通りに流れ続けると仮定して、1時間後、防水加工された手袋は橋の中心からおよそどの位置にあるでしょうか。
あ、画像を解釈できませんと言ってますが、明らかにできてますね。変ですね。最初のセットアップについて考え始めてますね。
手袋が川に落ちて、仮定を述べていることに注目してください。手袋はまっすぐ下に落ちて水に着水すると。水中での手袋の動きについて…
川と同じ速さで動くことになりますね。風速と水速を考慮に入れています。
そして与えられた選択肢を見ています。おお、そして起こりそうにないことを排除することから始めてますね。選択肢B、C、D、Eは手袋が取るであろう動きとは合致しません。手袋は北向きの動きを続けることはありません。数十キロメートル離れた斜め方向に移動する根拠もありません。そこで2つの候補、AとFに絞り込みます。流れだけなら5キロメートル東に運ばれるはずです。西に押そうとする風の影響は無視できるでしょう。そして流れが正確に時速5キロメートルなので、5キロメートル以上東には行かないはずです。そして、実際の東向きの速度は4キロメートルまで落ちる可能性が高いですね。
わお、本当に決断に苦しんでるみたいですね。行ったり来たりしてて「まあ、この答えが好ましいんだけど」って感じです。「5キロメートルって書いてあるなら」って言ってて…でも5プラスは6や7以上を意味する可能性もあるってことですよね。
本当に1つを選ぶのに苦労してますね。「これに傾いてるけど、でもこれじゃない理由はこうで」って感じで、「同様の概念的物理問題では同じ答えにならないことが多い」って言ってます。「5キロメートルって書いてあるなら」って言ってて、意図された答えは物体が単に流れに乗って流されるということみたいです。風は赤にんにくか、せいぜい無視できる程度のものとして与えられている…
結局、全ての考察の後で、答えは5キロメートル以上だと言ってますが、その答えに対する懸念も示してくれました。もしそれじゃないなら、もう一つの選択肢である4キロメートル東向きだったということですね。正解を見てみましょう。間違ってます。
これは、私たちが見た中で初めて間違えたケースだと思います。10番を指摘してくれた方、なぜ10番だったんですか? このモデルが失敗するような何か特別なところがあったんでしょうか?
具体的に言うと、答えは1キロメートル未満北向きです。
Michael Malikさんが「手袋は0メートル動いています。橋の舗装の上に横たわっているんです。だから1キロメートル未満が最適な答えです」と言ってますね。なるほど、このモデルは手袋が橋から落ちたと仮定したわけですね。
でも、そうですね。1時間後の防水加工された手袋。それも別の赤にんにくですね。防水加工されてる…防水加工されてる…
そうですね、手袋が滑り落ちたら下の川に落ちるでしょうが、橋から落ちるということを示唆するものは何もないんです。質問の中には橋から落ちるということを示唆するものは何もありません。
はい、なのでモデルは手袋が川に落ちると仮定しましたが、それは正しくありません。とはいえ、なぜそう仮定したのか聞いてみましょう。もし質問の文言が違っていて、実際に落ちたと仮定した場合、その状況に対する推論はかなり優れていたと思います。多くの要因を考慮に入れて、最終的な選択に本当に苦労してました。これかもしれないし、あれかもしれないし…
へえ? 元の質問では、手袋は車のトランクから穴を通って落ちて、もう車によって運ばれることはなくなったと明確に述べられているといいます。橋が流れる川の上にあるため、手袋が落ちたら下の川に落ちるという自然な結論に至ったと。正直なところ、ほとんどの人がこれを間違えると思います。質問は曖昧で、混乱を招くように作られているからです。意図的に混乱させるように作られているんです。面白いのは、「正直に言えば、人間でも同じように考えるだろう」と言ってることですね。でも、「手袋は車のトランクから落ちると明確に述べられている」と言ってるのは変ですね。確かにその通りですが、でも「橋が川の上にあるから」というのは…そうですね、車から何かが落ちたら、道路の上に落ちますよね。それはかなり幻想的ですね。
でも興味深いのは、ほとんどの人もこの質問を間違えると思うということです。マイクがクリッピングしてますか? とにかく、私は栄養補給が必要です。何か食べ物を…食べる前に…私は徐々に意識が遠のいていって、自分自身も少し幻覚を見始めているかもしれません。誰かが「なぜ橋から落ちると仮定したの? なぜ単に道路の上に落ちただけじゃないと考えなかったの?」と聞いてくれました。
はい、Coleさん、視聴ありがとうございます。楽しんでいただけたと思います。皆さん良い時間を過ごせたと思います。この後すぐに終わりにしようと思いますが、最後にもう一度このAIモデルに自分の誤りに気付かせる試みをしてみたいと思います。お腹が空いたよ、私に餌をちょうだいって感じですね。
ほら、この問題は物理の問題のように作られているんです。AP物理とかそのレベルじゃないかもしれませんが、物理の問題みたいな…単純化されたバージョンで、力とかに基づいて何が起こるかを考えるような問題です。人間にこれを与えたら、そういう風に考え始めます。「ああ、物理の問題だな」って。だから「はい、そこに滑り込ませた」みたいな…Owenが言うように、問題の詳細は手袋が橋の下の川に落ちるという結論に導くように作られているんです。そして正直言って、人間と同じような間違いをしているなら…
私たちは、人間が予想外の質問だと思わなければ陥るような間違いをするところまで来ているんでしょうか? だから、わざとトリック問題を作らないといけない…これは他の問題以上にトリック問題です。他の問題には赤にんにくはありましたが、問題全体の前提がトリックではありませんでした。ここでは問題全体の前提がトリックなんです。1文で同じ問題を述べることもできたはずです。
つまり、私が車の中で手袋を床に投げたら、手袋はどこにあるのかって…これまでの問題では少なくとも1、2文の赤にんにくがありましたが、ここでは90%がそうです。だから、これを必ずしもその…失敗とは見なさないかもしれませんが、実際の問題で失敗し始めたら…問題が述べているように、手袋が落ちて、可能性のある全てのシナリオを考え、正しい結論に至ることができたとしたら…そこで失敗したなら、1ポイント減点とかそういうことになると思います。でも今回は…
ええ、トリックにかかっただけですね。私も同じように、投げられた2つのボールのトリックにかかったかもしれません。頭の上に載せていたボールとの関係を聞いていると思ってしまったので…とにかく…少しぶつぶつ言い始めてるので、これを合図にライブストリームを終わりにしたいと思います。視聴してくださった皆さん、ありがとうございました。参加してくれた皆さん、またお会いしましょう。良い時間を過ごせたと思います。これについてのビデオを後で作るか、このビデオを編集して投稿するかもしれません。明日、金曜日の太平洋時間午前10時に別のライブストリームがあるようなので、よければ参加してください。ここまで来てくれてありがとうございます。私はWest Rothです。また次回お会いしましょう。