この動画は、ChatGPT-5がリリースされる前にAIについて理解するための包括的なガイドである。2025年のAIプラットフォームシフトを2007年のiPhone発売に例え、ChatGPT-5のリリース時期や予想される機能、AIの基本的な仕組みから機械学習の歴史、トランスフォーマー革命まで、平易な英語で解説している。さらに、AIを学ぶためのリソースとして推奨されるYouTubeチャンネルや、AI分野で信頼できる情報源となる11人の専門家を紹介し、AIの「iPhone的瞬間」に備えるための実践的な知識を提供している。

ChatGPT-5リリース前の準備
この動画は一つのことを行います。ChatGPT-5が登場してすべてを再び変える前に、AIを理解するのに役立ちます。私は「ネイト、手遅れになる前にAIを実際に理解するにはどうしたらいいですか」「ネイト、私はAIに遅れています」「ネイト、どうやって追いつけばいいか分かりません」と言うたくさんのダイレクトメッセージを受け取ります。
この動画はあなたのためのものです。そのような気持ちを持つ誰にでも向けたものです。また、ChatGPT-5の箱の中に何があるのか、そして私たちがこれまでに知っていることを知りたい方にも向けています。
今日私たちが置かれているこの瞬間から始めましょう。これは統合の夏です。私はこれを2007年のiPhone発売と比較しています。
基本的に、ここから2025年の10月、11月、12月まで起こることは、2023年と2024年のモデルを完全に時代遅れに見せることになります。AI自体が今、プラットフォームシフトを経験しています。そして、ChatGPT-5は、より統合された専門的な企業体験に向けたその根本的なシフトを強調する今年の大きなリリースの一つです。
もしあなたがそれを活用したいなら、それに備えたいなら、今準備することが理にかなっています。今追いつくことが理にかなっています。そうすれば、さらに遅れを感じることがないでしょう。
ChatGPT-5について分かっていること
私たちがカバーするのは、ChatGPT-5について知っているすべてです。AIの物語について平易な英語で簡潔に話します。数学の学位を持つ必要はありません。活用できるリソースについて話します。はい、それらはYouTubeにあります。そして、この夏に起こるすべてのノイズの中で信号を捉えるためにフォローすべき人々について話します。なぜなら、たくさんのノイズがあるからです。
カバーすることがたくさんありますが、素早くやります。
まず、リリース時期です。私たちは7月初旬、第3四半期のいつでも可能だと考えています。OpenAIチームが来週から7月4日頃まで休暇を取ることは分かっています。彼らは非常に懸命に働いているので、ロールアウトのプレッシャーの前に休息を与えることは理にかなっています。
プレッシャーの一部は、モデルを単一の真に統合された脳にまとめることと関係があります。つまり、O1推論モデル、GPT-4の一般知識、音声機能、そして深い検索ツールをすべて一箇所にまとめることです。
サムが言ったように、私たちはあなたと同じくらいモデル選択を嫌っています。それを正しく行うのは本当に困難です。彼がそれを正しく行えるかどうかは分かりませんが、それが確実にChatGPT-5で目指していることです。
予想される機能
機能に関しては、4つの改善分野に注目してください。正確な仕様は分かりませんが、正確な仕様についてはあまり気にしません。なぜなら、通常、モデルが優れているかどうかを確認するには実際に使用する必要があるからです。
改善分野の第一はマルチモダリティです。シームレスな音声の入出力、画像、このリリースでは動画もあるかもしれません。
推論の深さは、限定的な思考の連鎖から本当に信頼できる詳細な問題解決へとシームレスに移行することです。
信頼性は、一万回に一回の良い答えを一貫して表面化することです。ちなみに、これは正しい答えを選ぶために表面下で多くの推論を必要とします。
そして第四にパーソナライゼーションです。メモリ、メール、カレンダー、企業知識などへのアクセスです。これには適応的コンピューティングが必要で、必要な時だけ重いGPU使用となります。そして、これは非常に噂されているJohnny Iveデバイスとうまく整合することから、音声に大きく依存すると思います。
しかし、たとえ適応的コンピューティングであっても、多くのコンピュートコアが必要になります。このモデルを適切にサービスするには、おそらく数万のGPUが必要でしょう。スケールアウトしなければなりません。
そして、それは彼らが正しく行ったと確信せずに行うものではありません。なぜなら、過去一年間のOpenAIの各ローンチで、事前に停電があったことを思い出してください。ローンチ中にスケーリングの問題がしばしばありました。これは2025年の彼らのプレミアローンチです。失敗したくありません。だから時間をかけて、エンジニアリングを正しく行うことを確実にするでしょう。
そして、それが私たちに日付がなく、彼らが日付を発表していない理由の一部です。
開発者への示唆
では、私たちが知っていることに基づく開発者への示唆です。より大きな脳だけでなく、よりスムーズなユーザー体験を期待してください。段階的なロールアウトを期待してください。なぜなら、再び彼らはそれらのGPUを監視するからです。
通常のパターンに従って、プロからプラス、フリーへと進むと予想しますが、可能な限り早く加速しようとするでしょう。これを皆のための旗艦ロールアウトにしたいので、たとえより少ない機能やより少ない知能、または何であれChatGPT-5ライトを得ても、それでもフリーに非常に早く到達すると思います。
アライメント監視のための追加ツーリングを期待してください。それがより大きな要因になると思います。それがどのようなものになるかは分かりません。ただの推測ですが、特にAPIでアライメント監視のためのより多くのレバーを期待します。
実際のパラメータがどのようになるかについては、他の皆と同じように興味があります。しかし、主に、彼らが実際に私たちのプロンプトから推論して、深い研究タスクであろうとはるかに軽いものであろうと、モデルが何をする必要があるかを推論できる単一の一貫した脳を構築できるかどうかを見たいです。
これがChatGPT-5について私たちが知っていることです。
AI基礎:ChatGPT-5への準備
パート2、ChatGPT-5への準備をお手伝いします。そもそもAIとは何でしょうか。はい、そこに行きます。そして平易な英語で行います。
2000年代初頭の古典的機械学習から始めます。機械学習は基本的に、どの詳細が重要かをアルゴリズムに教えることです。2000年代に出てきた一つの例はスパムフィルタリングでした。メール内の感嘆符を数えます。Viagraとのキーワードマッチを探します。それらの特徴を手動でエンコードして、ロジスティック回帰、決定木などを使用します。そして、スパムをフィルタリングするのにアルゴリズムに助けてもらおうとします。
2012年に物事が変わり始めました。GPUが安くなりました。ImageNetのような非常に大きなラベル付きデータセットを手に入れ始め、実際に特徴を自動的に学習するより深いニューラルネットワークを持ちました。より多くのコンピュートを持ったため、コンピュータビジョンのブレークスルーを得ました。
事前に教えられることなく、エッジやテクスチャを決定できることを発見しました。2013年のword2vecで、ネットワークが単語の関係を学習できることを発見しました。有名な例は、ネットワークが王 – 男 + 女 = 女王を学習できることです。
初めて、意味がルールではなくデータから現れることができました。それは他の多くの興味深い発見を解き放ちました。
しかし、私たちはまだ制限されていました。基本的にシーケンシャル処理によって制限されていました。すべてを一度に一つのトークンずつ読む必要がありました。訓練は遅く、これらのモデルは長い文に苦労し、一般的に学者にとってのみ興味深く、企業のほとんどのユースケースで実際の本番環境には入りませんでした。
トランスフォーマー革命
そして2017年にすべてが変わりました。トランスフォーマー革命が起こったのです。「Attention is All You Need」という超有名な論文から始まりました。ぜひチェックしてみることをお勧めします。
注意重みを使用してトークンの関係を示すことができ、それが大規模なGPUスケーリングを解き放ったという洞察が含まれていました。初めて、人間の言語全体にわたって長距離依存関係を追跡できるようになりました。
そして、人間の言語には多くの長距離依存関係があることが分かりました。例として、まだこれを見ているなら、私が数段落前に言及していないにもかかわらず、私がChatGPT-5への準備について話していることを頭の中で知っています。なぜでしょうか。なぜなら、あなたは人間で長距離依存関係を理解できるからです。2017年まで、機械はそれができませんでした。
二つの大きなマクロトレンドが現れました。一つは自己教師あり学習です。もはや手動ラベリングは必要ありませんでした。空白を埋めて次のトークンを予測するように訓練でき、スケールできました。数百万から数十億、数兆のトークンまでスケールできました。
それはスケーリング則につながりました。パフォーマンスがスケールと予測可能な方法で改善することが分かりました。そして、大きいことが確実かつ定量的により良いなら、投資することは理にかなっています。そこには収益があります。それが過去6、7年間のAIへの大規模投資を解き放ちました。
これが簡潔な物語です。
2025年のAIの仕組み
では、2017年、2020年を過ぎて2025年まで早送りします。ちなみに、これはChatGPT-5の基本アーキテクチャと同様に、他の大規模言語モデルと同じように機能します。それらがどのように機能するかを理解することは重要です。
第一に予測です。次の単語を予測するだけというのは本当に些細に聞こえますが、そうではありません。基本的に、スケールを持ち、言語の構造を理解すれば、膨大な量の知識をエンコードできます。その構造、そのスケールを反映したトークンごとに回答を構築でき、条件付き確率であるモデル重みを使用できます。それらは極めて密な情報セットをエンコードできます。
長距離関係をエンコードできます。短距離関係をエンコードできます。文法的類似性について話すことができます。同源語や意味の類似性について話すことができます。私たちが完全には理解していない関係さえエンコードできます。
LLMと重みとエンコーディングについて最も興味深いことの一つは、LLMが私たち自身よりも自然言語を学習するのが得意であるため、私たちが期待したよりも多くのことを言語について学んだということです。それを発明した人々よりも。
埋め込み(エンベッディング)について
では、これらの重みについて話しましょう。私たちはそれらを埋め込みと呼びます。コンピュータは数字で作業する必要があります。だから単語を数字に変換しなければなりません。
テキストは実際には約4文字の部分語であるトークンに分解されます。各トークンは次に高次元ベクトルとしてエンコードされます。これは、空間的な方法で意味をキャプチャする洗練された数値セットを意味します。
埋め込みは、ベクトル化された数値がやや類似しているため、猫が子猫に近いことを発見しますが、猫が大統領に立候補しない限り、民主主義からは遠く離れているでしょう。分かりませんが。
これはすべて訓練中に学習され、意味自体、セマンティック意味に対して数学的操作を行うことを可能にします。これは本当にクールです。
第二に、これは興味深いと言いました。第二にトランスフォーマーエンジンです。すべてのトークンが他のすべてのトークンとの関連性を計算します。それは本当に重要です。
クエリベクトルは異なるキー間の類似性を測定し、値の重み付き平均を作成し、異なる注意ヘッドが異なるパターンを見つけます。これらすべてが合わさると、テキストにおけるパターン作成の数学的に異なる視点となります。
それは非線形の深さを追加します。60以上まで異なるヘッドの層を積み重ねて、依存関係の非常に複雑なキャプチャを得ることができます。これは、人間のテキストの複雑で高忠実度の写真という技術的に洗練された言い方です。
その中の意味を理解できます。AIにテキストを読んで文学的意味を教えてもらうことができる理由です。トランスフォーマーアーキテクチャがOpus 4がヘミングウェイを理解できる理由です。ワイルドですが、実際には数学です。ヘミングウェイが同意したり支持したり奨励したりするかは分かりませんが、実際には数学です。
位置を認識するので、単語の順序は重要で、プロンプト時にそれが見えます。
訓練について
訓練に移ります。これらはすべて、どのように機能するかを理解するためのものです。これらのモデルを訓練する必要があります。目標は次のトークンの予測における誤差を最小化することですが、それをうまく行うのは困難です。
それが困難な理由は、単語が異なる文脈で異なる意味と目標を持つことができるからです。だから、本当に幅広い範囲から多くのデータソースを持つ必要があります。ウェブページ、書籍、新聞、コード、対話の転写、高品質データセット、時には低品質データセット、確実に開始時には低品質データセットです。
今、私たちは真のスケールに到達しています。数兆のトークン、数千のGPU、この大規模で大規模なデータセットでの何週間も何週間もの訓練。そして、はい、彼らはモデルに影響することを知っているため、今はできる限り高品質にしようとします。
あなたがやっているのは勾配降下と呼ばれるもので、基本的に数十億と数兆の次のトークン予測において、モデルの誤り傾向を体系的に最小化しようとすることです。長い時間がかかります。セットアップが非常に複雑で、モデルが大きくなるほど指数関数的に困難になります。
そして、どうでしょう。モデルは大きくなります。これがLlama 4 Behemothがリリースされていない理由の一部です。訓練の実行がうまくいかなかったのです。または、噂によればそうです。ザック、私を攻撃しないでください。
重みは言語パターン、事実、推論をエンコードし、訓練がうまくいくとより良く行います。Sonnet 4が執筆とコードが得意だと噂される理由の一つは、AnthropicがSonnetモデルの訓練データを正しく行うのに時間をかけたからです。
また、Opusについても相互関係があります。Claudeに現れる訓練データに焦点を当てたようなものがあります。そして、それがClaudeの人格、またはClaudeの散文、Claudeのコードが非常に優秀だと言われる理由の一つだと噂されています。確実に私はそのように感じ、私だけではありません。これはClaudeの広告ではありません。多くのモデルを愛しています。
推論について
推論です。推論は、訓練が完了した後、ローンチ日の後、応答を生成する時に起こることです。そして、はい、これはすべて大まかに言って、ChatGPT-5がどのように機能するかです。複数のコンテキスト長とトークン長、または複数のコンテキスト長にわたって作業して意味を推論する際にいくつかのしわがありますが、基本的に同じ骨組みがそこにあり、理解できるように骨組みを与えています。
これはAIがどのように機能するかを理解できるワンストップショップです。
推論では、与えるクエリを取り、良い回答を返したいのです。だから、プロンプトをトークン化し、埋め込みに変換する必要があります。埋め込みが何かは今分かります。
それをトランスフォーマーを通して実行する必要があります。これはそのプロンプトに対応する文脈ベクトルを見つけ出します。それをスコア化し、予測できるすべての可能な未来またはすべての可能なトークンからサンプリング戦略を見つけ出す必要があります。
最も高い確率のトークンを使用する貪欲戦略を持つことができます。ランダム性を制御する温度制御があります。並列パスのためのビーム検索のようなことさえできます。とにかく、サンプルする戦略を見つけ出します。
これは一つのトークンだけのためです。トークンを追加し、すべてを再び行い、停止するまで繰り返します。一貫性は、それを多く行い、多くのフィードバックを与えることから現れます。これが第五ステップに至ります。
これらをどのようにアライメントするかです。第五ステップは、本当に暗いコンテンツを含むすべてを模倣する生のモデルを取り、非常に構造化されたアライメントを与える時です。人間がランキングする人間のフィードバックによる学習を含む強化学習を与えます。システムプロンプトを与え、フォーマットを教えるための厳選された質問と答えを与えます。
目標は、彼らが正直で無害で有用な応答を返すことです。これは解決するのが簡単な分野ではありません。今でも、私たちの応答にある穴と、それらを閉じる方法を見つけ出しています。
おばあちゃんハックはまだ機能します。あなたのおばあちゃんが体調不良であるか亡くなったとほとんどのモデルに言うことができ、モデルはあなたとあなたのおばあちゃんへの同情からやってはいけないことをするでしょう。
ちなみに、私はそこで多くを広めているとは思いません。それは非常によく知られたハックだと思いますが、まだ機能し、それはアライメントの分野です。
今後の発展
この後どこに向かうのか、ChatGPT-5ができると期待される事柄は何でしょうか。RAG(検索拡張生成)は大きくなったものです。基本的に、モデルが新鮮な事実を得るためにデータベースを呼び出すものです。オープンブック試験のようなものです。
これはうまく構築すれば幻覚を減らすことができます。しかし、そのデータのみを見ることを強制する方法でRAGを装着すると、モデルを制約することもできます。そして、そのスペース外で考えることからモデルを妨げ、より多くのデータが必要であることが分かるため、役に立たない方法となります。
私は、モデルがデータを取得して戻ってきて、より広く考えることもできるため、非常に有用なRAGアーキテクチャを見てきました。また、HR政策マニュアルから答えを得て、それがすべてで、あまり内容がなく、誰も使わないような行き止まりのように感じるRAGアーキテクチャも見てきました。だから、RAGは実際に注意深く使用しなければならないものの一つです。
ChatGPT-5が追求すると期待される第二の大きなもの – それを5回言ってみてください – ChatGPT-5が追求するツール使用です。ChatGPT-5には多くのツール使用があるでしょう。
JSON出力、計算機のトリガー、データベース、エージェント、静的テキストを超えた拡張です。私たちはすでにO3でこれを見ています。もっと期待します。
専門家の混合は非常に議論を呼んでいます。彼らがそれについて話すかどうかは分かりませんが、基本的に、モデルが時々特別な専門家サブモデルを呼び出し、ルーターがそれらをアクティベートする場所を選択するという感覚があり、これは効率的なスケーリングにつながる可能性があります。
それは表面下にあるかもしれません。私たちに教えないかもしれません。そして、率直に言って、RAGモデルを使用しているかどうかも教えないかもしれません。彼らはコンテキストウィンドウを回転させ続けるために何かを使用しています。多くは話していません。
だから、彼らはメモリで何かを使用しています。OpenAIチームについて興味深いことの一つは、これらのことをどのように行うかについて、これまでのところあまり透明ではないということです。
これは変わるかもしれません。なぜなら、彼らはChatGPT-5と共に7月にオープンソースモデルを導入すると噂されているからです。見てみましょう。時が教えてくれるでしょう。
現在の限界と課題
これは私を現在の限界に導きます。はい、透明性は疑問です。幻覚は確実に懸念事項です。Sam Altmanは最近、ステージで、彼らが幻覚が推論モデルと非推論モデルで異なって機能することを見つけ出し、それが彼らにとって疑問につながり、それをよりよくアライメントする方法と格闘していることを認めました。
私はそれが非常に洞察に富んだアプローチだと思います。なぜなら、私にとって、幻覚のタイプが本当に変わるように感じるからです。より単純なモデルを持っている場合、それは単にドメインの完全性エラーになります。これは単に間違っているというようになります。
より複雑なモデルを持っている場合、幻覚は実際には、正しく足場を組まれた非常に一貫した完全な思考かもしれず、エラーは現実があなたが思うほど足場を組まれ完全でないかもしれないということです。
だから、ChatGPT-5が幻覚にどのように対処するか、訓練データからのバイアスにどのように対処するか、多段階推論とメモリからの作業にどのように対処するかについて興味があります。学ぶことがたくさんあるでしょう。
学習リソースとフォローすべき人
では、ChatGPT-5と期待することについて、AIがどのように機能するかについて少し通り抜けました。今、続けて学ぶことができるもののチートシートを与えたいと思います。
第一に、Andrej Karpathyが彼のチャンネルで話し、提供する大規模言語モデル入門を見始めることをお勧めします。大規模言語モデルとAIに対する絶対に驚異的な入門です。
3Blue1Brownによるニューラルネットワークシリーズも、YouTubeでも、同じく優秀です。そして、Stanford CSのコース – それを5回言ってみてください – 同じく信じられない16講義のコースです。
この3つだけを行えば、すでに本当に98%の人よりも先を行くことになります。他にもいくつか取り上げることができますが、時間の関係で少し前に進みます。
今、インターネット上のどこでも見つけることができるAIに対して最もシグナル対ノイズを与えてくれると思う11人を与えたいと思います。
第一に、おそらく彼のことを聞いたことがないでしょう。Simon Willisonです。彼はDjango言語を共同作成しました。プロンプトインジェクションという用語を作りました。驚異的なブログ投稿を書き、1300以上あります。LLMコマンドラインツールを構築し、絶対に権威のあるリソースです。
Ethan Mollickが第二です。彼はAIに対して非常に影響力があります。本を書きました。Whartonの教授で、学術と仕事の両方でAIの影響を記述することについて非常に明確でした。
Andrej Karpathyを言及しました。元Tesla AI責任者、OpenAI共同創設者です。AIを教えることにおいて驚異的な仕事をしており、それが彼のコースのいくつかを推薦した理由です。複雑な概念を取り、シンプルで理解可能なものに蒸留する能力は、他のどこでもほとんど見ることがありません。
他のいくつかをフォローしましょう。4番目と5番目は驚くことではないと思います。第四はSam Altman、OpenAI CEOです。十分に言いました。第五はDario Amodei、Anthropic CEOです。再び十分に言いました。
Demis Hassabisは、もしあなたがスペースの深いところにいなければ、やや知られていません。彼は2024年にノーベル賞を受賞しました。そして、化学におけるAlphaFoldの仕事でそうしました。基本的に、彼はAIの主要な心の一人で、Googleでの科学側の仕事で特に深いです。
Ilya Sutskeverは、OpenAIの別の元共同創設者です。彼は現在Safe Superintelligenceを設立しました。そして、彼は直接超知能を追求しています。製品リリースをしていません。dev dayのようなもので彼を見ることはありません。彼がやっているのは超知能に焦点を当てることだけです。
第九番目、Claire Voです。彼女は人々が実際にAIをどのように使用するかについて話すことで驚異的な仕事をしました。Chat PRDと呼ばれる製品を構築し、職場でAIを適用する方法の主要な光の一つです。
第10番目、Dwarkeshです。彼はシリコンバレーのお気に入りのポッドキャスターになったと思います。彼は非常によくインタビューします。彼は深く読み、深く思慮深く、主に彼が選ぶ人々が興味深く、彼らと非常に長く興味深い会話をするため、彼のポッドキャストをフォローします。
Merriemについて最近このチャンネルで話しました。彼女は深いトレンド投資家レベルの空間で驚異的です。彼女の340ページのAIトレンドレポートをカバーしました。彼女は何十年もインターネットとテクノロジーに投資してきた人で、彼女の鋭さで有名です。
これらが11です。それらがフォローすべき11です。
まとめ
まとめましょう。あなたは今、ほとんどの人が知らないことを何を知っていますか。
第一に、あなたはGPT-5が単にGPT-4のより大きなものではないことを知っています。それ自体が大きな知識の断片です。
第二に、あなたは私と他の皆にスパムフィルターからChatGPTまでの簡単な旅を教えることができます。私がそれをあなたに言いました。必要なら戻って再視聴できます。
第三に、あなたはLLMが洗練されたパターン認識器であることを知っています。私がちょうどあなたに説明した、それらがどのように機能するかを説明する明確な英語を実際に持っています。それは魔法ではありません。
あなたはAIからどこで学ぶかを知っています。いくつかのコースを与えました。そして、信号対ノイズのために誰をフォローするかを知っています。
私はあなたに、AIがすべてのTwitterスレッドに追いつくことではないことを理解してほしいのです。それは堅実な基盤を持つことです。どこを見るべきかを知り、正しいメンタルモデルと、2025年のこのiPhone的瞬間に向けてあなたを準備する正しいガイドを持つことです。
私たちはAIを再プラットフォーム化しています。ちなみに、それはChatGPT-5だけではありません。Google、Anthropic、潜在的にはGrok、DeepSeekからの他の多くの重要な再プラットフォーム化の動きを期待します。
モデル作成者はゴールラインへの競争にいます。Metaはある時点で参入し、彼らは皆、プラットフォームを確立するこの瞬間に到達しようとしています。彼らは皆、LLM自体が昨日のニュースであることを知っています。
彼らは、説得力のある企業ユーザーインターフェース、消費者のための説得力のある体験を提供する強力なモデルに到達する必要があります。それが物語です。それが2025年のiPhone的瞬間の物語です。そして、私はあなたにそれすべてを駆動するものを理解してほしいのです。
そこで頑張ってください。


コメント