この動画は、現在主要な16のAIモデルを理解しやすくするため、それぞれに意味的な一語の特徴付けを行い、カードデッキとして視覚化するというユニークなアプローチを紹介している。話者は、人間が学習する際にランダムな文字列ではなく意味的な関連性を必要とするという認知科学的観点から、o3を「Artificer(職人)」、Claude Opusを「Polymath(博学者)」、Grokを「Maverick(独立者)」などと命名し、各モデルの特性を覚えやすくする教育的手法を提案している。
皆さん、今のAI分野で最も困難なことの一つは、モデル間の違いを説明することです。これは私が本当に苦労していることで、なぜならこれが私がDMやメール、あるいは空の宇宙人からの音波信号など、何と呼ぼうとも構いませんが、最も多く寄せられる質問の一つだからです。なぜo4がo3より劣っているとされるのか、といった質問を多く受けます。その気持ちはよく分かります。
命名規則は確かに奇妙です。でも私はそれを解決したと思います。主要な問題は実際には人間の学習方法にあります。私たちは、ランダムな意味を文字列に結び付けようとしても、うまく学習できません。開発者の方なら分かると思いますが、私たちはそのようにキー値を使いません。それは単純に人間にとって効果的な方法ではないのです。
私たちには意味的な意味を与えてくれる何かが必要です。私たちは物語を語る存在です。しかしモデル制作者たちはモデル作りに忙しくて、私たちに意味的な意味を提供してくれません。でもそれで構いません。彼らは素晴らしいモデルを作ることができます。それは素晴らしいことです。
私はオタクで、ボードゲーマーで、カードゲーマーです。そしてアイデアが浮かびました。現在Hugging Faceリーダーボードに載っている主要な16のモデル全てを、カードデッキに変えてみてはどうかということです。
実際に印刷できて、教室に持ち込めて、これらのモデルが何をするのか分からない親戚にも渡せるようなカードデッキにするのです。視覚的にして、楽しいものにしようと思いました。各カードには、そのモデルが最も得意とすることの一語要約が付いています。もし皆さんが「ああ、ネイト、これはSubstackの宣伝記事だな」と思われるかもしれませんが、そうではありません。なぜなら私は実際にここで皆さんに明確な価値を提供するつもりだからです。それは皆さんのためのものです。
私たちは主要なモデルについて見ていきます。ここであまり話さないものも含めて、そしてなぜ私がその言葉を選んだのかについて説明します。皆さんはより上級者向けの聴衆ですし、きっと楽しんでいただけると思います。また、これは潜在空間のような曖昧なものや、モデルがそれをどのように航行するかを表現する適切な言葉を選ぶことの困難さを浮き彫りにすると思います。
私がよく話しているo3から始めましょう。レアなモデルについてはすぐに説明します。私はそれを「Artificer(職人)」と名付けました。この命名には苦労しました。Artificerは奇妙な言葉ですよね。ルネサンス・フェアで使われるような言葉です。でも私がこの言葉を気に入っているのは、技術的な能力、困難な問題の解決、そして物事の創造に焦点を当てるという考えを表現しているからです。これはまさにo3の雰囲気です。
このモデルは少し冷たい印象がありますが、問題解決と物事の創造において非常に優秀です。ちなみに、Substackでは、これらの各カードは印刷可能なワークシート、モデルカードのようになっており、教室での使用を想定して設計されています。学習者向けに作られており、とても楽しいものです。
では、ちょっとレアなものを試してみましょう。なぜ私がこれを選んだと思いますか?Yi-5の2000億パラメータモデルには「Voyager(航海者)」を付けました。ちょっと考えてみてください。なぜ私がVoyagerを選んだと思いますか?
Yiに詳しい方なら、これが英語と中国語間のコメントやコミュニケーションの流暢性に特化していることをご存知でしょう。だから私にとって、Voyagerが大陸間、文化間の航海者として、そして接続者としての役割を果たすのは非常に自然に感じられました。これがそのモデルが本当に得意とすることの一つを要約する素晴らしい方法だと思いました。
これはVoyagerがコードを書けないということを意味するのでしょうか?もちろんそうではありません。Voyagerが詩やメールを書いてはいけないということでしょうか?それは要点ではありません。私たちには意味的な意味を持てるよう、物事を記憶できるよう、簡略化する方法が必要なのです。
Claude Opusには「Polymath(博学者)」を付けました。読解と批評の両方において卓越していると思います。ライティングのためのプロンプトも上達していますし、コード問題解決において本当に優秀です。Polymathがぴったりだと感じました。
さて、ここで一つ紹介しましょう。私はよくこれらのYouTube動画のコメントで「Grokはどこだ?ネイト、なぜGrokについて話さないんだ?」という質問を受けます。その理由の一部は、彼らがモデルカードをリリースしていないからです。誰かがモデルカードをリリースしてくれると、これらの作業がやりやすくなります。Grokにもぜひそうしてほしいと思います。これは別の不満ですが。
私はGrokを「Maverick(独立者)」と呼びました。型にはまらない意見を述べる傾向があることを指摘しました。元Twitterストリームなどに基づいて型にはまらないアイデアを発明することも指摘しました。そして注意事項として、そのモデルには最近アライメントに関する問題があったことも指摘しました。これらの各カードで、Grokだけを批判しているわけではありません。この16枚のカード全てで、そのモデルの問題点を指摘しています。なぜなら完璧なモデルは存在しないと信じているからです。私はここで特定の立場を取ろうとしているわけではありません。祖父が野球ファンだったように、私が見るがままのボールとストライクを指摘しているだけです。
ほとんど誰もモデルとは考えていないPerplexityについても取り上げていますが、実際にはリーダーボードでかなり良いスコアを出しています。人々はPerplexityを単なるLLM駆動の検索エンジンと考えていますが、彼らはSonarを構築しており、Sonarはウェブ検索のために設計されているので、それもカウントされます。
普段あまり話さないこれらのモデルについて話す機会が得られるのが嬉しいです。Llama 3 45Bについても話しました。Mixtral 8×22B collectiveについても話しました。これが何か知っていますか?彼らはそれをcollectiveと名付けたわけではありません。私が意味的な意味のためにcollectiveと名付けたのです。なぜなら、それが専門家モデルを使ってトークンに投票するということを覚えやすくするからです。これは非常に興味深いと思います。
そのため、220億パラメータ化を考慮すると、実際にかなり良いパフォーマンスを発揮します。プライバシーにも優れています。でも私がcollectiveという言葉を使い、モデルの概念の周りに3人が一緒にいるような小さな絵を描いたことで、モデルがどのように機能するかのアイデアが得られます。これは半分マジック・ザ・ギャザリングのカードデッキ、半分AI専門用語のようなものです。
これを作るのはとても楽しかったです。教室での演習も用意しています。実際に学習に使いたい方には、プリビルトされています。カードを印刷してデスクのそばに置いて、コレクションを作りたい方にも対応しています。
皆さんと共有したいのは、ネイトのスタックは何なのか?ネイトは普段何を使っているのか?ということです。誰も驚かないでしょうが、o3が私のリストのトップです。現在、私のクエリの60から70パーセントを占めていると思います。これが日常の主力です。
ChatGPT-4oは私が頻繁に使うもので、これは私のチャットの10から15パーセントを占めています。これを書き直して、これを再フォーマットして、これをマークダウンに変換して、といった非常にシンプルなことに使います。また、これはより温かいモデルなので、o3では少し冷たすぎる日常的な会話を時々することができます。一日について話すときにテーブルは要りませんからね。
Claude Opusは、週のダッシュボードを構築しようとするときや、コーディングの問題をどのように構造化するかを理解しようとするときに使います。優れた対話的な応答です。優秀な問題解決者です。長いコンテキストのチャットではそれほど得意ではないことが分かります。これはClaudeモデルの課題のようです。でも私はそれも10から15パーセント程度使用していると思います。パーセンテージが足りなくなってきました。これは頭の中で計画していなかったからです。
でも、それほど頻繁ではありませんが、Gemini 2.5 Proを検証者と事実確認者として使います。これは全く異なる視点を与えてくれるのに本当に役立ち、それはかなり根拠に基づいている傾向があります。だから私がOpusを信頼しない、o3を信頼しない、セカンドオピニオンが必要だ、これは重要すぎる、というときにGemini 2.5 Proに手を伸ばします。
正直に言うと、これは習慣のスタックです。ChatGPTのメモリ機能は本物で、私を覚えてくれる何かを持っているということが、その分割を推進する要因の一部です。これは必ずしもモデルの能力によるものではありません。
そして最後になりましたが、DeepResearchです。私が歩き回って、コーヒーを淹れて、戻ってきたいときにDeepResearchに手を伸ばします。これは非常に高品質な結果を生み出す傾向があり、10分から15分の価値は絶対にあります。
さあ、以上です。これを楽しんでいただけたでしょうか。モデルに意味的な意味を与えるというアイデアについて考えることから、何らかの価値を得ていただけたでしょうか。見てください、私のSubstackに行きたいか、手を上げて逃げ出したいかは気にしません。それが要点ではありません。要点は、私たちは意味的な意味で物事を記憶するということです。モデル制作者たちはその教訓を学んでいません。私は人々に教える何かが必要だったので、これを作ったのです。
もしArtificerはひどい、誰もその言葉の意味を知らない、私にはもっと良いものがある、と言いたいなら、私が最初にあなたに同意するでしょう。そして私は言うでしょう、もっと良いものを作ってください。もっと良いものを作ってください。そして私に教えてください。それでは以上です。


コメント