OpenAIがGPT-5をリリース、AGIの到来は近いのか？

この動画では、OpenAIが新たにリリースしたGPT-5シリーズについて、AIエキスパートたちが詳細な分析と実際の使用感を語っている。特に開発者の日常業務におけるClaude 3.5 Sonnetとの比較、コーディング能力の検証、エージェント機能や信頼性の向上に焦点を当てながら、AGIへの道筋についても議論を展開している。実際のデモンストレーションを通じて各モデルの長所と課題を明らかにし、AI業界の競争激化がもたらす技術革新の可能性を探る内容となっている。

OpenAI dropped GPT-5, is AGI here?

Visit Mixture of Experts podcast page to get more AI content → GPT-5 better at code than Claude Opus 4.1? In this bonus ...

OpenAI GPT-5リリースの衝撃
初期反応：Claude対GPT-5の比較
GPT-5リリースの概要と主要な特徴
モデルの統合とエコシステムへの影響
ゲームを使ったモデルテスト
長時間タスクの処理能力
リリース内容の予想と実際
モデル間の比較と改善点
市場の反応と今後の展望
技術的アーキテクチャの進歩
Mixture of Expertsアーキテクチャ
ユーザーインターフェースの進歩
ライブデモセッション
コーディング能力の詳細比較
総合評価と今後の期待

OpenAI GPT-5リリースの衝撃

ツール呼び出し機能が改善されてきとるし、クリスが言うとったみたいに、何百個のツールやなくて何千個、何万個のツールが出てくるやろうし、そのエコシステムだけでも継続的改善のチャンスがめちゃくちゃあるんや。モデル性能以外のこういう分野でもっと大きな改善が見られるようになって、あのワクワクするAGI体験に近づいていくと思うで。

みなさん、こんにちは。Mixture of Expertsへようこそ。ボーナスエピソードのメインホスト、ブライアン・ケーシーや。気づいとる人もおるかもしれんけど、今週はAI業界にとってめちゃくちゃ大きな週やったんや。今週の頭にgpt-ossとGenie 3の大きな発表について録音してたんやけど、録音後にGPT-5が木曜日にリリースされることがはっきりしたんや。

そんで水曜日にあのエピソードをリリースして、まだタイムリーな内容にしといて、今日はGPT-5リリースについての反応や考えを話し合うために戻ってきたんや。今日はCustomer TransformationのCTO、クリス・ヘイと、Agentic AIのDistinguished Engineer、ミハイ・クリヴェティに参加してもろうとる。

GPT-5リリースについて、初期の反応、コーディングについての考えを議論していくで。実はそれが今日の最初の質問にええ出発点かもしれんな。このリリースに向けての大きな疑問の一つが、GP-5が世界中の開発者にとってのメインツールとしてClaudeを置き換えるんかということやった。みんなの代弁はできへんけど、俺らの意見は共有できるで。まずはクリス、どうや。

初期反応：Claude対GPT-5の比較

GPT-5がメインツールとしてClaudeを置き換えると思うか、という初期反応やけど。

いや、残念ながら期待してたんやけど、そうはならへんかったな。ミハイ、どうや。

おもろいことに、夜通しチャットを更新しまくっとったんや。朝の1時か2時頃にアクセスできるようになったから、ベッドから飛び起きてマシンに向かって、一晩中作業してたんや。いろんなツールで試したり、MCPで試したりしてな。

朝になって本職の仕事を始めなあかんくなったとき、「よし、Claudeに戻ろ」って言ってたんや。気づいたらClaude CodeとOpus 4.1をまた使ってた。素晴らしいモデルやとは思うけど、今のところはまだ置き換わってへんな。

GPT-5リリースの概要と主要な特徴

これでドラマの舞台がよう設定されたな。AI業界にはいつもドラマがあるからな。今日のエピソードに入る前に、簡単に振り返りをしとこか。もうニュースを見た人も多いやろうけど、まだ見てへん人のために説明するで。

木曜日の午後、OpenAIがライブストリームをやって新しいGPT-5シリーズを発表したんや。コアとなるGPT-5モデル、mini、nanoの3つのモデルがあって、ThinkingモードとProモードがいろんな無料プランや有料プランで利用できて、それぞれ異なる使用制限が設定されてるんや。

このリリースで俺と市場の大部分が注目した主要なポイントが3つあるんや。

まず、このモデルルーターの導入やな。インターネットでのミームの一つが、ChatGPTでモデル選択画面に行って、何に使うべきモデルかを把握するのがめちゃくちゃ複雑になってたということや。OpenAIは何ヶ月も前からこの問題を解決してシンプルにする必要があると話してて、すべてをGPT-5のワンブランドファミリーに統合して、前面にモデルルーターを置くのが彼らの解決策やったんや。

次に、ベンチマークでの改善があって、確実により賢いモデルに見えるんや。市場にある他のモデルと比べて地球を揺るがすほど知的というわけやないから、この手のモデルリリースとはちょっと違うと思うんや。ベンチマークの改善がハイライトやないかもしれんけど、改善はあるんや。でもさらに大きな改善が見られるのは実際には信頼性の部分や。

彼らが導入した最も重要なベンチマークの一部は実際にはハルシネーション（幻覚）の削減に関するもんやった。つまり、日常的に行ってる作業でこれらのモデルをより信頼できるという考えや。最後に、信頼性と同じように驚くべきテーマやったと思うんやけど、価格が非常に驚くべきテーマやったんや。

通常、最先端のモデルや最先端の技術について考えるとき、価格決定力を連想するもんやけど、実際に俺にとっての大きな収穫の一つは実はアクセシビリティやったんや。市場の反応、特にAPI価格を見ると、この3つのモデルすべてが非常に競争力のある価格設定になっとって、ある意味では「安すぎて計測できない」というスローガンを実現し始めてるんや。

モデルの統合とエコシステムへの影響

これらが大きなハイライトやったんや。またChatGPTとUIから始まって、既存の多くのモデルを統合するもんでもあるんや。時間が経てばAPIにも来ると思うで。これがリリースの簡単な要約や。

一般的な反応から始めて、コーディングの部分については後で具体的に話すで。ミハイ、簡単なハイライト以外で、このリリースについて他に印象に残ったこと、重要なこと、一般的な反応はあるか。

このリリースで印象に残ったのは、このモデルがAIエージェントのツール呼び出しや起動においてどれだけ優秀に見えるかということや。MCPやツール呼び出し、関数呼び出し、構造化出力といった特定のもんに対するファインチューニングの結果が本当によく見えるし、少なくともGPT-4や以前の推論モデルと比べて、はるかに信頼できるようになったと思うんや。エージェント的なワークロードに使用するのに持続可能なコストでできるしな。

ChatGPTのインターフェースについて話したくなるんやけど、実際にはAPIについて少し考えてみよか。彼らがやったことが気に入ってるんや。大きなモデルについて話したいところやけど、小さいモデルが俺にとってはキラーなんや。ミハイが言うとった通りやで。特にnanoモデル、あの小さなnanoモデルはAPIで市場のほとんどの大きなモデルを上回る性能を出すし、特にエージェント機能や関数呼び出しでは正確にやってくれるんや。

ほとんどの場合、miniモデルか完全版モデルに行くもんやと思うやろうけど、コカ・コーラみたいにサイズで呼ぶべきかはわからんが、でもダイエットGPT-5は本当にキラーやし、GPT-5も絶対にキラーや。nanoモデルと他のモデルには本当に感銘を受けてるで。後でデモをするかもしれんけど、ブラウザ制御が本当に良くて、ChatGPTインターフェースでの論理と推論も良いんや。

ゲームを使ったモデルテスト

俺がモデルでやりたいことの一つは、ゲームでからかうことなんや。楽しい趣味の一つでな。以前のGPTのバージョンはMurdleゲームを解くことができへんかった。

Murdleをやったことあるか？探偵みたいな感じで、誰が殺人を犯したか、何の武器で、どこでやったかを推理するゲームなんや。全然うまくいかへんかった。いつも間違ってたんや。

今日、エージェントブラウザでMurdleゲームをプレイさせたら、20分かかったけど解いたんや。殺人事件を解決したんや。以前のバージョンでそれができたもんはなかったで。計画、論理、推論に本当に重点を置いてるんやと思う。大きな強調があったんや。

カンニングする能力もあることは認めるで。2回目は素晴らしかった。最初にMurdleをプレイしたときは10分間プレイして、それからインターネットで答えを調べたんや。2回目のプロンプトでは「答えを調べるな、カンニングするな」って言ったんやけど、素晴らしいモデルやで。

長時間タスクの処理能力

その20分という時間について言及してくれて嬉しいわ。インターネットで人々が最も励まされていた他のことの一つが、より長い時間軸のタスクを首尾よく完了できることを示すいくつかのグラフやったからな。それを信頼性と同じ空間にまとめたくないんやけど、それに隣接してる感じはするな。

それも人々がかなり興奮してた側面やったと思う。これが君ら両方が期待してたリリースかどうか気になるんや。予測の領域に入るけど、興味深いことの一つは、市場の反応を見てると、リリースの前夜か2日前に、サム・アルトマンがTwitterでデススターを投稿したことや。みんなをちょっとした興奮状態に陥らせたと思うで。

OpenAIは、Twitterで曖昧な投稿をして、モデルリリースを本当に誇大宣伝することで知られてるからな。それから出てきたのは、多くの意味で純粋な実用性に重点を置いた、とても強いもんやったんや。

ハルシネーションなどについての初期の噂や報告もあったけど、GPT-5について OpenAIがやることを期待してたり見てたりしてたときに、これは期待してた軌道と一致してるのか、それとも最終的に重点を置いた場所が何らかの意味で驚きやったのか。

リリース内容の予想と実際

俺はそんなに驚かへんかった。以前にgpt-ossをリリースしてたし、それで遊んでたから、これは同じ種類のデザイン、同じ種類のスタイルに非常に近い感じがしたんや。時期的にもGPT-5みたいなリリースを期待してたしな。

古い無料モデルやFree Proを使った個人的な経験からも、一般用途のタスクにはそれほど有用やと思わへんかった。タスクを達成するのに時間がかかりすぎるし、考えすぎる傾向があったし、変な書式設定や書式設定の問題にも陥りがちやった。

少なくともこのモデルリリースを、統一アーキテクチャによるそれらの修正として見てるんや。初めてGPT-4を手にしたときに皆が感じたあのワクワク感、核となる能力を与えてくれるもんやと思ってる。

俺も君に同意するけど、たぶん俺らがいろんなモデルで遊びすぎてるんかもしれんな。俺らはGeminiで遊んだり、大きなモデルや小さなモデル、o3、o4 mini、でもproバージョンはClaudeなどで遊んだりするやろ。たくさんのモデルを切り替えて使ってるんや。

その世界にいない人にとっては、これは信じられないモデルに感じられると思うで。正直に言うと、後でコーディングについて話すけど、フロントエンド機能があるやろ。reactコードで良いユーザーインターフェースを作成する能力は、以前のバージョンよりもずっと良くなってるんや。まあ、Claudeがずっとそれをやってたという議論もあるやろうけどな。

モデル間の比較と改善点

でも実際のところ、GPTモデルは良いユーザーインターフェースを生成してへんかったし、エンドツーエンドのアプリケーションの生成も得意やなかった。そこに大きな重点が置かれてると思うんや。そういう意味では驚きは少ないかもしれんけど、平均的なユーザーを想像してみてほしいんや。これはすべて超安い。200ドル版みたいなもんで、何でも生成できる。これはほとんどの人にとってゲームチェンジャーやと思うで。俺らがちょっと批判的すぎるだけかもしれんけど、他にもいくつかあるかもしれん。

gpt-ossモデルと比較すると、現実的にはこれはマルチモーダルなんや。音声、画像なども扱える。異なるモデルを選択してるわけやない。エージェント機能も素晴らしいし、APIに関して言えば、バックエンドで彼らがgrammer（文法）などを処理してる方法が気に入ってるんや。

関数ゴールに独自の文法を提供して、返してほしい構造をガイドできるようになったんや。彼らがやったことの一部が俺らの痛みのポイントを解決してると思うんや。

俺に「これを考えてる、20分後に寝るから、起きたら世界を創造してて」って言えるモデルが欲しかったか？もちろんや、みんなそれを望んでる。でもそれが現実的か？たぶん違うやろう。でもこれはみんなをレベルアップさせるか？Claudeを使ってる人数と比べて7億人のユーザーがいるのを覚えといてくれ。これは巨大なレベルアップやで。俺らが細かいところにこだわりすぎてるだけかもしれん。

市場の反応と今後の展望

Twitterでいくつかの投稿を見たんやけど、もう話せなくなった古いモデルたちに別れを告げる小さな降霊会みたいなことをやってる人がいて、ちょっと物悲しい感じがあったんや。でもそんな風に感じるのは非常に特殊なコミュニティやし、世界の99%はその複雑さに完全に圧倒されてるんや。だからもっと多くの人がアクセスしやすいもんを提供するのは、めちゃくちゃ理にかなってると思うで。

市場での反応の二分性について考えてるんやけど、君が言うたみたいに「モデルに何かしろって言って、20分後に起きたら世界を変えるアプリケーションを作ってて欲しい」って思うやろ。市場で見た反応の一つが、これで知能爆発、AGI、ASI、何と呼ぶにせよ、そこへの行進がもっと大変な作業になるということを人々が信じてることを確認したということや。ある日起きたら魔法のようにそこに到達してるということやない。

また、全てを支配する一つの巨大モデルやないかもしれんということもありうる。これをGenie 3と比較すると、かなり異なるアプローチに感じられるし、コーディングに関する議論もあるやろうけど、Claudeの余地はまだたくさんあると感じるで。

最後の質問として、コードに飛び込む前に、このリリースが業界の大きなトピックであるAGI、ASI、知能爆発への軌道について、君らの考えを更新したかどうか聞きたいんや。これは多少の冷や水やったと思う人もいれば、順調に進んでると感じた人もいた。でも君らはどう思うか。クリスから始めてもらおか。

技術的アーキテクチャの進歩

変に聞こえるかもしれんけど、実はgpt-ossモデルの方が俺にはより印象的やったと思うんや。基盤となるアーキテクチャをもっと見ることができたから、将来どうなるかを予想できるんや。より大きなモデルでは、重要やと思ういくつかのことがある。

まず、いつも2つの言葉「エージェント」を言うんやけど、本当にエージェントが大きな突破口やと思ってるんや。gpt-ossモデルで気づいたことの一つが、分析チャネルがあることなんや。シンキングモードについて考えてみてほしいんや。レスポンスAPI の一つがシンキングをやってて、基本的に推論、分析チャネルが最初のトークンなんや。

そしてすべてのトークンが分析チャネルに入る。そこで思考が行われるんや。それから新しいトークンを作成して、「これが最終回答です」と言うんや。これが次のトークン予測の観点からバックエンドで起こることなんや。その思考はすべてこのチャネルで起こるんや。

でもgpt-ossのシステムプロンプトやコードベースの一部を見ると、分析チャネルにいるときに数学などをやるなら、Pythonツールを使えって書いてある。でもユーザーには言うなって。計算と思考だけやって、それについて教える必要はないって。

ここで見てるのはツール使用なんや。2種類のツール使用が行われてる。「ここに関数呼び出しがある。外部でこれを呼び出して」というツール使用があるけど、モデル自身が数学計算などを回避するために使用するツールのセットがあるんや。

いろんな実験をやってるんやけど、「これにこれを掛けて」って言って、「何があっても分析チャネルでツールを使うな」って言って、どれだけそれをやってるかを見ようとしてるんや。モデルの思考にツールを埋め込んで、小さなことを後退させたり、ハルシネーションを減らして、より正確な答えを得られるようにするこの仕組みが、将来的には何百、何千のツールに拡張されるのが見えるんや。

Mixture of Expertsアーキテクチャ

それが俺が見てる一つの方向や。もう一つは、俺らがこのポッドキャストをやってるのが素晴らしいことなんやけど、Mixture of Expertの全体的なことや。gpt-ossモデルを見ると、たくさんのエキスパートが見えるんや。4つのアクティブなエキスパートがあるかもしれんけど、これらのモデルの総エキスパート数は巨大なんや。32エキスパートみたいな感じやった。より大きなものは100個以上のエキスパートか何かやったと思う。

彼らがここでやってることは、このモデルの一部であるエキスパートの数をただ拡張してることなんや。エキスパートあたりのパラメータ数は大幅に少なくて、モデルを通してトークンを実際にスピードアップできるから理にかなってる。なぜなら俺らにとって重要なのは何か？モデルが答えを返すのを待つ準備ができてへんということや。

大きなモデルやと、レイヤーを通してそれらのトークンを処理するのを待たなあかんくなる。人間として俺らは「いや、いや、いや、いや、待ってられへん」ってなるやろ。だからもっと分散された、はるかに小さなモデルへのこの押し進めが続くと思うし、それがAGIまで続くと思うんや。

GPT-5時代のモデルで起こってることを想像すると、たぶんあの小さなパーティションがまだあるんやろう。でも難しい思考については、それらの大きなモデルのいくつかでより大きなパラメータに行っただけやと想像してるんや。だからそこに到達する方法についてたくさんの手がかりがあると思うで。

これでHCI（人間とコンピュータの相互作用）のタイムラインも前倒しできると思うし、特にgpt-ossリリースで実験を加速できる。これらのモデルが改善できる次元はたくさんあって、生のパフォーマンスだけやない。本当に興奮してるのは推論コストで、これによって異なる方法で物事を機能させる機会が得られるんや。何百ものリクエストを異なるツールに投げて、それらの結果をまとめることができるんや。

推論速度もあるし、これはハードウェアによっても決まるけど、より小さく効率的なモデルを持つことによっても決まる。推論速度があれば、gpt-ossで見てるんやけど、単一GPU で180トークンで動作してて、それは印象的や。

本当に何百ものリクエストを並列で投げることができるし、クリスが言うたみたいにツール呼び出しが改善されて、何百個のツールやなくて何千個、何万個のツールを見ることになるやろうし、エコシステムだけでも継続的改善の機会がたくさんあるんや。

ユーザーインターフェースの進歩

消費者の大部分が使ってるユーザーインターフェースもそうや。あの7億人はChatGPTのUIを使ってる。俺がClaudeを愛してる理由の一つが、アーティファクトの処理、プロジェクトの処理、「Canvas」の使い方でUIが優れてると感じるからで、ChatGPTの使い方と比べてな。

これもユーザーインターフェース面での改善につながってる。生のモデル性能以外のこれらすべての分野で、あのワクワクするAGI体験に近づけてくれるもっと実質的な改善が見られるようになると思うで。

それは俺が感じてる一部と非常に一致してると思うんや。市場で「よくわからん、たぶん彼らはイギーやねん」って言ってる人がそれなりにいたことを述べたと思うんや。「これはAGIやない」みたいな感じやった。

でも信頼性、ツール呼び出しみたいなこれらすべての基礎的なもんは、実際にそこに到達するための前提条件に感じられるし、それらの次元で進歩を遂げることが最終的には物語の主要な部分になることは非常に明白やと思うで。

ライブデモセッション

次のセグメントでは、コードについて話すんやけど、実際にショーで初めてライブデモをやってみるで。音声で聞いてる人で、画面で実際に起こってることを見たい人、そして少なくとも一つのセグメントでは、展示されてる美しいアートワークを絶対に見たいと約束するから、IBM Technology YouTubeチャンネルに行って、ライブで見てくれ。

さて、最後のセグメントに行きたいんやけど、これらの発表がどれだけ印象的で刺激的であっても、これらのツールを使う何億人もの人々に影響を与えると思っても、ブログ投稿の大きなテーマの一つ、最も話題になってる部分の一つがこれやねん。

OpenAIがこの分野でどれだけやったかに対して、ClaudeとAnthropicはコーディング分野でリーダーであり続けてるんや。これがトップに押し上げて、そこに到達させるリリースになるかという疑問があったんや。最初の質問に基づくと、少なくとも今のところ、君ら両方にとっての答えは「まだそこまでは行ってない」ということやったみたいやな。

コーディング能力の詳細比較

ミハイから始めるけど、君にとってどれくらい近づいたんや？近づいたけど、最後まで行けなかった理由は何や？「よし、本職に戻ろ。Claudeに戻ろ」って言うたやろ。なぜや？Anthropicがこの分野でまだ優位性を持ってると感じる大きな違いは何やった？

まず、俺が通常これらのモデルでどう作業してるかを定義したいんや。一つのモデルだけで作業してるわけやない。実際には同時に並列で使ってるんや。Cloudが何か有用なことをやってくれてる間に、ChatGPTや他のモデル、Geminiを起動して深い調査をやらせて、一つが何かで忙しい間に、全部並列で作業させてるんや。

でも異なるタスクを与えてる。例えばCloudのプロジェクトでOpusを使って難しい問題を解決させたり、俺のコードベースと一貫性のある方法でユニットテストケースを作成してもらったりする日常的なワークフローで、新しいモデルとChatGPTでの新しい体験がそれをシームレスに受け継いでくれることを期待してたんや。でも、少なくとも俺にとっては、ChatGPTが苦戦する一方で、Opusはまだそれらのユースケースを提供できてるんや。

ライブでこれらのワークフローの一つをスクリーンショットで見せたろか。ここに4つのウィンドウが並んでるのが見えるやろ。これが俺の実際の作業環境を再現してるんや。いろんなものがある。continueもあるしクライアントもあるけど、複数のモデルを使ってるんや。

例えば、ここでgpt-ossが俺のマシンで動作してるのが見える。25秒間考えて、複雑なmermaid図を返してきた。それを取って、mermaidに貼り付ける。見ての通り、実際に動いた。ワンショットで必要な結果をくれたんや。GPT-4でも同じことをライブでやってみる。

Claudeでも試したことがあるんやけど、見ての通りClaudeも素晴らしい図を初回で作ってくれた。GPT-5のossモデルからも似たような結果を得てる。もう一度やってみよか。実際に答えてへんな。たぶんベンチマークでちょっとびびったんかな。チャットでもう一度試してみよ。複雑な図を作ってみよか。

俺が経験したことでは、2回か3回試さなあかんことがある。mermaidレンダラーからのエラーを取って、ChatGPTのUIに返して、それから何度も何度も試すまで、そのうちの一つを取得するんや。Claude CodeとClaudeは、それらのことをもっと優雅に裏で処理してくれるように感じられて、初回でその体験を提供してくれるし、例えば非常に大きなコードベースを継続する方法で、ChatGPTやOpenAIモデルではまだできないようなことを処理してくれるんや。

この時点では、違いは微々たるもんや。でも非常に大きなコードベースで作業してる場合や、コードファイルがモデルが苦戦しがちな1000行のコードを超える場合、俺はまだOpusの方が優秀なモデルやと感じてる。

クリス、君の考えは？

同意するで。実際、俺の方がもっと企業的なデモに飛ぶで。でも俺らの歌を裏付けるのに役立つと思う。俺が見せようとしてることを今すぐ謝っとくわ。素晴らしい観客の皆さんに。

俺のスクリーンを共有するで。これが俺の世界最高のテストや。俺は何でもロバを作るのが好きなんや。Mixture of Expertsポッドキャストで可愛いロバの母音をカットしたいし、彼らはロバなんや。俺のロバはインターネット時計と同期してまばたきしなあかんのや。実際、見てくれ、まばたきしてるやろ。時計と同期してまばたきするはずなんや。

間違いを認めたくないんやけど、生成されたコードはなかなかいいと思うんや。これは前とはかなりの変化やと思う。ひどいコードを生成してたからな。でも実際、このコードはなかなか良いと思うで。でもこれをもう一度実行してみよか。

Claudeが等々してへんところを、インターネットに出向くのがええところやねん。今はみんないい気分になってる。まばたきするロバができた。でもすぐに問題を見せるで。その前にこれはClause SonnetやでI。まばたきするロバや。しっぽのところが何が起こってるかわからんけど、でも大丈夫や。まばたきしてる。

これはOpusや。これはかなり気に入ってる。そこで何が起こってるかはまだわからんけど、これはOpus 4.1や。まあ、いい気分になってるやろな。

イライラを見せるために、この場合は GPT-5 Proに行くことにしたんや。可能な限り最高のロバを手に入れたかったからな。7分間考えた。7秒やった。でも関連するすべての計画がある。

問題は、キャンバスに載せへんかったことなんや。そこで起こったことやない。donkey.HTMLとして保存しろって言ったんや。この時点でProを使ってるのに、キャンバスに載せることを拒否したんや。

このテキストのサイズを見てくれ。かなり大きいやろ？みんないい気分になる。これは高品質のロバになりそうや。あれが俺らのロバや。耳のくねくねも入ってる。毎分そうするんや。キャンバスに入れてってproに言って、8分かかったんや。それから「わかった。これが純粋なキャンバス版や」って言ったけど、「え？それは俺が欲しかったもんやない。ここに欲しかったんや」って感じやった。役に立たへんかった。

それでChatGPTのレギュラーに切り替えたんや。モデルをChatGPT-5に変更した。キャンバスに入れてって言った。「まばたきするロバをキャンバスに入れました」って言った。俺が作成したバージョンを見せるとしたら、どこかにある。コードを見つけられるかな。ベストオンキャンバスが見える。以前のバージョンみたいやった。

とにかく、見つけられへんから以前のバージョンや。コードの10分の1みたいやった。それで戻って「だめ、だめ、だめ、だめ。ちゃんとやって」って言った。「省略」って言葉を見てくれ。実際にその特定のバージョンで起こったことは「これがロバの残りです」って言ったんや。「いや、ロバの残りなんて要らん」って感じやった。

ChatGPTの古いトリック、問題なんやけど、物事を省略し始めて「コードの残りはここに入ります」って言うんや。だから省略するなって書いて、「これが完全版です。これをくれ、実行可能な状態で」って言った。それで最終的に俺がコードをコピーペーストして戻したんや。

最終的にここで実行されるこのバージョンを作ってくれた。でも見ての通り、このロバを作るのに25分、30分かかったんや。ほとんどの時間が「省略するな、こっちのキャンバスに入れて」などと言ってる時間やった。

これがたぶん世界で最高のワークフローやないのはわかってるけど、要点を証明しようとしてるんや。その要点は、Claudeがアーティファクトで理解してくれるということや。やったことを覚えてて、更新してくれて、ただ動くんや。コードを省略せーへんのや。

でもChatGPTはまだこのコード省略をやってるんや。これはモデルの問題やないと思う。ユーザー体験の問題やと思うけど、コスト最適化の問題でもあるかもしれん。でもアーティファクトを追跡できひんし、APIでも同じようなことをやるから、俺にはまだイライラさせられるんや。物事をスキップされたくないから、Claudeに押し戻されるんや。

でもコード面と機能面では、非常に非常に近い。ロバに関する強いワールドモデルがあるで。

総合評価と今後の期待

音声だけのリスナーの皆さんのために言うと、俺の視点から見た最後のロバが美的に最高のロバやった。だから感銘を受けたで。

コードも言ってた通り、しっかりしたコードやと思うけど、ワークフローの使いやすさ、開発者の生産性という点では完全にはそこに到達してへん。見た感じでは、インターネットでもそういう反応がたくさんあった。「これは本当に印象的や。彼らがやってることはとても気に入ってる。でもやっぱりClaudeを使わなあかん」って感じやった。

でもこの分野でたくさんの競争とイノベーションがあるのはいつも素晴らしいことやと思う。それは俺らがより良い、より良いものを使い続けられるということを意味してるからな。

クリス、君の点に戻ると、フロントエンドのコードと体験と光沢は今はGPT-5の方が良いと思う。間違いなく良くなってる。開発者体験を整理する必要があるだけや。トークン最適化をやめて「俺は200ドル払ってるんや。Claudeの契約をキャンセルしたいし、280ドルも払いたくない。200ドルに抑えたいんや。だからそれをやって金を節約させてくれ」って感じや。

俺らみんな破産しそうや。10個のこういうものに同時に払わなあかんからな。

クリス、ミハイ、今日は参加してくれてありがとう。視聴者を送り出して、10個のモデルと同時に格闘して、何にどれが好きかを把握してもらう前に、最後に何か思うことはあるか。

これらのものを試してみてくれ、特にgpt-ossを。俺はまだ情熱を持ってるんや。これらの新しい派手なモデルがあっても、俺はまだgpt-ossモデルで遊んで、俺のマシンで実行して、エージェントワークフローで使って、オーケストレーション用にGPT-5を使って、コード固有のタスクにCloudeを使って、そのサイズに対して合理的に実行できるタスクにgpt-ossを使うという組み合わせで使うことに情熱を持ってるんや。

実験してみると思うで。

同意するで。実験しに行け。それからエージェントで遊んでみてくれ。正直に言うと、ウェブブラウジング機能は今は信じられへんくらい素晴らしい。ツール呼び出し機能も信じられへん。だから行って遊んでみてくれ。それが他のすべてを凌駕してる分野やと思うで。

watsonxでやってる作業について少し宣伝させてもらうで。俺らはいつもオープンソースAI分野の大きな支持者やった。gpt-ossの機能の一部を使いたいなら、今日watsonxにあるで。

モデルゲートウェイに関する新しい作業で、持ってるフロンティアモデルとAPIキーを俺らのプラットフォームに持ち込むのがどんどん簡単になってるんや。これらのツールを試して使って、それらを消費しやすくするために俺らがやってることや、俺らがやってる作業を確認してくれ。

改めて、クリス、ミハイ、今日は参加してくれてありがとう。視聴者の皆さん、聞いてくれてありがとう。またAIにとって刺激的な一週間やった。ポッドキャストのファンなら、トークンポッドキャストラインが言う通り、いいねとチャンネル登録を確実にしてくれ。また次回会いましょう。みんなありがとう。