OpenAI GPT-OSS & Anthropic Claude Opus 4.1 | 初回レビュー

Anthropic・Claude・ダリオアモデイ
この記事は約30分で読めます。

OpenAIが新たにリリースしたオープンウェイトモデルGPT OSS(120Bと20Bの2サイズ)とAnthropic社のClaude Opus 4.1について、実際の使用例を通じて性能を検証・比較する動画である。両モデルの評価指標での優秀性とともに、コーディング、要約、エージェント機能などの実用的なタスクでテストを行い、それぞれの特徴と能力を詳しく解説している。

OpenAI GPT-OSS & Anthropic Claude Opus 4.1 | First Look
In this video I take a first look and test out the recently released gpt-oss (open weight models) from OpenAI (both 20b ...

OpenAI GPT OSSとClaude Opus 4.1の発表

みなさん、どうや!今日は最近発表された2つのリリースについて見ていきたいと思うんや。これはもう特に楽しみにしてるやつらやねん。

まず最初はOpenAIからのやつや。彼らがGPT OSSをリリースしたんや。これはオープンウェイトモデルなんやで。サイズは2つあって、120Bと20Bや。artificial analysis.aiを見てみると、これらのモデルがめちゃくちゃ優秀な性能を示してることがわかるんや。

artificial analysis intelligence indexを見てみると、GPT OSS 120Bは58点を記録してるんや。これはGemini 2.5 Flashのすぐ後ろにいて、GLM 4.5よりも良いし、NMAX M1よりも良いし、Lemon Neimatronよりも良いし、他の多くのモデルよりも良いんや。そしてGPT OSS 20Bは、少なくともこのintelligence indexによると、GPT 4.1よりも良いってことになってるんや。

GPT OSSリリースの詳細

このリリースについて何が起こってるんやろう?リリースポストで彼らが言ってるのは、2つの最先端オープンウェイト言語モデルをリリースしてるってことや。これらは低コストで強力な現実世界でのパフォーマンスを提供して、柔軟なApache 2.0ライセンスの下で利用できるんや。これらは似たようなサイズのオープンモデルを推論タスクで上回ってるんやで。

強力なツール使用能力を実証してるんや。これが僕がこれらのモデルをテストしたい理由の一つなんや。なぜなら、これらは実際に有用なローカルエージェントの始まりになる可能性があるからなんや。もしツール呼び出しがうまくできて、指示に従うことがうまくできるなら、これらはローカルでエージェントを使うための本命になるかもしれへんねん。つまり、データをどこにも送らないローカルモデルで、コンピューター上で超パワフルなことができるモデルを持つってことやねん。

効率的なデプロイメントのために最適化されてて、強化学習技術の組み合わせを使って訓練されたんや。

リリースについての情報がたくさんあるんで、下に行って、レイヤー数とかのパラメータについて少し見てみたいと思うんや。120Bは36層になってる。全パラメータ数は1170億。トークンあたりのアクティブパラメータは51億。

これが何を意味するのかは、正直わからへん。コンテキスト長はそれぞれ128Kになってて、これはOpenAIのモデルから期待される通りやねん。128KはGPT-4o、GPT-4.1などの主要モデルのコンテキスト長やからな。

モデルはSTEMコーディング、一般知識に焦点を当てた英語で訓練されて、OpenAI o4 miniとGPT-4oで使用されるトークナイザーのスーパーセットを使ってデータをトークン化してるんや。そして後訓練について少し書いてある。

評価結果とベンチマーク

これが僕が見たかった評価なんや。彼らはこれらのモデル両方を、コーディング、競技、数学、健康などの能力を測定するために標準的な学術ベンチマークで評価したんや。

120BはOpenAI o3 Miniを上回り、競技コーディングのcodeforces、一般問題解決のMMLU、HLE、ツール呼び出しのtoolbenchでOpenAI o4 miniと同等かそれを上回る性能を示してるんや。healthbenchのような健康関連のクエリやaimeのような競技数学では、o4 miniよりもさらに良い成績を出してるんや。GPT OSS 20Bは小さなサイズにもかかわらず、これらの同じ評価でopen AI o3 miniと同等かそれを上回り、競技数学では上回る性能を示してるんや。

これらのモデルがこれらの評価で非常に良い成績を出してることがわかるやろ。でも、クローズドソースプロバイダーからモデルが出てくると、僕はいつも「まあ、非常に良い成績やけど、独立したプロバイダーからの評価について知りたい」って思うんや。だから僕はいつもartificial analysis intelligence indexやEDL mariasの評価を見るんや。独立したプロバイダーがモデルをベンチマークした結果を気にしてるからな。

GPT OSSの実際の使用テスト

このモデルはどうやって使うんや?Ollama.comに行くんや。Ollamaをダウンロードするんやけど、これはめちゃくちゃ良いことなんや。OllamaとOpenAIが実際にパートナーシップを組んでGPT OSSを起動したんで、Ollamaが出した新しいチャットインターフェースで使うのが驚くほど簡単なんや。

インターフェースを開くと、このめちゃくちゃ良いチャットインターフェースが出てくるんや。実は前に大きなモデルのダウンロードを停止してたんで、まずは20Bモデルから始めて、新しいチャットを開くことにするわ。簡単なところから始めて、「よう、調子どうや?」みたいなのからやってみるで。

これらは推論モデルなんやで。モデルは少し考えてから、回答をくれるんや。

モデルがコンピューターに読み込まれるのに少し時間がかかったから、レスポンスに時間がかかったんや。でも、ほら、回答が来た。良さそうやで。

僕は通常、基本的なPythonスクリプトから始めるのが好きなんや。モデルが実際に何かをコーディングできるかを見るためにな。「無料のNASA画像APIから4つの画像をダウンロードして、グリッドで表示してくれるシンプルなPythonスクリプトを書いてくれる?」って言うんや。

なぜかこの例を使うんやけど、これが僕が使う例なんや。モデルは少し考えて、うまくいけばそれができるやろう。出てくるモデルはみんなこれでテストするんや。これが僕の「自転車に乗ったペリカン」テストなんや。なぜかはわからへん。

正直、理由はないんや。GPT 3.5で始めて、それ以来やめてないだけなんや。GPT-4o、4.1、4o mini、4.1 mini、Claude Sonnet 3.5、3.7、Claude Opusでもテストした。NASA画像APIを使って宇宙画像を見せてくれっていうこのランダムなプロンプトでテストしたんや。

なぜか宇宙画像が本当に好きなんやと思うわ。

良いスクリプトが出てきた。きれいやな。これをコピーして、ターミナルを開いて、これをnasa_images.pyって呼ぶことにするわ。もうテストしたことがあるのが見えるやろ。これをそのまま実行してみる。

環境にはたぶん必要なパッケージが入ってるやろう。実行してみるで。検索して、ダウンロードしてる。今のところ良さそうや。

これは宇宙の画像ではないな。画像は見えてるけど、思ってたのとは違うな。

ChatGPTとの比較テスト

コンテキストを説明するために、同じプロンプトを今度はChatGPTでテストしてみるわ。ChatGPTのインターフェースが少し変わってるな。面白い。新しいやつやな。ChatGPTには探索すべきことがたくさんあるけど、今は同じことをGPT OSS 20Bでやったのと同じようにやってみるで。

スクリプトをコピーして、より良い結果が得られるか見てみよう。ChatGPTの方がうまくやると思うわ。この場合、GPT-4を使ってるからな。

スクリプトを貼り付けて、nasa_images_gpt4o.pyとして実行してみる。うまくいくか見てみよう。実行してる。何も表示されへん。

そっちの方が少し良さそうやな。ダウンロード映像が見たかったけど、そっちの方が良さそうや。この出力を見てみよう。NASA API collecting displaying images。リクエストを作ってる。良さそうやな。実際に宇宙の画像やし。

この初期テストには完全に満足してないけど、これはランダムなテストやからな。実際に重要なことでもっと面白いテストを続けて、このモデルが本当に良い仕事をするか見ることができるんや。

データ整理とテキスト処理のテスト

例えば、僕が好きなのはPDFからデータを取って、そのデータをテーブルで整理するようにモデルに頼むことなんや。いつもやる例やで。

読まなあかん論文に行ってみよう。AI agents 25 paperとか。何が出てくるか見てみよう。「AI agentsとの仕事の未来」。アメリカ労働力における自動化拡張可能性の監査。前にこの論文を読んだことあるわ。

この論文からいくつかの情報をコピーしよう。簡単にするために、この論文からこれらの3行をコピーするわ。情報処理スキルへの需要の縮小、対人スキルへのより大きな重視、高いエージェンシー。

これをモデルに貼り付けて、新しいチャットを開始して、「これらの3つの段落の良い要約をテーブルで作ってくれる?」って言うんや。この出力をここに貼り付けて、GPT OSS 20Bに送って、モデルがこの種のタスクをどれくらいうまく処理するか見てみよう。

これはかなり簡単なタスクで、GPT-4oでやったら非常に良い仕事をするのは確実やけど、比較するのは面白いやろうな。

コアインサイト、情報処理への需要の縮小、対人スキルへのより大きな重視、高エージェンシースキル。良い仕事をしてるな。実例、コンテキスト、人間の相互作用、トップ10の高い。出力はかなり良いな。

物事を異なる形式で整理するのはかなり良い仕事ができるようやな。この場合、テーブルを求めてたからな。これを横に置いて、ChatGPTに同じタスクをやってもらおう。

ChatGPTにこのプロンプトをコピーして貼り付けて、GPT-4が同じタスクをどう処理するか見てみよう。きれいで整理された要約がここにある。GPT-4の方が少し良い仕事をしてるな、と思う。

キーテーマ、説明、詳細、含意。クライアント情報処理スキル。情報処理。関連やな。一般的やけど。GPT-4oの方が好きやな。

だからこういうバイブチェックが好きなんや。artificial analysis intelligence indexに行ってGPT OSS 20BがGPT 4.1より良い性能を示してるのを見ると、すぐに「このモデルはこれより良い」って思うけど、そういうふうには動かないんや。自分にとって重要なタスクでバイブチェックしなあかんのや。

でも、これはまだかなり良いやろ?かなり良い出力やし。GPT OSS 20Bを完全に否定するつもりはない。これはかなり良いし、かなり良いな。

テキスト要約テストの実施

次にやることは、この投稿をコピーして、「この記事を1つの段落で要約して」って言うことや。記事全体を生で貼り付けるんや。これは僕が非常によくやることなんや。普通、我慢がないからな。

コピーペーストから無駄な情報を少し削除して、モデルにまともな結果を出すチャンスを与えよう。昨日こんなことをテストしたけど、あまりうまくいかなかった。スクリプトを求めて生のページを貼り付けたら、変な動作をしたんや。面白いと思ったけど、これをやったら何が起こるか見てみよう。

これをコピーして、GPT-4oでもテストしてみる。新しいチャットを開始して、GPT-4oに同じプロンプトを貼り付けよう。何が起こるか見てみよう。

GPT-4oはもう良い小さな段落をくれた。Apacheライセンスの下で2つの強力なモデルをリリース、最先端データを提供、それは完璧や。これらのモデルに匹敵するもの、専門家の組み合わせを特徴としてる。良いな。

モデルはまだ考えてる。このモデルの方が良い仕事をするかもしれへん。トランスフォーマーベースの専門家20Bを組み合わせた、独占的な04 miniの推論性能に匹敵、これは素晴らしい回答や。本当に気に入った。

GPT OSS 120Bモデルの試用

モデルがテキストのサンプルをテーブルのような他の構造やデータに変換できるようやし、情報を要約できる。コードも書ける。NASA APIでの画像生成プロンプトの解釈は少し外れてたけど、宇宙からの画像が欲しいのを理解できるGPT-4と違って、NASAからのランダムな画像やった。でも、それは僕のプロンプトが曖昧やったのも原因や。

これは単なるバイブチェックなんや。だからバイビングが好きなんや。話してる能力の種類を理解するためやねん。これらの能力を評価するためのより体系的なアプローチを持つバイブチェックについての適切な動画を作る予定や。

でも、GPT OSS 20Bには非常に満足してるわ。ツール呼び出しと指示に従う能力はまだ評価してへん。20Bモデルが良い仕事をしてくれるなら、有能なローカルエージェントを持つことができるってことやから、これは僕が非常に楽しみにしてることの一つなんや。コンピューター上で少しの知能を必要とする小さな自動化の可能な代替品やね。

OSS 120Bがここで利用可能かどうか試してみよう。「よう」って言ってみる。まだこのモデルの30ギガほどをダウンロードする必要があるな。

このモデルのダウンロードを待ってる間に、非常に最近出たもう一つの興味深いリリースについて話そう。それがClaude Opus 4.1なんや。

Claude Opus 4.1の発表と特徴

これは巨大やで。巨大やないけど、かなりクールや。Claude Opus 4.1は現在トップのClaudeモデルなんや。再び、artificial analysis.aiの推論を示す知能ベンチマークに行くと、トップの推論モデルが何かがわかる。Grok-4が1番、o3 Proが2番やけど、検証されてないようや。

あのゼブラ模様が検証されてないって意味やと思うけど、よくわからへん。o3が3番、期待された04 mini highが4番。ここを見ると、Claude 4 Sonnetが7番や。Claude 4 opus 4.1はまだ見られてないようやな。非常に最近やから、人々がまだ見てへんのやと思う。

彼らがそれをやったら何が起こるか見るのが楽しみや。めちゃくちゃ興味深いやろうな。リリースポストを見ると、Opus 4.1をOpus 4のドロップイン代替品として提供してて、現実世界のコーディング、エージェントタスクで優れた性能と精度を提供してるって言ってるんや。

より厳密で詳細に注意を払って、複雑なマルチステップ問題を処理できるんや。すごいやろ。僕はもうSonnet 4とClaude Opusに非常に満足してるから、これらは僕のエージェントやコーディングのための頼みの綱のモデルなんや。Opus 4.1が5%でも良くなってるなら、それはもう素晴らしいことやねん。

今日最も知的なモデルで、高度な推論と強力なコラボレーション機能を持つコーディング、エージェント検索、創作における最前線を押し進めてる。Claude Opus 4.1は、チームが複雑なエンジニアリングやビジネスの課題にアプローチする方法を変革するんや。

エージェントには絶対使う。コーディングにも絶対使う。検索にも絶対使う。でも、コンテンツ作成には絶対使わへん。Claudeが執筆に素晴らしいのは確かやけど、AIで書くのは良いアイデアやとは思わへん。MIT論文でAIで書くべきでないって出たからだけやなくて、単純にAIで書くのは良いアイデアやと思わへんからや。ブレインストーミングは好きやし、アイデアについて考察したり、フィードバックをもらうのは好きやけど、実際の執筆は自分でしたいねん。

ベンチマークを見ると、エージェントコーディングのSWE-benchでClaude Opus 4.1は74.5%、Claude Opus 4の72.5%より良いんや。エージェントターミナルコーディングも巨大や。

TBenchを知らへんなら、実際に僕が知らなかった存在するリーダーボードについて非常に興奮したんや。Terminal Bench.AIって呼ばれるtbench.aiのリーダーボードで、ターミナルエージェントをベンチマークしてるんや。なぜかコンピューターがそのページを開くのに1000年もかかってる。

Claude Opus 4.1のベンチマーク結果

GPQA8ダイアモンドベンチマークでは80.9%を記録してる。めちゃくちゃ素晴らしそうや。エージェントツール使用のtoolbenchでは82.4と56。これは巨大や。ツール呼び出しとエージェントがツールを使って指示に従う能力は、これらのモデルで評価できる最も重要なことの一つやからな。指示を正しく従うことが信頼できるなら、それほど賢くある必要すらないんや。エージェントタスクをするのに推論モデルは必要ない。指示を正しく従うことを信頼できるモデルがあればいいんや。

Claude Codeを使ったことがないなら、使うべきや。素晴らしいし、そういう種類のタスクではかなり良い仕事をするんや。Terminal Benchがなぜ開かへんのかわからへん。Terminal bench leaderboard for agents。Google経由で見つけられるか見てみよう。

tbench.aiやな。これがTerminal Benchリーダーボードで、Claude Codeのようなターミナルベースエージェントの能力をベンチマークしてるんや。でも、明らかにトップで最高なのはWarpで、これはかなり素晴らしいことや。Warpについて知らなかったから、このリーダーボードを通じて知ったんや。少しは知ってたけど、特別なターミナルでターミナルを置き換えようとしてる人たちやと思ってたけど、明らかにかなり素晴らしいんや。

Warpをチェックすべきやで。かなりクールや。でも、Tbenchに戻ると、これは素晴らしい。Claude Codeがここで4番、3番にいるのが見えるで。Claude Opusに支えられてて、これはかなり興味深いことやな。Claude 4 OpusがClaude Codeを3番に押し上げてるなら、Claude 4.1 opusがClaude Codeを1番まで押し上げるかもしれへん。わからへんけど、そうかもな。

Claude Opus 4.1の実際のテスト

リリースに戻ると、4.1モデルは素晴らしい。claude.aiに行ってテストできるで。Claude Opus 4.1に行ける。GPT OSSモデルでテストした同じタスクでテストできるで。

このチャットに戻って、GPT OSS 12Bをテストする準備ができてるのが見える。でも、あのPythonスクリプトに行こう。NASA APIを使う。「調子どうや」から、「シンプルなPythonスクリプトを書いて」まで。

Claude Opus 4.1がこのタスクをどう処理するか見るのは非常に興味深いやろう。かなり良い仕事をしてる。実際にかなり速いな、これは面白い。大きな推論モデルにしてはかなり速い。

スクリプトをコピーして、ここに貼り付けよう。GPT-4oの代わりに、今度はclaude_opus_4.1や。実行してみよう。うまくいくかな。動かなかったら面白いやろうな。

期待通り、最高の結果やな。非常に複雑な問題ではないけど、この画像が気に入った。明らかに僕が見たい種類のものをダウンロードした。グリッドも素晴らしく見える。

Claude Opus 4.1で前にできなかったことができるか見るのが楽しみや。

Claude Desktopでのテスト

例えば、面白いことでテストしてみよう。Claude Desktopを開こう。Claude Opus 4.1が準備できてるマークがここにある。Claude Desktopがないけど、Claudeのサブスクリプションがあるなら、Claude Desktopを使うべきや。claude desktop downloadでググれば、Claudeをダウンロードできるで。

Claude DesktopはMCPsやコネクターを設定できるからな。これはClaudeにコンピューターを様々な方法でコントロールする能力を与えるんや。カレンダーをチェックしたり、ノートを書いたり、そういうことができるんや。

Claudeに行って、セットアップにあるMCPとコネクターを見ることができる。Canva用のコネクターがあるで。Canvaを使って何かテストしてみよう。面白いコネクターやからな。基本的にCanvaとのインターフェースができるんや。Canvaを知らないなら、サムネイルやデザイン作業をするデザインツールみたいなもんや。

Canvaを使ったことがないなら、Canvaはかなり面白い。Figmaのサブスクリプションを払うお金がないなら、Canvaを使うみたいな感じや。サムネイルにはCanvaを使うけど、ソーシャルメディア投稿、プレゼンテーション、ホワイトボード、いろんなことができるんや。

Claudeに行って、Canvaコネクターを選ぼう。デザインを取得、デザインを検索、デザインをインポート、エクスポートフォーマットを取得、フォルダーを作成、移動、コメント、返信、デザインを生成。

「Canvaで今度のYouTube動画のデザインを生成して。OpenAIからのGPT OSSオープンウェイトモデルとClaude Opus 4.1の2つ、3つのモデルのリリースについて話すんや。これらのリリースについてもっと知りたかったら、これらのリリースポストをチェックできるで」って言おう。

リリースポストをここに貼ろう。Opus 4.1のリリースポストをコピーして、GPT OSSのリリースもここにコピーしよう。これをここに貼ろう。

うまくいけば、MCPのBraveを使ってウェブを検索してこれらのリリースポストを見て、理解して、それからCanva用のMCPを使ってデザインを生成するやろう。記事から情報を取得してる。非常に良いな。

あまり良い仕事はしてないようやな。情報の取得がうまくいってないのは変やけど、それでも実際のサムネイルの生成には影響しないはずや。それらが何かを理解してるならな。でも、エラーが出てるのは気になるな。

「外部リンクを訪問するためにClaudeを離れます」。うまくやったかわからへん。Anthropicリンクでうまくいかなかったように見える。でも、何かできたようや。

Canvaデザイン生成の結果

動画用に4つのデザインを生成したで。これがオプションや。デザインプレビュー。1、2、3。これはかなりクールやな。デザインオプションがあるもんな。これをチェックしてみよう。開いてみよう。

かなりクールやな。少し空白で基本的やけど、かなり良いやん。デザイン2も見てみよう。また開いてる。これはまあまあや。何かや。

僕はサムネイルを生成するためのシステムを持ってるんや。僕の顔で訓練されたモデルを使って僕の顔を生成して、いろんなことをするんやけど、これらのモデルが一般的に画像を生成する能力を評価するのは好きなんや。だから、これはかなり面白い。

最後のオプション。うーん、Claude、これはかなり面白いけど、Claudeここで。これを開いてみよう。これはかなり良いな。これらの初期の、ちょっとバカげた結果には満足してるって言わなあかん。この特定の目的、このシナリオ、この状況では使わないやろうけど、違う方法でやるやろうな。

でも、MCPツールを使って、Canvaをある種の整った面白い方法で活用できたっていう事実は、かなり良いことや。

GPT OSS 120Bモデルのテスト

Claude 4.1はかなり良いということが分かったから、Ollamaに戻って、OpenAIからの唯一無二の120Bモデル、鍋をかき回してるオープンウェイトモデルをテストしよう。超良いはずやで。大きなモデルやけど、僕は強力なコンピューターを持ってるから、僕のMacでこのモデルを実行できるはずや。

NASA画像を生成するバカげた小さなPythonスクリプトジェネレータープロンプトを貼り付けよう。このモデルがそのタスクを処理できるか見てみよう。

今モデルを読み込んでる。これは僕のコンピューターを少し揚げるやろうな。どれくらい僕のコンピューターを揚げるか見るのが実際に興味深い。

アクティビティモニターでどれくらい使ってるか見てる。僕のコンピューターはもう遅くなってる。だから、もういろんなことが起こってるのがわかる。メモリ使用量は今80ギガ。このモデルは60ギガを使ってる。60ギガのRAMをこのモデルを実行するために使ってる。クレイジーやな。でも、僕のコンピューターは理論上128ギガあるから、実行できるはずや。モデルが動いてる。

GPT OSS 120Bモデルを実行できてる。かなり満足してる。結果はかなりクールに見える。

スクリプトはまともに見えるな。見て、タイプヒンティング。検索URLを構築。NASA APIを検索。正しい検索用語のMarsを使ってる。Marsが好きかはわからへんけど、面白い。これらのスクリプトを生成する時に、どんな画像が欲しいか言わなかったけど、モデルはMarsを選んだ。これは理にかなってる。宇宙からのものやからな。

出力が実際に良いか見てみよう。コードがたくさんある。だからかなりまともなはずや。一時フォルダーを削除する戦略がある。気に入った。賢いな。

スクリプトをコピーして、ターミナルに行こう。nasa_と貼り付けよう。これがGPT OSS 12B。そこに貼り付けよう。

nasa_images_gptoss_stuff。スクリプトを今実行してる。見て、これは良いな。絵文字まである。でも出力は…でも、ここがポイントや。素晴らしく見える。実際にNASA画像APIを使った。問題は変なキーワードを探したことやな。

唯一無二のGPT-4oで得た結果と比較してみると、nasa_images_gpt4o。これを見てみると、nasa画像を取得する。クエリはmoonやった。だから、moonをこの12Bモデルで生成したスクリプトに入れたら。

Cursorをこのフォルダーで開こう。スクリプトを見つけよう。nasa_images_12bで、Marsの代わりにmoonをここに入れよう。moonって言おう。ターミナルを開いて、それをもう一度実行しよう。

結果はたぶんずっと良くなるやろう。あんまり良くなってへん。APIを違う方法で使ってるんや。だから、何が起こってるかが少し心配になる。

これがNASA APIの使用法やな。APIエンドポイント。NASA GPT-4oに行くと、サイトメディアタイプ画像ビルド。nasa画像クエリmoonリクエストをURLビルド検索URLに。検索URLを構築、Q、メディアタイプ。似てるな。データを取得、コレクションレスポンス。jsonパラメータ。10のタイムアウトがある。results.appendとか。たくさんの余分なものを追加した。だから見た目は良いけど、クエリ…そこや。画像は実際にクエリearthを使ってた。

Earthでやってみよう。Earthって言おう。ターミナルに行って、スクリプトをもう一度実行しよう。結果は良く見える。

実際に、この出力の印刷を見て。GPT-4oはそんなことしなかった。だから、これは完璧な回答やと言うやろう。これは完璧や。これが気に入った。だから、これはたぶんGPT OSSがこの小さなトーナメントで勝ったな。

面白かったのは、Claude 4.1の回答を見ると、デモキーがあることや。NASAがデモを提供してる。だからClaude 4.1は実際により良いAPIを使った。planetary forapodを使って、他のモデルはgov.archを使ったんや。

Claude 4.1は文字通りランダムな画像、でもより良く見えるAPIからのランダムな画像を取得してた。このウェブサイトに好奇心から行ってみると、apotに行くと、そこでは何も起こってへんけど、でも全部の回答が本当に気に入ったけど、GPT OSS 12Bからの回答には本当に満足してる。かなり興味深い。

大規模なテキスト要約テスト

でも、もう一つテストをしてみよう。僕が好きなテストは、要約とかそういうことや。これまでやったことがないことを試してみよう。

artificial analysis.aiのこのページで、ベンチマークの結果やいろんなことの束が見えるやろう。120Bモデルにこのページを要約してもらおう。これらすべての結果からの主要な洞察を要約して。

control+cを押そう。生でコピーしてるから、最良の方法ではないのはわかってるけど、「artificial analysis.aiからのこのページのすべての洞察を整理されたテーブルに要約して」って言うんや。

生のページの結果をそこに貼ろう。モデルにチャンスを与えるために、少しゴミを削除しよう。どんな出力が得られるか見てみよう。送信しよう。

これでうまくやってくれたら、かなり素晴らしいやろう。これは僕が定期的にこのモデルにやってもらえる超有用なことやからな。だから、このモデルがそれをできるか見るのは面白いやろう。

モデルはしばらく考えるやろう。この120 OSSのリリースについて、いつでもサイモン・ウィリスに行けるからな。たぶんもうGPT OSS 12Bリリースをカバーしてるやろう。そうや。

サイモン・ウィリスをまだフォローしてないなら、何してるんや?AI工学ツールに興味があるなら、サイモン・ウィリスをフォローしなさい。彼こそが男やで。

o4の多くとパリティを達成してる。だから、彼は起こってることをまとめてるんや。両モデルは専門家の混合体。専門家の混合体。僕の理解では、推論を高速化するための推論技術や。すべてを使うんじゃなくて、推論中にパラメータの一部を動員できる混合専門家を持つモデルがあるかもしれへん。これは速度には良いけど、一般知識のベンチマークスコアについて、これらのベンチマークの多くは飽和に向かってると信じてるって彼は言ってる。LM StudioでMacでモデルを実行した。僕はOllamaで実行した。大丈夫や。

第一印象、ペリカンの推論低い。これはちょっと興味深いし、試してみよう。僕の好きなバイブチェックベンチマーク、自転車に乗ったペリカンのSVGを生成して。かなり楽しい例やと思う。これも試したい。今これをコピーしてる。

でも、本当に注意を払ってない人たちにとっては、これは難しいやつや。スペースインベーダーを作ることができる。HTML JavaScriptを書いて。数秒考えて、これを作った。ここでプレイできる。良いな。かなり良い。

APIプロバイダーで試してる。Cerebrasは超速いAPIプロバイダーや。チェックすべきやで。120は良いし、artificial analysisページを要約する僕らの小さなリクエストについて、モデルはまだ考えてる。

でも、このモデルには多くの可能性があると思う。正直に言うと、こういうことについては、僕はClaude、ChatGPT、Geminiを使うのをやめるつもりはない。僕にとってはこれらすべての異なるモデルに場所があるんや。

でも、ローカルエージェントタスクでこれらのローカルモデルを使い始められるポイントに到達できたら、それは本当に良いことやろうな。XやLinkedInでも、このようなモデルで本当に強力なローカルセットアップを設定して、個人メモや個人文書のためのRAGパイプラインを強化できるローカルエージェントを強化できるって話してる人たちを数人見たんや。

これは、例えば20Bモデル、20Bモデルが僕にとってかなり興味深いような種類のことや。

回答をまだ待ってる。送ったテキストがたくさんあったから、モデルは時間がかかると思う。

Claude Opus 4.1の高度なテスト

モデルが終わるのを待ってる間、Claude Opus 4.1を、僕のセットアップにあるコネクターのいくつかを含むタスクでテストしたい。ブラウザではなく、明らかに。Claudeに行こう。

このチャットを削除しよう。もう必要ないから。僕には束のコネクターがあるねん。Ankiフラッシュカードを作るため、Notionにページを作るため、デスクトップコマンダーがあって、これは僕の好きなやつで、コンピューターにファイルを作ったりするためのやつや。

僕が言うことに基づいてノートを取るタスクでこれをテストしてみないか。僕のコンピューターに、content ideasって呼ばれるフォルダーがあって、AIエージェントやノート、僕がやってる監督の助けを借りて開発してるアイデアのメモが束ある。同時に複数のアイデアに取り組めるんや。

これのためのシステムがあって、実際にかなり良く見える。うまくいったら、これについての動画を作るつもりや。かなりクールやと思う。でも、モデルにこれらのファイルを読んでもらって、僕が取り組んでるすべてのアイデアの全体的な要約をしてもらいたい。

このフォルダーへのパスを取得しよう。クリップボードにコピーしよう。Claudeに戻って、「このフォルダーに行って、僕のノートを全部読んで、僕が取り組んできたアイデアの良い包括的なテーブル状の要約を書いて、YouTubeでどれが一番良いパフォーマンスをすると思うかに基づいてランク付けして」って言おう。

かなりバカげたプロンプトやけど、MCPデスクトップコマンダーを使ってそのフォルダーに行って、ノートを読んで、ノートを効果的に要約して、それから僕が簡単に読めるような構造で整理することを含んでる。だから、たぶんそれらのアイデアの潜在的な書き直しを、入力に基づいてできるかもしれへん。

許可しよう。Ollamaに戻ろう。まだ待ってる。まだ待ってる。だから、このようなモデルから巨大な要約を求めることは二度とないやろうと思う。あまり信頼できないからな。でも、Claude Opus 4.1は今かなり良い仕事をしてるようや。このモデルから今どんなものが出てくるか見るのが楽しみや。

ファイルを読んでる。タスクをやってる。コンテンツアイデアの要約とYouTubeパフォーマンスランキング。かなり良いな。見て。ランク1番、複雑さの5段階でのAIツールの使用。これが最高なのは完全に理にかなってる。なぜなら、YouTubeでの僕の最高のビデオの一つが「3段階の複雑さでエージェントを構築する」って呼ばれてるから。

だから驚かない。これはかなり良い選択や。勉強のためのClaude desktop MCP。これも僕がやりたい別のビデオや。ユースケースに適したAIの選び方。エージェント時代の生産性。Claude Codeのメモを取る。僕はClaude Codeのメモを取ってる。AIでの新しいソフトウェア学習。これのためのアイデアがあって、本当にクールになるやろう。個人使用のためのエージェントの統制。

見て。推定ビュー数。1番は10万回以上。僕には今10万回のビューを持つビデオはないけど、そこに到達するやろう。到達するで。

成熟度、普遍的魅力、実用的で段階的なガイ、イベント使用。これは素晴らしい。これは本当に良い。これは美しいユースケースや。Claude Opus 4.1は本当に良い仕事をしてる。GPT OSS 12B。タスクを終えたか見てみよう。

タスクを終えてへん。だから、これは時間がかかることを気にしない非常に特定のタスクに使うモデルになるやろうと思う。でも、その間にClaude Opus 4.1を使うことができる。なぜなら、かなり良いモデルやからな。

見て、この要約。実際にこの要約を使うつもりや。これは並行して取り組もうとしてるこれらすべてのアイデアを追跡する良い方法や。MCPでClaude desktopを使うのが好きや。コンピューターをコントロールできるからな。

Claude Codeでも同じような状況がある。でも、非技術者で、コンピューターをコントロールするための個人ダッシュボードハブを持つというこのアイデアを探求したいなら、これがやり方やで。

例えば、これのデモンストレーションや。「素晴らしい。このテーブルを新しいNotionページとして保存して、そのページをコンテンツアイデア要約何とかって呼んで」って言おう。

うまくいけば、僕が持ってるNotion MCPを使って、そこに新しいページをテーブルとその生成したすべての情報で作ってくれるやろう。うまくいけば、それが起こることや。美しくて、素晴らしくて、素晴らしくて、驚くべきことになるやろう。

何が起こるか見てみよう。フォーマットされたテーブルをコピー。保存。今ファイルを書いてる。これが好きかわからへん。なぜなら…ファイルをデスクトップコマンダーで書いてる。Notionにインポートできるマークダウンとして保存。違う、それは僕が欲しいことじゃない。それは間違ってる。

少し手伝おう。ツールに行こう。コネクターで、僕の notion コネクターが、有効になってなかったんや。よくやることなんや。すべてのツールを有効にしよう。

もう一度やってみて」って言おう。モデルのコンテキストを更新するために僕のノートを戻そう。「もう一度やってみて。ここにノートがある。Notion API MCPとノートを使って。」ノートをそこに貼ろう。

うまくいけば今度はNotion APIを使うやろう。Notion APIが有効になってなかったから。明らかにモデルがやったことは、ファイルに書いて、Notionにアップロードするように僕に言ったことや。これはNotion APIが有効になってない場合の完全に有効な回答や。

Notion API、つまりNotion用のMCPが有効になってなかった。ページを投稿。Notion APIを使ってる。待ってる間に、このタスクをチェックできる。まだ何もない。動画を終えても、このタスクの結果が出ないかもしれへん。

投稿検索。有効になってる。notion API統合の問題が起こってる。迷惑やけど、大丈夫や。たぶんClaude Opus 4.1の問題じゃない。これはたぶんMCP接続自体の問題で、それは大丈夫や。許すわ。

ファイルに書けるか見てみよう。「その場合、Apple notesで僕のためにノートに書いて」って言おう。それができるか見てみよう。できたら、それはもう何かや。なぜなら、ノートとして持てるからな。

ノートを追加してる。この種のMCPなどの本当にクールなユースケースや。僕が欲しかったものとは正確に保存されてへん。より文字ベースのスタイルの新しい種類のノートを作ってて、気に入らへん。でも、実際に正しいノートで正しい情報やから、それで大丈夫や。

最終テストと結論

GPT OSS 12Bで違うタスクを試してみよう。このタスクは時間がかかりすぎるから。このチャットを削除しよう。削除する。

最後の超強力なGPT OSS 12Bのテストとして、「自転車に乗るパンダのSVGを生成して」って言おう。ペリカンじゃなくて、違うものにしたいから。パンダにする。そんなにオリジナルやで。

うまくいけば、GPT OSS 120Bがこれを作るのに1000年もかからへんやろう。GPT OSS 12Bで運用してる。これがうまくいくかもしれへんから楽しみや。

これが僕らがこの動画を締めくくる方法になるやろう。GPT OSSをもう一度待ってる間に、このノートをチェックしよう。Apple Notesでノートを開こう。

このノートはひどく見える。絶対に使わへん。でもノートは作った。ノートの内容がひどいだけや。でも、今Appleのintelligenceを使おう。普段は使わへんけど、なぜかって言うと…

テーブル。もちろん。Appleには良くないな。頑張れ、Apple。キーポイントって言ってみよう。キーポイントを試してみよう。キーポイント。うまくいくようや。

僕が絶対に使わへんAppleのIntelligenceを使ってるけど、この種の書き直しタスクには良いかもしれへん。置き換えよう。かなりクールや。

Claude desktop MCPでノートを生成して、それからAppleのintelligenceできれいにして、新しくして、新鮮にすることができるんや。これはできることやと思う。組織はひどい、ひどくやられてるけど、エバーグリーンコンテンツアイデア、コンテンツアイデア、このバッジなんで、トップパフォーミングコンテンツアイデア、これも。あまり良い組織じゃないけど、大丈夫や。

GPT OSS 120Bが、SVGの生成を終えた。これをコピーして、コンピューターのここに貼り付けよう。どこでもここに貼り付けよう。panda.svgとして貼り付けよう。開いてみよう。

こんなふうに開きたくない。正しい方法で開けよう。Google Chromeで開けると思う。でも、来い。Google Chrome panda。パンダバイクSVG。頑張れ。Google Chromeで開こう。

パンダや。バイクや。正確にバイクに乗ってるわけじゃないけど、満足してる。

これで今日は終わりや。見てくれてありがとう。いいねとチャンネル登録を忘れずに、また次回会おう。乾杯。

コメント

タイトルとURLをコピーしました