ChatGPT-4oがチャットボットアリーナで最高のLLMになりました！（テスト済み）

ChatGPT-4o is now the best LLM in Chatbot Arena! (Tested)

Testing the latest GPT-4o models on a variety of test cases. Gemini-1.5-Pro Experimental: out our upcoming live training...

これは興奮する問題で、コミュニティの多くの人々がこの特定の問題をテストしています。この特定の概念、つまりストロベリーという単語の中のRの数を数えられないというこのモデルについて、多くの話題が集まっています。この質問に関して、Xで多くの異なるスクリーンショットが共有され、ChatGPTがこれを正しく答えていたので、テストしてみましょう。
では、「ストロベリーという単語には3つのRの文字があります」という結果が出ました。これは、私が見た中で初めてChatGPTモデルがこれを正しく答えたように思われます。以前は常に間違えていたので、これを見るのは良いことです。もう一度サンプリングして確認してみましょう。はい、今では非常に一貫性があることがわかります。したがって、この問題は明らかに解決されたようです。これらの数え上げの種類の質問やタスクを再度テストするのは興味深いでしょう。なぜなら、これらのモデルが数え上げに苦戦していることに気づいているからです。
先週、OpenAIから2つの異なるモデルがリリースされました。GPT-4o 2024-08-06（8月6日）と、ChatGPT-4o latestと呼ばれる別のモデルがあります。ChatGPT-4o latestは、ChatGPT製品に接続されているモデルで、これがユーザーが使用しているものです。これはオムニモデルと呼ばれています。しかし、特定の日付にこの特定のチェックポイントを持つこのオムニモデルもあり、両方ともAPIを通じて利用可能になりました。
このビデオでは、これらのモデルのさまざまな側面をテストするために開発したいくつかのテストケースを見ていきます。能力の面では、特定のテストケースや問題について推論できるかどうか、また出力の品質も見ていきます。これらの2つのモデルは、出力の品質と特定のタスクの推論能力を大幅に向上させたと主張されているからです。
ALMはチャットボットアリーナを更新し、注目すべきは、ここで言及したChatGPT-4o 2024-08-06、つまりChatGPT-4o latestが、11,000を超えるコミュニティ投票を受けて、Google Gemini 1.5 Pro experimentalを上回り、首位を奪還したことです。これについては以前ビデオを作成しましたので、説明欄にリンクを貼っておきます。同じテストケースをこの特定のモデルでテストし、どのモデルが何に優れているかを比較してみましょう。
全体的に、彼らが達成したのはGemini experimentalモデルよりもさらに優れています。全体的に1位にランクされ、数学では1位か2位、その他のカテゴリーでも1位にランクされています。難しいプロンプト、コーディングの場合、おそらく最高のコーディングモデルですが、創造的なタスクやコード生成タスク、指示に従う能力に非常に印象的なClaude 2.5 Sonetのような他のモデルと比較してどれほど優れているかをテストする必要があります。長いクエリやマルチターンもテストします。
両方のモデルをテストしますが、このモデルは最近発表された構造化出力機能をサポートする最新のスナップショットです。これについても以前ビデオを作成しました。このモデルは128,000トークンのコンテキストウィンドウを持ち、約16kトークンで、2023年10月までのトレーニングカットオフを持っています。同様に、こちらのモデルも同じですが、このモデルは動的モデルと呼ばれ、継続的に更新されるChatGPTのGPT-4oの現在のバージョンです。これは研究と評価を目的としているとされています。
彼らの従業員の一部から見たように、自分のベンチマークで物事をテストし評価するためにこのモデルを使用することを推奨していますが、APIを介してモデルを活用する場合は、こちらの方を使用することを推奨しています。
では、テストケースに入っていきましょう。プレイグラウンドを使用します。プレイグラウンドが少し変更されましたが、モデルを比較する方法もあるので、非常に気に入っています。個々のモデルごとにテストするのではなく、両方のモデルの出力を比較してテストします。これにより、レイテンシーをテストし、出力の品質をチェックし、生成される出力を比較する良い方法があります。
いくつかのテストを設計しました。とても基本的なテストから、より複雑なテストまで進めていきます。最初に設計したのは、「今日の最高の寿司は何ですか？」というものです。このテストが好きな理由は、これらのモデルがどのような種類の応答を出力するかを最初にチェックしたいからです。これは非常に基本的なテストですので、実行してみましょう。
このモデルがこのモデルと比較してどれほど高速かも確認できます。しかし、このモデルはかなり冗長で、740トークンを生成しているのに対し、このモデルは424トークンしか生成していません。最大トークン数を確認したい場合、現在は4kですが、実際にはデフォルトで16kまで増やそうと思います。
ここでの出力品質に関して見ているのは、これが主観的なものであることを検出しているかどうかです。なぜなら、これは通常、これらのモデル、特に人間の好みに合わせたモデルから得られるものだからです。ここでは、「はい、それは主観的かもしれません」と言っています。こちらでは、「個人の好み、現在のトレンド、食材の品質に本当に依存します」と言っています。この特定の応答では、「主観的」という言葉さえ言及していないのは非常に興味深いです。実際にはより良いトーンで応答しています。これが好きですが、こちらはストレートに主観的だと言っています。応答の種類に少し違いがあります。これは今日これらのモデルで見る一般的な応答です。したがって、ここでも同じフレーズを期待していましたが、こちらはより良いフレーズを与えてくれました。このため、こちらの方が好みです。残りの出力はそれほど重要ではありません。この特定のテストで重要なのは、この特定の応答の始め方です。
これは2番目のテストで、コード生成に関するものです。2つの数字を掛け合わせ、そこから引く詳細なPython関数を作成したいと思います。これは非常に基本的なタスクで、ほとんどのモデルがそれを行うことができますが、私が見ているのは、モデルがその特定の関数を生成する方法の特定の点です。それが私がここでチェックしていることです。また、選択している書式も全体的に見ています。品質を気にしていますが、コードを生成する正確な方法も気にしています。
再び、このモデルがChatGPT-4o latestよりも少し速いことがわかります。トークン数はほぼ同じですが、実際の出力を見てみましょう。まず、GPT-4o 2024-08-06から始めましょう。この関数を見てみると、「multiply_and_subtract(n1, n2)」と定義しています。ここにコメントがあり、パラメータがあります。このコードは良さそうです。そして、これが返すものです。2つの数字を掛け合わせています。それは良さそうです。コメントがあるのが気に入っています。それが私が見ているものです。これらは小さなことですが、コメントは本当に見たいものです。これは基本的な関数ですが、クラスを指定するように頼んだらどうなるか興味があります。それは次の興味深いテストになるでしょう。
使用例があります。これはこれらのモデルでは非常に一般的です。そして、説明と使用方法も与えてくれています。これには満足です。良さそうだと思います。使用例もあります。
次に、ChatGPT-4o latestの出力を見てみましょう。再び、選択が異なることがわかります。ここでは「a, b」となっていますが、こちらでは「n1, n2」となっています。正直なところ、「num1, num2」の方が好みです。「a, b」はそれほど好きではありません。したがって、このモデルの方が既に良さそうですが、見てみましょう。
パラメータがあります。返り値があります。それは良さそうです。そして、例があり、ステップ1、ステップ2があります。はい、ここで何か起こっています。この特定の出力で見ているものが好きではありません。それはあまり良くないように見えます。それは奇妙です。私がやろうとしているのは、もう一度サンプリングすることです。
はい、私が行っていた実験のいくつかで気づいたことは、この特定のモデルがこのステップバイステップの事柄に陥る傾向があり、それがこのモデルが生成する出力の種類や能力に影響を与えているということです。ここでは、「以下は、操作を実行するPython関数とともに、ステップバイステップの説明です」と言っています。私はそれを求めていません。実際には、詳細なPython関数を作成するように求めています。このモデルがこの問題にアプローチする方法に少し混乱があるようですが、ここで説明し、コードを与え、ステップ2、ステップ3があることがわかります。これは、このような関数に対する奇妙な種類の出力やコメントです。両方を比較したかったのはこれを強調したかったからですが、こちらの方が好みです。
ここにあるのは非常に難しいテストです。このテストのトリックは、モデルが数字を合計する方法を知る必要があり、何を合計するかを知る必要があります。つまり、最初の70個の素数です。最後の4桁を抽出する必要があります。これは非常に簡単なタスクに見えるかもしれませんが、実際にほとんどのモデルがこれに苦戦しています。その理由は、少し推論が必要であり、数学の理解とロジックが少し必要だからです。モデルがこれを正しく実行する方法は、何らかの外部ツールやコードインタープリターを使用してコードを実行し、モデルが最終的に正しい応答を与えるために使用できるフィードバックをモデルに返すことです。
今回はこのモデルの方が少し速かったようです。こちらのモデルと比べて。それは少し興味深いです。プレイグラウンドでこれら両方を持っているので、おそらく一方が他方に影響を与えているのかもしれません。これらのモデルがどのように提供されているかわかりませんが、それぞれが独自のレイテンシーを持っており、ここで並べて持っているからといって一方が他方に影響を与えているわけではないと仮定しています。とにかく、お気づきのように、これはより速かったです。
「最初の70個の素数」と言っています。それは大丈夫そうです。そして、合計を計算しています。全体的に正しい応答を得ていません。これは間違った答えです。他のモデルの応答を見てみましょう。70個の素数、そしてそれらの合計を計算しています。通常、合計の部分で失敗します。そして再び、ここで本当に軌道を外れたのが見えます。これは正しくない応答です。これは正しくありません。両方とも失敗しました。私はClaude 2.5 SonetとGemini 1.5 Pro experimentalだけがこれを正しく答えるのを見ています。したがって、私が話しているこれら2つの他のモデルは本当に良い推論能力を持っていると思います。それは心に留めておくべきことですが、ここではもっとテストをする必要があります。これは1つの簡単なテストです。このモデルがこの特定の問題にどれほど優れているかを見るために、さまざまなバリエーションを試すことができます。しかし、異なるバリエーションを試す必要があります。とにかく、両方のモデルがこれに失敗しました。
ここにあるのは、コミュニティで非常に人気のあるものです。基本的に、ケイには3人の兄弟がいて、兄弟それぞれに2人の姉妹がいます。ケイには何人の姉妹がいますか？これは基本的にモデルを混乱させ、正しい答えを出すことができません。両方のモデルがこれにどのように対応するか非常に興味があります。はい、両方のモデルの回答を見ていきましょう。
ケイには3人の兄弟がいて、兄弟それぞれに2人の姉妹がいます。ケイは姉妹の1人なので、他の姉妹は1人追加の姉妹に違いありません。したがって、ケイには1人の姉妹がいます。これは正解です。もう一方のモデルを見てみましょう。
ケイには3人の兄弟がいて、兄弟それぞれに2人の姉妹がいます。ケイはその姉妹の1人なので、各兄弟にはケイ以外に1人の追加の姉妹しかいないことを意味します。したがって、ケイには1人の姉妹がいます。
両方の説明は正しく、非常に異なりますが、最終的に答えは正解です。この問題に対して、私がテストした他のほとんどのモデルは通常失敗します。
これは興奮する問題で、コミュニティの多くの人々がこの特定の問題をテストしています。この特定の概念、つまりストロベリーという単語の中のRの数を数えられないというこのモデルについて、多くの話題が集まっています。この質問に関して、Xで多くの異なるスクリーンショットが共有され、ChatGPTがこれを正しく答えていたので、テストしてみましょう。
さて、ここでは「ストロベリーという単語には3つのR文字があります」という結果が出ました。これは、私が見た中で初めてChatGPTモデルがこれを正しく答えたように思われます。以前は常に間違えていたので、これを見るのは良いことです。もう一度サンプリングして確認してみましょう。
はい、今では非常に一貫性があることがわかります。したがって、この問題は明らかに解決されたようです。これらの数え上げの種類の質問やタスクを再度テストするのは興味深いでしょう。なぜなら、これらのモデルが数え上げに苦戦していることに気づいているからです。
私はこれらのモデルがこの特定のタイプの質問に苦戦している理由をより深く調べていました。実際には、トークン化、つまりこの特定の単語を理解し、トークン化する方法に関係していました。実際には、これを3つの異なるトークンにトークン化しています。そのため、この質問の文脈では、いくつかの特徴を発火させ、質問を混乱させている可能性があります。
最近テストしている楽しい実験の1つ、これは非常に新しい実験ですが、コード生成です。しかし、創造的なタイプのコード生成です。これらのモデルがコードを生成できることは知っていますが、私が興味があるのは、モデルが創造的なゲームを生成したり、非常にユニークな何かを生成したりできるかどうかです。ユニークな体験を探しています。これは、今後のモデルをテストするために設計する予定の問題や質問のタイプです。これはコーディング能力だけでなく、出力がどれほど創造的でユニークかをテストする優れた方法だと思います。このテストでは、非常に新しい何かを出力に求めています。
これは、LLMについて学ぶのに役立つ創造的なPythonゲームを生成することについてです。技術的な専門知識を向上させ、重要な概念を記憶する必要があります。強調すべきは創造性であり、モデルが良い指示追従能力と良いコード生成能力を持っていれば、何か斬新なものを提供してくれることを期待しています。明示的に斬新なものを探しています。
両方のモデルを実行しました。再び、1つのモデルが他方よりも超高速であることがわかります。プレイグラウンドではやや無作為に感じられます。APIでは異なる可能性があることを心に留めておいてください。しかし、今回はこのモデルの方が他方よりも速く実行されたようです。
コード自体を見てみましょう。今回はこのモデルがいくつかのコードを提供したようです。前回はステップバイステップの説明を提供しましたが。コードをコピーして、すぐにテストしてみます。Google Colabを開いているので、ここにコードを貼り付けます。すべてが正しいようです。これを実行してみます。
質問1：2023年時点で最大のLLMの1つとして知られているモデルは何ですか？
私はこれが好きではありません。これは単なる多肢選択です。これはこれらのモデルから得ている標準的な出力です。私の意見では、このモデルはすでにこのタスクを非常にうまく実行できるはずです。意図を理解し、驚くべきものや創造的なものを提供するはずです。これが私がこれらのモデルに設定しているバーです。
次に、モデルにフォローアップを行う前に、他のモデルの出力をテストします。創造的ではなく、そのタイプのゲームを知っているので、それは私にとって興味深くないと思ったので、このモデルをテストします。
コードをここに貼り付けて、実行します。「LLMクイズゲームへようこそ」と表示され、再び多肢選択が提供されます。選択できますが、この出力は本当に好きではありません。見たところ、ゲームはかなり単純で、本当に創造的ではありません。
できることは、フィードバックを与えることです。これは一般的に他のモデル、例えばGemini 1.5 Pro experimentalで機能します。フィードバックを与え、それによってコードを修正し、より良い、より創造的なゲームを生成できることを期待しています。
まずこちらを取り上げて、テストしてみます。Google Colabに持っていき、ここに貼り付けます。明らかに長いコードです。実行してみます。
「LLMアドベンチャーゲームへようこそ。あなたの目標は研究室を通り抜け、すべてのパズルを解いて脱出することです。現在、モデルのライブラリにいます。このライブラリでは、GPT-3のようなLLMに関する本を見つけます。GPTは何の略ですか？」
面白そうです。続けてみましょう。「正解です。別の場所に移動しますか？」はい、行きましょう。
「データダンジョンへようこそ。データダンジョンでは、LLMがテキストを効率的に扱うために重要なステップは何だと考えますか？」
これらのオプションの1つを選択する必要がありましたが、入力した正しいタイプをチェックするステートメントを持つことで改善できたでしょう。とにかく、これはずっと良いと思います。この興味をそそる側面が好きです。
これにより、モデルは創造性を発揮し、教育的な要素を取り入れながら、ゲーム性のあるアプローチを提供しています。このタイプの応答は、単なる質問と回答の形式よりも、より魅力的で記憶に残りやすい学習体験を提供する可能性があります。
次に、ChatGPT-4o latestモデルの出力をテストしてみましょう。「LLM脱出ルーム」とあります。これにはすでに興味がそそられます。実行してみましょう。
「LLM脱出ルームへようこそ。すべてのパズルを解いて脱出できますか？ヒントを求めるとポイントが減ることに注意してください。トークン化チャンバーのサブパズルに入りました。ハイパートランスフォーマーのテキストはサブワードに分割される必要があります。次のテキストはどのようにトークン化されますか？」
トークン化についてテストしています。選択肢から選んでみましょう。Aを選びます。
「不正解です。正解はCです。トークン化はテキストをより小さな単位に分解します。’hyper’と’transformers’は簡略化されたサブワードです。」
ハイパートランスフォーマーについては、そのように機能すると思います。
「推論保管室のパズルに入りました。LLMをトレーニングしました。今、予測を行う必要があります。LLMのコンテキストにおいて、推論が意味することは次のうちどれですか？」
選択肢を見てみます。Aは「すべてのトレーニングとさらなるデータ」、Bはいいえ、Cは「事前にトレーニングされたモデルによる予測と調整」です。Cを選びます。
「正解です。推論とは、モデルが予測を生成する時です。トランスフォーマーハウスに入りました。」
このように、ゲーム性を加えようとしているのがわかります。これは教育的であるべきゲームです。このモデルの出力が好きです。実際、他のモデルの方がより創造的だと思いました。しかし、このタスクに関しては、Claude 2.5 SonetとGemini 1.5 Proの出力の方が好みです。
次のタスクは数学のパズルで、これはどのモデルも正解を得られません。唯一このパズルを正解したモデルは、Llama 45bパラメータモデルを使用した時だけでした。しかし、それは本当にランダムだと思いました。50%の確率で間違った答えを出し、50%の確率で正解を出しました。それでも50/50ですが、他のほとんどのモデルは常に100%間違った答えを出します。両方のモデルがこれを正解することは期待していませんが、推論能力と質問をより良く理解し、この情報を正しい形式で処理する能力に改善があれば、それはすでに能力の向上だと思います。これが問題です。ASCIIキャラクターがモデルを混乱させています。もしそれができれば、それはすでに能力の向上だと思います。
このモデルはすでに終了しました。ピーターが最初に吹き消したろうそくは、残りの長さが最も短いものです。最も長く燃えていたからです。これは間違いです。
アシスタントはこう言っています。与えられた長さに基づいて、ろうそくの長さは吹き消される前にどれだけ長く燃えていたかを示唆しています。ろうそくが短いほど、長く燃えていたことになります。提供された長さに基づくと、ここに単位があります。4単位、7単位、8単位、1単位、2単位です。4番目のろうそくが最も短く、吹き消される前に最も長く燃えていたことを示しています。したがって、4番目のろうそくがピーターが最初に吹き消したものです。
最初に吹き消されたろうそくは、ここで最も長いものである3番目のろうそくなので、回答は3であるべきです。しかし、彼らは4と答えています。単位さえも持っていますが、どういうわけか自分自身を混乱させ、4番目のろうそくが吹き消される前に最も長く燃えていたと予測しています。少し混乱していますね。
タスクを理解していません。両方のモデルがこれに失敗しています。これは、これらのモデルによって解決されていないテストであり、私は常にチェックし続けるでしょう。
今日見られる他の非常に人気のあるテストの1つは、2つの数字の比較に関するこの質問です。基本的に、どちらが大きいかをモデルに尋ねています。見たところ、非常に簡単なタスクに思えるかもしれません。しかし、これがこれらのモデルの問題点です。これが、我々がこれらのモデルがこのタイプのタスクをどのように実際に解釈し、答えを生成し、情報を処理し、我々が渡すすべてをどのように解釈しているかをより良く理解するために取り組む必要がある理由です。この特定の質問に関しては、明らかにすべてのモデルが本当に失敗しています。両方のモデルでこれがどのように機能するか非常に興味があります。
さて、このモデルは正解を得たようです。これは良いことです。2024-08-06のモデルは最初に答えを出し、説明してくれました。説明モードに入ったことが実際にモデルがこれを正しく答えるのに役立ちました。通常、このタイプの質問では、これらのモデルは最初に答えを出し、その後説明しようとするときに失敗します。ほとんどのモデルがそうしています。
こちらのモデルも、いくつかの説明に入ろうとしているのが分かります。結論を見てみましょう。「9.9は9.11よりも大きいです」。両方のモデルが正解しています。これはずっと能力の高いモデルだと思います。以前のバージョンのGPT-4oとGPT-4 miniをテストしていましたが、両方ともこれに失敗していました。このモデルがこれを解決しているのを見るのは本当に素晴らしいことです。ストロベリーの問題も解決しています。これは、これらのモデルがより多くチューニングされ、急速に改善されているからだと思います。次のイテレーションはさらに能力が高くなるでしょう。
いくつかの問題を解決していますが、私が示したいくつかのタスクでまだ問題があることがわかります。ここでテストしたいのは、このような質問に対してモデルが選択するデフォルトのフォーマットです。これらは数学の文章題を解く問題です。私が見たいのはフォーマットのタイプです。オンラインで人々が共有しているChatGPT-4の出力のすべての例で見てきたのは、モデルが自動的に「ステップバイステップで考えてみましょう」などに入ることです。それを期待していますが、見てみましょう。両方のモデルで実行してみます。
まさに、スナップショットで見たとおりです。これは難しい問題ではありません。フォーマットを見たかっただけです。ここでのフォーマットを見ると、「ステップバイステップで分解しましょう」となっています。これを自然に行うのは良いことです。こちらでも、「取引を分解してみましょう」となっており、ステップバイステップで進んでいます。
素晴らしいテストになるのは、これをより複雑にし、一貫してこのタイプの「分解してステップバイステップで考える」モードに入るかどうかをテストすることです。それも興味深いテストになると思います。このタイプの問題に関連するより複雑なタスクをいくつか設計し、将来のモデルでテストする予定です。
このタスクでは、8,000語の詩を生成するようモデルに求めています。この課題の難しい部分は、8,000語以上の詩は非常に少ないということです。実際にはかなり非現実的ですが、それでもモデルがこのタスクにどのように取り組むかを見たいと思います。いくつかのことをチェックしているからです。
まず、8,000語の詩を生成できるかどうか、そして長文のコンテンツを強制的に出力させたときに起こる反復モードに陥らないかどうかを知りたいです。それが最初のことです。そして、詩の一貫性、構造、実際に何を出力するのか、詩を出力するのか、それとも何かを説明しようとするのかを本当に見たいです。この特定の問題に関して気にしているこれらの側面でどのように機能するかを見たいのです。
両方のモデルが詩を出力しているだけです。このモデルはすでに停止しました。868トークンで、8,000語の詩には見えません。こちらも同様に、約1,700トークンです。これは良くありません。
出力を見てみましょう。詩全体がありますが、詩が何を言っているか、どのタイプの詩かは本当に気にしません。言ったように、詩の長さと、何を説明し、どのように説明するかを見ています。
「これは膨大な取り組みであり、おそらく1回の応答で合理的に提供できるものよりも多いです。しかし、長い叙事詩スタイルの詩を始めることはできます。あなたがそれに基づいて続けたい場合は」と言っています。
これは好きではありません。このモデルは私が生成したかったものをまさに生成しようとするべきだと思います。ある意味で、それを行う知識がないためにそうすることを拒否しているようです。これがあなたが得る種類の応答です。
他のモデルも同じです。「これは非常に挑戦的なタスクです。長い応答の制約のためですが」と言っています。いいえ、16kトークンの制約があります。その認識がありませんが、それでも十分スマートでそれを提供し、強制的に提供すべきだと期待しました。なぜなら、それが私が望むものだからです。これは本当に良い体験ではありません。
ここでは「セクションをさらに追加したり、特定のテーマやキャラクターを探求したりしたい場合は教えてください」と言っています。この出力は好きではありません。これは本当に悪い出力です。
こちらを見てみましょう。「このスタイルは確かに8,000語まで続くでしょう。テーマや試練を継続的に作り、拡張することで」と言っています。そして「このセクションを続けて開発したり、さまざまな路線に沿って全く新しいスタンザを作ったりする自由があります」と言っています。
再び、私はこの種の出力が本当に好きではありません。それが言っていることはわかります。私にただ尋ね続けるように言っていますが、これが単に私がそれを生成してほしいタスクだったり、より長い文書を生成してほしいタスクだったりした場合を想像してください。そしてそれが単に中断してしまうのです。それは良い体験ではありません。
とにかく、これは改善できると思います。より長い形式のコンテンツを生成するこの特定のタイプのタスクで他のいくつかのテストを行います。なぜなら、私が気づいていること、そして研究が示していることは、これらのモデルが本当に長い形式のコンテンツを作成するのに苦労しているということです。それは自然なことです。なぜなら、監督付き微調整の部分で使用される情報のタイプには、非常に長い形式の応答が含まれていないと思うからです。そのタイプの出力のデータは非常に少ないです。
とにかく、これはテストし続けるつもりです。なぜなら、これらのモデルが正しく取り組むべき重要な問題だと思うからです。
これで終わりにします。ご視聴ありがとうございました。いつもより長いビデオでした。これらのモデルでテストしてほしいタイプのテストがある場合は教えてください。または、私が行った実験についてコメントを残してください。将来のモデルで実行してほしいタスクのタイプについてアイデアがある場合は、ぜひ教えてください。
気に入っていただけたら、ぜひ「いいね」をお願いします。まだチャンネル登録していない方は、ぜひ登録してください。次回のビデオでお会いしましょう。