ERNIE 4.5 + X1: 最も強力で最も安価なLLM、GPT-4.5、R1、Sonnet 3.7を凌駕!(完全テスト済み)

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,421 文字

ERNIE 4.5 + X1: Most POWERFUL and CHEAPEST LLM Beats GPT-4.5, R1, & Sonnet 3.7! (Fully Tested)
Baidu is making waves in the AI world with ERNIE 4.5 and ERNIE X1, challenging industry giants like OpenAI and DeepSeek....

これはあまり注目されていませんが、BUは最近2つの印象的なモデルをリリースし、AI業界の大手プレーヤーに挑戦しています。ERNIE 4.5とERNIE X1をご紹介しましょう。ERNIE 4.5はネイティブなマルチモーダルモデルで、GPT-4.5を凌駕する性能を持ちながら、コストはわずか1%です。ERNIE X1はBUの初めての推論AIモデルで、DeepSeek R1と同等の性能を半額で実現しています。
これほど印象的でコスト効率の良い2つのモデルが登場したのは驚くべきことです。ERNIE 4.5は複数のモダリティで優れた性能を発揮し、理解力、生成能力、推論力、記憶力において包括的な改善を示すとともに、幻覚防止、論理的推論、さらにはコーディング能力においても顕著な向上を示しています。X1は推論モデルで、DeepSeek R1よりもさらに安価なモデルでありながら、驚異的な性能を発揮しています。
価格に関しては、これらのモデルは最先端モデルを凌駕しながらも非常にコスト効率が良いです。例えば、ERNIE 4.5は入力トークン100万につき55セント、出力トークン100万につき2.20ドルで、GPT-4.5の価格構造と比較して大幅に安くなっています。X1の価格はDeepSeek R1の50%で、入力トークン100万につき28セント、出力トークン100万につき1.10ドルに設定されています。
最も素晴らしいのは、BUが今年の6月30日以降にこのモデルをオープンソース化する予定であることです。現在、これらのモデルはすべてのErniebotユーザーが無料で利用できます。完全に無料でアカウントを簡単に作成することができます。
ここからは、これらのモデルをベンチマークで評価していきます。ERNIE 4.5を評価するための4つのベンチマークと、推論モデルであるX1を評価するための別の4つのベンチマークがあります。コーディング、数学から論理的推論や問題解決まで、さまざまなカテゴリのプロンプトを試していきます。
始める前に、World of AIニュースレターにぜひ登録してほしいと思います。私は毎週様々なニュースレターを投稿しています。これによりAI分野で何が起きているかについて、簡単に最新情報を入手することができます。完全に無料ですので、ぜひ登録してください。
それでは始めましょう。まずERNIE 4.5を選択します。最初のプロンプトは、月々の収入と支出を追跡するためのレスポンシブWebアプリを構築するというものです。これはコーディングプロンプトで、このモデルがコード生成と機能的なアプリの生成においてどれほど優れているかを示すものです。
Ernieチャットボットの良いところは、さまざまなモダリティを使用できることです。文書、画像、音声、動画をアップロードすることができるので、さまざまなモダリティで作業する柔軟性があり、オンライン検索も可能です。
できあがりました。機能的な個人財務トラッカーアプリを生成することができました。生成された3つのコードスニペットをすべてコピーしてフォルダに貼り付けました。テストしてみましょう。例えば、今日の支出があり、金額は500ドルだとします。カテゴリを選択しましょう。「食費」ではなく(太り過ぎになってしまいますね)、「エンターテイメント」を選び、支出を追加します。
見てのとおり、これは機能的なアプリで、収支の視覚化を表示することができました。全体的に、この機能的なトラッカーアプリを生成することができたので、これは合格です。
次に、Pythonでライフゲームを作成してもらいます。これはコンウェイのライフゲームで、グリッドベースのシミュレーションの実装や、効率的な状態更新とレンダリングの観点からどれほど優れているかを確認します。
このゲームの生成が完了したら、シミュレーションを視覚化できるように開いてみます。コードをPythonファイルにコピーしました。開いて機能するか確認しましょう。うまくいきました。ライフゲームが作成されたので、これは合格です。
次に、対称的な翼と簡単なスタイリングを持つ蝶のSVG表現を作成してもらいます。私の動画をご覧になっている方はご存知かもしれませんが、これはどんな大規模言語モデルにとっても、SVGコードで正確な蝶を生成する最も難しいプロンプトの一つです。
このモデルがこれを実行できるか見てみましょう。基本的に、モデルがSVGデザインでベクタープログラミングをどれだけうまく行えるかを確認しています。
SVGコードの生成が終わりました。SVGビューアーに移動してペーストします。見てください!驚くことに、翼に実際にデザインが入った非常に良い蝶が得られました。これは本当に素晴らしいです。対称性が確保され、触角も生成されました。体は最高ではないかもしれませんが、全体的に蝶のSVGコードのクリップアートとしては良いものなので、これは間違いなく合格です。
参考までに、Claude 3.7 Sonnet、Gemini 2.5 Pro、そしてほんの一部の他のモデルだけが蝶のSVG表現を生成できていました。ERNIE 4.5がこれを実行できるのを見られて素晴らしいです。
これは余談ですが、このモデルはさまざまなモダリティで作業できます。例えば、画像をアップロードして「これを説明してください」と尋ねると、視覚的推論能力を使用してx軸上のベンチマークについて話し、その後y軸についても説明してくれます。
次に、このPython関数内で見つけられる論理的エラーを特定して修正するよう依頼します。基本的にはデバッグを依頼しています。ループや条件の論理エラーを特定し、正しいPythonコードを提供することを期待しています。実際にそうしてくれました。エラーを修正し、問題に対処し、最後に説明を加えてくれました。これは正解なので、合格としましょう。
次の4つのプロンプトでは、X1モデルを使用します。これらは推論プロンプトで、問題解決、推論、論理的推論の観点からこのモデルがどれほど優れているかを評価します。
最初のプロンプトは、「列車Aは午前8時にA市を出発し、500km離れたB市に向かって時速70kmの一定速度で走ります。列車はいつ出会うでしょうか?また、A市からどれくらいの距離で出会うでしょうか?」という簡単な文章問題です。推論能力を確認しています。
回答を見せる前に、その思考とアクション・プロセスを見てください。正しい答えを得るためにどれだけ推論しているかが見事です。正確な答えを出すために推論能力を使用しています。最も良い点は、DeepSeek R1よりも50%安いことです。
結論として、両列車は午前11時59分に出会うと述べています。これは100%正解です。また、A市からの距離も約261.3kmと正確に答えています。これは間違いなく合格で、このモデルがこれを正確かつ迅速に実行できたことは素晴らしいです。
次のプロンプトは、「農家が13m、14m、15mの辺を持つ三角形の畑を持っています。彼はそれを二つの等しい面積に分割したいと考えています。分割線の長さを求めなさい」というものです。ヘロンの公式や三角形の特性を用いて幾何学的な方程式をどれだけうまく解くことができるかを確認しています。
公式を適用し、角の二等分線定理や中央線定理を使用して三角形の面積を求めることを期待しています。最終的に正解である12mを答えてくれました。この問題を解決するためにしっかりと推論し、正しい公式を使って答えにたどり着いたことを嬉しく思います。
次のプロンプトは、「図書館が合計250ドルの教材を購入する必要があります。12ドルのワークブック、35ドルの教育アプリライセンス、55ドルの科学キットを購入する必要があります。各タイプのアイテムを少なくとも1つずつ購入しなければなりません」というものです。整数解の方程式を設定することに焦点を当てています。
これは整数解問題ですが、合計がちょうど250ドルになるさまざまな組み合わせを見つけるために取り組んでいます。このモデルがこれを実行できるか見てみましょう。
これは推論という点で最も長い回答でしたが、結論として「与えられた金額(250ドル)にぴったり合うワークブック、アプリ、キットの組み合わせはない」と述べています。これが正解です。正しい組み合わせを見つけることはできませんでしたが、整数解の方程式を提供し、有効なセットを見つけるために総当たり法を適用しました。これはかなり印象的なので、合格としましょう。
最後のプロンプトは論理的演繹推論に焦点を当てています。「ある町には2種類の人々がいます。常に真実を語る「真実の語り手」と常に嘘をつく「嘘つき」です。あなたは3人の人々を見分けなければなりません。A、B、Cがいます」という状況があります。
いくつかのシナリオがあります。「あなたは3人の人々A、B、Cと会います。Aは「Bは嘘つきだ」と言います。Bは「Cは真実の語り手だ」と言います。Cは「AとBは異なるタイプの人間だ」と言います。誰が真実の語り手で誰が嘘つきか決定し、あなたの推論を段階的に説明してください」。
基本的に、送信した声明の中の矛盾を特定しようとしています。モデルがこれを識別し、これらの声明を分析する際に論理的推論と一貫性を使用できるかどうかを確認しています。
その結果、正解を論理的に導き出すことができました。Aは嘘つき(正解)、Bは真実の語り手、Cも真実の語り手だと述べています。これも合格としましょう。
ERNIE 4.5とX1の両モデルは、これらのさまざまな難しいテストすべてで素晴らしい仕事をしました。コーディングから数学、論理的推論まで、素晴らしい性能を発揮したことが分かります。このモデルがいかに印象的であるかを示しています。
BUのCEOであるRobert Leeは、コスト削減と継続的なイノベーションがAIのスケーラビリティと実世界での影響に不可欠であると強調しています。効率性と自動化を向上させることで、AI自体がより広範な採用と経済的利益を促進できるのです。だからこそ、このモデルをリリースし、今年後半にオープンソース化するBUを本当に評価しています。
今日の動画はこれで終わりです。ニュースレターに登録し、プライベートDiscordに参加し、Twitterでフォローしてください。また、チャンネル登録、通知ベルをオンにし、動画にいいねをして、AI業界で何が起きているかを最新情報を得るために過去の動画もご覧ください。それでは皆さん、素晴らしい一日を。ポジティブさを広め、またすぐにお会いしましょう。よろしくお願いします。

コメント

タイトルとURLをコピーしました