Mistralのオープンなチャットジェーピーティー対抗馬、Geminiが首位に?!、AIと核兵器、Perplexityのショッピング機能

AIに仕事を奪われたい
この記事は約6分で読めます。

2,967 文字

AI News: Mistral's OPEN ChatGPT Competitor, Gemini Takes Top Spot?!, AI & Nukes, Perplexity Shopping
Try Vultr yourself when you visit and use promo code "BERMAN300" for 0 off your first 30 days.Vultr is empowering the...

本日、新しいモデルやビジョンモデルなど、大規模な新製品のローンチが多数ありました。詳しく見ていきましょう。
まず、Mistralが本日多くのリリースを行いました。私は一部のプレビューを見る機会があり、非常にエキサイティングなものでした。全てを見ていきましょう。
最初に、MistralのチャットGPT版であるLe chatが、引用付きのウェブ検索機能を搭載しました。最も素晴らしいのは、完全に無料だということです。これは、これから紹介するMistralの発表全てに共通するテーマとなっています。
実際の使用例を見てみましょう。「UFC 309の勝者は誰?」という質問に対して、「ジョン・ジョーンズがUFC 309でスティペ・ミオシッチを3ラウンドTKOで破り、ヘビー級タイトルの防衛に成功した」と回答し、ufc.comとforbes.comからの引用を表示しています。非常に優れた機能です。
また、Black Forest LabsのFlux Proを活用した画像生成機能も追加されました。試してみると、「イチゴの画像を作成して」というプロンプトに対して、わずか2-3秒で美しいイチゴの画像が生成されます。
さらに、チャット内でエージェントを作成して@メンションできる機能も新しく追加されました。モデルを選択し、指示を入力し、デモンストレーションを提供し、温度を調整してテストできます。作成したエージェントは任意のチャットで@メンションできるため、非常に便利です。
最後に、チャットGPTのキャンバスと同様の機能も追加されました。インラインでのコード編集やクリエイティブな文章編集が可能です。例えば、「スネークゲームのPythonコード」と入力すると、右側にチャットが継続される一方で、左側にコードが表示されます。コードの反復処理も可能で、各イテレーションが個別のファイルとして保存され、ファイル間の差分を確認できます。
また、オープンソースでオープンウェイトのビジョンモデルであるpixal largeもリリースされました。このモデルは画像理解に非常に優れています。私はすでにpixal small(約80億パラメータ)をローカルでテストしましたが、これまでで最高のビジョンモデルでした。今回、さらに大きなバージョンがリリースされました。
次に、GoogleのGeminiモデルがLMScy(Language Model Scoreboard)のリーダーボードで首位を獲得したようです。これはベンチマークではなく、チャットボットアリーナでの実際のユーザー投票に基づいています。Gemini experimental 1114は、ChatGPT 4.0 latestを4ポイント上回っています。
数学分野では3位から1位へ、難しいプロンプトでは4位から1位へと大きな進歩を遂げています。特に数学分野では、2011モデルとGeminiモデルは約1340点で同等の性能を示していますが、次点のGemini 1.5との間には大きな差があります。
次に、前回のニュースで取り上げたAIが壁に直面しているという話題について、Sam Altmanは異なる見解を示しています。次世代モデルのトレーニングにおいて多くの企業が直面している「知能の壁」について、彼は「壁は存在しない」と述べています。
個人的にも、私はその壁の存在を信じていません。その理由の一つは、テストタイムトレーニングやテストタイムコンピュートなど、アルゴリズムの breakthrough(突破)が毎週のように起きているからです。モデルのプロセスの異なる段階で、異なるタイプのスケーリングが必要なだけなのです。
OpenAIからは、デスクトップアプリケーションの大規模なアップデートがリリースされました。ChatGPTデスクトップアプリが、VS Code、Xcode、ターミナル、iTerm 2で直接コードを読み取れるようになりました。ChatGPTアプリを開いて指示を出すと、コードを読み取って簡単に変更できます。現在、PlusとTeamユーザー向けにベータ版として提供されています。
これは私の意見ですが、ChatGPTがデスクトップ全体を制御できるようになる最初のステップだと思います。その前段階として、OpenAIが独自のブラウザを作成し、AIをネイティブに組み込むことが理にかなっていると考えています。
次に、AutoGenが大きな発表を行い、AG2が公開されました。研究プロジェクトから商用プロジェクトへと進化しているようです。AutoGenの創設者の一人であるChi Wangによると、オープンソースコミュニティのサポートを受けて、AutoGenは次世代エージェントAIのための新しい基盤であるAG2へと進化しているとのことです。
Anthropicは現在、モデルが核機密を漏洩する可能性があるかどうかを判断するため、連邦政府と協力しています。OpenAIが政府と密接に協力して最先端モデルのプレビューを提供していることはすでに知られていましたが、Anthropicは他のAI企業と比べて規制に前向きな姿勢を示しています。
Anthropicはエネルギー省の核専門家と協力して、モデルが兵器製造を支援しないようにしています。また、Palerと協力して、高度な機密環境でモデルを展開することも計画しています。
Xは、さらに10万台のNVIDIA GPUを購入するために最大60億ドルを調達しています。XAIの計算能力の優位性は引き続き拡大しているようです。ただし、その計算能力の成果はまだ完全には現れていません。Grok 2は優れていますが、ChatGPT 4.0やO-1シリーズのモデルには及びません。
バイデン大統領と中国の習近平主席は、AIが核兵器を発射すべきではないという点で合意したようです。ホワイトハウスは、重要なボタンの制御は人間が行うべきだと述べ、中国もこれに同意しています。
このような合意は、米中関係や一般的なAIの兵器としての扱いに関して良い兆候です。AIには幻覚があり、すべてのモデルはジェイルブレイクが可能です。モデルは非決定論的であるため、これらのモデルに核のボタンを任せることは非常に危険です。
次に、AIの最も前向きな使用例の一つとして、AIが医師の診断能力を上回ることができるようになりました。New York Timesの記事によると、AIチャットボットは医療ケースの評価において人間の医師を上回る性能を示しています。チャットボットは24時間365日稼働し、疲れることもなく、非常に効率的です。
最後に、PerplexityがAIショッピング機能を導入しました。製品の調査から購入まで、シームレスなワンストップソリューションを提供します。サブスクリプション以外の収益化方法として、ワンクリックチェックアウト体験や、販売者向けのマーチャントプログラムも提供しています。
私個人としては、現在Googleの使用率は約3%で、残りの時間はChatGPTとPerplexityを使用しています。Googleは検索分野で完全に追い越されないよう、何らかの対策を講じる必要がありそうです。

コメント

タイトルとURLをコピーしました