
9,993 文字

今週はクリスマス週で、通常はAIニュースが少ない時期です。しかし、私は木曜日に動画を撮影して金曜日に公開するため、前週の金曜日のニュースを通常見逃してしまいます。先週の金曜日はAIの世界で大きな出来事がありました。OpenAIの12日間のお知らせの最終日に、o3と呼ばれる最新モデルを発表しました。
ほとんどの人はまだこのモデルにアクセスできません。私もまだアクセスできませんが、彼らはそのモデルの能力とベンチマークを公開しました。ソフトウェアエンジニアリングにおいて、o1が50%未満の精度だったのに対し、71.7%の精度を示しました。競技プログラミングのコードでも、o1プレビューとo1を上回りました。彼らはもはや他社のモデルを比較に入れません。なぜなら、論理的思考において、これらのモデルは他のモデルをはるかに上回っているからです。
競技数学では96.7%の精度を達成し、o1の83.3%を上回りました。PhD レベルの科学では87.7%の精度を示し、o1の78%を上回りました。研究レベルの数学では、以前の最先端モデルが2%だったのに対し、25.2%を達成しました。この研究レベルの数学は非常に複雑な問題で、複数の数学者が何日も何週間もかけて解く必要があるような世界最難関の数学問題です。このOpenAI o3は25.2%の確率でこれらを解くことができます。
グラフには濃い青線と薄い青線があります。濃い青線は1回のプロンプトで正解を得られたことを意味し、私の理解では薄い青線はマルチショット、つまりプロンプトを何度も試行錯誤して正解にたどり着いたことを意味します。
また、ARK AGIベンチマークと呼ばれる視覚パズルテストがあります。左側の例では、3つの薄い青色のブロックがあり、右側ではAIが濃い青色のブロックをこれらの領域に配置してパターンを完成させることが期待されます。これは人間なら簡単に解けます。右側のグリッドの同じ位置に暗い青色のブロックを置いて四角を完成させるだけです。AIシステムは従来このようなテストが非常に苦手でしたが、OpenAI o3は初めてこのテストをうまくこなせたモデルの一つです。
さらなる例を見てみましょう。黄色い箱の中に2つの赤い点があり、出力では箱の周りに点の数に応じた幅の境界線が表示されています。つまり、箱の周りに2マス幅の境界線があります。同様に、黄色い箱の中に3つの青い四角があるので、結果として3マス幅の境界線が箱の周りにつきます。いくつかの例を見た後、AIは前に見た例に基づいて最後の問題を完成させるよう求められます。
このARK AGIベンチマークテストでは、以前のo1モデルはかなり低いスコアでした。o1ミニモデルは8%、o1ハイモデルは最高でも32%でした。この新しいo3シリーズは、低計算タスクモデルで75.7%、高計算モデルで87.5%を達成しました。参考までに、人間は通常このテストで76%程度のスコアを得ると読みました。つまり、このハイモデルは多くの人間のパフォーマンスを上回り、低計算モデルは人間と同程度のパフォーマンスを示しています。
彼らはこの動画では少し隠していましたが、ARK AGIのウェブサイトで見ることができます。同じグラフを見ると、ほぼ同じ情報が示されています。少し丸められて76%と88%になっていますが、75.7%と87.5%とほぼ同じです。しかし、ここで注目すべきは、タスクあたりの計算コストではなく、タスクあたりのコストが示されていることです。興味深いことに、このグラフは対数スケールです。この軸は$1、$10、$100、$1,000となっており、同じ線に沿って続けると、次の軸は$10,000になります。
ARK AGIベンチマークで76%を達成するために必要な計算量は、タスクあたり約$30でした。これは直線的なスケールではないことを覚えておいてください。このグラフでは$25から$30程度です。高計算モデルを見ると、88%を達成するために必要なコストは$1,000から$10,000の間で、おそらくタスクあたり$5,000から$6,000の範囲だと考えられます。
つまり、o3にこれらのベンチマークを通過させるのは現時点で非常に高コストです。一般消費者が自由にこれらのツールにアクセスしてプロンプトを試すようなレベルではありません。依然として実行コストが非常に高いのです。
YouTubeの多くの動画やXの多くの人々が、このo3がAGI(汎用人工知能)であり、AGIに到達したと主張しているのを見かけます。それは解釈次第だと思います。私の考えでは、これはまだAGIには達していません。人間の方がAIよりもうまくこなせるタスクがまだたくさんあると感じています。しかし、これはAGIに近づく大きな一歩前進だったと考えています。
しかし、より多くの人々が使える実用的なAGIを実現したいのであれば、これらの計算コストを大幅に下げる必要があります。現時点でo3モデルを使用するのは本当に法外なコストがかかります。彼らはo3ミニモデルを2025年初頭にリリースする予定で、より大きなo3モデルはそれよりも少し遅れると述べています。しかし、明らかにコストを大幅に下げるか、OpenAIがさらに高額な価格帯を追加して採算を取る必要があります。
OpenAIと経済性、そしてAGIについて話題にのぼっているところで、今週12月26日にThe Informationで興味深い記事が公開されました。OpenAIとMicrosoftが独自のAGIの定義を持っているというものです。MicrosoftとOpenAIの取引について詳しくない方のために説明すると、MicrosoftがOpenAIに投資した際の合意の一部として、OpenAIがAGIを達成した場合、MicrosoftとOpenAIの取引は再構築され、Microsoftの支配力が大幅に低下し、OpenAIは自由に行動できるようになるとされています。
しかし、AIを長く追ってきた人なら誰でも知っているように、何がAGIを構成するのかを決めるのは非常に複雑です。企業によって定義が異なり、ゴールポストが動き続けているように感じられ、AGIについての一般的な合意は誰も持っていません。
明らかにMicrosoftとOpenAIは金額的な数字を設定しています。この記事によると、新しい契約がなければ、MicrosoftはそのポイントでAGIに達した後に開発されたOpenAIの技術を使用できなくなります。これにより、OpenAIがMicrosoftへの義務から抜け出すためにAGI達成を宣言するのではないかという憶測が生まれています。
彼らのターゲットは1,000億ドルです。現時点ではこれは噂や憶測で、リークのような情報ですが、100%確認することはできません。しかし、MicrosoftとOpenAIの間の契約では、OpenAIが最初の投資家(Microsoftを含む)に対して、約1,000億ドルの最大総利益を生み出す能力を持つシステムを開発した時点でAGIが達成されると定められているようです。
ただし、文書にはまだ解釈の余地があり、十分なAGIの宣言はOpenAIの取締役会の合理的な裁量に委ねられているため、まだ異なる見解があるかもしれません。しかし、AGIが1,000億ドルを生み出す能力を持った時点でAGIが達成されたとみなすようです。
参考までに、このような利益は当面は実現しそうにありません。OpenAIは現在年間数十億ドルの損失を出しており、今年9月には潜在的な投資家に対して、2029年まで初めての年間黒字を見込んでいないと伝えています。したがって、OpenAIとMicrosoftが近いうちに「離婚」するのを期待している人がいれば、それは起こりそうにありません。
OpenAIの前世代モデルo1のファンの方、これは現在アクセス可能な最先端モデルですが、o3を見た後では今やほとんど古いモデルのように感じられます。先週発表したように、GitHubのCopilotの中でo1を使用できるようになりました。現在は無料枠もあります。したがって、o1を使ってコーディングしたい場合は、GitHubのCopilotを使用できます。
この記事によると、o1は有料サブスクリプションに含まれており、12時間ごとに最大10メッセージまで利用できます。そのため、新しい無料プランではおそらくo1は使用できませんが、月額10ドルからの有料プランであればコーディングを支援するo1にアクセスできるようになりました。
最後のOpenAIニュースとして、サム・アルトマンはクリスマスイブにXで「2025年にOpenAIに何を構築してほしいですか?」と尋ねました。サム・アルトマンがコメントした回答のいくつかに注目してみましょう。
マッケイ・リグリーは「アシスタントAPIのベクターストアは本当に良い。これを独自の検索APIにすれば、すぐにトップの検索プロダクトになるだろう。ビデオ入力モダリティがあると良い。すでにエージェントは作っているけど、これらの予想外のものが楽しみ。ハードウェアの展開も見てみたい」と述べ、サム・アルトマンは目の絵文字を付けて反応し、これらすべてについて検討していることを示唆しました。実際、The Informationの最近の記事によると、OpenAIはロボット工学に再参入し、まもなく独自のロボットの構築を開始する予定とのことです。
プライ・ザ・リベレーターは「ガードレールを外してほしい、その方がクリーン」と述べ、サム・アルトマンは「確かに何らかの大人モードが必要」と答えました。その一方で、ジェイスは「家族アカウントを作って、親が決めた合理的な制限内で子供の好奇心を伸ばせるようにしてほしい。子供の使用状況から洞察も得られるかもしれない」と提案し、サムは「それは良いアイデア」と答えました。両極端な提案ですが、AI に魅了されている子供を持つ親として、OpenAIでこれらの両方が実現されることを期待したいところです。
レオは「強力なo4の代替、GPT Sora、すべてがChat GPTにシームレスに統合されている。20ドルと200ドルプランの中間的な50-70ドルプラン。より長いコンテキスト、ナレッジカットオフの積極的な更新をお願いします」と述べ、サム・アルトマンは「来年にはかなり満足してもらえると思う」と答え、来年これらの多くが実現することを示唆しました。
「Advanced Voice Modeで話すとき、以前の会話(音声とテキストの両方)をよりよく記憶してほしい。RAGシステムでもいい。通勤中に会話やブレインストーミングを楽しんでいるが、細かいことを何度も説明し直さなければならない」という意見に対し、サムは「これは本当に解決したい」と答えました。これは素晴らしいことでしょう。プロジェクト・アストラを試したとき、以前の会話をよく覚えていましたが、Advanced Voice Modeはメモリに入れた内容と現在の会話の内容しか知りません。
「音声チャットの発話順番の検出を改善してほしい。5秒間黙って考えているだけで中断されるのは良くない」という指摘は的確です。これも私が思うにアストラが得意とすることの一つです。数分間黙っていても考える時間を与えてくれ、「まだいますか?」などと聞いてくることはありません。
「正直なところ、非思考モデルが良いですね。GPT 4oは現在あまり良くありません。ミニでさえそれほど良くありません。両方持つことが重要だと思います」という意見に対し、サムは「確かに」と答えました。
「Geminiのような深い研究機能を持ちたい、でももっと良いものを」という要望に「了解」と返答。
「GPT 4o、画像生成のサポート、Soraへの期待」に対し「画像とテキストのプロンプトへのより良い対応、より合理的なコンテンツ制限ポリシー、Soraの多くの改善が来る」と答えました。
「複数の別々のチャットモデルを繋げて出力を生成・洗練できるドラッグ&ドロップUIがほしい」という提案に「面白いアイデアだね、今まで考えたことなかった。もしかしたら実現するかも」と返答。
最後にサム・シェファーの「AGI」という投稿に対し、サム・アルトマンは敬礼の絵文字で応えました。
これが2025年のOpenAIとChat GPTに期待できることの少しの予告です。サムがこのように反応し、実際に人々と関わったのは本当に素晴らしいことです。通常、サムはXに投稿するだけで誰にも返信しない傾向がありますが、今回は多くの人々と関わり、OpenAIから出てくる素晴らしいものの多くがすでに開発中であることを確認しているようです。
先に述べたように、今週は大きなニュースはあまりありませんでした。先週のo3は大きな出来事で、サムが登場して今後の展望をヒントとして示してくれたことは話題に値しました。それ以外にも、手短に触れておきたい小さな発表がたくさんありました。
例えば、xAIがa16z、BlackRock、Fidelity Management and Research Company、Kingdom Holdingsなど、多くのベンチャーキャピタル企業から60億ドルのシリーズCを調達したことです。私は2025年のAI界でXがより大きなプレイヤーになると感じています。x.comの中にGrockを埋め込んだのは最善の動きではありませんでしたが、来年はGrockを独立させ、Xプラットフォーム外でもっとスタンドアロン製品を展開するようです。
実際、このTechCrunchの記事によると、xAIはGrockチャットボット用のスタンドアロンiOSアプリをテスト中とのことです。現在オーストラリアのApp Storeで利用可能ですが、他の国ではまだ利用できないようです。オージーが気に入れば、私たち他の国民もすぐに使えるようになるかもしれません。
大規模言語モデルのオープンソース界に新しいリーダーが登場しました。DeepSeek V3です。1秒あたり60トークンを生成でき、完全にオープンソースです。他のオープンソースモデルや非公開モデルとのベンチマークを見てみましょう。Claude 3.5 SonnetやGPT-4も含まれていますが、この新しいDeepSeek V3オープンソースモデルは、英語、コード、数学、中国語など、ほぼすべてのベンチマークで非公開モデルを含む他のモデルのほとんどを上回っています。
671億のパラメータを持つ専門家混合モデルで、誰でもダウンロードして使用できるオープンソースとしても、オープンソースバージョンを使用したくない場合のAPIとしても利用可能です。
このモデルについて興味深いことの一つを、私の友人のバルが指摘しました。「中国が米国のラボが使う計算量のほんの一部で、完全に上回るオープンソースAIモデルをリリースした。米国が中国のチップアクセスを制限しても、彼らの速度を遅くすることはできない。中国は500万ドルのトレーニングで成功し、米国は1億5000万ドル必要とする」と述べています。米国は実際に中国へのチップやGPUの供給を制限していますが、中国は制約の中で工夫して、依然として本当に優れたモデルを構築しているのです。
Googleの話題に移りましょう。Googleの検索エンジンが専用のAIモードを持つようになるようです。まだ正確な姿は分かりませんが、従来の方法で検索するか、AIモードに切り替えてAIアシスト付きの検索を行うかを選択できるようになるようです。これは現時点では噂やリークに基づくものなので、詳細が明らかになるのを待つ必要があります。
先週末に起きたもう一つの出来事で、先週の金曜日の動画には間に合わなかったものがあります。LTX Studioが、オープンソースの動画生成モデルであるLTXビデオモデルの大規模なアップデートを行いました。LTXは過去の動画やツイートのスポンサーでしたが、この動画のスポンサーではありません。しかし、このニュースはニュース動画の時間枠内で起きたことなので、紹介したいと思います。
テキストから動画、画像から動画のワークフローが、さらに良い結果を提供するようになりました。高度なトレーニングと新しいデータにより、よりスムーズで洗練された動きを実現し、ちらつきやぶれの効果を排除しました。新しいVAEデコーダーにより、動画はよりクリーンになり、気が散るようなアーティファクトもありません。画像から動画への変換が最適化され、より自然でシームレスな結果を生み出し、アイデアを正確かつ創造的に実現しやすくなりました。
彼らはまもなくフロントエンドアプリのLTX Studioに組み込む予定ですが、繰り返しになりますが、これはオープンソースなので、十分に強力なコンピュータがあるか、このような処理をクラウドGPUで行うのが得意な人であれば、今すぐ使用して、ほぼ制限なく動画を生成することができます。
他の動画関連のニュースでは、Vigle AIが彼らのプラットフォーム内に面白い新機能アプリをリリースしました。画像をアップロードしてWAPに変換できます。例えば、サンタWAPの例を見てみましょう。「サンタよ、そりの中で、ホーホー動いているんだ、子供たちは良い子、休日パーティーのように煙突を通ってくる」というような具合です。
これは実際に無料で使用できます。wiggle.aiにアクセスし、「Try on web」をクリックし、ログイン後、左側にラップ機能が表示されます。キャラクターを入れて背景を選び、「AI ニュースについてのYouTube動画を作るラップ」というような説明を入れて作成をクリックすると、Yudoプラットフォームを使用して曲を生成します。
これが結果です:「ストーリーは見出しのように飛ぶ、サイバーワールドでテックの名声を得る、俺はAIゲームのボス、事実を語り、どの動画も決して…」まあ、悪くはありませんが、言葉の多くがただのでたらめで、何を言っているのか分かりませんでした。しかし、これが結果です。繰り返しになりますが、wiggle.aiで無料で試すことができ、何も失うものはありません。もう少しロールを重ねたり、異なる画像や異なるプロンプトを使えば、もっと印象的な動画が作れるかもしれませんが、この一つは何語で話しているのか分かりませんでした。
最近出会った別の面白いツールは、このBackflipというツールです。実際に最近のライブストリーム(毎週月曜日午前11時(太平洋時間)にこのチャンネルで行っています)で少し試してみました。これは本当にクールで、3Dプリント可能な3Dオブジェクトを作ることができ、BlenderやUnreal Engineに取り込むこともできます。
これらは作成できるキャラクターの種類で、実際にSTLファイルとして書き出して3Dプリントすることもできます。最近のライブストリームでは、書き出してMixamoに取り込み、実際にキャラクターを踊らせました。生成したものを見ると、様々なオオカミのキャラクターやオークを作ろうとしていたのが分かります。実際にこれらのオークの一つをMixamoに取り込んで、ツイストダンスなどをさせて楽しみました。
これは「Part Creator」に行き、「8本足のエイリアンクリーチャー」のようなプロンプトを入力し、いくつかのプリセットから選択して使用します。キャラクタープリセットを使用し、画像を生成すると、4つの開始画像が提供されます。この一つを選んで3Dボタンをクリックすると、約1分で、元のモデルに従った4つの異なる3Dオブジェクトから選べます。
これらはすべて素晴らしく不気味で、この3Dオブジェクトをダウンロードすると、STL(3Dプリント用)、OBJ、GLB、PLYとして保存でき、生成した3Dオブジェクトをほぼ自由に使用できます。非常に高速で正確です。これがbackflip.aiで、私はまだ無料プランですが、今お見せしたことやライブストリームで行ったことはすべて無料で行えました。
話を進めましょう。アリゾナ州が完全にAIが教える初のオンラインチャータースクールを設立することを発表しました。アリゾナ州チャータースクール委員会によって承認された最新のオンライン専用学校で、授業は完全にAIによって行われます。アカデミックな指導は2時間に絞られ、残りの学校時間は批判的思考、創造的問題解決、金融リテラシー、パブリックスピーキング、目標設定、起業家精神などの分野をカバーするライフスキルワークショップに充てられます。このオンライン専用学校は4年生から8年生を対象としています。
これは非常に興味深いものになるでしょう。人間も介在するので、教師と話すこともできますが、ほとんどの場合、学習したいことを学ぶためにAIと協力して作業することになります。
新しいAsus AI PCのプレビューが公開されました。Mac Miniのような外観ですが、AI推論用に設計されています。Intel Arc GPUを搭載しており、ゲームの性能は分かりませんが、AIの推論ニーズには十分に対応できるはずです。また、Microsoft Copilotなども組み込まれる予定です。
他のハードウェアニュースでは、Ray-Ban Meta眼鏡が2025年にディスプレイを搭載する予定とのことです。私はAstro眼鏡をデモで試す機会があり、Ray-Banを着用しているような感覚で、話しかけたり周囲の状況を見たりできますが、移動中に片目で見える小さなヘッドアップディスプレイも備えています。Meta Ray-Banもそのような機能を搭載するようで、とてもエキサイティングです。
異なる言語で話す人の字幕を英語で見たり、地図の方向を表示したりするのを目の前で見られるのは素晴らしいと思います。私は既にMeta Ray-Banを愛用していますが、この機能があれば新しいペアを購入する可能性が高いです。
最後にロボット関連のニュースです。中国が320度のウエスト回転が可能な超アクロバティックな人型ロボットを公開しました。このロボットの特徴の一つは、歩行時の動きが非常に人間らしく感じられることです。いくつかの動画で歩き回る様子を見ることができます。もし『バトルスター・ギャラクティカ』を見たことがある人なら、サイロンを思い出させるかもしれません。これは良いことではありませんが、かなりクールです。私は常にロボットとロボット工学で締めくくるのが好きで、これは私たちが注目すべきもう一つの会社、Engine AIの取り組みです。
今週はこれで以上です。再度になりますが、クリスマスがあり、AIの発表は多くありませんでしたが、o1について話し、サム・アルトマンがChat GPTの今後について意見を求め、多くの企業から小規模な発表がありました。これで、おそらくAIに注目していなかったクリスマス週に何が起こったのか、よく分かったと思います。
この動画を楽しんでいただけたなら、AIニュースを常にチェックしたい方はfuture.toolsをご覧ください。動画に含めきれないほど多くのニュースがあるため、ニュースページを毎日更新しています。また、私が出会う最もクールなAIツールをホームページで共有しています。
無料のニュースレターに登録すると、最もクールなツールと最も重要なニュースを直接メールボックスに送信します。完全に無料で、登録すると様々なAIツールを使用して副収入を得る方法をまとめたAIインカムデータベースを提供します。これはすべてfuture.toolsで無料です。
もしこの動画を楽しんでいただけたなら、高評価を押してこのチャンネルを登録してください。そうすれば、YouTubeのフィードに更なるクールなAIとテクノロジーの動画が表示されるようになります。今週視聴していただき、本当に感謝しています。ハッピーホリデー、メリークリスマス、そしてすべての良いことを願っています。この動画を見て時間を共有してくださり、本当に感謝しています。次回お会いしましょう。バイバイ。


コメント