AI最新ニュース:謎の新モデル、メタAI検索、グロックの視覚機能追加、クロームエージェント、アップルインテリジェンス

AIに仕事を奪われたい
この記事は約13分で読めます。

7,267 文字

https://www.youtube.com/watch?v=8RP1R3Q3DJI

はい、今日はたくさんの新しいニュースを見ていきましょか。まずはアップルインテリジェンスから始めていきます。iOS 18.1が一般公開されて、アップルインテリジェンスが組み込まれました。iPhone 16で大々的に宣伝されてたアップルインテリジェンスが、1ヶ月以上遅れて登場したわけですけど、正直言うて期待はずれでしたわ。
ベータ版を2週間ほど使ってみたんですけど、あんまり価値を見出せませんでした。ええとこも2、3点あるんですけど、約束されてた機能からはほど遠いですわ。
アップルのホームページ見てみましょか。約束されてた機能としては、端末内の連絡先やメール、メッセージ、アプリなど全てのコンテキストを理解する小規模モデルがあるはずやったんですけど、実際にはそんなんありません。
複数のアプリを横断して検索できるって書いてありますけど、実際それもできてへん。カスタム絵文字や画像生成の機能も謳われてますが、まだアクセスできません。
じゃあ実際どんな機能があるかというと、文章の書き換えとかプロンプト作成とか、他のアプリでもよくある機能ばっかりです。一番使える機能は通知のまとめ機能ですね。大量の通知をスクロールせんでも、スタック内の通知を簡潔にまとめてくれるんです。これは便利でした。
もう一つ使えた機能は、アップルフォトのアルバムの説明機能です。でもアップルフォトそのものがあんまりよくないんですわ。Googleフォトから移行しようと思ったんですけど、核となる機能が足りてへんかったです。
Siriもそんなに進化してません。質問に答えられることもありますけど、結局ChatGPTに振ってしまうんです。それはそれでええんですけど、ChatGPTは他にも30通りくらいの方法でアクセスできますからね。
本当に欲しいのは、OpenAIの高度な音声モードが電話にネイティブで組み込まれることなんです。Siriとしてそれができたらええのに。そんな簡単で当たり前のことなのに。
とりあえず試してみる価値はありますよ。iPhone 15か16が必要ですけど。Siriがアップデートされるのはええことやと思います。でも、まだまだ感動できるレベルには達してませんな。みなさんはどう思います?使ってみた感想をコメントで教えてください。
[以下、スポンサー部分は省略してビデオの本編に戻ります]
次はGitHubの年次イベントです。たくさんのアップデートが発表されて、今後の方向性が見えてきました。まず、GitHubコパイロットで開発者が選択できるようになりました。
思い出してください。数年前、GitHubコパイロットは初めてのAIコーディングアシスタントとして登場して、本当に衝撃的でした。コードを打ち始めると、タブキー一発で続きを予測してくれる。もちろん今では色んな進化がありましたけど。
ご存知の方も多いと思いますが、GitHubはマイクロソフトの傘下にあります。そのことを踏まえて、アップデートの話を聞いてください。GitHubは今、タブ補完を担うモデルを選べるようになりました。
見てください。Claude 3.5 Sonnet、Gemini 1.5 Pro、さらには01プレビューも選べます。OpenAIへの依存度を下げつつ、最先端のOpenAIモデルも提供するという戦略です。
これはマイクロソフトの戦略として賢明やと思います。企業として、将来の核となる機能を一つのパートナーに依存し過ぎるのは避けたいですからね。これで用途に応じて最適なモデルを選べるようになりました。
Claude 3.5 Sonnetはソフトウェア開発のライフサイクル全般で優れた性能を発揮します。GoogleのGemini 1.5 Proはコーディングシナリオで高い能力を示し、200万トークンのコンテキストウィンドウを持っています。これは多くのコードベース全体を扱えるサイズです。
そして01モデルは複雑なコーディングタスクが得意です。GitHubはさらに「Spark」というプロンプトからコードを生成する製品のプレビューも発表しました。
これは自然言語で完全なアプリケーションを構築できるAIネイティブなツールとして説明されています。Sparkはクラウドリソースの管理なしでAI機能や外部データソースを統合できる完全な機能を持つマイクロアプリです。これは明らかにCursor社のような競合を意識したローンチですね。
AIを最も深く、ネイティブに統合した最初の製品として、GitHubがAIコーディングアシスタンスの急速な進化に追いついていこうとしているのは素晴らしいことです。
次は、The Informationの報道によると、メタが独自の検索エンジンを開発中とのことです。これは素晴らしい判断やと思います。Googleは過去20年間、検索市場で絶対的な独占状態でした。メタ(Facebook)は何度か参入を試みましたが、成功してません。
でも今は特別な時期です。GoogleはPerplexityなどの企業から脅威を受けています。メタにはLlamaモデルがあり、メタAIを使う月間アクティブユーザーが何億人もいます。あとは実質的にリアルタイム検索を組み込むだけです。
もちろん実際はもっと複雑ですけど、戦略的な観点から見ればそれだけのことです。ウェブクローリングを可能にすれば良いだけで、メタは長年ウェブクローリングをしてきました。最近もウェブクローリングの取り組みを強化していると報じられています。
広告ビジネスのために、インターネット全体にピクセルを配置することも長年やってきました。Googleにとって非常に興味深い時期です。独占禁止法による分割の脅威に直面しているだけでなく、史上最高のビジネスと言えるGoogle検索という収益源も大きな脅威にさらされています。
AIが全てを変えつつあるのに、Googleの検索は進化が遅すぎる気がします。私は以前Google検索を使っていた場面の95%くらいで、今はPerplexityとChatGPTを使っています。Google検索は、行きたい場所は分かっているけどURLを忘れたとか、特定の画像を探している時くらいしか使いません。
それ以外は答えが欲しいだけで、10個の青いリンクは要りません。だからメタが検索分野で何をするのか、本当に楽しみです。最近メタはロイターと提携して、メタAIプラットフォームでリアルタイムニュースやアップデートを配信することも報じられました。
私はメタAI全般に非常に期待していますが、一つ足りないものがあります。それはハードウェアです。メタAI Ray-Banグラスはありますが、数週間前の動画で説明したように、私はグラスがAIの最終形態だとは思っていません。マーク・ザッカーバーグはそう考えているようですが。まあ見守りましょう。検索市場の競争が活発になるのは、どんな形でもええことですからね。
次は、Grokについてです。ついに視覚機能を獲得しました。面白いのは、私はすでにその機能があると思ってました。イーロン・マスクが随分前にブログ投稿でスクリーンショットを見せてくれたんですけど、今になってやっと本当に視覚機能を持つようになったみたいです。
私が評価基準に加えた視覚テストの一つに、Grokのプレビューで見たこのテストがあります。基本的に「このミームを説明して」というものです。左がスタートアップで右が大企業というミームをGrokに読み込ませて、説明を求めました。今回初めて実際にできるようになって、ちゃんと正解を出しました。素晴らしいアップデートですね。
でもGrok 3の登場が近いようなので、そっちの方が楽しみです。
次は、PerplexityがWall Street JournalとNew York Postから訴えられました。これは生成AI企業に対して既に30件以上の訴訟が起こされている中での出来事です。
これは微妙な状況です。以前はGoogleがインターネットのフロントページでしたが、今は生成AI企業がその役割を担い始めています。Googleはウェブサイトをスクレイピングして検索結果に表示し、ユーザーをコンテンツ発行者のサイトに送り込んでいました。
でも今はPerplexityなどのAI検索ツールが、記事の情報を単に再現しているだけで、オリジナルのコンテンツをクリックして見に行く必要がほとんどなくなっています。
コンテンツ企業は、AI検索企業が許可なく彼らの成果物を取り込んで提示していると主張しています。でもそれが事実だとしても、このビジネスモデルはなくならないでしょう。AI検索は定着しました。
訴訟への回答で彼らは、Time、Fortune、Der Spiegelなど主要な出版社との収益共有プログラムを業界で初めて立ち上げたことを誇りに思うと述べています。
これは懐かしい感じがしますね。新しい技術が登場するたびに、コンテンツクリエイターは二つの立場のどちらかを取ってきました。新技術を積極的に採用するか、訴訟で潰すかです。MP3、Google検索など、様々な技術の登場時に同じことが起きています。
AIの著作権について話すたびに、皆さんと私では考えが違うようです。コンテンツクリエイターになった今、私が本当に欲しいのは、AIに自分のコンテンツを取り込ませるかどうかを選択できる権利だけです。それだけでいいんです。皆さんはどう思いますか?コメントで教えてください。
次は、あまり注目されていない大きなアップデートです。Claudeがコードを書いて実行できるようになりました。これはChatGPTの高度なデータ分析機能のようなもので、AIがコードを書いて実行できることで、より正確な結果が得られます。
分かりやすい例を挙げましょう。「strawberry」という単語のアルファベットを数えるとします。多くのモデルは学習によってできるようになっていますが、以前からPythonコードを書いて文字列内の「r」を数えて結果を出力する、という方法があれば簡単にできたはずです。
モデルがコードを書いて実行できるようになることで、トランスフォーマーアーキテクチャの制限で以前は不可能だった多くのユースケースが実現できるようになります。
次は再びPerplexityです。macOS用のネイティブデスクトップアプリがリリースされました。すぐにインストールして使っていますが、素晴らしいです。強くお勧めします。私はPerplexityが大好きで、彼らから一銭ももらっていませんが、毎日使っている必須のソフトウェアです。
先ほど述べたように、ChatGPTとPerplexityは、何か知りたいことがある時に常に使うツールです。
次は、Llamaが既に小型のモデルの量子化バージョンを2つリリースしました。量子化バージョンとは何か?基本的にモデルの圧縮版です。より小さくなることで、より多くの種類のマシンで実行できるようになります。
トレードオフとして品質は低下しますが、最近の量子化技術では品質の低下はそれほど大きくありません。Llama 3.2 1Bと3Bの量子化バージョンがリリースされ、推論速度が2〜4倍向上し、平均してモデルサイズが56%、メモリ使用量が41%削減されました。
これらはオンデバイスモデルで、エッジでの実行を想定したモデルです。オープンソースで高効率なのが素晴らしいです。
何度も言っていますが、小型モデルは大多数のユースケースで十分な性能を発揮できます。非常に良い性能を示し、どんどん小型化、効率化が進んでいます。
私はクラウドに頼らず、自分のデバイスでモデルを実行したいと思っています。プライバシー、セキュリティ、低レイテンシー、所有権など、様々な理由があります。モデルを手元に置きたいんです。このリリースを見て嬉しく思います。まだ自分では試していませんが、使った方がいれば性能はどうだったか教えてください。
次は、AI実行用のカスタムチップを製造するCerebrusが、推論速度を大幅に向上させました。見てみましょう。Cerebrusの推論は3倍速くなり、Llama 3.1 70bで毎秒2100トークンを処理できるようになりました。これは驚異的な速さです。最速のGPUソリューションの16倍、Llama 3Bを実行するGPUの8倍の速さです。
Cerebrusの成果には本当に感心させられます。数週間前には株式公開を申請したので、もうすぐ株を所有できるかもしれません。
次は、特にアメリカにとって素晴らしいニュースです。コンピューターチップを製造するTSMCのアリゾナ工場が、台湾での生産を上回るペースを記録しました。これは信じられないことです。アリゾナでの生産歩留まりは台湾を4%上回り、しかもこの工場は今年に入ってから生産を開始したばかりです。
アメリカへの投資は素晴らしいことです。将来おそらく最も重要な資源となるチップを、国内で製造できることは素晴らしいことです。他国への依存度を下げることができます。
次は、自動運転車サービスを提供するWaymoについてです。現在複数の都市でサービスを提供し、週に10万回の乗車を実現している、おそらく実際の乗車回数で最も進んでいる企業が、大規模な新規資金調達を発表しました。
Alphabet(Googleの親会社)が主導する56億ドルの増資ラウンドを完了し、Andreessen、Fidelity、Perry Creek、Silver Lake、Tiger Global、T. Rowe Priceも継続して参加しています。現在サンフランシスコ、ロサンゼルス、フェニックスでサービスを提供し、Uberとも提携しています。
Waymoの課題は、車両の製造コストが非常に高いことです。LiDAR、レーダー、その他多くのセンサーを使用していますが、Teslaは全く逆のアプローチを取っています。カメラだけを使用するというアプローチです。
論理的に考えると、カメラのみのアプローチの方が理にかなっている気がします。私たちは目だけで周囲を解釈して車を運転できるのですから、ニューラルネットワークでも同じことができるはずです。
もちろん短期的にはレーダーの方が優れているかもしれませんが、長期的にはビジョンのみのAIが勝利すると思います。ただし一つ欠点があります。カメラの視界が遮られると、例えば湿気、雨、霧、砂、汚れなどがあると使用できなくなります。この問題も解決する必要があります。
とにかくWaymoの大規模調達を祝福したいと思います。私はまだ使ったことがありませんが、早く試してみたいです。
次は、Kim(別名Chubby)が、人工的な分析によると他の画像モデルを大きく上回る性能を持つ新しい未知のモデルを発見したそうです。Red Pandaと呼ばれるこのモデルは、Arena ELOレーティングで他のモデルを大きく引き離しています。
ちなみに、ChubbyはFord Futureニュースレターで数週間にわたって素晴らしいオリジナル記事を書いています。まだ読んでいない方は、是非チェックしてください。興味深く、深い技術的な内容です。Forward Future.comで読めます。
私自身はまだRed Pandaモデルを試していませんが、試すのが楽しみです。
次は、GoogleがChromeブラウザに直接エージェントを組み込んで、ブラウジングを代行させるようです。Jarvisと呼ばれるこの機能は、リサーチから航空券の予約、商品の購入まで何でもできます。
これは一般消費者向けで、日常的なタスクを自動化することを目的としています。先ほどClaudeがコンピュータを制御する機能をリリースしましたが、今度はGoogleがブラウザ内で同様のことを行おうとしています。
記事によると、Jarvisはコマンドやアクションを受け取ると、コンピュータ画面の頻繁なスクリーンショットを撮影して解釈し、ボタンのクリックやテキストフィールドへの入力などのアクションを実行します。
モデルが各アクションを実行する前に数秒間考える必要があるため、比較的ゆっくりと動作します。これはOpen Interpreterのようなオープンソースのコンピュータ制御システムと全く同じ方法です。
Claudeもこの方法を使用していますが、先ほど言ったように、あまりうまく機能しません。スクリーンショットを撮って座標を把握しようとするのは、AIにとって本当に難しいタスクです。
でも実際の動作を見てみたいですね。Chromeはブラウザとモデルの両方を所有しているので、各ピクセルの正確な位置を伝えるAPIを開放し、AIがブラウザをより効果的に制御できるようにするのはそれほど難しくないはずです。
最後に、Stable Diffusion 3.5 Mediumがリリースされました。これはオープンソースのテキスト生成画像モデルで、非常に優れています。
このアップデートは特に3.5 Mediumモデル向けで、アーキテクチャとトレーニングプロトコルを調整して、品質、一貫性、マルチ解像度生成能力を向上させています。
他の中規模モデルを上回る性能を発揮し、プロンプトへの忠実性と画像品質のバランスが取れており、効率的な高品質パフォーマンスを求める場合の最適な選択肢となっています。
Mediumはオンデバイスでの実行を想定しています。私の2台のRTX A6000でロードしてテストすることもできますが、興味があれば教えてください。
今日はここまでです。この動画が気に入っていただけたら、いいねとチャンネル登録をお願いします。では、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました