AI ニュース: GPTユーザーガイド、驚異的な映像効果、コーディング能力の大幅な進歩など

11,435 文字

AI NEWS: GPT User-Guide, Insane Video Effects, Massive Leap in Coding Abilities & More

Here's the AI news that you missed this week. Grab the free AI Playbook here: More:🛠️ Explore AI Tools & News: https:/.....

毎週のことですが、今週もAIに関するニュースがたくさんありました。しかし、いつものように細かいことを一つ一つ解説するのではなく、今回は特に面白いと思ったものや、多くの人に最も役立つと感じたものだけに絞ってお届けします。
時間を無駄にせず、さっそく内容を見ていきましょう。
まず、多くの人にとって非常に役立つものから始めましょう。今週、OpenAIは「When to use each model（各モデルの使用タイミング）」という小さなガイドを公開しました。ChatGPTの有料プランを利用している方なら、多くの異なるモデルがあることにお気づきでしょう。
GPT-4o、4.5、o3、o4 mini、o4 mini high、o1 pro mode、GPT-4o miniなど、多くの選択肢があり、混乱することもあるでしょう。なぜ4.5よりo3を使うべきなのか、といった疑問に答えるためのクイックガイドです。「ChatGPT Enterprise Models and Limits」という名前ですが、ここで説明されていることは、どのプランを利用している場合でも役立ちます。
Enterpriseプランでなくても参考になります。簡単に説明すると、なぜこれほど多くのモデルがあるのかというと、OpenAIでは常にモデルを改善する新しい方法をテストしているからです。プロンプト入力後にチェーンオブソート思考を追加したり、より大きなトレーニングの途中でチェックポイントを出したりと、常にモデルを改善するための異なる方法をテストしています。
そうすると、あるモデルが一つの分野で大幅に改善されても、別の分野では古いモデルより性能が低下してしまうことがあります。そこで、「コーディングや数学が大幅に向上したけれど、EQが少し低下した最新の最高モデル」と言うのではなく、使いたいモデルを選べるようにしています。
以下のように分類されています。GPT-4oは日常的なタスクに優れています。これは恐らくほとんどの場合はデフォルトで使いたいモデルでしょう。非常に高速で、ほとんどのことに対してかなり良く機能するからです。ブレインストーミング、メールの要約、クリエイティブなコンテンツ作成に適しています。また、画像を作成したり再構成したりできるgiblify機能が使えるモデルでもあります。
ウェブ検索も可能です。高度な音声機能を使う場合にも使われます。文書や画像、CSVファイル、音声、動画を取り込むことができます。多くのシナリオでは、これがデフォルトのモデルになるでしょう。例えばプロンプトとしては、会議メモの要約、フォローアップメールの作成、レポートの校正、リアルタイムでのローンチプランのブレインストーミングなどです。
そして、GPT-4.5がありますが、OpenAIはすでにこれを近いうちに終了すると発表しています。このモデルは永久に利用できるわけではなく、おそらく1ヶ月以内に提供が終了するでしょう。このモデルは感情的知性と明確なコミュニケーション、創造性に最適で、より協力的です。記事やツイートの作成を手伝ってもらいたい場合、現実的な声をうまく表現してくれます。例えばプロンプトとしては、AIトレンドに関する魅力的なLinkedInの投稿作成、新機能のプロダクト説明文作成、共感的なトーンでの顧客謝罪文の作成などです。
次にOpenAI o4 MiniとO4 Mini Highがあります。個人的にはこれらをほとんど使用することはありません。特に使用ケースがないからです。OpenAIの説明によると、o4 Miniは迅速なSTEM関連のクエリ、プログラミング、視覚的推論に適しています。例としては、CSVファイルからの主要データポイントの抽出、科学記事の簡潔な要約、Pythonのトレースバックの修正などです。o4 mini highは基本的に同じモデルですが、より多くの計算リソースと思考時間が追加されています。より高度なコーディング、数学、科学的説明に適しており、より長く考え、より高い精度を発揮します。
例えばプロンプトとしては、複雑な数学の方程式を解いてステップを説明する、データ抽出のためのSQLクエリの作成、科学的概念を分かりやすく説明するなどです。そして、o3があります。これはGPT-4oの次によく使うモデルです。複雑または多段階のタスク、戦略的計画、詳細な分析、広範なコーディング、高度な数学、科学、コーディング、視覚的推論に最適です。
多くの情報を与えてそれを分析し、すべての情報を考慮した上で分析結果を返してくれます。o3はテーブルを作成するのが好きなようで、与えられた情報を取り込み、3〜4列のテーブルを作成して視覚的に整理する傾向があります。必要ない場合でもほぼすべてのプロンプトでそうしようとするのは興味深いですね。例えばプロンプトとしては、市場拡大のためのリスク分析の開発、競合データに基づくビジネス戦略概要の作成、CSVファイルの多段階分析の実行、パイプラインメトリクスのレビュー、データの視覚化と新しいトップオブファネル戦略の検索などです。
そしてOpenAIのo1 pro modeがあります。これは複雑な推論に優れており、考える時間が少し長くなりますが、複雑なタスクに必要な精度を提供します。EUデータプライバシーロールアウトのための詳細なリスク分析メモの作成、新興技術に関する複数ページの研究要約の生成、理論モデルを使用した財務予測のためのアルゴリズムの作成などに適しています。
o3が登場してからは、o1 pro modeをほとんど使用していません。また、o1 pro modeは月額200ドルのプランでしか利用できません。私はこれが非常に役立つと思い、他の多くの人にも役立つと思ったので、今日の動画ではこれから始めることにしました。
今週はクリエイティブツールからもいくつかの素晴らしいアップデートがありました。例えばHey GenenのAvatar 4です。これを使うと、1枚の写真とスクリプト、そして自分の声をアップロードするだけで、AIアバターの話す頭部映像に変換できます。デモで紹介されているようなものです。
背景に音楽がありますが、著作権の問題があるかもしれないので再生しませんが、ほとんどのアバターは言葉に同期するのに対し、Avatar 4はそれを解釈します。拡散にヒントを得たオーディオから表情へのエンジンを基盤にしています。声のトーン、リズム、感情を分析し、時間的リアリズム、頭の傾き、間、抑揚、微表情を1枚の画像だけで写実的な顔の動きを合成します。他の例もXスレッドで紹介されています。「とにかくたくさんのスキンケア、特に韓国のスキンケアを買いました。それを手に入れるのがとても楽しみです」とか。
横向きや横顔の画像も使えます。「芸術を作る方法は一つではありません」、キャラクターに歌わせることもできます。これも著作権の問題があるので再生しませんが、この動画では彼女が歌っています。動物や、ゲームキャラクター、アニメも喋らせることができます。実際に試してみましょう。
Hen（Hey Genen）にログインしました。Avatar 4で写真から動画へ変換できます。試してみましょう。いつも使用しているソーシャルメディアのアバターをここに入れます。横向きか縦向きかの選択肢しかなく、正方形では受け付けてくれなかったので、縦向きのままにします。
音声をアップロードするか録音することもできます。声については、以前にHey Genenに自分の声をトレーニングしているので、それを選択します。スクリプトを入力して、動画を生成しましょう。約1分ほどかかりました。確認してみましょう。「Matt Wolfをぜひチャンネル登録してください」。悪くないですね。
新しいものを作成しましょう。今回は自分の実際の画像をアップロードします。今回は音声を録音してみます。ちょっと遊んでみます。何が起こるか見てみましょう。今回は少し長くかかりました。約2分ほどです。確認してみましょう。「何が起こるか分かりませんね、誰にも分かりません」。
これはかなりクールでした。唯一少し変だったのは手です。元の画像には手がなかったので、勝手に作り出していて少しぼやけています。しかし、口の動きは素晴らしいと思います。もう一度見てみましょう。「何が起こるか分かりませんね、誰にも分かりません」。気に入りました。
利用可能なAIツールをすべて追いかけることに圧倒されることはありませんか？文字通り何千ものツールがある中で、実際にビジネスに役立つものを決めるのはほぼ不可能かもしれません。そのため、私はHubSpotと提携して、私個人のAIプレイブックを作成しました。この無料ガイドでは、特に起業家向けに最高のAIツールを厳選しました。日常のワークフローを簡素化し、新しい創造的な可能性を開き、ビジネスの成長を加速するためのAIの実用的な活用法を発見できます。
さらに、明確なステップバイステップのガイド、インサイダーのヒント、簡単に従える戦略を含めているため、AIの実装が簡単になります。チャットボットで日常的なタスクを自動化したり、デザイナーを雇わずに素晴らしいビジュアルを作成したり、AIを使用してビジネスを急速に拡大したりすることが目標であれ、このプレイブックはあなたの頼れるリソースです。
それはより賢く、より効率的に働き、競合他社の先を行くことを保証するためのものです。見逃さないでください。説明欄のリンクをクリックして、無料のAIプレイブックのコピーをダウンロードしてください。HubSpotにはこの動画のスポンサーとして大きな感謝を申し上げます。
さて、話を戻しましょう。Higsfield AIという会社も最近多くの機能をリリースしています。その中にはHigsfield Effects Mixという新機能があります。これは、Pika Effectsのような、すでに作成したものに適用できる事前構築されたエフェクトが多数あるというものです。
この例を見てください。金属に変える効果と溶けるエフェクトを選択しています。この画像をアップロードし、これら2つのエフェクトを混ぜるというプロンプトを与えると、金属と溶解効果がブレンドされたこのビデオが作成されました。XでI’m Paulが共有したもう一つの素晴らしい例では、Midjourney version 7で画像を作成し、そしてHigsfieldを使ってキャラクターの周りを回転させ、キャラクターがパンチしてガラスを割るアニメーションを作成しました。
Elseneはワンダーウーマンが空を飛び、火がつくというものを作りました。様々なエフェクトが見れます。炎上、雷神、溶解、エージェント現像、グラムなど多数あります。ソウルジャンプも。面白いのは、いくつかを混ぜることができるようです。
ソウルジャンプを試して、ミックスに行き、二つ目として炎上を選んでみましょう。ソウルジャンプと炎上を組み合わせるとどうなるか見てみましょう。自分の画像をドラッグアンドドロップします。デモで見たのと同様のプロンプトを使います。「これらのスタイルを一緒に混ぜてください」。生成には約1分半かかりました。
結果を見てみましょう。これは思っていたよりもずっとクールです。私の魂と元の体の両方が火がつくとは予想していませんでしたが、かなりクールなエフェクトだと思います。むしろ、出てくる魂だけが炎に包まれて、通常の体はそのままだったらいいのにと思いますが、プロンプトで修正できるでしょう。
プロンプトをより詳細にしてみました。「これらのスタイルを一緒に混ぜて、体から出てくる魂だけを炎にして、元の体はそのままにしてください」。予想通りにはなりませんでしたが、これは本当に楽しいです。Higsfieldとそこに組み込まれている様々なエフェクトを本当に楽しんでいます。これは間違いなく私がもっと遊んでみたいツールです。
今週、Nvidiaはひそかに非常に優れた音声からテキストへのモデル、つまり文字起こしのためのモデルをリリースしました。60分の音声をわずか1秒で文字起こしできます。つまり、1時間の長さのポッドキャストを与えると、1秒後に6.05%のエラー率で文字起こしが得られます。これは約100語のうち約6語が間違っているということです。しかし、非常に高速でオープンソースなので、OpenAIのWhisperやその他の音声テキスト変換モデルのようにAPIの料金を支払う必要はありません。
このモデルは実際にHugging Faceで利用可能です。ダウンロードしてローカルで実行したくない場合でも、今すぐに試すことができます。説明欄にリンクを載せておきます。コンピュータにはあまり音声ファイルがありませんが、Notebook LMで生成した約20分のポッドキャストがあります。
これをドラッグアンドドロップすると、18分強の長さであることがわかります。「アップロードしたファイルを文字起こし」をクリックしましょう。7秒かかりました。「始めましょう。今日はAIに取り組みます…」と言っています。
7秒でその全体を文字起こししました。60分をわずか1秒でできると言われていましたが、明らかにこれはHugging Faceを通じてクラウドGPU上で実行しています。良いGPUでローカルに実行すれば、おそらく異なるでしょう。しかし、20分近い音声を7秒で文字起こしするのは非常に印象的です。文字起こしも非常にきれいに見えます。これも多くの人に役立つと思いました。文字起こしが必要な場合、今すぐHugging Faceで数秒以内に無料でできます。
Netflixのサブスクライバーなら、今週あなたのNetflixアカウントにAIアップグレードが入ります。プレスリリースを見ると、「検索の新しい方法」として、生成AIをメンバーの発見体験に取り入れる方法を模索しているとあります。iOSで少数のオプトインベータから始まる検索機能を提供しています。これにより、メンバーは「面白くて明るいものが欲しい」といった自然な会話フレーズを使って番組や映画を検索できるようになります。
AIとは関係ありませんが、興味深いことに、今後数週間でNetflixの番組や映画のクリップで満たされた縦型フィードをテストします。基本的にNetflix内にTikTokのようなものを作り、TV番組や映画のクリップを表示し、気に入ったクリップがあればフルで視聴できるようにします。これは非常に興味深いと思いました。
AIの世界では、現在の時代において最大の影響を受けているのは開発者だと感じています。開発者やバイブコーダー（本当のコーディング方法を知らないが、自然言語でアプリを開発したい人）向けにたくさんのニュースが出ています。これらの2つのカテゴリーのいずれかに該当する場合、最近は非常に多くのアップデートを受けています。
例えば、Googleは新しいバージョンのGemini 2.5 Proをリリースしました。ベンチマークやLM Arena（複数のモデルのブラインドテストを行うもの）、モデルをランク付けするほぼすべてのソースで、コーディングに関してはGemini 2.5 Proが最高位に位置づけられています。今週リリースされた新モデルはさらに進化しています。これを使って人々が生み出しているものの中には、本当に驚くべきものがあります。
新機能の一つは「ビデオからコード」です。Geminiは実際にビデオを理解します。音声を文字起こししてから理解するのではなく、実際にビデオの内容を見て理解できます。YouTube講座などを与えて、その内容をコード化してもらうことができます。
新しいモデルをテストする楽しい方法の一つは、既存のアプリケーションがどのように改善されるかを見ることです。右側には古い2.5 Proと基本的なアプリがあります。左側では、ビデオを深く理解し、完全に機能するクイズを作成しました。これは体験を次のレベルに引き上げました。Google DeepMindがXで共有したこれらの例を見てください。
木の写真を与え、「この画像を自然な動きをコードベースで表現に変換してください」というプロンプトを与えると、AIは成長レベルのスライダーを備えた木を生成し、スライダーを動かすと木のサイズが変わります。同様のことをクモの巣の写真、焚き火の写真、草地の蛍（だと思います）、雲、飛ぶ鳥などでも行っています。すべてが画像から始まり、その画像を表現する小さなアプリを作成しています。葉、水滴など、本当にクールなものばかりです。
これは前にも言いましたが、AI Studioで無料で使用できます。aistudio.google.comにアクセスし、右上でモデルを選択すると、5月6日の最新のGemini 2.5プレビューも含めて選べます。「マウスの動きやクリックに影響される色とりどりの粒子シミュレーターを作成してください。HTML、インラインCSS、JavaScriptを使用して、単一のHTMLファイルから実行できるようにしてください」というようなプロンプトを与えてみましょう。
このデモを簡略化するためにそうしていますが、実行して結果を見てみましょう。コードが生成されました。全体で57秒かかりました。一発で成功したか見てみましょう。コードをコピーしてテキストファイルに貼り付け、HTMLとして保存します。
これが生成したものです。粒子が見えますが、すぐに消えてしまいます。私の意図したものとは少し違います。そこで「粒子が消えないようにしたい」という二つ目のプロンプトを与えました。45秒かかりました。今回は粒子がそのまま残り、マウスを動かすと押し出されるようになりました。
二つのプロンプトで作った楽しい小さなアプリです。最初のプロンプトでかなり近づき、二つ目のプロンプトでより意図したものに近づきました。もちろん、これを見ている人はこの技術のもっと役立つ使い方を考えるでしょう。しかし、開発者とバイブコーダーは今週さらに素晴らしいものを手に入れました。
Gemini 2.0で画像の作成と編集が可能になりました。開発者であれば、APIでこれにアクセスできます。ここで例を見ると、ノートパソコンのあるデスクの画像と、ランプの画像があり、「二番目の画像のランプが最初の画像のデスクにあるとどのように見えるか見せてください」と言うと、デスクにそのランプを配置しました。ランプのサイズを少し変えたようです。GPT-4o画像モデルでできることと非常に似たことができるようです。そして、API内で直接できるため、開発者はこの機能を使って構築することもできます。
以前と同様に、Google AI Studio内でも利用可能です。Gemini 2.0に行くと、画像生成機能があります。「月に向かって遠吠えする狼の画像を作成してください」と言うと、3.5秒後に見栄えの良い画像ができました。「月にサングラスをかけてください」と言うと、4.4秒後にサングラスをかけた月ができました。狼にもサングラスをかけたようです。もう少しプロンプトを調整すれば、きっと正しくできるでしょう。
Anthropicの Claude APIで開発するのが好みなら、彼らは今APIにウェブ検索機能を導入しました。Claudeを使ってアプリを開発していて、そのアプリがClaude内で直接ウェブ検索機能を持つことを望むなら、今それを実現するアプリを構築できます。Windsurfのようなものを使っていて、コーディングのためにClaudeモデルを使っている場合、インターネットも使用できるようになります。理想的には、より良いコードを書くのに役立つでしょう。
OpenAIも今週、コーダー向けにいくつかの新機能をリリースしました。ChatGPTのDeep ResearchにGitHubリポジトリを接続できるようになりました。ChatGPT内で設定に行き、接続済みアプリの下でGitHubを接続する機能があります。接続後、Deep Researchを選択すると、GitHubに接続するオプションを含むドロップダウンが表示されます。
これは便利そうです。なぜなら、自分が構築しているアプリをGitHubにプッシュしている場合、このGitHub接続を使って構築した全アプリのコンテキスト全体を添付できるからです。または、すでにGitHubにある別のアプリを参考にしようとしている場合、他のGitHubリポジトリから情報を引き出し、ChatGPTとチャットする際のコンテキストとして使用できます。開発者にとって本当に便利な機能です。
OpenAIは「強化ファインチューニング」と呼ばれるものも展開しています。自分のドメイン知識に基づいて自分のモデルをファインチューニングすることができます。これはおそらく、質問をすると応答が返ってきて、その応答を評価し、時間が経つにつれて希望する応答のタイプに向けてより調整されるという仕組みだと思います。
これも開発者向けに設計されています。私自身はまだ試していませんが、基本的にはモデルの上に強化学習を取り付けて、うまくいった応答には報酬を与え、うまくいかなかった応答にはペナルティを与え、理想的には期待する応答のタイプに正確に調整されるというものです。
Windsurfで開発する場合、今週はWindsurf Wave 8という大規模なアップデートがあり、GitHubからのプルリクエストをレビューするWindsurf Reviews、Google Docsから知識を追加する機能、使用しているAPIのドキュメントを与えることでそれらを理解する機能など、多くの新機能が導入されています。
会話の共有、Teamsデプロイ機能、更新された分析機能もあり、Wave 8では一度にすべての機能をリリースするのではなく、ほぼ毎日新機能をリリースしているようです。WindsurfとOpenAIの話が出たところで、OpenAIが30億ドルでWindsurfを購入する合意に達したようです。
先週のエピソードでOpenAIがWindsurfの買収に興味を持っていることを話しましたが、Bloombergによると、物事が最終段階に入り、OpenAIが実際にWindsurfを買収するようです。Xで見たコメントでは、OpenAIがWindsurfを買収するのは興味深いと言っていました。もし彼らがAGI（人工汎用知能）が本当に近いと信じているなら、「これを作って」と言うだけで戻ってきて作ったものを与えてくれるなら、なぜWindsurfのようなIDEを買収するのでしょうか？おそらくAGIはOpenAIがここ数年ほのめかしていたほど近くないのかもしれません。考えるべき興味深いことです。
Windsurfは私の選択するコーディングプラットフォームです。Windsurfでの作業を本当に楽しんでいます。Cursorも非常に似ていますが、Windsurfの機能セットは現時点で少し優れていると感じており、背後にかなりの資金があることで、より良く、より速くなる可能性が高いと思います。
AIバイブコーディングプラットフォームについて話すと、AppleとAnthropicもそのゲームに参入したいようで、独自のバイブコーディングプラットフォームを構築するために協力するようです。これはXcode（Appleのプログラミングソフトウェア）の新バージョンとなり、Claude Sonnetモデルを統合します。まだこれ以上の詳細は分かっていません。
Mr. AIは今週、APIを使用する場合に非常に安価な新しいAIモデルをリリースしました。開発者向けですが、入力トークン100万あたり40セント、出力トークン100万あたり2ドルです。これはGPT-4.1 miniを使用するコストとほぼ同じです。GPT-4.1は実際、入力トークン100万あたり2ドル、出力トークン100万あたり8ドルです。しかしベンチマークを見ると、コード、指示に従う能力、数学、知識、長いコンテキストなどですべて良い成績を出しています。Llama 4 Maverick、GPT-4o、Claude Sonnet 3.7と比較しても遜色なく、同様のスペックのモデルから期待される価格設定にも合っていると思います。
今週もう一つの大きなニュースとして、営利企業になる計画だったOpenAIが、営利企業になるための戦いを放棄することを決めました。代わりに、パブリックベネフィット企業（公益企業）になります。これはAnthropicやxAIと同じタイプの企業形態です。
OpenAIの構造はちょっと変わっています。OpenAIの非営利団体が営利企業を監督しており、その非営利団体は非営利という性質上、稼げる利益に上限がありました。パブリックベネフィット企業に変更することで、OpenAIの監督部門の潜在的な利益に上限がなくなります。
イーロン・マスクが営利企業に転換するのを阻止するために闘っていたので、これをイーロン・マスクの勝利だと見る人もいますが、イーロンはこれは何も変わらないと主張しています。彼らは今、より多くの利益を生み出す能力を持っています。私にとっては、まだすべてが非常に複雑で混乱しているように感じます。
そして最後に今週、Amazonは触覚を持つ最初のロボット「Vulcan」を発表しました。触覚を持っているため、実際に拾い上げる製品をどれだけ掴むことができるかを知っています。これにより、Amazonの倉庫で多くの梱包作業などを自律的に行うのに役立つロボットとなります。
理論的には、その触覚のおかげで拾い上げるものを壊すことはありません。どれだけ強く握ったり拾ったりできるかを知っているので、ガラスや壊れやすいものには優しく、あまり壊れにくい重いものにはもう少し強く握るかもしれません。しかし、これはAmazonの倉庫内での荷物の処理を速めるための興味深い技術のようです。
今日はこれだけです。この動画を楽しんでいただければ幸いです。新しいことを試していて、ニュースの順序を変えて、最も影響力があり役立つと思ったことを最初に共有し、多くのフラフニュースをカットしました。理想的には、あなたが見たいと思った本当に興味深いものだけをお届けしています。
私が取り上げなかったAIニュースアイテムは毎週必ずあります。しかし、これらの動画で見逃したものはfuturetools.ioで見つけることができます。AIニュースページをクリックすると、今週起こったすべてのAIニュースが表示されます。
Future Toolsは、私が出会った最もクールなAIツールをキュレーションしているサイトでもあります。新しいツールは私が発見するたびに毎日追加されています。また、ここで無料のニュースレターも提供しており、週に2回だけ、私が見つけた最も重要なニュースと最もクールなツールを共有します。
完全に無料で、今日登録すると、様々なAIツールを使った副収入を得る興味深い方法のデータベースであるAI収入データベースに無料でアクセスできます。これもすべてfuturetools.ioで無料です。
この動画が気に入って、最新のAIニュースとクールなAIツールについて常に情報を得たい場合は、この動画にいいねを押し、このチャンネルを購読してください。YouTubeのフィードにこのような内容がもっと表示されるようにします。今日視聴してくれた皆さんに感謝し、次回の動画でまたお会いできることを楽しみにしています。Matt Wolfをぜひチャンネル登録してください。