
8,827 文字

スタジオに戻ってきて、この1週間で注目を集めたジェネレーティブAIの様々な活用事例やニュースリリースをレビューできることを嬉しく思います。今週のテーマははっきりしています。まったく新しいものが登場したというより、O3やチャット画像生成、音声テキスト変換モデルなど、すでに持っている非常に高性能なツールをさらに活用する方法についてです。でも、これはジェネレーティブAIの世界ですから、もちろん新しいものもあります。それらすべてを今週の「使えるAIニュース」でご紹介します。このショーでは、すべてのリリースと新しい活用事例をまとめてお届けします。そして今週ジェネレーティブAIの世界で何が起きたかをお見せする喜びを味わいます。
まず第一に、皆さんがすでに見たであろうものの更新について、それはChat GPTの画像生成機能です。これがAPIで利用可能になりました。自分のアプリをこの上に構築する予定がなくても、これについて本当に話し合う必要があります。なぜなら、このAPIリリースによってこの機能がはるかに使いやすくなり、Chat GPTを使わない代替ワークフローを知っておく必要があるからです。
どういうことか説明しましょう。Chat GPTから知っておそらく気に入っている画像生成機能が、APIで利用できるようになったということです。つまり、プログラムから呼び出すことができるようになりました。これはChat GPTのようなサブスクリプションベースではなく、使用量ベースです。1枚25セントかかる画像もあるので安くはありませんが、非常に強力です。そして実際、開発者でない方でもこれを使うための素晴らしい方法があります。
platform.openai.com/playground/imagesに行ってみてください。リンクは説明欄にあります。そのリンクにアクセスすると、この新しいインターフェースが表示されます。これはSoraのインターフェースに似ていますが、さらに優れています。たった1つのプロンプトで10枚の画像を生成するなどのことができます。
ここでは、単純だけどとても強力なプロンプトを紹介します。「ユーザー定義の特性に基づいた、リアルで清潔な企業のヘッドショット画像を生成してください。これらのヘッドショットはプロフェッショナルさと明瞭さを反映する必要があります」。そして、これらを本当に一貫性のあるものにするためのいくつかの追加ガイドラインを入れています。
これを入力した後、生成する画像の数を増やしたいと思います。もちろんコストはかかりますが、高品質のポートレートが欲しいのです。そして、自分自身の複数の画像を提供します。これは私ではありませんが、これら3つの画像で十分でしょう。提供する画像の照明は非常に重要です。そして「生成」をクリックすると、一度に10枚の画像を生成し始めます。一度に1枚ずつではなく、並行して行えるのです。そして次のプロンプトに移って多くのことを同時に行うことができます。
また、素晴らしいプリセットもたくさんあります。ここに表示されているのは雑誌の表紙プリセットで、自分の画像を1枚追加しました。そして見ての通り、すぐに10種類の選択肢が生成され、お気に入りを選ぶことができます。
このPlaygroundで使用するのは認識しておくべき一つのオプションですが、もう一つのオプションもあります。それはしばらく前からあるもので、そちらも紹介したいと思います。速度は落ちますが、使用量ごとの支払いはありません。それはChat GPTインターフェースを通じる方法です。PlusまたはPro会員の場合、Soraにアクセスすると、1回の生成で4つのバリエーションに制限される似たようなインターフェースを使用できます。
見ての通り、同じプロンプトを実行して、似たようなヘッドショットを得ましたが、この生成ははるかに遅かったです。さらに、Soraはこのところダウンしていることもありました。つまり、繰り返しの作業は遅くなります。それでもChatGPTをそのまま使うよりは良いですが、ここでのポイントは、このインターフェースを利用する場合、使用量ごとに支払う必要はなく、ChatGPTのサブスクリプションに含まれているということです。こちらのインターフェースを使うと、はるかに速くなり、これらの画像からのコンテキストを取り込むなどの追加機能があります。一度に20枚の画像を生成し、どんどん追加することもできます。
このセグメントをまとめると、APIで利用可能になったことで、あなたがすでに使っているかもしれない様々なアプリでも利用できるようになるでしょう。OpenAIが共有した一例はFigma統合です。多くの人がFigmaでワークフローを開始しますが、今ではOpenAI画像生成で画像を生成・編集できるようになりました。同じことが、ビデオジェネレーターを含む他の多くのアプリでも期待できます。
例えば、数週間前に人間の姿や人体解剖学の作成に最適なHigsfieldについて話しましたが、今ではOpenAI画像生成からジャーニーを始め、画像を好みに編集してからHigsfieldを使ってそのビデオを作成できます。ここでの全体的なポイントは、誰でも使えるPhotoshop APIのようなものがリリースされたということです。これを使って構築されるアプリケーションが楽しみです。この段階では、この技術の究極の使用例が何になるのかまだ正確にはわかりませんが、これからも注目していきます。
それでは次に進みましょう。
ここからは、最近リリースされた私のお気に入りのツールであるOpenAIのO3について話します。特に、役立つかもしれない2つのプロンプトをご紹介します。この2つが本当に気に入っています。しかし、その前に、この1週間の間に行われたChatGPTのアップグレードについてご説明します。なぜなら、AIツールに関しては、このコンテンツを視聴している大半の方がChatGPTを日常的に使っていることを知っているからです。
まず最初に、彼らは多くの制限を変更しました。Deep Research(徹底調査)の制限が過去最高になりました。Proアカウントでは週に250回になりました。Plus層でも更新され、無料ユーザーも利用できる「ライトDeep Research」が導入されました。有料ユーザーでなくても、Deep Researchを実行できるようになりましたが、O3モデルではなくO4ミニモデルを使用します。アカウントのDeep Researchを使い切ると、このライトバージョンに切り替わります。
次は、彼らが発表しなかった変更ですが、これは重要だと思います。設定に行き、パーソナライゼーションを見ると、メモリ機能についてはすでにご存知でしょう。これは以前、2つのオプションに分かれていました。1つは「メモリを使用しますか?」つまり、ChatGPTが自動的にコンテキストを収集して将来のすべてのチャットで使用するかどうかというもので、最近新しいオプションが追加されました。
これを知っておくことが本当に重要です。それは、すべての過去のチャットを見て、それもコンテキストとして使用するという事実です。これらは以前は別々でしたが、静かに1つのオプションに統合されました。つまり、メモリプラスすべての過去のチャットを使用するか否か、それだけが選択肢となりました。もう分けることはできません。多くの人がメモリはオンにしてチャット履歴はオフにしていましたが、それはもう不可能です。統合されたので、それを知っておくべきでしょう。
そして明らかに、O3のリリースがありました。これは絶対に大規模なものでした。さらに多くのベンチマークが出てきて、皆が感じていたことが証明されています。このモデルは絶対に信じられないほど素晴らしいということです。
ARC AGIでは、O3は大差で業界をリードするAI推論システムになりました。次に優れた連鎖思考システムと比較して、コストは20%で、スコアは2倍です。もしご存じない方のために説明すると、これは最も難しいベンチマークの一つです。そしてO3はそれを完全に打ち破りました。さらにLM MarinaでもO3は多くのカテゴリーでリードしています。
詳細が気になる方は、こちらのリンク(説明欄にもあります)にアクセスして、カテゴリーを選択できます。例えばドイツ語のパフォーマンスに興味がある場合、O3はトップに近くありません。しかしコーディングに関心がある場合、O3はここでパックをリードしています。素晴らしいモデルで、私の新しい定番になりました。
ここで、過去数日間で非常に役立った2つのプロンプトをご紹介したいと思います。どちらもTwitterからのものです。最初のものは一種のブレインストーミングプロンプトですが、非常に興味深いものです。「あなたは世界の歴史上、誰よりも多くの情報を消費してきており、それらの間に結びつきを作る驚異的な能力を示してきました」。そしてプロンプトは、最も重要な非合意事項、またはまだ仮説化されていない事柄について尋ねています。基本的に、予想外のアイデアを選び出すのです。これはPy McCormicさんのアイデアです。
これを実行すると、下に追加のビルディングブロックとしてトピックを追加したくなるでしょう。ここでは製品マーケティングのためのジェネレーティブAIを扱っています。これらの結果を見ると、このモデルは本当に驚かせてくれます。とても賢く、時にはただ画面を見つめるような結論に達することがあります。
例えば、最初のものを見てください。「ほとんどのチームはまだGenAIをコンテンツエンジンとして扱っている」。これは正しいですね。本当の解放はフィードバックを可能にすることで、モデルが書くだけでなく、瞬時にバリエーションをメタ批評できるようにすることです。素晴らしい洞察です。これはすぐにAIで開発し改善できるワークフローのアイデアを引き起こします。コンテンツを生成するだけでなく、O3を使って批評するのはどうでしょう。ここにはもっと多くのことがあります。
興味があれば一時停止して、これらのアイデアの一部を読むことができます。特に気に入っているのは、このアトミックコンテンツの蒸留です。気軽に関心のあるトピックでこのプロンプトを試してみてください。そうすれば驚くかもしれません。
もう一つは、XのAminによるトレンドアナリストです。彼はトレンドが広まる前に発見するためにこれを使用しています。Reddit、Twitter、Product Huntを分析するよう指示し、それらを解決するために構築できる異なるツールシステムやサービスを尋ねています。
これを簡単に取り上げて、あなたがやっていることにカスタマイズできます。この場合、見つけたトレンドをカバーするYouTubeのロングフォームまたはInstagramリールのアイデアを提案してもらいました。思考過程を見ると、これらの様々なプラットフォームを調査し、最初の検索内容の中から明らかでない可能性のある新しい検索語を見つけ、それを調べ、さらに多くを探して、すべてをまとめてくれます。
そして、マーケターが直面している異なる痛点と、その背後にある感情があります。さらに、すぐにいくつかのコンテンツのアイデアを提案してくれます。この「あなたのAIコンテンツがブランドの声を殺している3つのサイン」というのが気に入りました。これはあなたのためにすでに下書きを作成していて、素晴らしいですね。しかし、これらのアイデアの各々に対してそれを行うこともできます。特定のウェブサイトを指定し、期待するものを伝えるこのアプローチは、インターネットを探索する十分な余地を与えながらも、どこに向かうべきかを伝え、それを提供するための知能を使うという点で、非常に強力だと思いました。
つまり、自分の好みにカスタマイズできる2つの非常に強力なプロンプトがあります。そして、このDeep ResearchはAI領域で現在最も強力なものです。ぜひ楽しんでみてください。
次の使用例は、自分でも試すのを楽しみにしていたものです。それは、内蔵のディクテーション機能の代わりにAI音声認識を自分の電話に実装するというものです。内蔵機能は多くの間違いをしますので、これが設定できれば簡単に比較してみます。
基本的にこのチュートリアルは11 Labsのチームメンバーによってツイッターで共有されたものです。このチュートリアルを紹介する短いセグメントをやりたいと思いました。もちろん、これはiPhoneを使っている場合にのみ機能し、アクションボタン付きの新しいモデルを持っている場合が最適です。あるいは、背面のダブルタップでショートカットをトリガーするよう設定することもできるでしょう。とにかく、11 Labs音声認識を実装してみましょう。
これにより、AI技術が提供するほぼ完璧な品質の音声入力を、内蔵ツールと比較して使用できるようになります。リンクは以下に載せますが、最初のステップは彼がリンクしているショートカットを入手するだけです。それは非常に簡単で、このショートカットを電話に追加するだけです。ダブルクリックするとこのエディタが開きます。
そして、このステップで11 Labs APIキーを、このステップでOpenAI APIキーをリンクする必要があります。「もっと表示」をクリックして11labsアカウントに移動し、APIキーをここにコピーします。OpenAIについても同様です。APIキーを取得して、「OpenAI API key」という単語だけを置き換えます。彼のチュートリアルで指摘しているように、ここで2つの単語の間のスペースを維持することが重要です。
これでショートカットの設定は完了です。電話に移動して、側面のアクションボタンがショートカットをアクティブにすることを確認する必要があります。設定でアクションボタンを探します。現在は「音声会話を開始」に設定されています。実は最近これの使用を止めました。声でプロンプトを行うのは好きですが、音声アシスタントはもう定期的に使っていません。ディクテーション機能は常に使っているので、これを切り替えるのが待ちきれません。
そして、ショートカットの下に11 Labs転写が設定されているのが分かります。さあ、試してみましょう。アクションボタンを押します。許可を与える必要がありますが、これは最初だけでしょう。「ここで私の新しいショートカットをテストしています。これの品質は理論的にはるかに高いはずです。もしうまくいけば、どこでもこれを使います」
そして、これを貼り付けることができます。見てください、句読点も含めて完璧です。比較のために、内蔵のディクテーション機能を試してみましょう。「ここで私の新しいショートカットをテストしています。この品質は理論的にはるかに高いはずです。うまくいけば、どこでもこれを使います」
そう、些細なことですが、見てください。最初のものの句読点の方が良いです。「うまくいけば、どこでもこれを使います」は明らかに別の文です。カンマの扱いも優れています。つまり、iPhoneユーザーであれば日常生活でこの超正確な転写モデルを使用できる、実用的なAIハックとなります。
それは素晴らしいセグメントでした。次は何があるでしょうか?次に、MidjourneyのMidjourney 7リリースに注目したいと思います。これはほとんど物足りなかったのですが、新しいUIができて、編集や欲しいものを調整するためのより多くのオプションが提供されました。以前のペイントツールを統合し、さらにレイヤーも備えています。
初期テストから見ると、様々な画像を取り込み、好きな方法で組み合わせて、その上で作業を続けることができます。特定のビジョンがある場合、すべての加入者(最初は年間契約者のみだった)に展開されたこの新しいウェブインターフェースは素晴らしい追加になり、ほとんどの人がジェネレーティブAIツールから慣れているものよりも確実に多くの制御を提供します。
しかし、Photoshopは明らかにレイヤーベースで、1年半前からジェネレーティブAI機能を持っていることも言わなければなりません。私とチームは、これらのビデオのサムネイルデザインやビデオグラフィックスで毎週のように使用しています。しかし、Midjourney内で素早く作業を完了したい場合、今ではそれが可能になりました。
次に、Gen Sparkからのリリースがあります。この会社については数週間前に取り上げました。実は間違いを犯しました。中国企業と言いましたが、実際には米国企業です。彼らはスーパーエージェントをリリースしました。これはOperatorやManusのようなもので、無料クレジットと共にリリースされ、今回、スライド(PowerPointプレゼンテーション)の作成に特化した新機能を追加しました。
先に言っておくと、これはGammaというアプリほど機能しないと思います。Gammaはこの種のアプリでみんなが最高だと認めるアプリで、すべてのCo-PilotのPowerPointプレゼンテーションよりもはるかに良く機能しますが、これはチャットボットスタイルのインターフェースでより多くのエージェント性を持つ新しいアプローチです。
簡単に試してみましょう。このアプリケーションのノートからいくつかの箇条書きを与えるだけで、これが何を作り出すか見てみましょう。いくつかのフォローアップ質問に答えた後、エージェント型ツールから期待されるように、考え始め、作業し始めます。これに1分ほど時間をあげて、作業が終わったら戻ってきましょう。
約6分後、4つの異なるスライドができました。これは永遠に続きそうなので、ここで止めておきます。ちなみに、私は無料プランを使っていますが、これですべてのクレジットを消費しました。つまり、試してみたい場合は、無料でこのようなスライドをいくつか作ることができるということです。
見てください、これは面白いですね。「スライド」と言いながらも、これは実際にはPowerPointプレゼンテーションではありません。むしろ、ランディングページのようなインフォグラフィックパッケージです。悪いことではありませんが、すべてのインタラクティブコンテンツを見てください。オーディオプレーヤーが組み込まれていますが機能しません。基本的に、このツールは私が提供したすべての情報を視覚化する複数のランディングページをバイブコーディングしました。
正直なところ、ここでライブデモをしているため回答を急いでしまい、目的を誤解してしまったかもしれませんが、それは重要ではありません。ただ、これをどのように使うのか疑問です。プレゼンテーションを強化するために使用できるでしょうし、インタラクティブ要素のためのJavaScriptを含むHTMLコードなので、すべての要素をカスタマイズできます。とにかく、これがどれほど実用的かわかりませんが、確かに私の注目を集めた新しいエージェント型ワークフローであり、ご紹介したかったのです。
新しいエージェント型ワークフローについて話すと、今週取り上げたいものがもう一つあります。これは今すぐ試すことはできませんが、それでも構いません。Dcriptの新機能をスポットライトしたいと思います。これは基本的にエージェント型ビデオエディタを作成するものです。心配しないでください、ビデオ編集チーム。このツールが熟練した人間の編集者を実際に置き換えるまでにはまだまだ時間がかかりますが、この方向への最初の大きな一歩です。
早期にテストするための申請フォームに記入できます。Dcriptに詳しい方なら、彼らが複雑な編集ソフトウェアを使いたくない人や、タイムラインを扱わずにテキストエディタだけでポッドキャストのようなトーキングヘッドビデオの編集をしたい人向けのツールスイートを構築したことを知っているでしょう。過去数年間にわたり多くのAI機能を追加してきました。この新しいリリースでは、AI機能を取り除き、エージェントにバックグラウンドでそれらの機能を制御させ、あなたはエージェントと話すだけで、編集プロセス全体が進行します。
「ビデオをより簡潔にして」と言うと、すべての基本ツールとプロンプトを使用してそれを実行します。これは本当に興味深いです。このお知らせビデオでは、複数のデモを示しました。主に教育的なコンテンツやポッドキャストなど、編集が複雑ではないコンテンツに適していると思います。
そして、将来のビデオ編集、少なくとも非常にシンプルな編集の一部はすぐに会話のようになるかもしれません。「これを編集してくれる?」と言うだけで、フリーランサーに頼むのと同じように実行してくれます。繰り返しになりますが、これはGen Sparkと同様のアイデアで、他のすべてのエージェント型製品と同じく、AIツールと協力するのではなく、AIツールと協力するエージェントと協力するという考え方です。ビデオ編集とPowerPointスライド作成は、初めてレーダーに引っかかった2つの新しいカテゴリーなので、お見せしたかったのです。
今週はこれだけです。あなたに響いて、自分で活用できるものがあれば嬉しいです。


コメント