OpenAIが新モデルを発表 AI Sora は、テキスト プロンプトに基づいて最大 1 分間の高解像度ビデオを生成できます。日本語で「空」を意味するソラは、すぐには一般公開されないが、同社は科学者や研究者の少数のグループに引き渡し、損傷や悪用の可能性を評価する予定だ。
「Sora は、複数のキャラクター、特定の種類の動き、正確なオブジェクトと背景の詳細を含む複雑なシーンを生成することができます」と同社の Web サイトには記載されています。 「モデルはユーザーがプロンプトで尋ねたことだけでなく、それらのものが物理世界にどのように存在するのかも理解します。」
Sora が作成したビデオの 1 つは、桜と雪の結晶が舞い散る雪の東京を歩くカップルを映しており、もう 1 つは、雪を頂いた山並みを背景に、雪に覆われた草原を歩く本物そっくりのケナガマンモスの姿を映しています。
テキストからビデオへのモデルである Sora を紹介します。
Sora は、非常に詳細なシーン、複雑なカメラの動き、生き生きとした感情を持った複数のキャラクターをフィーチャーした最大 60 秒のビデオを作成できます。 https://t.co/7j2JN27M3W
プロンプト:「美しい、雪だ... 写真twitter.com/ruTEWn87vf
- OpenAI(@OpenAI) 2024 年 2 月 15 日
OpenAI このモデルは「深い言語理解」によって機能し、テキストの手がかりを解釈できると述べています。ただし、ほとんどすべての AI 画像およびビデオ生成ツールと同様に、Sora も完璧ではありません。 OpenAIはまた、このモデルでは原因と結果を明らかにするのが難しい場合があるとも警告している。たとえば、クッキーを食べている人のビデオを生成することはできるが、噛み跡は表示されない可能性がある。
Sora は最初のテキストからビデオへの変換モデルではありません。メタを含む他の企業は、 でログイン と Runway は、テキストをビデオに変換するツールについて示唆するか、一般に公開しています。ただし、現時点では 60 秒のビデオを生成できるツールは他にありません。また、Sora は、他のモデルのようにフレームごとにビデオを収集するのではなく、ビデオ全体を一度に生成するため、ビデオ内のオブジェクトは一時的に視界から消えてもそのまま残ります。
プロンプト: 「数頭の巨大なケナガマンモスが雪に覆われた草原を踏みしめながら近づいてきます。その長いケナガマンモスの毛皮が風に軽くなびきながら歩きます。遠くには雪に覆われた木々やドラマチックな雪を頂いた山々が見えます。うっすらとした雲と太陽が高く昇る午後半ばの光があります。」距離… 写真twitter.com/Um5CWI18nS
- OpenAI(@OpenAI) 2024 年 2 月 15 日
テキストをビデオに変換するツールの出現により、本物のように見えるフェイクビデオを簡単に作成できる可能性についての懸念が生じています。そして、より広範な生成 AI はアーティストやクリエイティブ ワーカーからの反発を引き起こし、テクノロジーが彼らに取って代わる可能性があると懸念しています。
OpenAI 誤った情報、ヘイトコンテンツ、偏見などの分野の専門家と協力して、一般に公開する前にツールをテストしていると述べた。同社は、Sora が作成したビデオを検出し、作成されたビデオにメタデータを含めて発見しやすくするツールも開発中です。同社はソラがどのように訓練されたかについては明らかにしなかったが、「パブリックドメインのビデオ」と権利者からライセンスを受けたビデオの両方を使用したと述べた。
また読む: