AI画像ジェネレーターは音楽を作成するように教えられました

人工知能 (AI) によって生成された音楽は、すでに現実のものになっています。 AI ツールはテキストプロンプトだけで音楽を作成できるようになり、その結果はすべての期待を上回りました。

ただし、これは AI ツールが直接音楽を作成できるという意味ではありません。代わりに、音楽は、音楽のスペクトログラムを作成する AI イメージジェネレーターを通過します。その後、これらのスペクトログラムをオーディオクリップに変換できます。これは、AI が生成した音楽が将来、人間が作った音楽に取って代わるということですか?

画像ベースの AI は、コンピューターアルゴリズムに場所やオブジェクトの画像を認識するように教えます。その後、アルゴリズムを使用して、類似しているがユニークな画像を再現します。 DALL-E と Stable Diffusion が良い例です。今のところ、これらのプログラムで必要なものをレンダリングできます。すべてテキストで！

そこで、スペクトログラムを作成できるAIツールをRiffusionという。これは最新の AI プロジェクトであり、その本質は、安定した拡散 (Stable Diffusion) に基づくテキストからの画像の生成です。しかし、彼はどのようにして音楽を生み出すことができるようになったのでしょうか?

Riffusion の背後には、ロボット工学者の Heik Martiros とソフトウェア開発者の Seth Forsgren がいます。彼らは、最新の AI プログラムがオーディオ分野で機能するかどうかをテストしたいと考えていました。こうして、Riffusion の音楽制作の旅が始まりました。 Forsgren はテクノロジーについて次のように語っています。画像生成に Stable Diffusion の驚くべき結果を見た後、拡散アプローチを使用して音楽を作成するとどうなるかを自問しました。

それを調べるために、人のチームがスペクトログラム画像でオープンソースの Stable Diffusion をトレーニングしました。それらはテキストと組み合わされました。その後、プログラムは特定の手がかりに基づいて音楽のスペクトログラムを作成することができました。

最初は、Stable Diffusion モデルアーキテクチャがオーディオに変換するのに十分な精度でスペクトログラムイメージを作成できるかどうかはわかりませんでしたが、それ以上のことができることが判明しました。 Martiros と Forsgren は、Riffusion の公式 Web サイトで結果を公開しました。最初は趣味のプロジェクトでした。ただし、訪問者は独自のテキストヒントを追加できるようになりました。これにより、Riffusion がスペクトログラムを生成するようになります。後で、訪問者はそれをオーディオクリップとして使用し、サイトで再生できます。

この段階での結果は、あまり高品質ではない場合があります。しかし、あなたが思っているほど悪くないことは間違いありません。

Riffusion は、以下を含む曲を再生しようとする場合もあります。エミネム風のラップそしてK-POP。しかし、歌詞を生成する機能はあまり良くありません。テキストの代わりに、メロディアスな人間の意味不明な言葉が聞こえます。しかし、最も興味深いのは、このちんぷんかんぷんが曲のトーンと一致していることです。

この技術は、まだ人間が作った音楽を置き換える準備ができていません。しかし、このプロジェクトは、AI 画像処理アルゴリズムがまだ大きな可能性を秘めていることを示してくれました。すぐに、音楽作家のアシスタントになることができます。曲を書くためのインスピレーションを得るためかもしれません。

ウクライナがロシアの侵略者と戦うのを助けることができます。これを行う最善の方法は、ウクライナ軍に資金を寄付することです。セーブライフまたは公式ページから NBU.

また興味深い：

ソースギズキナ

サインアップ

0 コメント

埋め込まれたレビュー

すべてのコメントを表示

その他の記事

AI画像ジェネレーターは音楽を作成するように教えられました

最近のコメント