Root NationニュースITニュースAI画像ジェネレーターは音楽を作成するように教えられました

AI画像ジェネレーターは音楽を作成するように教えられました

-

人工知能 (AI) によって生成された音楽は、すでに現実のものになっています。 AI ツールはテキストプロンプトだけで音楽を作成できるようになり、その結果はすべての期待を上回りました。

ただし、これは AI ツールが直接音楽を作成できるという意味ではありません。 代わりに、音楽は、音楽のスペクトログラムを作成する AI イメージ ジェネレーターを通過します。 その後、これらのスペクトログラムをオーディオ クリップに変換できます。 これは、AI が生成した音楽が将来、人間が作った音楽に取って代わるということですか?

リフュージョン

画像ベースの AI は、コンピューター アルゴリズムに場所やオブジェクトの画像を認識するように教えます。 その後、アルゴリズムを使用して、類似しているがユニークな画像を再現します。 DALL-E と Stable Diffusion が良い例です。 今のところ、これらのプログラムで必要なものをレンダリングできます。 すべてテキストで!

そこで、スペクトログラムを作成できるAIツールをRiffusionという。 これは最新の AI プロジェクトであり、その本質は、安定した拡散 (Stable Diffusion) に基づくテキストからの画像の生成です。 しかし、彼はどのようにして音楽を生み出すことができるようになったのでしょうか?

リフュージョン

Riffusion の背後には、ロボット工学者の Heik Martiros とソフトウェア開発者の Seth Forsgren がいます。 彼らは、最新の AI プログラムがオーディオ分野で機能するかどうかをテストしたいと考えていました。 こうして、Riffusion の音楽制作の旅が始まりました。 Forsgren はテクノロジーについて次のように語っています。 画像生成に Stable Diffusion の驚くべき結果を見た後、拡散アプローチを使用して音楽を作成するとどうなるかを自問しました。

それを調べるために、 人のチームがスペクトログラム画像でオープンソースの Stable Diffusion をトレーニングしました。 それらはテキストと組み合わされました。 その後、プログラムは特定の手がかりに基づいて音楽のスペクトログラムを作成することができました。

最初は、Stable Diffusion モデル アーキテクチャがオーディオに変換するのに十分な精度でスペクトログラム イメージを作成できるかどうかはわかりませんでしたが、それ以上のことができることが判明しました。 Martiros と Forsgren は、Riffusion の公式 Web サイトで結果を公開しました。 最初は趣味のプロジェクトでした。 ただし、訪問者は独自のテキスト ヒントを追加できるようになりました。 これにより、Riffusion がスペクトログラムを生成するようになります。 後で、訪問者はそれをオーディオ クリップとして使用し、サイトで再生できます。

この段階での結果は、あまり高品質ではない場合があります。 しかし、あなたが思っているほど悪くないことは間違いありません。

Riffusion は、以下を含む曲を再生しようとする場合もあります。 エミネム風のラップ そしてK-POP。 しかし、歌詞を生成する機能はあまり良くありません。 テキストの代わりに、メロディアスな人間の意味不明な言葉が聞こえます。 しかし、最も興味深いのは、このちんぷんかんぷんが曲のトーンと一致していることです。

この技術は、まだ人間が作った音楽を置き換える準備ができていません。 しかし、このプロジェクトは、AI 画像処理アルゴリズムがまだ大きな可能性を秘めていることを示してくれました。 すぐに、音楽作家のアシスタントになることができます。 曲を書くためのインスピレーションを得るためかもしれません。

ウクライナがロシアの侵略者と戦うのを助けることができます。 これを行う最善の方法は、ウクライナ軍に資金を寄付することです。 セーブライフ または公式ページから NBU.

ソースギズキナ
サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示