Root NationニュースITニュースMeta の ImageBind AI は人間の知覚を模倣できる

Meta の ImageBind AI は人間の知覚を模倣できる

-

Meta は、オープンアクセス人工知能のコードを次の名前で公開します。 イメージバインド、人々が環境をどのように認識または想像するかに似たデータ間の関係を予測します。 Midjourney、Stable Diffusion、DALL-E 2 などの画像ジェネレーターは単語を画像にバインドして、テキストによる説明のみに基づいて視覚的なシーンを作成できるようにしますが、ImageBind はそれを超えています。 テキスト、画像またはビデオ、オーディオ、3D 測定、温度データ、動作データをリンクでき、あらゆる機会で事前トレーニングを必要とせずにリンクできます。 これはフレームワークの初期段階であり、最終的にはテキスト プロンプト、画像、音声 (またはそれらの組み合わせ) などの単純な入力から複雑な環境を生成できるようになります。

メタバース プロジェクト

ImageBind は、機械学習を人間の学習に近似したものと考えることができます。 たとえば、繁華街の通りなどの動的な環境に立っていると、脳は (ほとんど無意識に) 視覚、音、その他の感覚を吸収して、通過する車、高層ビル、天気などに関する情報を取得します。 。 人間や他の動物は、生存と DNA の継承という遺伝的利点を得るために、このデータを処理するように進化してきました。 (周囲のことを知れば知るほど、危険を回避し、環境に適応して生き残り、繁栄することができます)。 コンピューターが動物の多感覚接続の模倣に近づくにつれて、それらの接続を使用して、限られたデータのみに基づいて完全に実現されたシーンを生成できるようになります。

したがって、Midjourney を使用して「ガンダルフの衣装を着てビーチボールでバランスをとるバセットハウンド」を作成し、その奇妙なシーンの比較的現実的な写真を取得するかもしれませんが、ImageBind のようなマルチモーダル AI ツールは、関連性のある犬のビデオを作成することになる可能性があります。音には、詳細なリビングルーム、室温、犬やその場にいる全員の正確な位置が含まれます。 「これにより、静止画像を音声プロンプトと組み合わせてアニメーションを作成する素晴らしい機会が生まれます」とメタの研究者らは開発者向けブログで述べている。 「たとえば、クリエイターは画像と目覚まし時計と鳴く鶏を組み合わせ、音声キューを使用して鶏をセグメント化したり、目覚まし時計の音を使用して時計をセグメント化し、両方をビデオ シーケンスでアニメーション化することができます。」

 

Meta

この新しいおもちゃで他に何ができるかというと、それは明らかに Meta の中核的な野望の 3 つである VR、複合現実、メタスペースを示しています。 たとえば、完全に実現された D シーン (サウンド、モーションなど) をその場で構築できる将来のヘッドセットを想像してください。 あるいは、仮想ゲーム開発者は、最終的にはこれを使用して、設計プロセスにおける骨の折れる作業の重要な部分を節約できる可能性があります。 同様に、コンテンツ作成者は、テキスト、画像、または音声のみに基づいて、リアルなサウンドトラックとモーションを備えた没入型ビデオを作成できます。 また、ImageBind のようなツールがリアルタイムのマルチメディア説明を生成して、視覚障害や聴覚障害を持つ人々が自分たちの環境をよりよく理解できるようにすることで、アクセシビリティの新たな扉を開くことも容易に想像できます。

また興味深い: 人工知能に基づく最高のツール

「典型的な AI システムでは、関連するモダリティごとに特定の埋め込み (つまり、機械学習におけるデータとその関係を表すことができる数値のベクトル) が存在します」とメタ氏は言います。 「ImageBind は、モダリティの個々の組み合わせでデータをトレーニングすることなく、複数のモダリティに共通の埋め込み空間を作成できることを示しています。 これは重要です。なぜなら、研究者は、交通量の多い都市の通りからの音声データと熱データ、または海辺の崖の深度データとテキストによる説明などを含むサンプルを含むデータセットを作成できないからです。」

メタは、このテクノロジーは最終的には、いわば現在の つの「感覚」を超えるものになると信じています。 「現在の研究では つのモダリティを調査しましたが、触覚、音声、嗅覚、fMRI 脳信号など、できるだけ多くの感覚を接続する新しいモダリティを導入することで、より豊かな人間中心の AI モデルが可能になると考えています。」 この新しいサンドボックスの探索に興味のある開発者は、まず Meta のオープン ソース コードに飛び込むことから始めることができます。

また読む:

ソースEngadgetの
サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示