図AIとOpenAIが新たな人型ロボットを披露

人型ロボットの開発は、ここ 2024 年間の大部分にわたってゆっくりとしたペースで進んできましたが、最近、この分野でますます多くの進歩が見られています。最近書いたように、AI ロボットが MWC で発表されましたアメリカ、そして別の展開、ユニツリー H1、人型ロボットの速度記録を破りました。そして今、Figure AI 企業と OpenAI 企業のコラボレーションの素晴らしい結果がインターネット上に登場しました。人々と会話できるようになった人型ロボットの驚くべきビデオです。

Startup Figure AI は、新しい Visual Language Model (VLM) を使用して動作する Figure 01 ロボットを示すビデオを公開しました。その中で、Figure 01 は皿、リンゴ、カップが置かれたテーブルに立っています。左側に乾燥機があります。そして、ロボットが彼の目の前で何を見たのかという人の質問に対して、彼はテーブルの上にあるすべてのものを詳細に説明することで答えます。

そして男性が「何か食べてもいいですか？」と尋ねると、ロボットは「もちろんです」と答え、器用で滑らかな動きでリンゴを取り、男性に手渡します。その後、別の驚くべきデモンストレーションが行われます。男性は図 01 の前のかごからくしゃくしゃになったゴミを注ぎ、ロボットになぜそのようなことをしたのか説明するよう求め、同時にゴミをかごに集めます。そして紙をゴミ箱に戻しながら自分の「考え」を説明する。「それで、リンゴをあげたのは、テーブルの上であなたにあげられる唯一の食べられるものだからです」とロボットは言いました。

企業の代表者は、図 01 では事前トレーニングされたマルチモーダルモデルが使用されていると説明しました。 OpenAI、VLM は画像とテキストを理解し、音声プロンプトに依存して応答を生成します。これは、たとえば、書面によるプロンプトに焦点を当てた OpenAI の GPT-4 とは異なります。

また、同社が「学習された低レベルの両手操作」と呼ぶものも使用します。このシステムは、モーション制御のためのニューラルネットワークを使用して、正確な画像キャリブレーション (ピクセルレベルまで) を調整します。「これらのネットワークは10 Hzで画像を受信し、24 Hzで200自由度のアクション（手首のポーズと指の関節の角度）を生成します」とFigure AIは声明で述べた。

同社は、ビデオ内のすべての動作はシステム学習に基づいており、舞台裏で図 01 の糸を引いている者はいないと主張しています。もちろん、ニュアンスがあります。ロボットがこの手順を何回行ったかは不明です。おそらく回目ということもあり、彼の動きは正確だったのだろう。しかし、いずれにせよ、この成果は壮観であり、少し素晴らしいものに見えます。

図 01 は現在、現実世界のタスクを完了しています

すべてが自律的です:

-自律ナビゲーションと力ベースの操作
- ビンの検出と優先順位付けのための学習済みビジョンモデル
- リアクティブなビン操作 (ポーズの変動に対して堅牢)
- 他のピック/プレースタスクに一般化可能写真twitter.com/0wFmYnq0GC

— フィギュア (@Figure_robot) 2024 年 2 月 26 日

また読む：

ソーステクラダー

サインアップ

0 コメント

埋め込まれたレビュー

すべてのコメントを表示

その他の記事

Figure AIが人型AIロボットの新スキルを披露

最近のコメント