東京大学のチームは、GPT-3 大規模言語モデル (LLM) を使用して動作を実行できる人型ロボット、Alter4 を発表しました。 Alter3 は最新のツールを使用していますオープンAI 事前にプログラムされたデータベースエントリを必要とせずに、自撮りポーズからゴースティングまで、さまざまなポーズを動的に取ることができます。

「顔の表情やジェスチャーを使った会話コンテンツへの Alter3 の応答は、最小限の変更で他のアンドロイドにも簡単に適応できる、人型ロボット工学における大きな進歩です」と研究者らは述べています。

LLM とロボットの統合の分野では、基本的なコミュニケーションの改善と現実的な応答のモデル化に重点が置かれています。研究者らはまた、ロボットが複雑な命令を理解して実行できるようにすることで、ロボットの機能を向上させるための LLM の機能についても詳しく調べています。

従来は下位レベルの管理ロボットはハードウェアに関連付けられており、LLM 企業の管轄外にあります。これにより、LLM ベースの作品を直接管理することが困難になります。この問題を解決するために、日本のチームは人間の動きの表現を Android が理解できるコードに変換する方法を開発しました。これは、開発者が体の各部分を個別にプログラムする必要がなく、ロボットが時間の経過とともに独立して一連の動作を生成できることを意味します。

インタラクション中に、人は「iPhone でセルフィーを撮って」などの Alter3 コマンドを与えることができます。その後、ロボットは GPT-4 に対して一連のリクエストを開始し、必要な手順に関するガイダンスを取得します。 GPT-4 これを Python コードに変換すると、作業が「理解」して必要な動作を実行できるようになります。この革新により、Alter3 は下半身がスタンドに取り付けられたまま静止したまま上半身を動かすことができます。

Alter3 は、2016 年以来、Alter の人型ロボットシリーズの 43 番目のバージョンであり、圧縮空気を動力源として顔の表情や手足の動きを担当する個のアクチュエータを備えています。この構成により、幅広い表現力豊かなジェスチャが提供されます。ロボットは歩くことはできませんが、典型的な歩行や走行の動作を模倣することができます。

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 は、カメラと OpenPose フレームワークを使用して人間のポーズをコピーする機能も実証しました。ロボットは観察された姿勢に合わせて関節を調整し、成功した模倣を後で使用できるように保存します。人間との相互作用により、より多様な姿勢が生まれ、新生児が模倣を通じて学習するのと同じように、人間を模倣することでさまざまな動きが生まれるという考えが裏付けられました。

LLM が導入される前は、研究者は人のポーズを再現したり、お茶を出したりチェスをしたりするなどの動作をシミュレートするには、43 個のアクチュエータすべてを注意深く制御する必要がありました。これには多くの手動調整が必要でしたが、 AI チームをこの日常から解放するのに役立ちました。「私たちは、Alter3 が文脈に応じた表情やジェスチャーを表示することで、効果的に対話に参加できることを期待しています。これは、たとえば、それに応じて悲しみや幸福を示すなど、感情を反映する能力を実証し、それによって私たちと感情を共有することができました」と研究者らは述べています。

また読む：

ソース興味深いエンジニアリング

サインアップ

0 コメント

埋め込まれたレビュー

すべてのコメントを表示

その他の記事

東京ではGPT-3をベースにした人型ロボットAlter4の成果が披露された

最近のコメント