人間と会話ができるロボットのチーム


動くロボット同士、人間のオペレーターとも効率的にコミュニケーションが取れるAIベースの新しいロボット工学アプローチをSRIの科学者たちが開発


ここ数年、ロボット工学の研究者たちは、生成AIアプリケーションの根幹をなしている大規模言語モデル(LLMs: Large Language Models)がロボットにも大きな影響を与えられるのではないかと認識するようになっています。

SRIのVision and Robotics LaboratoryのテクニカルディレクターであるHan-Pang Chiuは次のように述べています。「LLMが登場する前から、ロボットは動いたり、タスクを実行することはできましたが、何を見たのか、どう物事を処理したのかを説明することはできませんでした。私たちは、コマンドベースのロボット工学から会話をベースとしたコラボレーションへと移行しつつあります。これはロボット工学の根本を覆すような転換であり、機械との協働のあり方を変えるものです」

「ロボットにLLMを活用すれば、ロボットが見ているものや実施していること、そして最も重要な点として、なぜそれを実施しているのかを説明できるようになります」― Han-Pang Chiu

Chiuが現在手掛けているSUWAC(Shared Understanding for Wide-Area human-robot Collaboration、意訳:人間とロボットの広域協働のための共通理解)プロジェクトでは、LLMsがもつ創発的能力を最大限に活用して、人間とロボットとの協働(コラボレーション)を促進することを目的としています。その根底にあるものは、多種多様な能力を備えたロボットのチームにLLMベースのフレームワークを装備して、研究者とロボットが自然な話し言葉で、あるいは言葉を打ち込むことでコミュニケーションを取り、より効率的かつ効果的に対象物を配置できるようにすることです。

ロボットとのコミュニケーションが重要な理由

Chiuによると、SUWACのようなプロジェクトの持つ意味は広範囲に及びます。自然災害の現場で探索に当たる捜索救援ロボットのチームや、ロボットのオーナーが「お皿を洗って」と口頭で指令を出せる家事ロボットなどが考えられますが、工場でロボットたちが作業中におしゃべりするようなこともあるかもしれない、とのことです。

「ロボットにLLMsを活用すれば、ロボットが見ているものや実施していること、そして最も重要な点として、なぜそれを実施しているのかを説明できるようになります。その結果、研究者はロボットのことを理解し、コミュニケーションを取ることができるのです。これによって信頼関係が築かれ、協働も促進されます」とChiuは述べています。

Chiuのデモの1つでは、イヌのような四つ脚のロボットと車輪のついたロボットが、高校の小さな講堂のような部屋の中にいます。このロボドッグ(四つ脚ロボット)とロボローバー(車輪のロボット)は、演壇からメインフロアに階段を4段ほど降りたところで待機しています。

それから、研究者は「リュックサックとノートパソコンをどこに置いたか忘れてしまったので、2人で見つけてもらえませんか」と、シンプルな話し言葉の英語でプロンプトを与えます。すると、この2台のロボットは室内の情報を交換して、この作業を分担し始めます。四つ脚のロボットは、車輪のロボットが階段の昇り降りが難しいことを理解し、自分は壇の上を探す申し出をします。車輪のロボットは室内の他の部分を探すと言います。そして、すぐにリュックサックとノートパソコンの両方が見つかりました。

不慣れな環境という課題

このようなロボットのチームが不慣れな環境でも良好にナビゲートできるよう、SUWACはロボット間のコミュニケーションに新しいアプローチを採用しています。最初の難関はいつもデータに関することで、ロボット同士が互いにどのようなデータを交換する必要があるのか、必要なデータ交換量を最小限にしつつ効率的に作業を行うにはどうすれば良いのか、ということです。捜索救助や地雷処理など、ロボットのチームが最も役立つ可能性のある分野の多くでは、現場でのネットワークの制約が避けられません。

Chiuによると、最も重要なブレークスルーは「3D scene graph(3Dシーングラフ)」です。これは、視覚ベースのロボット工学でよく使われている、データ量の多い「点群(point clouds)」よりも効率的に情報を取り込み、分類する方法です。シーングラフは、ロボットが視覚データを分類してラベル付けする手法で、他のロボットとの情報交換や人間のオペレーターへの説明を容易にする方法を採用しており、Chiuはこれを「ミッシングリンク(missing link:)」と呼んでいます。LLMsにとって、シーングラフの解釈は容易であることから、ロボットは近くに何があって、どのような行動が適切かを理解することができます。Chiuはまた、LLMsとシーングラフをこのように組み合わせることは、人間と機械の間の「共通理解」を形成するのにも役立つと述べています。

「詳細まで人間に説明してもらうのではなく、ロボットにその世界を把握させて、解釈をさせ、言葉で説明してもらいます。これは時間を節約するとともに、はるかに自然な協働を可能にします。今までのものとは違うのです」とChiuは述べています。

シーングラフが効率的なこと、そして理解しやすいことにより、SUWACを搭載したChiuのロボットは、目に見えている物から判断をしてキッチンと寝室を区別することができますし、高度な推論を活用して「探している物が最もありそうな場所」を見つけることができます。例えば、スプーンは寝室ではなくキッチンで見つけやすいと、このロボットは判断することができます。

Chiuはまた別のデモで、ソファーや椅子でいっぱいになっている広い部屋を移動して、その中に隠れている人間を探すロボットについても紹介しています。このロボットは直感的に、小柄な人間でも小さい椅子の後ろには隠れることはできないと判断し、人が隠れるのに十分な大きさの家具の後ろをすぐに探し始めます。

このロボットは状況を認識し、周囲の環境から推測することができます。つまり、人間が新しい環境を素早く解釈するときに活用しているの時と同じような、常識的な推論を行っているのです。これは、つい最近まで機械には出来なかったタイプの推論です。

「“常識”こそが、人間と大半のAIとを隔てるものなのです。私たちは、この能力をロボット設計に導入することを目指しています」とChiuは述べています。

ロボット工学の基礎を覆すような進歩

SUWACは、ロボットを使った広域探索にLLMを初めて採用した事例だとChiuは説明しています。SUWACではまた、SRIのCenter for Vision Technologies(ビジョンテクノロジーセンター)が開発した最先端の知覚システム(LIDARや立体映像、物体認識などの技術など)も活用しています。

SUWACプロジェクトに関連する論文によると、現時点でSRIは不慣れな環境下で物を探すことを95%の成功率で達成しており、SUWACはこれまでの広域探索モデルと比べ、データ効率もエネルギー効率もはるかに高いのです。

Chiuは、自身や他の研究者がこの研究を進めるにつれ、広域探索におけるLLMsの活用が急速に加速すると予想しています。Chiuは、歩けるロボットや車輪のついたロボット、トラックの形をしたロボット、空中や波の下を移動できるロボットなど、さまざまな能力を持つロボットのチームを人が日常言語を用い、遠隔操作で指示する姿を思い描いています。SRIは最近、SUWACのテクノロジーをロボット工学のスタートアップ企業であるAvsr AIにライセンス供与しており、この新しいSUWACの能力を商業化することを目指しています。

Chiuは次のように力説します。「静止した機械に話しかけるのと、動くロボットに話しかけるのとは違います。私たちは、コンピューターシステム上のチャットや音声プロンプトに返答することにはすでに長けている生成AIが、ロボット工学や3Dナビゲーションに大きく寄与してくれるのではないか、それを実証しようとしています」

SUWACやSRIのCenter for Vision Technologiesの詳細については、こちらまでお問い合わせください。


Read more from SRI