Untrained Yet Effective Robot Control: Using Large Language Models for Task Decomposition and Policy Generation
Abstract
Denne oppgaven utforsker utnyttelsen av store språkmodeller (LLMs) for å løse generelle robotoppgaver gitt på naturlig språk med oppgavedekomponering og kodegenerering for robotkontroll. Hovedmålet er å utvikle en ny tilnærming inspirert av Code as Policies (CaP) og Inner Monologue-artiklene fra Robotics at Google. Den foreslåtte modellen benytter LLMs til å dekomponere instruksjoner til handlingsplaner, generere kode for robotkontroll og suksessdetektorer for et system som kan planlegge robotoppavene på nytt, helt uten behov for trening av modeller.
Eksperimenter ble gjennomført i et simulert miljø med forskjellige manipulasjonsoppgaver for å evaluere ytelsen til den foreslåtte modellen mot CaP-baseline, både med og uten støy. Resultatene viser at den foreslåtte modellen overgår baseline i de fleste tilfeller, spesielt med støy tilstede. Dette understreker viktigheten av omplanleggingsferdigheter for generelle robotoppgaver.
Modellen utmerker seg i kortsiktige og presisjonsoppgaver, men møter utfordringer med noen langsiktige og usette oppgaver, noe som indikerer begrensninger i dens generaliseringsevne. Mangelen på variasjon og størrelse i instruksjonene brukt under testing kan imidlertid ha påvirket resultatene. Dekomponering reduserer feil i kodegeneratoren, men introduserer flere feilkilder. En potensiell forbedring er identifisert, der handlingsplanleggeren genererer kontekstavhengig kode for å innhente nødvendig informasjon før oppgavedekomponering.
Studien avdekker også at effektiviteten til den foreslåtte modellen reduseres på grunn av økte forespørsler til LLMs, men potensielle løsninger er foreslått. Fremtidig arbeid bør fokusere på å teste modellen i fysiske miljøer, implementere de foreslåtte forbedringene, og utforske finjusteringsstrategier for LLMs for å redusere kostnader og forbedre ytelsen.
Denne oppgaven bidrar med ny kunnskap til det voksende fagfeltet angående LLM-basert robotikk og baner vei for utviklingen av mer kapable, tilpasningsdyktige og generelle robotsystemer med instruksjoner gitt i naturlig språk. This thesis explores leveraging large language models (LLMs) to solve general robot tasks given in natural language with task decomposition and policy generation. The primary goal is to develop a novel approach inspired by the Code as Policies (CaP) and Inner Monologue papers by Robotics at Google. The proposed model utilizes LLMs as action planners, robot policy generators, and success detectors for a system with replanning capabilities without any training.
Experiments were conducted in a simulated tabletop environment with various manipulation tasks to evaluate the proposed model's performance against the CaP baseline, both with and without Gaussian noise added to the object poses. The results demonstrate that the proposed model outperforms the baseline in overall success rate, particularly in noisy environments, highlighting the importance of replanning capabilities for general robot tasks.
The model excels in short-horizon and precision tasks but faces challenges with some long-horizon and unseen tasks, indicating limitations in its generalization ability. However, the lack of variance and size in the instructions used during testing may have skewed the results. Decomposition reduces errors in the policy generator but introduces more points of failure. A potential improvement is identified, where the action planner generates context-specific code to gain necessary information before task decomposition.
The study also reveals that the proposed model's efficiency is reduced due to increased LLM queries, but potential solutions are suggested. Future work should focus on testing the model in physical environments, implementing the proposed improvements, and exploring fine-tuning strategies for LLMs to reduce cost and enhance performance.
This thesis contributes to the growing field of LLM-based robotics and paves the way for developing more capable, adaptable, and general robotic systems using natural language instructions.