Der Informatiker Dr. Andrew Melnik von der Universität Bielefeld und sein Team haben einen KI-Agenten entwickelt, mit dem sie einen internationalen Heimrobotik-Wettbewerb gewonnen haben. KI-Agenten sind technische Systeme, die auf Basis von Künstlicher Intelligenz (KI) selbstständig agieren, um Ziele zu erreichen. Auf der NeurIPS-Konferenz, der weltweit größten Konferenz für maschinelles Lernen, setzte sich die Gruppe „UniTeam“ gegen 79 Teams aus aller Welt durch. Der Preis für diesen Erfolg ist ein Roboter, der Forschung und Lehre in Bielefeld unterstützen soll.
„Wir freuen uns sehr, den Roboter zu erhalten, sodass wir mit ihm zu Aufgaben im Gebiet der Heimrobotik experimentieren können“, sagt Andrew Melnik, der in der Arbeitsgruppe Neuroinformatik von Professor Dr. Helge Ritter am CITEC forscht und lehrt. Melnik nimmt regelmäßig an der NeurIPS in New Orleans (Louisiana, USA) teil, der derzeit wichtigsten und größten Konferenz für maschinelles Lernen und KI mit tausenden von Teilnehmer*innen. „Die NeurIPS hat den höchsten h5-Index im Bereich der KI. Dieser misst den Einfluss und die Bedeutung wissenschaftlicher Veröffentlichungen“, erklärt Melnik. Im vergangenen Jahr belegte ein von ihm geleitetes Team den zweiten Platz bei einem Minecraft-Wettbewerb für autonome KI-Agenten.
© Mike-Dennis Müller
In dem Wettbewerb auf der NeurIPS-Konferenz lag der Fokus auf der Heimrobotik. Der Wettbewerb widmete sich dem Problem der Open Vocabulary Mobile Manipulation (OVMM), sinngemäß: mobile Manipulation mit offenem Wortschatz. Der OVMM-Wettbewerb konzentrierte sich auf Aktivitäten, die zwar für Menschen einfach, für Roboter aber noch schwierig sind. Dazu zählt die Anpassungsfähigkeit an fremde Umgebungen und das Verstehen von Befehlen in natürlicher Sprache zu Objekten, die aufgehoben und woanders platziert werden sollen. Auch das Verstehen, wo sich Dinge befinden und wohin sie selbst sich bewegen sollen ist für Roboter nicht so leicht, genau wie eine zuverlässige und exakte Ausführung der Befehle. Anwendung finden Heimroboter beim Putzen, Kochen, Wäschewaschen oder beim Energiesparen durch die mechanische Steuerung von Heizungsanlagen.
„Eine erstaunliche Leistung“
Im Wettbewerb musste der KI-Agent nicht nur in einer Simulation vorgeführt werden, sondern auch auf einer standardisierten und aktuellen Roboterplattform – in diesem Fall ein Modell des Preis-Roboters, dem „Hello Robot Stretch 2“, das Teilnehmenden zur Verfügung gestellt wurde. Laut Professor Dr. Helge Ritter eine anspruchsvolle Aufgabe: „Die Hürde für eine Teilnahme ist hoch, umso erstaunlicher ist die Leistung, sich in einem internationalen Feld durchzusetzen, das diese Anforderungen erfüllen kann.“ Der OVMM-Wettbewerb verlangt, dass der Heimroboter irgendeinen Gegenstand aufnehmen und an einem beliebigen Ort in einem Haus platzieren kann. Erlaubt sind nur Befehle in natürlicher Sprache. Andrew Melnik: „Diese Aufgabe kann ziemlich kompliziert sein, weil das gewünschte Objekt etwa ein Spielzeugauto sein könnte, das es zu bewegen gilt. Und genau hier kann ein Problem für das Objekterkennungssystem auftreten: handelt es sich um ein Spielzeug? Oder ein Auto? Oder ein Spielzeugauto?“
Große Sprachmodelle als Grundlage der Forschung
Mit Fragestellungen wie diesen passt der NeurIPS-Wettbewerb ideal zur Melniks Arbeit an der Universität Bielefeld, die bis Ende 2023 durch das KI-Starter-Programm der NRW-Landes-regierung gefördert wurde. Sein KI-Starter-Projekt „Learning to plan with Deep Neural Networks“ (Planen lernen mit tiefen neuronalen Netzen) befasste sich damit, einen KI-Agenten zu entwickeln, der in der Lage ist, physikalische Denkaufgaben zu lösen. Dazu zählt das Treffen von Vorhersagen oder Entscheidungen, für die der Roboter ein physikalisches Verständnis von Situationen braucht.
Für seine Forschung verwendet Andrew Melnik Large Language Models (große Sprachmodelle, LLM) wie das bekannte ChatGPT. „LLMs sind gut dazu geeignet, das Verhalten von KI-Agenten zu planen, aber auch für die Objekterkennung“, sagt er. LLM haben zunächst aus großen Mengen von Textdaten gelernt, einschließlich menschlicher Texte und Computercodes. Jetzt entwickeln Forschende diese Modelle weiter, indem sie sie mit nicht-textlichen Eingaben wie Ton und Bildern integrieren und so multimodale Kommunikation ermöglichen.
Melniks Team geht noch einen Schritt weiter und entwickelt Architekturen, die nicht nur Sprach- und Bildsequenzen, sondern auch die Bewegungen von Robotern verarbeiten können. Das erweitert die Fähigkeiten von LLMs für Roboter und ermöglicht es ihnen, von dem in den Sprachmodellen gespeicherten Wissen zu profitieren. „Damit wird das Potenzial von LLMs für Roboter voll ausgeschöpft“, so Ritter. „Es ermöglicht Robotern Zugang zu der riesigen Menge an Alltagswissen, die in LLMs gespeichert ist. Dessen Fehlen hat es Robotern bisher erschwert, scheinbar alltägliche Handlungen in fremden Umgebungen wie Haushalten auszuführen.“ Industrieanwendungen und Mensch-KI-Interaktionssysteme in Robotik, intelligenten Häusern und Sicherheitssystemen sollen von dieser Forschung profitieren.
Neue Möglichkeiten mit einem Hello Robot Stretch
Für den NeurIPS-Wettbewerb arbeiteten Melnik und Studenten der Universität Bielefeld unterstützt vom Deutschen Akademischen Austauschdienst (DAAD) mit Kollegen des Indian Institute of Information Technology Allahabad (IIIT-A) als „UniTeam“ zusammen. Melnik: „Die Studenten haben sehr agil und ergebnisorientiert gearbeitet. So ein Austausch hilft, in diesem Bereich schneller voranzukommen – durch mehr Experimente und mehr Ergebnisse.“
© Universität Bielefeld
Der Gewinn in Form des Heimroboters ist nun in Bielefeld angekommen. Das Modell Hello Robot Stretch 2 wiegt 23 Kilo und ist damit ein Leichtgewicht. Mit einem Roboterarm kann er Gegenstände bearbeiten und greifen. „Das Modell ist in der Community sehr beliebt“, sagt Melnik. „Es eröffnet uns und unserer Forschung neue Wege, und auch Studierende profitieren von der Arbeit mit einem echten Roboter.“