¿Está la robótica a punto de vivir su momento ChatGPT?
Inteligencia Artificial
Los investigadores están utilizando la IA generativa y otras técnicas para enseñar a los robots nuevas habilidades, incluidas tareas que podrían realizar en los hogares.
Por. Melisa Heikkila. MIT Technology Review. 19-04-2024:
Fuente:https://www.technologyreview.es/s/16319/esta-la-robotica-punto-de-vivir-su-momento-chatgpt
Silenciosos. Rígidos. Torpes.
Henry y Jane Evans están acostumbrados a los huéspedes incómodos. Durante más de una década, la pareja, que vive en Los Altos Hills (California), ha acogido en su casa a un montón de robots.
En 2002, a los 40 años, Henry sufrió un derrame cerebral masivo que le dejó tetrapléjico e incapacitado para hablar. Desde entonces, ha aprendido a comunicarse moviendo los ojos sobre un tablero de letras, pero depende en gran medida de sus cuidadores y de su mujer, Jane.
Henry vislumbró otro tipo de vida cuando vio a Charlie Kemp en la CNN en 2010. Kemp, profesor de robótica en Georgia Tech, estaba en televisión hablando de PR2, un robot desarrollado por la empresa Willow Garage. PR2 era una enorme máquina de dos brazos sobre ruedas que parecía un tosco mayordomo de metal. Kemp hizo una demostración del funcionamiento del robot y habló de sus investigaciones sobre cómo los robots sanitarios podrían ayudar a la gente. Mostró cómo el robot PR2 podía entregar medicamentos al presentador de televisión.
"De repente, Henry se vuelve hacia mí y me dice: '¿Y si usara ese robot como una extensión de mi cuerpo? Y yo le dije: '¿Por qué no?", dice Jane.
Había una razón de peso para no hacerlo. Aunque los ingenieros han hecho grandes progresos para que los robots funcionen en entornos estrictamente controlados, como laboratorios y fábricas, ha resultado difícil diseñarlos para el hogar. En el desordenado mundo real, los muebles y los planos del suelo son muy diferentes, los niños y las mascotas pueden interponerse en el camino del robot y la ropa que hay que doblar tiene formas, colores y tamaños distintos. Gestionar entornos tan impredecibles y condiciones tan variadas ha superado incluso las capacidades de los prototipos de robots más avanzados.
Esto parece estar cambiando por fin, en gran parte gracias a la inteligencia artificial. Durante décadas, los expertos en robótica se han centrado más o menos en controlar los "cuerpos" de los robots -sus brazos, piernas, palancas, ruedas y similares- mediante software orientado a fines concretos. Pero una nueva generación de científicos e inventores cree que el ingrediente hasta ahora ausente de la IA puede dar a los robots la capacidad de aprender nuevas habilidades y adaptarse a nuevos entornos más rápido que nunca. Quizá este nuevo enfoque pueda sacar a los robots de las fábricas y llevarlos a nuestros hogares.
Pero los avances no se producirán de la noche a la mañana, como bien saben los Evans por los muchos años que llevan utilizando varios prototipos de robots.
El PR2 fue el primer robot que trajeron, y abrió nuevas posibilidades para Henry. Sujetaba una afeitadora de barba y Henry movía la cara contra ella, lo que le permitía afeitarse y rascarse un picor por sí mismo por primera vez en una década. Pero el robot, que pesaba 200 kilos y costaba 400.000 dólares, era difícil de transportar. "Podía llevarse por delante una pared de la casa", dice Jane. "No me gustaba mucho".
Más recientemente, los Evans han estado probando un robot más pequeño llamado Stretch, que Kemp desarrolló a través de su startup Hello Robot. La primera versión se lanzó durante la pandemia con un precio mucho más razonable de unos 18.000 dólares.
Stretch pesa unos 15 kilos. Tiene una pequeña base móvil, un palo del que cuelga una cámara y un brazo ajustable con una pinza con ventosas en los extremos. Se controla con un mando de consola. Henry controla a Stretch desde un ordenador portátil, con una herramienta que sigue los movimientos de su cabeza para mover un cursor. Es capaz de mover el pulgar y el índice lo suficiente como para hacer clic en un ratón de ordenador. El verano pasado, Stretch estuvo con la pareja durante más de un mes, y Henry dice que le dio un nuevo nivel de autonomía. "Era práctico y me veía usándolo todos los días", dice.
Henry Evans usó el robot Stretch para cepillarse el pelo, comer e incluso jugar con su nieta. Peter Adams
Con su ordenador portátil, podía hacer que el robot le cepillara el pelo y que le guardara brochetas de fruta para picar. También abrió la relación de Henry con su nieta Teddie. Antes, apenas interactuaban. "Ella no se despedía de él con ningún abrazo. Nada de eso", dice Jane. Pero "Papa Wheelie" y Teddie utilizaban a Stretch para jugar, participando en carreras de relevos, jugando a los bolos y practicando la pesca magnética.
Stretch no es muy inteligente: viene con algunos programas preinstalados, como la interfaz web que Henry utiliza para controlarlo, y otras funciones, como la navegación asistida por inteligencia artificial. La principal ventaja de Stretch es que los usuarios pueden conectar sus propios modelos de inteligencia artificial y utilizarlos para hacer experimentos. Pero ofrece un atisbo de lo que podría ser un mundo con robots domésticos útiles. Los robots que pueden hacer muchas de las cosas que hacen los humanos en el hogar -tareas como doblar la ropa, cocinar y limpiar- han sido un sueño de la investigación robótica desde los inicios de este campo en la década de 1950. Durante mucho tiempo, ha sido sólo eso: "La robótica está llena de soñadores", dice Kemp.
Pero el campo se encuentra en un punto de inflexión, afirma Ken Goldberg, profesor de robótica de la Universidad de California en Berkeley. Los anteriores intentos de construir un robot doméstico útil, afirma, han fracasado rotundamente a la hora de cumplir las expectativas de la cultura popular, como la criada robótica de Los Supersónicos. Ahora las cosas son muy distintas. Gracias a hardware barato como Stretch, a los esfuerzos por recopilar y compartir datos y a los avances en inteligencia artificial generativa, los robots son más competentes y útiles que nunca. "Nos encontramos en un punto en el que estamos muy cerca de conseguir una capacidad que va a ser realmente útil", afirma Goldberg.
Doblar la colada, cocinar gambas, limpiar superficies, descargar cestas de la compra... los robots actuales dotados de inteligencia artificial están aprendiendo a hacer tareas que a sus predecesores les habrían resultado extremadamente difíciles.
Piezas que faltan
Hay una observación muy conocida entre los expertos en robótica: Lo que es difícil para los humanos es fácil para las máquinas, y lo que es fácil para los humanos es difícil para las máquinas. Esta paradoja, conocida como la paradoja de Moravec, fue formulada por primera vez en los años 80 por Hans Moravec, el renombrado robotista del Instituto de Robótica de la Universidad Carnegie Mellon. Un robot puede jugar al ajedrez o mantener quieto un objeto durante horas sin ningún problema. Atarse los cordones de un zapato, atrapar una pelota o mantener una conversación es harina de otro costal.
Hay tres razones para ello, dice Goldberg. En primer lugar, los robots carecen de control y coordinación precisos. En segundo lugar, su comprensión del mundo que les rodea es limitada porque dependen de cámaras y sensores para percibirlo. En tercer lugar, carecen de un sentido innato de la física práctica.
"Coge un martillo y probablemente se te caerá de la pinza, a menos que lo agarres cerca de la parte pesada. Pero eso no lo sabes si te limitas a mirarlo, a menos que sepas cómo funcionan los martillos", dice Goldberg.
Además de estas consideraciones básicas, hay muchos otros aspectos técnicos que deben ser perfectos, desde motores a cámaras o conexiones Wi-Fi, y el hardware puede ser prohibitivamente caro.
Mecánicamente, hace tiempo que somos capaces de hacer cosas bastante complejas. En un vídeo de 1957, dos grandes brazos robóticos tienen la destreza suficiente para pellizcar un cigarrillo, colocarlo en la boca de una mujer frente a una máquina de escribir y volver a pintarle los labios. Pero la inteligencia y la conciencia espacial de ese robot procedían de la persona que lo manejaba.
En un vídeo de 1957, un hombre maneja dos grandes brazos robóticos y utiliza la máquina para aplicar el lápiz labial de una mujer. Los robots han recorrido un largo camino desde entonces.
"La pieza que falta es: ¿Cómo conseguimos que el software haga [estas cosas] automáticamente?", afirma Deepak Pathak, profesor adjunto de informática en Carnegie Mellon.
Los investigadores que entrenan robots han abordado tradicionalmente este problema planificando todo lo que hace el robot con un detalle insoportable. El gigante de la robótica Boston Dynamics utilizó este método cuando desarrolló su robot humanoide Atlas. Se utilizan cámaras y visión por ordenador para identificar objetos y escenas. A partir de esos datos, los investigadores elaboran modelos que permiten predecir con gran precisión lo que ocurrirá si un robot se mueve de una determinada manera. Con estos modelos, los especialistas en robótica planifican los movimientos de sus máquinas escribiendo una lista muy concreta de acciones que deben realizar. Después, los ingenieros prueban muchas veces esos movimientos en el laboratorio y los ajustan hasta perfeccionarlos.
Este método tiene sus límites. Los robots entrenados así están estrictamente coreografiados para trabajar en un entorno específico. Si se les saca del laboratorio y se les lleva a un lugar desconocido, es probable que fallen.
En comparación con otros campos, como la visión por ordenador, la robótica ha estado en una edad oscura, afirma Pathak. Pero puede que no sea así por mucho más tiempo, porque este campo está experimentando una gran transformación. Gracias al auge de la inteligencia artificial, la atención se está desplazando de las proezas de destreza física a la construcción de "cerebros robóticos de uso general" en forma de redes neuronales. Al igual que el cerebro humano es adaptable y puede controlar distintos aspectos del cuerpo humano, estas redes pueden adaptarse para funcionar en distintos robots y escenarios. Los primeros trabajos en este campo muestran resultados prometedores.
Robots + inteligencia artificial
Durante mucho tiempo, la investigación robótica fue un campo implacable, con apenas avances. En el Instituto de Robótica de Carnegie Mellon, donde trabaja Pathak, "solía decirse que si tocabas un robot, añadías un año a tu doctorado". Ahora, dice, los estudiantes se exponen a muchos robots y ven resultados en cuestión de semanas.
Lo que diferencia a esta nueva hornada de robots es su software. En lugar de la meticulosa planificación y entrenamiento tradicionales, los expertos en robótica han empezado a utilizar el deep learning (aprendizaje en profundidad) y las redes neuronales para crear sistemas que aprenden de su entorno sobre la marcha y ajustan su comportamiento en consecuencia. Al mismo tiempo, un hardware nuevo y más barato, como componentes comerciales y robots como Stretch, están haciendo más accesible este tipo de experimentación.
En términos generales, existen dos maneras principales de usar la IA para entrenar robots. Pathak ha utilizado el aprendizaje por refuerzo, una técnica de IA que permite a los sistemas mejorar mediante ensayo y error, para conseguir que los robots adapten sus movimientos en entornos nuevos. Es una técnica que Boston Dynamics también ha empezado a utilizar en sus "perros" robot llamados Spot.
En 2022, el equipo de Pathak utilizó este método para crear "perros" robot de cuatro patas capaces de subir escalones y desplazarse por terrenos complicados. Primero se entrenó a los robots para que se movieran de forma general en un simulador. Luego se les soltó en el mundo real, con una sola cámara integrada y un programa de visión por ordenador para guiarlos. Otros robots similares se basan en mapas internos del mundo estrictamente delimitados y no pueden navegar más allá de ellos.
Según Pathak, el equipo se inspiró en la navegación humana. Los humanos reciben información sobre el mundo que les rodea a través de los ojos, lo que les ayuda a colocar instintivamente un pie delante del otro para desplazarse de forma adecuada. Los humanos no suelen mirar al suelo bajo sus pies cuando caminan, sino unos pasos más adelante, al lugar al que quieren ir. El equipo de Pathak entrenó a sus robots para que adoptaran un enfoque similar al caminar: cada uno utilizaba la cámara para mirar hacia delante. El robot era entonces capaz de memorizar lo que tenía delante durante el tiempo suficiente para guiar la colocación de sus piernas. Los robots aprendían sobre el mundo en tiempo real, sin mapas internos, y ajustaban su comportamiento en consecuencia. En aquel momento, los expertos dijeron a MIT Technology Review que la técnica era un "gran avance en el aprendizaje y la autonomía de los robots" y que podría permitir a los investigadores construir robots con patas capaces de ser desplegados en la naturaleza.
Desde entonces, los perros robot de Pathak han subido de nivel. El último algoritmo del equipo permite a un robot cuadrúpedo hacer parkour extremo. El robot se entrenó de nuevo para moverse de forma general en una simulación. Pero gracias al aprendizaje por refuerzo, fue capaz de aprender nuevas habilidades sobre la marcha, como saltar largas distancias, caminar sobre sus patas delanteras y trepar por cajas altas que doblaban su altura. Los investigadores no programaron estos comportamientos. El robot aprendió mediante el método de ensayo y error y la información visual de su cámara frontal. "Hace tres años no creía que fuera posible", afirma Pathak.
En la otra técnica más usada, llamada aprendizaje por imitación, los modelos aprenden a realizar tareas, por ejemplo, imitando las acciones de un humano que teleopera un robot o utilizando un casco de realidad virtual para recoger datos sobre un robot. Se trata de una técnica que ha estado de moda durante décadas, pero que últimamente se ha hecho más popular entre los robots que realizan tareas de manipulación, explica Russ Tedrake, vicepresidente de investigación robótica del Toyota Research Institute (Instituto de Investigación Toyota) y profesor del MIT.
Combinando esta técnica con la IA generativa, los investigadores del Toyota Research Institute, la Universidad de Columbia y el MIT han podido enseñar rápidamente a los robots a realizar muchas tareas nuevas. Creen haber encontrado la forma de extender la tecnología que impulsa la IA generativa del ámbito del texto, las imágenes y los vídeos al de los movimientos robóticos.
La idea es empezar con un humano que controle manualmente al robot para que demuestre comportamientos como batir huevos o recoger platos. Mediante una técnica llamada política de difusión (difusión policy), el robot es capaz de utilizar los datos que recibe para aprender habilidades. Los investigadores han enseñado a los robots más de 200 habilidades, como pelar verduras y verter líquidos, y dicen que están trabajando para enseñar 1.000 habilidades a finales de año.
Muchos otros han aprovechado también las ventajas de la IA generativa. Covariant, una nueva empresa de robótica que surgió de la unidad de investigación robótica de OpenAI, ya clausurada, ha creado un modelo multimodal llamado RFM-1. Puede aceptar instrucciones en forma de texto o de texto. Puede aceptar indicaciones en forma de texto, imagen, vídeo, instrucciones del robot o mediciones. La IA generativa permite al robot tanto entender las instrucciones como generar imágenes o vídeos relacionados con esas tareas.
El equipo del Toyota Research Institute espera que esto conduzca algún día a "grandes modelos de comportamiento", que sean análogos a los grandes modelos lingüísticos, dice Tedrake. "Mucha gente cree que la clonación del comportamiento nos llevará al momento ChatGPT de la robótica", afirma.
En una demostración similar, a principios de este año un equipo de Stanford consiguió utilizar un robot comercial relativamente barato que costaba 32.000 dólares para realizar complejas tareas de manipulación, como cocinar gambas y limpiar manchas. Habilidades que adquirió rápidamente gracias a la IA.
El robot, llamado Mobile ALOHA (acrónimo en inglés de "sistema de teleoperación por hardware de código abierto y bajo coste"), aprendió a cocinar gambas con la ayuda de sólo 20 demostraciones humanas y datos de otras tareas, como arrancar una toalla de papel o un trozo de cinta adhesiva. Los investigadores de Stanford descubrieron que la IA puede ayudar a los robots a adquirir habilidades transferibles: el entrenamiento en una tarea puede mejorar su rendimiento en otras.
Todo esto está sentando las bases para que los robots puedan ser útiles en los hogares. Las necesidades humanas cambian con el tiempo, y enseñar a los robots a realizar una amplia gama de tareas es importante, ya que les ayudará a adaptarse a nosotros. Esto también es crucial para la comercialización: la primera generación de robots domésticos tendrá un precio elevado, y los robots deben tener suficientes habilidades útiles para que los consumidores quieran invertir en ellos.
Durante mucho tiempo, gran parte de la comunidad robótica se mostró muy escéptica ante este tipo de planteamientos, afirma Chelsea Finn, profesora adjunta de informática e ingeniería eléctrica en la Universidad de Stanford y asesora del proyecto Mobile ALOHA. Finn dice que hace casi una década, los enfoques basados en el aprendizaje eran poco frecuentes en las conferencias de robótica y despreciados en la comunidad robótica. "El auge [del procesamiento del lenguaje natural] ha ido convenciendo a más miembros de la comunidad de que este enfoque es muy, muy potente", afirma.
Sin embargo, hay un problema. Para imitar nuevos comportamientos, los modelos de IA necesitan muchos datos.
Más es más
A diferencia de los chatbots, que pueden entrenarse utilizando miles de millones de datos recogidos en Internet, los robots necesitan datos creados específicamente para ellos. Necesitan demostraciones físicas de cómo se abren lavadoras y frigoríficos, se recogen platos o se dobla la ropa, dice Lerrel Pinto, profesor adjunto de informática en la Universidad de Nueva York. Ahora mismo esos datos son muy escasos y los humanos tardan mucho en recopilarlos.
Algunos investigadores intentan utilizar vídeos de seres humanos haciendo cosas para entrenar a robots, con la esperanza de que las máquinas sean capaces de copiar las acciones sin necesidad de demostraciones físicas.
El laboratorio de Pinto también ha desarrollado un método barato de recogida de datos que relaciona los movimientos robóticos con las acciones deseadas. Los investigadores tomaron un palo de agarre similar a los que se utilizan para recoger la basura y le acoplaron un iPhone. Los voluntarios pueden utilizar este sistema para grabarse realizando tareas domésticas, imitando la visión del robot desde el extremo de su brazo robótico. Con este sustituto del brazo robótico de Stretch y un sistema de código abierto llamado DOBB-E, el equipo de Pinto consiguió que un robot Stretch aprendiera tareas como verter agua de una taza y abrir cortinas de ducha con sólo 20 minutos de datos del iPhone.
Pero para tareas más complejas, los robots necesitarían aún más datos y más demostraciones.
La escala necesaria sería difícil de alcanzar con DOBB-E, dice Pinto, porque básicamente habría que convencer a todos los humanos de la Tierra para que compraran el sistema de alcance y captura, recopilaran datos y los subieran a Internet.
Una nueva iniciativa puesta en marcha por Google DeepMind, denominada Open X-Embodiment Collaboration, pretende cambiar esta situación. El año pasado, la empresa se asoció con 34 laboratorios de investigación y unos 150 investigadores para recopilar datos de 22 robots diferentes, entre ellos el Stretch de Hello Robot. El conjunto de datos resultante, que se publicó en octubre de 2023, consiste en robots que demuestran 527 habilidades, como coger, empujar y desplazarse.
Sergey Levine, informático de la Universidad de Berkeley que participó en el proyecto, afirma que el objetivo era crear un "Internet robot" recopilando datos de laboratorios de todo el mundo. Esto daría a los investigadores acceso a conjuntos de datos más grandes, más escalables y más diversos. La revolución del aprendizaje profundo que condujo a la IA generativa de hoy comenzó en 2012 con el surgimiento de ImageNet, un vasto conjunto de datos de imágenes en línea. La Open X-Embodiment Collaboration es un intento de la comunidad robótica de hacer algo similar con los datos de los robots.
Los primeros indicios muestran que un mayor número de datos está dando lugar a robots más inteligentes. Los investigadores construyeron dos versiones de un modelo para robots, llamado RT-X, que podía ejecutarse localmente en ordenadores de laboratorios individuales o al que se podía acceder a través de la web. El modelo más grande, accesible a través de la web, se preentrenó con datos de Internet para desarrollar un "sentido común visual", o una comprensión básica del mundo, a partir de los grandes modelos de lenguaje e imagen.
Cuando los investigadores aplicaron el modelo RT-X a muchos robots diferentes, descubrieron que los robots eran capaces de aprender habilidades un 50% más que en los sistemas que desarrollaba cada laboratorio por separado.
"No creo que nadie lo viera venir", dice Vincent Vanhoucke, jefe de robótica de Google DeepMind. "De repente hay un camino para aprovechar básicamente todas estas otras fuentes de datos para lograr comportamientos muy inteligentes en robótica".
Muchos especialistas en robótica creen que los grandes modelos de visión y lenguaje, capaces de analizar datos de imágenes y lenguaje, podrían ofrecer a los robots pistas importantes sobre cómo funciona el mundo circundante, afirma Vanhoucke. Ofrecen pistas semánticas sobre el mundo y podrían ayudar a los robots a razonar, deducir cosas y aprender interpretando imágenes. Para comprobarlo, los investigadores tomaron un robot que había sido entrenado con el modelo más grande y le pidieron que señalara una foto de Taylor Swift. Los investigadores no le habían enseñado fotos de Swift, pero aun así fue capaz de identificar a la estrella del pop porque tenía una idea a escala web de quién era incluso sin fotos suyas en su conjunto de datos, dice Vanhoucke.
Vanhoucke afirma que Google DeepMind utiliza cada vez más técnicas similares a las que emplearía para la traducción automática para traducir del inglés a la robótica. El verano pasado, Google presentó un modelo de visión-lenguaje-acción llamado RT-2. Este modelo obtiene su comprensión general del mundo a partir de textos e imágenes en línea con los que ha sido entrenado, así como de sus propias interacciones en el mundo real. Traduce esos datos en acciones robóticas. Cada robot tiene una forma ligeramente distinta de traducir el inglés en acciones, añade.
"Cada vez tenemos más la sensación de que un robot es básicamente un chatbot que habla robotés", afirma Vanhoucke.
Pasitos de bebé
A pesar del rápido ritmo de desarrollo, los robots aún se enfrentan a muchos retos antes de poder salir al mundo real. Siguen siendo demasiado torpes para que los consumidores normales justifiquen gastarse decenas de miles de dólares en ellos. Además, carecen del sentido común que les permitiría realizar varias tareas a la vez. Y tienen que pasar de coger cosas y colocarlas en algún sitio a juntarlas, dice Goldberg; por ejemplo, volver a meter una baraja de cartas o un juego de mesa en su caja y luego en el armario de los juegos.
Pero a juzgar por los primeros resultados de la integración de la IA en los robots, los expertos en robótica no están perdiendo el tiempo, dice Pinto.
"Estoy bastante seguro de que veremos algo parecido a un robot doméstico de uso general. Ahora bien, ¿será accesible al público en general? No lo creo", afirma. "Pero en términos de inteligencia bruta, ya estamos viendo indicios".
Construir la próxima generación de robots puede que no se limite a asistir a los humanos en sus tareas cotidianas o a ayudar a personas como Henry Evans a llevar una vida más independiente. Para investigadores como Pinto, hay un objetivo aún mayor a la vista.
La robótica doméstica ofrece uno de los mejores puntos de referencia para la inteligencia de las máquinas a nivel humano, afirma. El hecho de que un ser humano pueda actuar de forma inteligente en el entorno doméstico, añade, significa que sabemos que es un nivel de inteligencia que puede alcanzarse.
"Es algo que potencialmente podemos resolver. Sólo que no sabemos cómo", afirma.
Para Henry y Jane Evans, lo mejor sería conseguir un robot que funcionara de forma fiable. El robot Stretch con el que experimentaron los Evans sigue teniendo demasiados fallos como para utilizarlo sin la presencia de investigadores que lo solucionen, y su casa no siempre dispone de la conectividad Wi-Fi fiable que necesita Henry para comunicarse con Stretch a través de un ordenador portátil.
Aun así, Henry afirma que uno de los mayores beneficios de su experimento con robots ha sido la independencia: "Todo lo que hago es tumbarme en la cama, y ahora puedo hacer cosas por mí mismo que implican manipular mi entorno físico".
Gracias a Stretch, por primera vez en dos décadas, Henry fue capaz de aguantar jugando a las cartas durante una partida.
"Les pateé el culo a todos varias veces", dice.
"Vale, no hablemos de más", dice Jane, y se ríe.