miércoles 20 marzo 2019
El Dr. Nicolás Navarro Guerrero, profesor de la Universidad de Aarhus (Dinamarca) y cofundador del laboratorio multidisciplinario de robótica social de la misma universidad, ofreció dos charlas a los investigadores en robótica y automatización del Advanced Mining Technology Center. Los temas de ambos encuentros fueron los avances en robots sociales y técnicas de aprendizaje de máquina, campos de estudio del Dr. Navarro.
En su primera presentación, el especialista expuso sobre su investigación en robótica cognitiva e interacción humano-robot, para responder al desafío de crear autómatas más inteligentes y capaces de interactuar con personas de manera fluida, capacidades que se consideran críticas para el desarrollo de robots que en el futuro hagan labores domésticas, trabajen autónomamente junto con humanos y, especialmente, brinden mayor seguridad y eficiencia en entornos industriales. El Dr. Navarro enfatizó que en una interacción con humanos, es tarea del robot y no de la persona el adaptarse al comportamiento y acciones de su contraparte, y que tal adaptación debe ser fluida al punto de que el humano no note el trabajo de procesamiento y ajustes del autómata. En su segunda charla, el científico profundizó en técnicas de refuerzo de aprendizaje de robots, especialmente para procesos lentos, y afirmó que su trabajo futuro en el área se centrará en que los robots reconozcan gestos sutiles en humanos (especialmente en expresión facial) y “metaaprendizaje”: balancear estrategias de aprendizaje basadas en recompensa y en castigo.
Esto último fue uno de los puntos relevantes de la presentación del Dr. Navarro, quien postula que el usar el aprendizaje basado en recompensa para entrenar a una inteligencia artificial es una tendencia mayoritaria, pero insuficiente, y que se debe incluir una estrategia de aprendizaje basada en el castigo (expresado en el envío de señales que la IA interpreta como dolor). Afirma que hay allí un potencial muy grande para incrementar la cantidad de información que la IA puede utilizar para aprender.
-Lo que hacen los sistemas que actualmente usan aprendizaje por refuerzo usan recompensa es repetir muchas veces una acción para buscar esa recompensa. Pero si yo hago lo mismo con un castigo, probablemente el robot se va a dañar antes de que pueda aprender algo. Entonces el tipo de decisiones que el robot puede tomar frente al castigo debe ser diferente al que tomaría frente a una recompensa.
-¿Esto sería entonces para que un robot aprenda a no hacer ciertas acciones, en lugar de realizarlas?
-Un poco de ambos. Los resultados que mostré indican que con el diseño actual de los algoritmos, el uso de los castigos está mal implementado. Se utiliza castigo para evitar que el robot haga acciones que lo puedan dañar a él, a las personas o al ambiente, pero, desafortunadamente, como está mal implementado produce al final más percepción de castigo por parte del robot. Lo que propongo es procesar el castigo de forma diferente para lograr el efecto deseado. Si yo le doy un castigo al robot es para evitar que haga algo.
-Y eso debe funcionar en combinación con el aprendizaje por recompensa, como un balance.
-Exactamente, pero para eso no tenemos aún el conocimiento en neurociencias sobre cómo esa combinación es implementada en el cerebro, cómo el circuito neuronal está conectado para producir ese balance entre la recompensa y el castigo. En eso estamos trabajando.