Entendiendo AlphaGo Zero

Autor: | Posteado en Noticias Sin comentarios

Explicar la novedad de hace unos pocos días sobre AlphaGo Zero, el último avance en el algoritmo que fue apto de ganar con enorme mejoría a los 3 mejores jugadores del planeta de Go, el llamado “ajedrez asiático”, con unas reglas supuestamente muy sencillas sin embargo con oportunidades combinatorias enormemente complicadas, puede ser relativamente difícil en el planeta occidental, donde la fama de este videojuego es relativamente escasa.

La novedad fue publicada originalmente por DeepMind, la compañía adquirida por Google® en 2014, y bien reflejada tanto por MIT Tech Review como por The Atlantic, que se centran en explicar la diferencia entre el hito conseguido por AlphaGo Zero frente al llevado a cabo en enero de 2016 por AlphaGo. Las explicaciones pueden apoyar a comprender algunos conceptos básicos de machine learning, y como esta disciplina podría evolucionar en el futuro.

Como ya comenté en su momento, lo que AlphaGo consiguio cuando venció a los mejores jugadores del planeta fue un desarrollo de deep learning seguido de reinforcement learning: tras entrenar originalmente al algoritmo con todas las partidas de Go registradas en la historia del videojuego disponibles, se consiguio una maquina apto de imitar a los mejores jugadores, apto de predecir sus jugadas en un 57% de las ocasiones, sin embargo incapaz, por lo general, de optimizar su rendimiento en una partida. Para lograrlo, se planteó entrenar a esa maquina con nuevas partidas inventadas por sí misma mediante combinatoria, dando lugar a jugadas previamente inexistentes, no llevadas a cabo anteriormente, con probabilidades muy bajas y no contempladas jamás – y por tanto, no anticipables – por jugadores humanos, sin embargo que fueron las que, en último término, lograron decidir varias de las partidas definitivas. AlphaGo logró ganar a los mejores jugadores individuos gracias a haber probado anteriormente espacios combinatorios que, sencillamente, jamás habían sido probados anteriormente en ninguna partida, y que podían, a pesar de su bajísima probabilidad, dar lugar a tacticas ganadoras. 

¿Qué aporta, sobre esto, AlphaGo Zero? Sencillamente, suprimir la 1ª fase, la del aporte del registro histórico de partidas de Go jugadas por humanos. Para sacar este nuevo algoritmo, que ha sido apto de ganar al anterior AlphaGo por cien partidas a cero, se partió, como su nombre indica, desde cero. Un algoritmo con las normas del videojuego definidas, que inicia desde ahí a probar desplazamientos en partidas que juega contra sí mismo. Si teneis una suscripción, lo podrias leer en NatureTras el apropiado numero de iteraciones, varios millones de partidas, ese algoritmo, que jamás ha recibido información sobre partidas jugadas con humanos, supera al anterior, lo que elimina la necesidad, en problemas que puedan ser homologados a este – problemas estables con entornos altamente predecibles – de partir de una amplia suma de documentos históricos.

¿Qué razones llevarnos a pensar un hito como este? Para un directivo, significa que tendría que comenzar a pensar qué operaciones en su cadena de precio o en su dia a dia pueden caer dentro de este tipo de situaciones: espacios combinatorios muy amplios, sin embargo que generan resultados predecibles en torno a normas conocidas y bien definidas. Obviamente, no se intenta de la solucion a todos los problemas, sin embargo sí probablemente a algunos. Es el instante de comenzar a plantearnos este tipo de cuestiones: qué problemas logramos resolver mediante algoritmos que aprenden a partir de documentos históricos, recogidos en nuestros ficheros transaccionales, en nuestros CRMs o en nuestros ERP a lo largo de años de operativa, y cuáles pueden resolverse sin obligación de esos datos, simplemente definiendo bien las normas y entrenando al algoritmo desde un espacio combinatorio limpio, desde cero.

La opción no es poca cosa: en la inmensa totalidad de las ocasiones, la mayor inversión en tiempo y bienes en los proyectos de machine learning, en torno a un 80%, tiene que visualizar con la recolección de documentos hoy almacenados en ejemplos relacionales, con su transformación y con su preparación. Si para algunos proyectos logramos partir de cero, la circuntancia en terminos de reducción de costo y de incremento del rendimiento puede ser considerable, y puede convertirse en atrayentes mejorías competitivas. Entender ese tipo de situaciones, ser capaces de pensar en terminos de entrenamiento de algoritmos, y crear una cierta sensibilidad sobre qué técnicas pueden servir a qué ocasiones son exactamente el tipo de cualidades que las compañías tendrían que estar ahora mismo fabricando en sus directivos, no discusiones sobre dudosos cercanos apocalípticos, robots asesinos y mundos post-trabajo. De hecho, lo que queda es, precisamente, mucho trabajo por hacer.

 


Enrique Dans



El mejor vídeo del día Trucos de Android


Nota: La creación de esta noticia le pertenece al autor original que aparece en la firma de más arriba. No hemos eliminado en ningún momento los enlaces oficiales, ni tampoco intentamos perjudicar su posicionamiento en los motores de búsqueda.

El Administrador de QueEsGoogle.Com

Agrega tu comentario