¡Nos visita Erin LeDell!
En esta ocasión nos visitó Erin LeDell, co-fundadora de R-Ladies y fundadora WiMLDS. Erin nos sió una charla sobre Scalable Automatic Machine Learning con H2O (en inglés). ¿De qué se trata esto?
H2O es una plataforma distribuida de aprendizaje automático de código abierto diseñada para big data. Los algoritmos principales de aprendizaje automático de H2O se implementan en Java de alto rendimiento, sin embargo, las API con todas las funciones están disponibles en R, Python, Scala, REST/JSON, y también a través de una interfaz web. Dado que las implementaciones de algoritmos de H2O se distribuyen, esto permite que el software escale a conjuntos de datos muy grandes -que superan la RAM en una sola máquina-. H2O actualmente presenta implementaciones distribuidas de modelos lineales generalizados, Gradient Boosting Machines, Random Forest, Deep Neural Nets, Stacked Ensembles (aka “Super Learners”), métodos de reducción de dimensionalidad (PCA, GLRM), clusterización (K-means), detección de anomalías, etc.
H2O AutoML proporciona una interfaz fácil de usar que automatiza el pre-procesamiento de datos, el entrenamiento y el ajuste de una gran selección de modelos candidatos (incluidos múltiples modelos de conjuntos apilados para un rendimiento superior) y, debido a la naturaleza distribuida de la plataforma de H2O, H2O AutoML puede escalar a conjuntos de datos muy grandes. El resultado de la ejecución de H2O AutoML es una “tabla de clasificación” de modelos fácilmente exportable para su uso en producción. Ejemplos de código en R y en Python estarán disponibles en GitHub para que les participantes puedan seguirlos en sus laptops (de todos modos, no es necesario que traigas tu laptop!).