Machine Learning para Organizaciones

40
Machine Learning para Organizaciones Jesús Ramos COO @ Datank.ai CCO @ @thedatapub

Transcript of Machine Learning para Organizaciones

Page 1: Machine Learning para Organizaciones

Machine Learning para Organizaciones

Jesús RamosCOO @ Datank.ai

CCO @ @thedatapub

Page 2: Machine Learning para Organizaciones

Y éste qué?- Ingeniero de Software de nacimiento (ITESM).

- Econometrista Financiero por azar (Unottingham + UWashington).

- Estadístico Computacional por convicción (Coursera, a mucha honra).

- Consultado con 6 firmas (BMV, GBM, ConCredito, Movistar, etc) para levantar sus capacidades analíticas.

- Co fundador de @TheDataPub, comunidad dedicada a reventar la burbuja y detener el tren del m*** del ML y del Pig Data.

- Gamer los sábados (PSN: xuxoramos).

- Foodie los domingos.

Page 3: Machine Learning para Organizaciones

En qué ando?

Page 4: Machine Learning para Organizaciones

Lo feo del#MachineLearning…

Page 5: Machine Learning para Organizaciones

#MachineLearning BubbleMachineLearning

Page 6: Machine Learning para Organizaciones

Montaña rusa sin freno…

$232mmdd

Gran Inversión

4%Stats/Maths/Prog

Poco skill Mala cultura

Governance: Datos rehenes de cabal de IT

Page 7: Machine Learning para Organizaciones

…y sin cinturón!

Page 8: Machine Learning para Organizaciones

El freno para esta montaña rusa…

Page 9: Machine Learning para Organizaciones

Roadmap+Riesgos para la banda

Skill Si eres dev,

métele a stats+maths. Si eres de maths+stats,

métele a dev.

Biz Intimacy Olvídate de la Herramienta. Enfócate en el

lenguaje de negocio.

Operational No entregues reportes,

entrega APIs.

Sin contexto ==

Hacer la pregunta equivocada

No hay escalamiento

Mala predicción + Alto sesgo

== Perder dinero/

lastimar personas

Etapa

Riesgo

Page 10: Machine Learning para Organizaciones

Roadmap+Riesgos para orgs

Etapa

Riesgo

DWH Todos los datos en 1 solo lugar.

Gov’nance Total apertura y con conexiones

SelfServ-BI Que gente de negocio se sirva reportes sola.

Mayor sesgo +

sin observer

effect

DataScience ==

Reporteo/BI

Correlación ==

Causalidad

Page 11: Machine Learning para Organizaciones

Cómo desaceleramos?

Con definiciones (ni peiper).

Page 12: Machine Learning para Organizaciones

#MachineLearning para todosSW Dev

Máquina(de estados, no la compu)Datos

Función/ Programa

Salida

Machine/Statistical Learning Supervisado

Máquina(de estados, no la compu)

Salida*Datos

Función/ Programa**

Contexto

Contexto

* No Supervisado = Sin Salida, ** Reinforcement = Función regresa a datos

Page 13: Machine Learning para Organizaciones

#MachineLearning para todosObjetivo 1: identificar patrones

Page 14: Machine Learning para Organizaciones

Error Total

#MachineLearning para todosObjetivo 2: reducir el error de la función

Error de Predicción Error del Fenómeno (Varianza) Sesgo/Bias

Reducción: más/menos variables

Reducción: más datos/observaciones.

Reducción: CONTEXTO!

Page 15: Machine Learning para Organizaciones

#MachineLearning para todosVarianza vs Sesgo

Page 16: Machine Learning para Organizaciones

#MachineLearning para todosVarianza vs Sesgo

Page 17: Machine Learning para Organizaciones

#MachineLearning para todosTipos: Clasificación

Page 18: Machine Learning para Organizaciones

#MachineLearning para todosTipos: Regresión

Page 19: Machine Learning para Organizaciones

#MachineLearning para todosTipos: Clustering == Clasificación Sin Output

Page 20: Machine Learning para Organizaciones

#MachineLearning para todosTipos: Dimensionality Redux/Feature Engineering

Page 21: Machine Learning para Organizaciones

#MachineLearning para todosY cuál uso?

(Los que me den menos varianza y menos bias)

Page 22: Machine Learning para Organizaciones

#MachineLearning para todosMetodología

Describir Qué me parece interesante de mi dataset?

Explorar Qué research question quiero Hacerle a mi dataset?

Inferir La respuesta puede generalizarse?

Predecir La respuestaaplica a nuevasobservaciones?

- Distribuciones- Media - Moda - Kurtosis

- Clustering - Kohonen - DBSCAN - Multidim Scaling

- Hypo Test - GLM - ANOVA - MSE

- Random Forest- Boosting- Bagging- Deep Learning

ML ML

Page 23: Machine Learning para Organizaciones

Cross Validation

Data

Training Test Validation

70% 20% 10%

N veces: TestValidation TestValidation TestValidation

Page 24: Machine Learning para Organizaciones

Ya le quitamos el m*me al tren. Ahora...?

Aplicaciones!

Page 25: Machine Learning para Organizaciones

B*n*m*x• Conversión de cliente de nómina a TC en 29%. • $2.7mmdp en revenue al año desde 2010. • Cómo lo hizo? • Clasificación!

f(edad, género, monto, antigüedad, …) = tiene TC

Predictores / variables independientes variable respuesta / dependiente

Page 26: Machine Learning para Organizaciones

UPS• Ahorro de combustible haciendo que

camiones sólo den vuelta a la derecha. • Ahorro de $47mdd al año. • Cómo lo hicieron? • Diseño de experimentos!

Exploratorio -> Recolección de datos -> Hypothesis Testing -> GLMs -> Clasificación

Page 27: Machine Learning para Organizaciones

T*lc*l• Identificación de usrs consumiendo $7K MXN

semanales de tiempo aire en prepago. • Creación de producto de crédito de tiempo aire de

hasta $2K. • $4mmdp al año de revenue. • Cómo lo hicieron? • Clustering!

Multidimensional Scaling + K-means/DBSCAN

Page 28: Machine Learning para Organizaciones

Western Union• Prevención de fraude en remesas en

automático y personalizado. • $32mdd en ahorro operativo en 2012. $21mdd

son de transacciones detenidas al momento. • Cómo le hicieron? • Clasificación! • Similar a algoritmos de spam/ham.

Page 29: Machine Learning para Organizaciones

Gr*p* *xp*ns**n• Bajar bounce rate y mantener al visitante en

sitios de las marcas del grupo. • Aumentar ad impressions. • Cómo lo están haciendo? • Recommender Systems!

Clasif 1 + Clasif 2 + … + Clasif NQuémúsica prefiere?

Quécomidaprefiere?

Quépelisha visto?

Page 30: Machine Learning para Organizaciones

Y las startups?

Page 31: Machine Learning para Organizaciones

En la delantera!• Konfio, Kueski, Prestadero + ensemble learning

= credit scoring. • Piggo + multidimensional scaling + DBSCAN =

recomendación de inversiones. • Klustera + Filtros Kalman (un tipo de regresión)

= ubicación exacta de gente en centros comerciales. • HolaGus + deep convolutional neural networks

= clasificación de texto.

Page 32: Machine Learning para Organizaciones

Caso interesante: FullHarvest• Time Series de granjas y huertos en tiempo de

cosecha. • Clasificación para planeación de recolecciones. • Optimización heurística para trazo de rutas. • Regresión múltiple para planeación de demanda y

pricing. • Ensemble para transformación y saber qué

producir. • Optimización para ruta de entrega.

Page 33: Machine Learning para Organizaciones

Bottomline:

El ML ayuda a escalar servicios para el 99%!

Page 34: Machine Learning para Organizaciones

Qué puede salir mal?

Todo!

Page 35: Machine Learning para Organizaciones

#MachineLearning Flops• Google Flu Trends – Contexto = predicción

fallida de AH1N1 en Francia. • Google Image Classifier – Contexto = 2

afroamericanos taggeados como ‘gorilas’. • Walmart + Modelo complejo de alta varianza =

productos en mal estado vendidos a clientes. • Wall Street + Model simple de alto bias =

crisis hipotecaria de 2008 • T*lc*l – Contexto = Préstamos a sospechosos.

Page 36: Machine Learning para Organizaciones

Concluyendo…

Page 37: Machine Learning para Organizaciones

Soy dev…cómo le entro al ML?• Comienza por prepararte en mates y estadística. Leete “Think

Stats” de Allen Downey. • Acércate al depto de mates de tu universidad. Seguro

encuentras diplomados en mates. • MOOCs: “Data Science Specialization” de Coursera es la

opción. • Síguele con el de Andrew Ng de Stanford. Piérdele el miedo a la

notación formal. • No te cases ni con Python ni con R. Usa ambos. • No te cases con ningún algoritmo. Primero pregunta “qué

quiero lograr?” • Context is KING!

Page 38: Machine Learning para Organizaciones

Y si ya le se al ML?• Platícanos tu proyecto en [email protected]

para que lo presentes en @thedatapub. • Mándame un correo. Andamos reclutando! • Sé humilde ante lo que te falta por aprender. • Acércate a disciplinas complementarias de la ciencia de

datos: topología, diseño de experimentos, optimización, visualización y storytelling.

• Comparte tu conocimiento. Ojalá seas tú el próximo acá arriba!

Page 39: Machine Learning para Organizaciones

¿Preguntas?

Page 40: Machine Learning para Organizaciones

[email protected]@gmail.comlinkedin.com/in/xuxoramos