Hoy en día tenemos la oportunidad de acceder a una tecnología muy sofisticada que nos ayuda y facilita la vida. Podemos estar conectados en redes sociales, comprar con un clic, navegar por internet etc…
La mayoría de la tecnología que nos permite utilizar servicios como Google, Facebook, Whatsapp etc… es gratis. Pero tal como dice la frase “cuando algo es gratis, el producto eres tu. Vamos a hablar del precio que tenemos que pagar al usar esta tecnología, nuestros datos y la metdología para la extracción de los mismo, el data mining
¿Qué es la minería de datos / DATA MINING?
La minería de datos, también conocidos como data mining, es un conjunto de técnicas, procesos y tecnologías que permiten realizar grandes análisis de datos, para convertir datos en principio irrelevantes, en datos valiosos que siguen patrones o tendencias.
Estos patrones se descubren gracias la estadística, al uso de algoritmos elaborados por los mineros de datos y al uso de la inteligencia artificial.
El proceso de minería de datos se llama así porque es similar a la extracción de materias primas como el oro, donde a partir de la remoción de grandes superficies de suelo o roca, se filtra hasta conseguir el preciado metal.
Para que nos hagamos una idea, para conseguir un kilo de oro, se necesitan remover de media, tres mil toneladas de tierra.
Es decir, para encontrar un patrón sencillo, un dato útil o una tendencia, tendremos que analizar miles de datos, de ahí que estas técnicas se conozcan como “minería” de datos.
¿Cuál es el origen de la minería de datos?
El análisis de datos podría empezar con el teorema de Bayes en 1763 en el que se describe la probabilidad condicional de un suceso aleatorio. Sin embargo, empezaremos a hablar de estas técnicas a partir de 1960 donde se generalizó el uso de ordenadores para el análisis de datos.
✅ La primera etapa de la minería o análisis de datos consistía en utilizar la potencia de los ordenadores para extraer y analizar un volumen elevado de datos, por ejemplo, para saber cuál había sido el beneficio de una empresa en los últimos años, sumando los datos de todas la ventas de los diferentes departamentos.
✅ La segunda etapa (1980) se caracterizaría por un análisis más profundo, combinando diferentes bases de datos pasando de datos estáticos como en la etapa anterior, a datos dinámicos.
✅ En su etapa de consolidación (1990), empieza la minería de datos que conocemos actualmente y se empieza a hablar del concepto “Knowledge Discovery in Databases (KDD)” es decir, en el descubrimiento de conocimiento en bases de datos.
Por último, ✅ en la etapa actual se pasa de “encontrar” este valor en nuestras bases de datos, a crear proyecciones y a hacer estimaciones complejas gracias a algoritmos avanzados, bases de datos inmensas y la capacidad computacional que no existía anteriormente.
Pasamos de cuanto he vendido en los dos últimos años, a cuánto venderé en los dos próximos.
¿Cómo es un proceso de Data Mining?
Desde que encendemos el móvil hasta que pasamos el abono de transportes por la entrada del metro, constantemente se están generando datos. De hecho, según un estudio de IBM realizado en 2017, el 90% de los datos actuales tienen menos de 2 años de antigüedad.
El primer paso de cualquier proceso de minería de datos es la extracción correcta de datos para su posterior análisis y la selección de qué conjuntos de datos de van a utilizar para este análisis..
La minería de datos cuenta con su propio modelo analítico utilizado por los expertos en minería de datos.Este modelo se llama Cross-Industry Standar Process for Data Mining y establece las tareas que deben llevarse a cabo para completar exitosamente el proceso de data mining.
Es una metodología, que independiente del proveedor divide el trabajo en estas seis fases diferentes:
- Compresión del negocio: Es decir, entender para qué vamos a utilizar los datos y en qué área concreta van a ser útiles. Si somos un banco deberíamos identificar qué parte del negocio vamos a analizar y con qué objetivo. Por ejemplo, identificar patrones de comportamiento en los clientes que cancelan depósitos, con el objetivo de reducir su cancelación.
- Recolectar y entender los datos: Siguiendo el ejemplo anterior, no todos los datos de nuestros clientes serían útiles, habría que filtrar y determinar qué datos serían parte del análisis.
- Preparación de los datos: Una vez extraídos, prepararlos para que puedan ser analizados conjuntamente, limpiar datos innecesarios etc..
- Modelado de datos: Selección de la técnica de modelado a utilizar evaluación y testing del modelo.
- Evaluación del proceso completo y análisis de resultados.
- Despliegue: Presentación de la información o los insights de valor en el formato adecuado, de tal manera que los principales interesados puedan sacar conclusiones útiles.
La representación gráfica del modelo Cross-Industry Standar Process for Data Mining sería similar a lo siguiente:
Ejemplos del uso de la minería de datos.
Estas técnicas se utilizan en infinidad de sectores. Ponemos algunos ejemplos.
Netflix.
Netflix utiliza la minería de datos y la inteligencia artificial para recomendarnos series, documentales y películas en función de nuestro historial. Sabe que series hemos visto, y lo compara con infinidad de datos de otros usuarios para saber con certeza que por ejemplo que el 75% de las personas que vieron la serie A, empezaron a ver la película B tras sugerirla Netflix.
Amazon.
¿Te suena cuando Amazon te sugiere que añadas productos en el carrito al añadir otros?. Gracias al análisis de datos sabe que productos tienen una mayor probabilidad de ser añadidos al carrito, en función de tus compras anteriores, compras actuales y a tu historial de navegación.
Equipos de fútbol.
¿Alguna vez has visto a algún jugador decirle al portero por dónde iba a ir un penalti?. Aunque esta imagen no es el mejor ejemplo de minería de datos, los equipos de fútbol cada vez están utilizando más la minería de datos para detectar patrones y tendencias propias y de los rivales.
Incluso la televisión a veces nos da pequeñas pinceladas del tipo “con este lateral, el equipo recibe un 34% más goles que con el otro”.
Todos estos datos son muy útiles para reforzar las impresiones del equipo técnico, y validar sus teorías.
Hacienda pública.
En la India, el Gobierno está decidido a utilizar la extracción de datos para prevenir la evasión fiscal. Aunque todavía esta en fase de investigación, es la primera vez que una administración pública anuncia su intención de apostar por la minería de datos para combatir el impago de impuestos.
CRM para la gestión de leads.
Muchas soluciones para la gestión de clientes te van a indicar qué probabilidad tiene ese cliente de responder a un email o a una oferta determinada, basándose en su historial y en el historial de clientes similares. Incluso en empresas pequeñas se puede sacar provecho de todas las soluciones que ofrece esta tecnología.
¿Qué ventajas tiene la minería de datos?
Más que ventajas, lo que tiene el data mining son una propiedades concretas que permiten que sea un proceso útil que genere valor.
Descubrimiento automático de patrones.
La minería de datos se basa en el desarrollo de modelos. Un modelo utiliza un algoritmo para actuar sobre un conjunto de datos.
Los modelos de minería de datos pueden utilizarse para extraer los datos en los que se basan, pero la mayoría de los tipos de modelos pueden generalizarse a nuevos datos. Es decir, podemos reutilizar modelos y ver si son capaces de validar nuevos datos.
Por ejemplo, una empresa que venda zapatillas podrá aplicar un modelo de estimación de ventas de una zapatilla en el lanzamiento de otra.
Predice resultados probables.
Un modelo puede predecir un resultado basado en el nivel de estudios y otros factores demográficos.
Las predicciones tienen una probabilidad asociada que se genera en función del análisis de datos.
Algunas formas de minería de datos predictivos generan reglas, que son las condiciones para obtener un resultado.
Por ejemplo, una regla puede especificar que una persona con estudios superiores y que ha nacido en un determinado barrio acomodado, tendrá un 80% de posibilidades de tener un salario superior al salario medio de su ciudad.
Relacionándolo con el ejemplo del fútbol, si mi equipo mete gol en el 20% de los corners, será una estrategia muy útil generar el mayor número de corners en un partido.
Ahorra costes.
Gracias a la predicción de datos, puede ahorrar dinero al no lanzar un producto condenado al fracaso, al no invertir en una materia prima que se va a desplomar, o al hacer ajustes en la capacidad productiva de la empresa etc…
Permite analizar un volumen de datos que de otra manera sería imposible de analizar, o tendría un coste muy elevado.
¿Te ha quedado claro en qué consiste la minería de datos y cuál es la metodología que utilizan los mineros de datos?