Es el proceso que le permite a un negocio extraer información útil ya sea de forma descriptiva por naturaleza o que predice el futuro, beneficiándose de los datos recolectados a lo largo del tiempo usando diferentes técnicas y herramientas.
Data mining
El data mining es el proceso de descubrir información dentro de un conjunto de datos; también es conocido como Knowledge Discovery in Databases (KDD). Existen 2 resultados que se pueden lograr con el data mining – describir los datos que tiene o hacer predicciones sobre el futuro.
El 1er paso, y tal vez el más difícil, en data mining es establecer el objetivo del negocio. También es el más importante. Si no sabe lo que busca, será difícil seleccionar los tipos, algoritmos y modelos de Machine Learning necesarios para obtener la información que necesita.
El data mining puede ayudar con ventas y marketing, para que una empresa pueda entender mejor sus clientes y su publicidad. Las escuelas y universidades pueden usarlo para entender mejor a sus estudiantes basado en información como el tiempo que pasan en un aula virtual, el número de golpes en el teclado, las clases tomadas de manera simultánea o cuáles clases tienen mejores calificaciones.
Las empresas también pueden usar el data mining para optimizar sus operaciones al entender la manufactura, el ensamblaje, las fallas, entre otras cosas. También beneficia la detección de fraudes. La banca puede usar data mining para buscar patrones de fraude o incluso la tienda que ha sido comprometida.
El 2o paso es preparar sus datos. Si entiende su objetivo, sus científicos de datos pueden determinar el conjunto de datos relevante para que la información resultante sea útil para su negocio. Los científicos de datos deben limpiar los datos, duplicados, información faltante y excepciones en este segundo paso. Todo esto podría evitar que sus algoritmos y herramientas de data mining entreguen los resultados que necesita.
El 3er paso es crear el modelo y minar para encontrar patrones. Aquí es donde entran las técnicas y herramientas descritas debajo. El data mining podría usar algoritmos de machine learning con métodos supervisados o no supervisados.
El cuarto y último paso es evaluar los resultados que ha producido el data mining para hacer cambios o actuar de forma que sea benéfica para el negocio.
Las técnicas de data mining permiten que los científicos de datos hagan un mejor uso de grandes cantidades de datos. Algunas de las técnicas incluyen:
Las herramientas de data mining son esenciales para mejorar el efecto que tiene el data mining en la productividad de la empresa. Algunas de las herramientas más importantes son:
MonkeyLearn es una herramienta de análisis de texto. Puede usarla para detectar el humor social como reseñas negativas o automatizar su etiquetado de tickets o procesos de routing.
RapidMiner Studio es una plataforma de código abierto que ofrece una interfaz “drag-and-drop” que permite que gente sin experiencia en programación personaliza su caso de uso. Puede usarse para la detección de fraudes o la rotación de clientes. Para los programadores, existen extensiones de R y Python que personalizan el data mining. También hay una gran comunidad de soporte.
Sisense for Cloud Data Teams permite que los equipos trabajen para extraer inteligencia de sus datos sin importar el nivel técnico del miembro del equipo.
Alteryx Designer hace posible para los analistas de datos preparar, mezclar y analizar sus datos con una herramienta.
Qlik Sense es un software de visualización con "impresionantes gráficas y tablas." Permite que se puedan analizar múltiples fuentes de datos con una funcionalidad drag-and-drop.