Minería de datos

Minería de datos

¿Qué es la minería de datos?



Información general


En general, la minería de datos (a veces se llama descubrimiento de datos o de conocimiento) es el proceso de analizar los datos desde diferentes perspectivas y resumiéndolos en información útil - información que se puede utilizar para aumentar los ingresos, reducir los costos, o ambas cosas. El software de minería de datos es uno de una serie de instrumentos analíticos para el análisis de datos. Permite a los usuarios analizar los datos desde muchas dimensiones o ángulos, clasificar, y resumir las relaciones identificadas. Técnicamente, la minería de datos es el proceso de encontrar correlaciones o patrones, entre decenas de campos de grandes bases de datos relacionales.

Innovación continua


Aunque la minería de datos es un término relativamente nuevo, la tecnología no lo es. Las compañías han utilizado equipos de gran alcance para tamizar a través de volúmenes de datos de escaneo de los supermercados y analizar los informes de investigación de mercado durante años. Sin embargo, las continuas innovaciones en la capacidad de procesamiento, almacenamiento en disco, y software para estadística están aumentando drásticamente la precisión del análisis, mientras reducen el coste.

Ejemplo


Por ejemplo, una cadena de supermercados utiliza la capacidad de extracción de datos del software de Oracle para analizar los patrones locales de compra. Descubrieron que cuando los hombres compran pañales, los jueves y sábados, también tienden a comprar cerveza. Análisis posteriores mostraron que estos compradores normalmente hacían sus compras semanales de los sábados. Los jueves, sin embargo, compraron sólo algunos artículos. El minorista llegó a la conclusión de que compraban la cerveza para tenerla disponible para el fin de semana próximo. La cadena de supermercados podría utilizar esta información recientemente descubierta en varias formas para aumentar los ingresos. Por ejemplo, podría mover la cerveza más cerca de los pañales. Y, podría hacer que la cerveza y los pañales se vendan a precio completo los jueves.

Datos, información y conocimiento


Datos


Los datos son cualquier hecho, número o texto que puede ser procesado ​​por una computadora. Hoy en día, las organizaciones están acumulando grandes cantidades, y cada vez mayores, de datos en diferentes formatos y diferentes bases de datos. Esto incluye:
• datos operativos o transaccionales, tales como, ventas, costos, inventario, nómina y contabilidad
• datos no operacionales, tales como ventas de la industria, datos del pronóstico del tiempo y datos macro económicos
• meta datos - datos sobre los datos en sí, como el diseño de base de datos lógica o los datos de las definiciones del diccionario

Información


Los patrones, asociaciones, o relaciones entre todos estos datos pueden proporcionar información. Por ejemplo, el análisis del punto de venta de datos de transacciones de venta puede dar información sobre qué productos se venden y cuándo.

Conocimiento


La información puede ser convertida en conocimiento acerca de los patrones históricos y las tendencias futuras. Por ejemplo, la información resumida sobre las ventas de supermercados minoristas puede ser analizada a la luz de los esfuerzos de promoción para facilitar el conocimiento del comportamiento de compra del consumidor. Por lo tanto, un fabricante o distribuidor puede determinar qué elementos son los más susceptibles a los esfuerzos de promoción.

Almacenes de datos


Los dramáticos avances en la captura de datos, potencia de procesamiento, transmisión de datos y capacidades de almacenamiento están permitiendo a las organizaciones integrar sus diversas bases de datos en almacenes de datos. El almacenamiento de datos se define como un proceso de gestión de datos centralizado y su recuperación. El almacenamiento de datos, como la minería de datos, es un término relativamente nuevo, aunque el concepto en sí ha existido por años. El almacenamiento de datos representa una visión ideal de mantener un repositorio central de todos los datos de la organización. La centralización de los datos es necesaria para maximizar el acceso de los usuarios y el análisis. Los dramáticos avances tecnológicos hacen que esta visión sea una realidad para muchas empresas. Y, los avances igualmente espectaculares en el software de análisis de datos, permite a los usuarios acceder a estos datos libremente. El software de análisis de datos es lo que apoya la minería de datos.

¿Qué puede hacer la minería de datos?


La minería de datos se utiliza sobre todo hoy en día por las empresas con un enfoque fuerte en los consumidores – comunicaciones, comercio, finanzas, y las organizaciones de comercialización. Esto permite que las empresas determinen las relaciones entre los factores "internos" como el precio, posicionamiento del producto, o las habilidades del personal, y factores "externos", como los indicadores económicos, la competencia, y la demografía de los clientes. Y, que les permite determinar el impacto en las ventas, la satisfacción del cliente, y las ganancias corporativas. Por último, les permite "profundizar" en la información resumida para ver datos detallados de las transacciones.

Con la minería de datos, un minorista puede utilizar los registros de puntos de venta de compras de los clientes para enviar promociones específicas basadas en el historial de compras de un individuo. Minando datos demográficos de las tarjetas de comentarios o de garantía, el distribuidor podría desarrollar productos y promociones para atraer a segmentos específicos de clientes.

Por ejemplo, Blockbuster Entertainment mina su base de datos del historial de alquiler de vídeo para recomendar alquileres a los clientes individuales. American Express puede sugerir productos a sus titulares de tarjetas basados en el análisis de sus gastos mensuales.

Wal-Mart es una empresa pionera en la minería masiva de datos para transformar sus relaciones con los proveedores. WalMart captura transacciones en puntos de venta de más de 2.900 tiendas en seis países y continuamente transmite estos datos a su enorme depósito de 7.5 terabytes de datos de Teradata. Wal-Mart permite a más de 3.500 proveedores, acceder a datos sobre sus productos y realizar análisis de datos. Estos proveedores utilizan estos datos para identificar patrones de compra del cliente a nivel de exhibición de la tienda. Ellos usan esta información para administrar inventario de la tienda local e identificar nuevas oportunidades de comercialización. En 1995, las computadoras WalMart procesaron más de 1.000.000 de consultas de datos complejos.

¿Cómo funciona la minería de datos?


Si bien la tecnología de información a gran escala ha ido evolucionando por separado las transacciones y sistemas de análisis, la minería de datos proporciona un enlace entre los dos. El software de minería de datos analiza las relaciones y patrones en los datos de transacción almacenados sobre la base de consultas de los usuarios de composición abierta. Existen varios tipos de software de análisis que están disponibles: estadísticos, de aprendizaje automático, y redes neuronales. En general, se buscan cualquiera de estos cuatro tipos de relaciones:

• Clases:

Los datos almacenados se utilizan para localizar datos en grupos predeterminados. Por ejemplo, una cadena de restaurantes podría minar datos de compra del cliente para determinar cuando los clientes los visitan y lo que normalmente ordenan. Esta información podría utilizarse para aumentar el tráfico al tener especiales del día.

• Grupos:

Los elementos de datos se agrupan de acuerdo a las relaciones lógicas o preferencias de los consumidores. Por ejemplo, los datos pueden ser extraídos para identificar segmentos de mercado o afinidades de los consumidores.

• Asociaciones:

Los datos pueden ser minados para identificar asociaciones. El ejemplo de cerveza-pañal es un ejemplo de minería asociativa.

• Patrones secuenciales:

Los datos se minan para anticipar patrones de comportamiento y tendencias. Por ejemplo, un distribuidor especializado en sistemas al aire libre puede predecir la probabilidad de compra de una mochila basado en la compra de un consumidor de sacos de dormir y calzado de senderismo.

La minería de datos se compone de cinco elementos principales:
• Extraer, transformar y cargar datos de transacciones en el sistema de almacenamiento de datos.
• Almacenar y manejar los datos en un sistema de base de datos multidimensional.
• Proporcionar acceso a datos para los analistas de negocios y profesionales de tecnologías de la información.
• Analizar los datos por un software de aplicación.
• Presentar los datos en un formato útil, como un gráfico o tabla.

Diferentes niveles de análisis disponibles:

• Redes neuronales artificiales

modelos predictivos no lineales que aprenden a través de la formación y se asemejan a redes neuronales biológicas en su estructura.

• Algoritmos genéticos

Técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural.

• Árboles de decisión

Estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión (CART) y Detección Automática de Interacción (Chi Cuadrado CHAID). CART y CHAID son técnicas de árboles de decisión para la clasificación de un conjunto de datos. Constituyen un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros tendrán un resultado determinado. CART segmenta un conjunto de datos mediante la creación de dos vías dividas, mientras que CHAID segmenta utilizando pruebas de chi cuadrado para crear divisiones en múltiples direcciones. CART normalmente requiere menos preparación de datos que CHAID.

• Método del vecino más próximo

Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de registro(s)  k más similares a él en un conjunto de datos históricos (donde k 1). A veces se llama técnica del vecino k-más cercano.

• Inducción de reglas

La extracción de reglas if-then útiles basados ​​en la significación estadística.

• Visualización de datos:

La interpretación visual de las complejas relaciones de datos multidimensionales. Las herramientas de gráficos se utilizan para ilustrar las relaciones de datos.

¿Qué infraestructura tecnológica se requiere?


Hoy en día, las aplicaciones de minería de datos están disponibles en sistemas de todo tamaño, para mainframe, cliente / servidor, y para PC. Los precios de sistemas van desde varios miles de dólares para las aplicaciones más pequeñas hasta 1 millón de dólares por terabyte en los más grandes. Las aplicaciones a nivel de empresa, en general, varían en tamaño desde 10 gigabytes a más de 11 terabytes. NCR tiene la capacidad de ofrecer aplicaciones de más de 100 terabytes. Hay dos factores tecnológicos críticos:

• Tamaño de la base de datos

Entre más datos haya en proceso y siendo mantenidos, más poderoso es el sistema requerido.

• Complejidad de consultas

Entre más complejas las consultas y mayor el número de consultas en proceso, más poderoso debe ser el sistema requerido.

La tecnología de almacenamiento de bases de datos relacionales y de gestión es adecuada para muchas aplicaciones de minería de datos de menos de 50 gigabytes. Sin embargo, esta infraestructura debe ser significativamente mejorada para soportar aplicaciones de mayor tamaño. Algunos fabricantes han añadido amplias capacidades de indexación para mejorar el rendimiento de la consulta. Otros utilizan nuevas arquitecturas de hardware, tales como procesadores masivos en paralelo (MPP) para lograr mejoras de magnitud en el tiempo de consulta. Por ejemplo, sistemas de MPP en cientos enlaces NCR en procesadores Pentium de alta velocidad para alcanzar niveles de rendimiento superiores a las de los más grandes superordenadores.