Técnicas de Análisis Big Data - Ejemplos y Aplicaciones

Técnicas de Análisis de datos de Big Data

'Big Data' es la aplicación de técnicas y tecnologías especializadas para procesar grandes conjuntos de datos. Estos conjuntos de datos a menudo son tan grandes y complejos que resulta difícil procesar utilizando las herramientas de administración de bases de datos disponibles.

Los ejemplos incluyen registros web, registros de llamadas, registros médicos, vigilancia militar, archivos de fotografía, archivos de video y comercio electrónico a gran escala.

El crecimiento radical de la tecnología de la información ha dado lugar a varias condiciones complementarias en la industria. Uno de los resultados más persistentes y posiblemente más presentes es la presencia de Big Data.

El término Big Data es una frase clave que se acuñó para describir la presencia de enormes cantidades de datos. El efecto resultante de tener una gran cantidad de datos es el análisis de datos.

La analítica de datos es el proceso de estructuración de Big Data. Dentro de Big Data, existen diferentes patrones y correlaciones que hacen posible que el análisis de datos haga una mejor caracterización de los datos.

Esto hace que el análisis de datos sea una de las partes más importantes de la tecnología de la información.

Reglas de Asociación

Un conjunto de técnicas para descubrir relaciones interesantes, es decir, "reglas de asociación", entre variables en grandes bases de datos. Estas técnicas consisten en una variedad de algoritmos para generar y probar posibles reglas.

Una aplicación es el análisis de la cesta de mercado, en la que un minorista puede determinar qué productos se compran con frecuencia de forma conjunta y utilizar esta información para su comercialización.

(Un ejemplo comúnmente citado es el descubrimiento de que muchos compradores de supermercados que compran nachos también compran cerveza).

El aprendizaje de reglas de asociación es un método para descubrir correlaciones interesantes entre variables en bases de datos grandes.

Primero fue utilizado por las principales cadenas de supermercados para descubrir relaciones interesantes entre los productos, utilizando datos de los sistemas de puntos de venta (POS) de los supermercados.

El aprendizaje de reglas de asociación se está utilizando para ayudar:

  • colocar los productos en una mejor proximidad entre ellos para aumentar las ventas
  • extraer información sobre los visitantes a los sitios web desde los registros del servidor web
  • analizar datos biológicos para descubrir nuevas relaciones
  • monitorear los registros del sistema para detectar intrusos y actividad maliciosa
  • identificar si las personas que compran leche y mantequilla son más propensas a comprar pañales

Más información en: aprendizaje de reglas de asociación

Árboles de clasificación

¿A qué categorías pertenece este documento?

La clasificación estadística es un método de identificación de categorías a las que pertenece una nueva observación y parte del análisis estadístico. Requiere un conjunto de entrenamiento de observaciones correctamente identificadas - datos históricos en otras palabras.

La clasificación estadística se usa para:

  • asignar automáticamente documentos a categorías
  • categorizar organismos en agrupaciones
  • desarrollar perfiles de estudiantes que toman cursos en línea

Más información en: aprendizaje con árboles de decisión

Agoritmos genéticos

¿Qué programas de TV deberíamos transmitir, y en qué horario, para maximizar los ratings?

Los algoritmos genéticos están inspirados en la forma en que funciona la evolución, es decir, a través de mecanismos tales como la herencia, la mutación y la selección natural. Estos mecanismos se usan para "evolucionar" soluciones útiles a problemas que requieren optimización.

Los algoritmos genéticos se utilizan para:

  • programar a los médicos para las salas de emergencia de los hospitales
  • combinaciones de retorno de los materiales óptimos y las prácticas de ingeniería necesarias para desarrollar vehículos de bajo consumo de combustible
  • generar contenido "artificialmente creativo" como juegos de palabras y bromas

Más información en: Algoritmos Genéticos: Definición, Pasos y Aplicaciones

Machine Learning

¿Qué películas de nuestro catálogo probablemente desee ver este cliente a continuación, en función de su historial de visualización?

El aprendizaje automático incluye un software que puede aprender de los datos. Le da a las computadoras la capacidad de aprender sin estar programado explícitamente, y se enfoca en hacer predicciones basadas en propiedades conocidas aprendidas de conjuntos de "datos de entrenamiento".

El aprendizaje automático se está utilizando para ayudar:

  • distinguir entre mensajes de correo electrónico no deseado y deseado
  • aprender las preferencias del usuario y hacer recomendaciones basadas en esta información
  • determinar el mejor contenido para captar clientes potenciales
  • determinar la probabilidad de ganar un caso y establecer tasas de facturación legales

Análisis de Regresión

¿Cómo afecta su edad el tipo de automóvil que compra?

En un nivel básico, el análisis de regresión implica la manipulación de una variable independiente (es decir, la música de fondo) para ver cómo influye en una variable dependiente (es decir, el tiempo que se pasa en la tienda).

Describe cómo cambia el valor de una variable dependiente cuando se varía la variable independiente. Funciona mejor con datos cuantitativos continuos como el peso, la velocidad o la edad.

El análisis de regresión se está utilizando para determinar:

  • los niveles de satisfacción del cliente afectan la lealtad del cliente
  • la cantidad de llamadas de soporte recibidas puede estar influenciada por el pronóstico del tiempo dado el día anterior
  • el vecindario y el tamaño afectan el precio de venta de las casas
  • para encontrar el amor de tu vida a través de sitios de citas en línea

Análisis de Sentimientos

¿Qué tan bien se está recibiendo nuestra nueva política de devolución?

El análisis del sentimiento ayuda a los investigadores a determinar los sentimientos de los hablantes o escritores con respecto a un tema.

El análisis de sentimiento se está utilizando para ayudar:

  • mejorar el servicio en una cadena de hoteles mediante el análisis de los comentarios de los huéspedes
  • personalizar incentivos y servicios para abordar lo que los clientes realmente están pidiendo
  • determinar qué piensan realmente los consumidores basándose en las opiniones de las redes sociales

Análisis en redes sociales

El análisis de redes sociales es una técnica que se utilizó por primera vez en la industria de las telecomunicaciones y luego fue adoptada rápidamente por sociólogos para estudiar las relaciones interpersonales.

Ahora se está aplicando para analizar las relaciones entre personas en muchos campos y actividades comerciales. Los nodos representan individuos dentro de una red, mientras que los vínculos representan las relaciones entre los individuos.

El análisis de redes sociales se está utilizando para:

  • ver cómo las personas de diferentes poblaciones forman lazos con los de afuera
  • encontrar la importancia o influencia de un individuo en particular dentro de un grupo
  • encontrar la cantidad mínima de vínculos directos necesarios para conectar a dos personas
  • entender la estructura social de una base de clientes

Ya sea que su empresa quiera descubrir correlaciones interesantes, categorizar personas en grupos, programar recursos de manera óptima o establecer tarifas de facturación, una comprensión básica de las siete técnicas mencionadas anteriormente puede ayudar a Big Data a trabajar para usted.

Análisis de clustering

Un método estadístico para clasificar objetos que divide un grupo diverso en grupos más pequeños de objetos similares, cuyas características de similitud no se conocen de antemano.

Un ejemplo de análisis de conglomerados es segmentar a los consumidores en grupos similares para el marketing dirigido. Utilizado para minería de datos.

Crowdsourcing

En crowdsourcing, es dónde una tarea o un trabajo se terceriza, pero no a un profesional u organización designada, sino para el público en general en forma de una llamada abierta.

Crowdsourcing es una técnica que se puede implementar para recopilar datos de diversas fuentes, como mensajes de texto, actualizaciones de redes sociales, blogs, etc.

Este es un tipo de colaboración masiva y una instancia de uso de la Web.

Prueba A / B

A / B Testing es una herramienta de evaluación para identificar qué versión de una página web o una aplicación ayuda a una organización o individuo a cumplir un objetivo de negocio de manera más efectiva.

Esta decisión se toma comparando qué versión de algo funciona mejor. Las pruebas A / B se usan comúnmente en el desarrollo web para garantizar que los cambios en una página web o componente de página se basen en datos y no en opiniones personales.

También se conoce como prueba derramada o prueba de cubeta.

Fusión de datos e integración de datos

Un proceso multinivel que trata con la asociación, la correlación, la combinación de datos e información de fuentes únicas y múltiples para lograr una posición refinada, identifica estimaciones y evaluaciones completas y oportunas de situaciones, amenazas y su importancia.

Las técnicas de fusión de datos combinan los datos de múltiples sensores y la información relacionada de las bases de datos asociadas para lograr una mayor precisión e inferencias más específicas de las que se podrían lograr mediante el uso de un único sensor solo.

Más información en: Integración y Fusión de datos

Minería de datos

La minería de datos está clasificando datos para identificar patrones y establecer relaciones. La extracción de datos se refiere a las técnicas de extracción de datos colectivos que se realizan en grandes volúmenes de datos.

Los parámetros de minería de datos incluyen asociación, análisis de secuencia, clasificación, agrupamiento y previsión.

Las aplicaciones incluyen la minería de datos de clientes para determinar los segmentos con mayor probabilidad de responder a una oferta, la minería de datos de recursos humanos para identificar las características de los empleados más exitosos o el análisis de la cesta de mercado para modelar el comportamiento de compra de los clientes.

Más información en: Minería de Datos

Ensemble learning

Es un arte de combinar diversos juegos de algoritmos de aprendizaje para improvisar sobre la estabilidad y el poder predictivo del modelo. Este es un tipo de aprendizaje supervisado.

Procesamiento natural del lenguaje

Un conjunto de técnicas de una subespecialidad de la informática (dentro de un campo históricamente llamado "inteligencia artificial") y lingüística que utiliza algoritmos informáticos para analizar el lenguaje humano (natural).

Muchas técnicas de PNL son tipos de aprendizaje automático. Una aplicación de NLP está utilizando el análisis de sentimientos en las redes sociales para determinar cómo los posibles clientes están reaccionando a una campaña de marca.

Redes neuronales

Modelos predictivos no lineales que aprenden a través del entrenamiento y se asemejan a las redes neuronales biológicas en su estructura. Se pueden usar para reconocimiento y optimización de patrones.

Algunas aplicaciones de redes neuronales implican aprendizaje supervisado y otras implican aprendizaje no supervisado.

Ejemplos de aplicaciones incluyen identificar clientes de alto valor que están en riesgo de abandonar una compañía en particular e identificar reclamos de seguro fraudulentos.

Más información en: Redes Neuronales

Optimización

Una cartera de técnicas numéricas utilizadas para rediseñar sistemas y procesos complejos para mejorar su rendimiento de acuerdo con una o más medidas objetivas (por ejemplo, costo, velocidad o confiabilidad).

Entre los ejemplos de aplicaciones se incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y el diseño de piso, y la toma de decisiones estratégicas, como la estrategia de gama de productos, el análisis de inversiones vinculadas y la estrategia de cartera de I + D. Los algoritmos genéticos son un ejemplo de una técnica de optimización.