Data Warehouse: Tipos, Aquitectura y Características

Data Warehouse

¿Qué es un Data Warehouse?

Un Data Warehouse es un lugar donde se almacenan los datos con fines de archivamiento, análisis de efectos y seguridad. Por lo general, un Data Warehouse es un único equipo o varios ordenadores (servidores) atados juntos para crear un sistema gigante de computadoras.

Los datos pueden consistir en datos primarios o datos con formato y pueden ser de diversos tipos de temas, incluyendo una organización de ventas, los salarios, los datos operativos, resúmenes de los datos incluidos, los informes, copias de los datos, los datos de los recursos humanos, los datos de los inventarios, los datos externos y para proporcionar simulaciones, análisis, etc.

Además de ser una Depósito (Warehouse) para almacenar grandes cantidades de datos, poseen sistemas que facilitan el acceso a los datos y su utilización en operaciones de día a día.

Un Data Warehouse es importante ya que sirve como un sistema de apoyo a las decisiones. Además sirve para organizar la utilización de los datos para llegar a los hechos, las tendencias o las relaciones que pueden ayudarles a tomar decisiones efectivas o crear estrategias eficaces para lograr sus objetivos.

Hay muchos modelos diferentes de Data Warehouse incluyendo el “procesamiento de transacciones en línea” que es un modelo construido para la velocidad y la facilidad de uso.

Otro tipo de Data Warehouse se llama “procesamiento analítico en línea”, este tipo de Data Warehouse es más difícil de utilizar y agrega un paso adicional en el análisis de los datos. Por lo general, requiere más medidas que hacen más lento el proceso de datos y mucho más difícil el analizar algunas consultas.

Además de este modelo, uno de los modelos más comunes de almacenamiento de datos incluye un Data Warehouse orientado al sujeto, variante en el tiempo, no volátil y integrado. Orientado al sujeto se refiere a que los datos sean unidos y organizados por las relaciones.

Variante en el tiempo significa que cualquier dato que se cambia en el Data Warehouse puede ser rastreado. Por lo general, todos los cambios de datos son marcados con un tiempo y con una fecha antes y después, de modo que se pueden mostrar los cambios a lo largo de un período de tiempo.

No volátil, que los datos nunca sean eliminados o borrados. Esta es una gran manera de proteger sus datos más importantes. Debido a que estos datos se retienen, pueden seguir siendo utilizados en un análisis posterior.

Por último, los datos están integrados, lo que significa que en un Data Warehouse, los datos son utilizados por toda la organización en lugar de sólo un departamento.

Además del término almacenamiento de datos, un término que se utiliza con frecuencia es una base de “data mart”, data mart son más pequeños y menos integrados almacenes de datos. Podrían ser sólo una base de datos sobre los recursos humanos o de los registros de datos de ventas en una sola división.

Con las mejoras en la tecnología, así como las innovaciones en el uso de técnicas de almacenamiento de datos, los Data Warehouse han cambiado a partir de bases de datos operacionales sin conexión a una línea integrada de almacenamiento de datos.

Tipos de Data Warehouse

Los data warehouse operacionales fuera de línea son almacenes de datos donde los datos son copiados y pegados por lo general en tiempo real. Por lo general, son la más simples y menos técnicos de los Data Warehouse.

Data Warehouse fuera de línea son almacenes de datos que se actualizan con frecuencia, ya sea diaria, semanal o mensual y donde los datos se almacenan en una estructura integrada, donde los demás puedan acceder a ella y llevar a cabo la presentación de informes.

Data Warehouse en Tiempo Real son almacenes de datos en los que se actualiza cada momento a medida que llegan nuevos datos. Por ejemplo, un Data Warehouse en tiempo real podría incluir datos de un sistema de Punto de Venta y se actualiza con cada venta que se haga.

Data Warehouse integrados son almacenes de datos que pueden ser utilizados por otros sistemas. Algunos Data Warehouse integrados son utilizados por otros Data Warehouse, lo que les permite acceder a ellos para procesar los informes, así como buscar los datos actuales.

Entonces, ¿por qué debería usted o su organización utilizar un Data Warehouse? Estos son algunos de los pros y los contras de utilizar este tipo de estructura de datos.

La razón numero uno, por la que deberían utilizar un Data Warehouse es para que los empleados o los usuarios finales puedan acceder a los datos para generar informes, realizar análisis y tomar decisiones. La utilización de los datos en un Data Warehouse puede ayudarle a localizar las tendencias, y lo ayudará a entender más sobre el medio ambiente que su negocio opera.

Los Data Warehouse también refuerzan la coherencia de los datos y le permite comprobar una y otra vez para determinar la relevancia de la información. Debido a que la mayoría de los Data Warehouse están integrados, se puede extraer datos de diferentes áreas de su negocio, por ejemplo, recursos humanos, finanzas, informática, contabilidad, etc.

Si bien hay muchas razones por las cuales se debe tener un Data Warehouse, cabe señalar que hay algunos aspectos negativos de tener un Data Warehouse como el hecho de que consumen mucho tiempo y recursos al crearlos y mantenerlos en funcionamiento.

También podría tener un problema con que los sistemas actuales fueran incompatibles con él. También es importante considerar los requerimientos futuros y las actualizaciones de software, que tienen que ser compatibles con los anteriores.

Por último, la seguridad puede ser una gran preocupación, especialmente si sus datos son accesibles a través de una red abierta como Internet. Usted no desea que sus datos sean vistos por su competidor o peor, hackeados y destruidos.

Arquitectura de Data Warehouses

El almacén de datos o Data Warehouse es un sistema de información que contiene datos históricos y conmutativos de fuentes únicas o múltiples.

Simplifica el proceso de informes y análisis de la organización y puede funcionar como una versión única de la verdad para cualquier empresa a la hora de tomar decisiones y analizar  pronósticos.

Componentes de un Data Warehouse

El almacén de datos se basa en un servidor RDBMS, que es un depósito de información central rodeado de algunos componentes clave para que todo el entorno sea funcional, manejable y accesible. Este almacén tiene cinco elementos que lo componen: 

Base de datos del almacén de datos: La base de datos central es la base del entorno de almacenamiento de datos. Esta base de datos se implementa en la tecnología RDBMS.

Herramientas de abastecimiento, adquisición, limpieza y transformación (ETL): Estas herramientas se utilizan para realizar todas las conversiones, resúmenes y todos los cambios necesarios para transformar los datos en un formato unificado en el Data Warehouse.

Metadatos: Los metadatos son datos sobre datos que definen el almacén de datos. Se utiliza para construir, mantener y administrar el almacén de datos.

Herramientas de consulta: Las herramientas de consulta permiten a los usuarios interactuar con el sistema de almacenamiento de datos.

Almacén de datos bus: El almacén de datos Bus determina el flujo de datos en tu almacén. El flujo de datos en un almacén de datos se puede clasificar como flujo de entrada, flujo ascendente, flujo descendente, flujo de salida y metaflujo.

Características de un Data Warehouse

Un almacén de datos tiene unas series de características que detallaremos a continuación: 

  • Orientado a Sujetos
  • Integrado
  • Variante de tiempo
  • No volátil

Orientado a Sujetos

Un almacén de datos está orientado a temas, ya que ofrece información sobre un tema en lugar de las operaciones en curso de las empresas. Estos temas pueden ser ventas, marketing, distribuciones, etc.

Un almacén de datos nunca se centra en las operaciones en curso. En cambio, pone énfasis en el modelado y análisis de datos para la toma de decisiones. También proporciona una visión simple y concisa sobre el tema específico al excluir datos que no son útiles para respaldar el proceso de decisión.

Integrado

En Data Warehouse, integración significa el establecimiento de una unidad de medida común para todos los datos similares de la base de datos diferente. Los datos también deben almacenarse en Data Warehouse de manera común y universalmente aceptable.

Un almacén de datos se desarrolla integrando datos de diversas fuentes como mainframe, bases de datos relacionales, archivos planos, etc. Además, debe mantener convenciones de nomenclatura, formato y codificación coherentes.

Esta integración ayuda en el análisis efectivo de datos. Debe garantizarse la coherencia en las convenciones de nomenclatura, medidas de atributos, estructura de codificación, entre otros.

Variante de tiempo

El horizonte de tiempo para el almacenamiento de datos es bastante extenso en comparación con los sistemas operativos. Los datos recopilados en un almacén de datos se reconocen con un período particular y ofrecen información desde el punto de vista histórico.

Contiene un elemento de tiempo, explícito o implícito. Uno de esos lugares donde la variación de tiempo de visualización de datos de Data Warehouse se encuentra en la estructura de la clave de registro. Cada clave principal contenida con el DW debe tener implícita o explícitamente un elemento de tiempo.

Como el día, semana mes, etc. Otro aspecto de la variación de tiempo es que una vez que los datos se insertan en el almacén, no se pueden actualizar ni cambiar.

No volátil

El almacén de datos tampoco es volátil, lo que significa que los datos anteriores no se borran cuando se ingresan nuevos datos. Los datos son de solo lectura y se actualizan periódicamente.

Esto también ayuda a analizar datos históricos y comprender qué y cuándo sucedió. No requiere procesos de transacción, recuperación y mecanismos de control de concurrencia.

Las actividades como eliminar, actualizar e insertar que se realizan en un entorno de aplicación operativa se omiten en el entorno del almacén de datos. 

Tipos de Data Warehouse

Existen principalmente tres tipos de arquitecturas de Data Warehouse:

  • Arquitectura de un nivel.
  • Arquitectura de dos niveles.
  • Arquitectura de tres niveles.

Arquitectura de un solo nivel

El objetivo de la arquitectura de un solo nivel o de una sola capa es minimizar la cantidad de datos almacenados.

Este objetivo es eliminar la redundancia de datos. Esta arquitectura no se usa con frecuencia en la práctica.

Arquitectura de dos niveles

La arquitectura de dos capas separa las fuentes físicamente disponibles y el almacén de datos.

Esta arquitectura no es expandible y tampoco admite una gran cantidad de usuarios finales. También tiene problemas de conectividad debido a las limitaciones de la red.

Arquitectura de tres niveles

Esta es la arquitectura más utilizada. Se compone de los niveles superior, medio e inferior.

Nivel inferior: la base de datos de los servidores de Data Warehouse como nivel inferior suele ser un sistema de base de datos relacional. Los datos se limpian, transforman y cargan en esta capa utilizando herramientas de back-end.

Nivel medio: el nivel medio en el almacén de datos es un servidor OLAP que se implementa utilizando el modelo ROLAP o MOLAP.

Para un usuario, este nivel de aplicación presenta una vista abstracta de la base de datos. Esta capa también actúa como mediador entre el usuario final y la base de datos.

Nivel superior: el nivel superior es una capa de cliente front-end. El nivel superior son las herramientas y API que conecta y saca datos del almacén de datos.

Podrían ser herramientas de consulta, herramientas de informes, herramientas de consulta administrada, herramientas de análisis y herramientas de minería de datos.