Integración de Datos: Problemas y Técnicas de integración

Integración de Datos: Definición, Áreas, Problemas y Técnicas

La integración de datos implica la combinación de los datos que residen en diferentes fuentes y proporcionan a los usuarios una visión unificada de estos datos. Este proceso se vuelve significativo en una variedad de situaciones científicas, como la combinación de los resultados de investigación de diferentes repositorios de bioinformática.

La integración de datos aparece cada vez con mayor frecuencia que el volumen y la necesidad de compartir y explotar los datos existentes. Se ha convertido en el foco de un extenso trabajo teórico, y numerosos problemas abiertos siguen sin resolverse.

Una solución completa de integración de datos abarca el descubrimiento, la limpieza, monitoreo, la transformación y la entrega de los datos a partir de una variedad de fuentes.

Alternativamente existe la posibilidad de crear nuevas representaciones de los datos integrados, lo cual se denomina fusión de datos.

El objetivo de la integración de datos es establecer formas automatizadas y eficientes para integrar conjuntos de datos biológicos grandes y heterogéneos de múltiples fuentes. Sin embargo, este objetivo se ve desafiado por las fuentes de datos que están distribuidas geográficamente y heterogéneas en cuanto a métodos de acceso y formatos.

Probablemente la implementación más conocida de la integración de datos es la construcción de un almacén de datos de la empresa. El beneficio de un almacén de datos permite que una empresa realice análisis basados en los datos en el almacén de datos. Esto no sería posible con los datos disponibles solo en el sistema fuente. La razón es que los sistemas fuente pueden no contener datos correspondientes, aunque los datos se identifiquen de manera idéntica, pueden referirse a entidades diferentes.

Áreas de integración de datos

La integración de datos es un término que abarca varias subáreas distintas, tales como:

  • Almacenamiento de datos
  • Migración de datos
  • Integración de aplicaciones / información empresarial
  • Gestión de datos maestros

 

Problemas de la integración de datos

A primera vista, el mayor desafío es la implementación técnica de la integración de datos de fuentes dispares a menudo incompatibles. Sin embargo, un desafío mucho más grande radica en la totalidad de la integración de datos.

Debe incluir las siguientes fases:

Diseño

La iniciativa de integración de datos dentro de una empresa debe ser una iniciativa de negocios, no de TI.

Debería haber un gerente que comprenda los activos de datos de la empresa y será capaz de dirigir la discusión sobre la iniciativa de integración de datos a largo plazo para hacerlo coherente, exitoso y beneficioso.

El análisis de los requisitos (BRS), es decir, por qué se realiza la integración de datos, cuáles son los objetivos y los resultados. ¿De qué sistemas se obtendrán los datos? ¿Están todos los datos disponibles para cumplir con los requisitos? ¿Cuáles son las reglas del negocio? 

También cualquier otro requisito no funcional, como el tiempo de procesamiento de datos, el tiempo de respuesta del sistema, el número estimado de usuarios (concurrentes), la política de seguridad de datos, la política de respaldo.

Y por último, pero no menos importante, ¿quién será el propietario del sistema y cuál será el financiamiento de los gastos de mantenimiento y actualización?

Los resultados de los pasos anteriores deben estar documentados, confirmados y firmados por todas las partes que participarán en el proyecto de integración de datos.

Implementación

Se debe realizar un estudio de factibilidad para seleccionar las herramientas para implementar el sistema de integración de datos.

Las pequeñas empresas y empresas que están comenzando con el almacenamiento de datos se enfrentan a tomar una decisión sobre el conjunto de herramientas que necesitarán para implementar la solución.

La empresa más grande o las empresas que ya han iniciado otros proyectos de integración de datos se encuentran en una posición más fácil ya que tienen experiencia y pueden ampliar el sistema existente y explotar el conocimiento existente para implementar el sistema de manera más efectiva.

Sin embargo, hay casos en los que el uso de una plataforma o tecnología nueva y más adecuada hace que un sistema sea más eficaz en comparación con cumplir con los estándares existentes de la compañía.

Por ejemplo, encontrar la herramienta más adecuada que proporcione una mejor escalabilidad para un crecimiento / expansión futuro, una solución que reduzca el costo de implementación / soporte, disminuya los costos de licencias, migre el sistema a una plataforma nueva / moderna, etc.

Técnicas de integración de datos

Hay varios niveles de organización en los que se puede realizar la integración de datos, con diversos grados de automatización.

Integración Manual o interfaz de usuario común: los usuarios operan con toda la información relevante accediendo a todos los sistemas fuente o la interfaz de la página web. No existe una vista unificada de los datos.

Integración basada en aplicaciones: requiere que las aplicaciones particulares implementen todos los esfuerzos de integración. Este enfoque es manejable solo en caso de un número muy limitado de aplicaciones.

Integración de datos de Middleware: transfiere la lógica de integración de aplicaciones particulares a una nueva capa de middleware. Aunque la lógica de integración ya no se implementa en las aplicaciones, aún existe la necesidad de que las aplicaciones participen en la integración de datos.

Acceso uniforme a datos o integración virtual: deja datos en los sistemas de origen y define un conjunto de vistas para obtener y acceder a la vista unificada para el cliente en toda la empresa.

Por ejemplo, cuando un usuario accede a la información del cliente, los detalles particulares del cliente se adquieren de forma transparente desde el sistema respectivo. Los principales beneficios de la integración virtual son una latencia casi nula de la propagación de las actualizaciones de datos desde el sistema de origen a la vista consolidada, sin necesidad de almacenamiento separado para los datos consolidados.

Almacenamiento de datos comunes o integración de datos físicos: generalmente significa un sistema nuevo que conserva una copia de los sistemas fuente para almacenarlos y administrarlos independientemente del sistema original.

El ejemplo más conocido de este enfoque se llama Data Warehouse (DW). Los beneficios incluyen la administración de versiones de datos, combinando datos de fuentes muy diferentes (mainframes, bases de datos, archivos planos, etc.).

La inserción física, sin embargo, requiere un sistema separado para manejar los grandes volúmenes de datos.