Integración/Fusión de Datos

Integración y fusión de datos

La integración de datos implica la combinación de los datos que residen en diferentes fuentes y proporcionan a los usuarios una visión unificada de estos datos. Este proceso se vuelve significativo en una variedad de situaciones científicas, como la combinación de los resultados de investigación de diferentes repositorios de bioinformática. La integración de datos aparece cada vez con mayor frecuencia que el volumen y la necesidad de compartir y explotar los datos existentes. Se ha convertido en el foco de un extenso trabajo teórico, y numerosos problemas abiertos siguen sin resolverse.

Una solución completa de integración de datos abarca el descubrimiento, la limpieza, monitoreo, la transformación y la entrega de los datos a partir de una variedad de fuentes.

El objetivo de la integración de datos es establecer formas automatizadas y eficientes para integrar conjuntos de datos biológicos grandes y heterogéneos de múltiples fuentes. Sin embargo, este objetivo se ve desafiado por las fuentes de datos que están distribuidas geográficamente y heterogéneas en cuanto a métodos de acceso y formatos.

Fusión de datos

La fusión de datos es el proceso de integración de múltiples datos y conocimientos que representa el mismo objeto del mundo real en una representación coherente, precisa y útil.

Puede ser categorizado como bajo, intermedio o alto, dependiendo de la etapa en la que la fusión tiene lugar. La fusión bajo nivel de datos utiliza datos en bruto para producir nuevos datos en bruto. Las esperanzas son que los datos fusionados podrían ser más informativos y sintéticos que la visualización de las fuentes originales independientemente.

En general, todas las tareas que exigen algún tipo de estimación de parámetros de fuentes múltiples pueden beneficiarse con métodos de fusión. La fusión de la información y la fusión de datos se utilizan a veces como sinónimos, con la fusión de datos siendo el término utilizado para los datos en bruto (forma obtenida directamente del dispositivo) y la fusión de la información término empleado para definir los datos ya procesados.

Las técnicas de fusión de datos se han empleado ampliamente en diferentes entornos, con el objetivo de fusionar y agregar datos de diferentes fuentes. Estas técnicas se pueden aplicar a diferentes dominios. Un objetivo adicional del uso de la fusión de datos de diferentes entornos es obtener una probabilidad de error de detección más bajo y una mayor fiabilidad mediante el uso de datos procedentes de múltiples fuentes distribuidas.

Sobre la base de las relaciones de las fuentes, se han propuesto los siguientes criterios de clasificación:

1. complementarios: cuando la información proporcionada por las fuentes de entrada representa diferentes partes de la escena y por lo tanto se podría utilizar para obtener información global más completa. Por ejemplo, la información sobre el mismo objeto proporcionado por dos puntos de vista diferentes puede considerarse complementaria;
2. redundante: cuando dos o más fuentes de entrada proporcionan información sobre el mismo objetivo y que la información se puede utilizar para aumentar la confianza.
3. cooperativo: cuando la información proporcionada se combinan en la nueva información que suele ser más compleja que la información original. Por ejemplo, la fusión de datos multimodal se considera cooperativa.