Procesamiento de Datos

Procesamiento de Datos


- Integridad de los datos
- Modelado de datos
- Almacenamiento de datos
- Minería de datos
- Proceso ETL

General

Procesamiento de datos se diferencia de la conversión de datos, cuando el proceso es simplemente para convertir datos a otro formato, y no implica ninguna manipulación o procesamiento de datos.

Terminología


Un bit es la unidad básica de almacenamiento de datos informáticos. Los bits se agrupan en bloques de ocho para formar bytes, que pueden almacenar un valor que la computadora puede interpretar como caracteres o calidad de la información.

Un campo es un elemento de información que puede almacenarse. Son colecciones de bytes que almacenan las características de una entidad (para describir una entidad), por ejemplo una persona, un ordenador, un coche etc.

Un registro consta de dos o más valores o variables almacenados en posiciones consecutivas de memoria.

Un archivo está compuesto por una colección de registros.

Una base de datos es una colección integrada de registros relacionados lógicamente, o archivos que consolidan los registros previamente almacenados en archivos separados en un fondo común de los registros de datos que proporciona datos para muchas aplicaciones.

Definiciones

Los datos pueden ser cualquier número o carácter que puede representar los valores de las mediciones o los fenómenos observables. Un solo dato es una medición de un fenómeno observable.

La información medida es deducida algorítmicamente derivada y/o lógica  y/o calculada estadísticamente a partir de múltiples datos (pruebas). La información es una respuesta a una pregunta o un significativo estímulo que puede dar lugar a nuevas preguntas. 

Por ejemplo, la recolección de datos sísmicos conduce a la alteración de los datos sísmicos para suprimir el ruido, mejorar la señal de los fenómenos sísmicos y migrar a la ubicación adecuada en el espacio.

Suelen incluir los pasos de procesamiento de análisis de las velocidades y frecuencias, correcciones estáticas, entre otros. El procesamiento de datos sísmicos facilita una mejor interpretación, debido a que las estructuras del subsuelo y geometrías de reflexión son más evidentes.


Datos vs Información

Los datos consisten en nada más que hechos (organizados o no organizados) que luego pueden ser manipulados en otras formas para que sean útiles y comprensibles, convirtiendo los datos en información.

El proceso de manipulación de hechos a información se conoce como "procesamiento". Para ser procesado por una computadora, los datos deben primero ser convertidos en un formato legible por máquina. Una vez que los datos están en formato digital, se pueden aplicar varios procedimientos sobre los datos para obtener información útil.

El procesamiento de datos puede involucrar varios procesos, incluyendo:


El procesamiento de datos puede o no puede distinguirse de la conversión de datos, que implica el cambio de datos en otro formato, y no implica ninguna manipulación de datos.

Durante el procesamiento, los datos brutos se utilizan como una entrada para producir información como una salida, normalmente en forma de informes y otras herramientas analíticas.

Etapas de procesamiento de datos

Recopilación de datos

La recopilación de datos es el primer paso en el procesamiento de datos. Los datos se obtienen de las fuentes disponibles, incluidos los archivos de testo y los almacenes de datos.

Es importante que las fuentes de datos disponibles sean confiables y estén bien construidas, por lo que los datos recopilados (y luego se utilizan como información) sean de la mejor calidad posible.

Preparación de datos

Una vez que se recopilan los datos, estos ingresan a la etapa de preparación de los datos. La preparación de datos, a menudo denominada "preprocesamiento", es la etapa en la que los datos sin procesar se limpian y organizan para la siguiente etapa de procesamiento de datos.

Durante la preparación, los datos sin procesar se verifican diligentemente para detectar cualquier error. El propósito de este paso es eliminar los datos incorrectos (datos redundantes, incompletos o incorrectos) y comenzar a crear datos de alta calidad para una mejor inteligencia empresarial.

Entrada de datos

Luego, los datos limpios se ingresan en su destino (tal vez un CRM como Salesforce o un almacén de datos), y se traducen a un idioma que se pueda comprender.

La entrada de datos es la primera etapa en la que los datos sin procesar comienzan a tomar la forma de información utilizable.

Procesamiento

Durante esta etapa, los datos ingresados ​​en la computadora en la etapa anterior se procesan para su interpretación. El procesamiento se puede realizar mediante técnicas de filtrado, análisis e visualización de datos e incluso con algoritmos de aprendizaje automático, aunque el proceso en sí puede variar ligeramente dependiendo de la fuente de datos que se procesa (base de datos, redes sociales, dispositivos conectados, etc.) y su uso previsto (examen de patrones de publicidad, diagnóstico de dispositivos conectados, determinar las necesidades del cliente, etc.).

Interpretación de los datos

La etapa de salida / interpretación es la etapa en la que los datos son finalmente utilizables para los usuarios. Se traducen los datos, se pueden leer, y  a menudo en forma de gráficos, videos, imágenes, texto sin formato, etc.).

Los miembros de la empresa o institución ahora pueden comenzar a administrar los datos para sus propios proyectos de análisis de datos.

Almacenamiento de datos

La etapa final del procesamiento de datos es el almacenamiento. Una vez que se procesan todos los datos, se almacenan para su uso futuro. Si bien es posible que alguna información se use de inmediato, gran parte de ella tendrá un propósito más adelante.

Además, los datos almacenados correctamente son una necesidad para cumplir con la legislación de protección de datos como GDPR. Cuando los datos se almacenan correctamente, los miembros de la organización pueden acceder a ellos rápida y fácilmente cuando sea necesario.

El análisis de datos


Cuando el dominio desde el que se recogen los datos es una ciencia o ingeniería, el procesamiento de datos y de sistemas informativos se consideran términos demasiado amplios, y el término más especializado, análisis de datos se suele utilizar, centrándose en la altamente especializada y altamente precisa derivación algorítmica y cálculos estadísticos que se observan con menos frecuencia en el típico entorno empresarial.

En estos contextos, el análisis de datos de formatos json, csv o xml se utilizan con frecuencia. Esta divergencia de nomenclatura se expone en las típicas representaciones numéricas utilizadas en el procesamiento de datos numéricos.

Las Mediciones de procesamiento de datos normalmente están representados por números enteros o de punto fijo con código binario o representaciones de los números decimales, mientras que la mayoría de las mediciones del análisis de datos son a menudo representados por representación de punto flotante de los números racionales. 

Tratamiento de datos


Prácticamente todos los procesos naturales pueden considerarse como ejemplos de sistemas de tratamiento de datos donde la "información observable" en forma de presión, luz, etc. se convierte en señales eléctricas en el sistema nervioso.

En los sentidos lo reconocemos como el tacto, el sonido, y la visión. Incluso en la interacción de los sistemas vivos rudimentarios se pueden ver esta una forma básica de sistemas de procesamiento de la información.

El uso convencional de los términos de procesamiento de datos y sistemas de información limitan su utilización para referirse a las derivaciones algorítmicas, deducciones lógicas, y los cálculos estadísticos que se repiten en los entornos empresariales, en lugar de el más amplio sentido, que es la conversión de todas las mediciones del mundo real en información del mundo real, por ejemplo, también en un sistema biológico orgánico o incluso un sistema científico o de ingeniería.

Elementos del procesamiento de datos

Con el fin de ser procesados por un ordenador, en primer lugar los datos necesitan ser convertidos en un formato legible por máquina.

Una vez que los datos están en formato digital, diversos procedimientos pueden aplicarse a los datos para obtener información útil. Procesamiento de datos pueden implicar diferentes procesos, entre ellos: