Introducción:
En la mayoría de las organizaciones, un ingeniero de datos es el responsable de integrar, transformar y consolidar datos de varios sistemas que pueden tener datos estructurados y no estructurados. El ingeniero de datos de Azure garantiza que los datos y almacenes sean de alto rendimiento, eficientes, organizados y confiables.
¿En qué consiste la ingeniería de datos?
Como ingeniero de datos se trabaja con varios tipos de datos con los que se realizan múltiples operaciones mediante lenguajes o herramientas adecuadas.
Tipos de Datos
Operaciones de Datos
Algunas de las tareas principales del ingeniero de Datos que realizará en Azure incluyen: Integración de datos, transformación de datos y consolidación de datos
Integración de datos:
Establece vínculos entre los servicios operativos y analíticos y los orígenes de datos para permitir el acceso seguro y confiable a los datos en varios sistemas. Por ejemplo: Dentro de una empresa se puede tener varios datos repartidos en distintos sistemas, es trabajo del ingeniero de datos establecer un vínculo para que se pueda extraer los datos necesarios en estos sistemas.
Transformación de datos
Los datos que se recuperan deben transformarse en una estructura y formato adecuados para poder analizarse, la transformación de datos es un proceso de (ETL), aunque depende se puede usar (ELT) para ingerir los datos en un DataLake y poder analizarlos para su futuro análisis.
Consolidación de los datos
Este proceso se centra en combinar los datos extraídos en una estructura coherente, normalmente para admitir análisis e informes. Los datos operativos se extraen, transforman y cargan en almacenes analíticos, como un Datalake o un almacenamiento de datos.
Lenguajes comunes
Los ingenieros de datos usan varias herramientas y lenguajes de scripting para realizar el análisis de los datos, debe ser competente en:
Conceptos Importantes de Ingeniería de Datos
Existen conceptos básicos que es necesario como ingeniero de datos estar familiarizado. Entre estos tenemos:
Datos operativos y analíticos
Los datos operativos suelen ser transaccionales generados y almacenados por aplicaciones, como bases de datos relacionales o no relacionales, por otro lado los datos analíticos son datos que se han optimizado para el análisis o informe, suele estar guardado en un almacenamiento de datos.
Streaming de datos
Hacen referencia a orígenes perpetuos que generan valores de datos en tiempo real, los orígenes comunes incluyen dispositivos de internet de las cosas (IoT) y fuentes de redes sociales.
Es común que los ingenieros de datos necesiten implementar soluciones para capturar este flujo de datos en tiempo real, a menudo combina los datos de streaming con otros datos de aplicación que se procesan en lotes.
Canalizaciones de Datos
Se usan para orquestar actividades que transfieren y transforman datos, las canalizaciones es la forma habitual que usan los ingenieros de datos para implementar soluciones de extracción, transformación y carga repetibles (ETL) que se pueden desencadenar en función o respuesta a eventos.
Lago de Datos
Es un repositorio de almacenamiento que contiene grandes cantidades de datos en varios formatos y sin procesar. Estos almacenes están optimizados para escalar a volúmenes masivos (terabyte o petabyte) de datos. El enfoque principal de los lagos de Datos, Datalake, es capturar los datos en su estado original, en este almacenamiento se puede guardar datos estructurados, semiestructurados o no estructurados. Se diferencia del almacenamiento tradicional ya que transforma y procesa los datos en el momento de la ingesta.
Almacenamiento de Datos
Es un repositorio centralizado de datos integrados procedentes de uno o varios orígenes dispares. Estos almacenes de datos almacenan datos actuales e históricos en tablas relacionales organizadas en un esquema que optimiza el rendimiento de las consultas analíticas. Los ingenieros de datos se encargan de implementar estos almacenes de datos y administrar las cargas de datos.
Spark de Apache
Es un marco de procesamiento paralelo que aprovecha el procesamiento en memoria y un almacenamiento de archivo distribuido. Los ingenieros de datos deben ser competentes con Spark, usar todas sus herramientas para procesar datos en un Datalake y prepararlos para el modelado y análisis.
Ingeniería de datos de Microsoft Azure
Microsoft Azure incluye muchos servicios que se pueden usar para implementar y administrar cargas de trabajo de ingeniería de datos.
En el diagrama se muestra el flujo de izquierda a derecha de una solución típica de análisis de datos empresariales, incluye algunos de los servicio de Azure que se pueden usar para esta implementación. Los datos operativos se generan mediante aplicaciones o dispositivos y se almacenan en servicios de almacenamiento de datos como Azure SQL Database, Azure Cosmos DB y Microsoft Dataverse. Los datos de streaming se capturan en servicios de eventos como Azure Event hubs.
Los datos operativos deben capturarse, ingerirse y consolidarse en almacenes analíticos, donde se puedan modelar y visualizar informes. Estas tareas representan el área principal de responsabilidad del ingeniero de datos. Las tecnologías principales de Azure que usa el ingeniero de datos incluyen:
- Azure Synapse Analytics
- Azure Data Lake Storage Gen2
- Azure Stream Analytics
- Azure Data Factory
- Azure Databricks
Los almacenes de datos analíticos son generados por cargas de trabajo de ingeniería de datos admiten el modelado y visualización de datos para informes y análisis, mediante herramientas de visualización como Microsoft Power BI.
Resumen
La ingeniería de datos es un rol del sector bien establecido que es compatible con varios servicios en Microsoft Azure. Los ingenieros de datos pueden usar estos servicios para trabajar con diferentes tipos de datos, crear soluciones de integración, transformación y consolidación para admitir el análisis empresarial.
Puedes revisar unas diapositivas que he creado a partir de este post aqui: Introduccion ingenieria de datos.pptx