Introducción a Azure HDInsight

Blog / Introducción a Azure HDInsight /
Introducción a Azure HDInsight

Por: Leonardo Narváez.

En: 6 de Noviembre de 2024 a las 08:41
Azure Azure HDInsight Azure Portal ETL Hadoop

¿Qué es Azure HDInsight?

Azure HDInsight es un servicio en la nube totalmente administrado que permite a las empresas ejecutar marcos de macrodatos de código abierto como Apache Spark, Hive, Kafka y Hadoop en Azure. Está optimizado para manejar grandes volúmenes de datos con alta velocidad y eficiencia, proporcionando una plataforma de clúster administrado para análisis de datos.

¿Por qué debo usar Azure HDInsight?

  • Nativo en la nube: Permite crear clústeres optimizados para tecnologías como Spark, Kafka y Hadoop en Azure, con un Acuerdo de Nivel de Servicio para cargas de trabajo de producción.
  • Rentable y escalable: Permite ajustar la capacidad según sea necesario, pagando solo por lo que se usa. Ofrece flexibilidad y mejor rendimiento mediante el desacoplamiento del procesamiento y almacenamiento.
  • Seguro y conforme: Protección de datos con Azure Virtual Network, cifrado e integración con Microsoft Entra ID. Cumple con los principales estándares de cumplimiento normativo.
  • Supervisión: Integración con Azure Monitor para supervisar los clústeres a través de una interfaz unificada.
  • Disponibilidad global: Disponible en más regiones que otras soluciones de análisis de macrodatos, incluyendo Azure Government, China y Alemania.
  • Productividad: Soporta herramientas de desarrollo como Visual Studio, VSCode, Eclipse e IntelliJ, y compatibilidad con lenguajes como Scala, Python, Java y .NET.
  • Extensibilidad: Permite ampliar clústeres con componentes adicionales e integración con otras aplicaciones de macrodatos mediante un solo clic.


Grandes volúmenes de datos (Macrodatos):

Son datos recopilados a gran escala, a altas velocidades y en una variedad de formatos. Pueden ser históricos (almacenados) o en tiempo real (transferidos desde su origen).

Tipos de clúster en HDInsight:

  • Apache Hadoop: Plataforma que utiliza HDFS, YARN y MapReduce para procesar y analizar grandes volúmenes de datos en paralelo por lotes.
  • Apache Spark: Plataforma de procesamiento paralelo en memoria, diseñada para mejorar el rendimiento de aplicaciones de análisis de macrodatos.
  • Apache HBase: Base de datos NoSQL en Hadoop que gestiona grandes volúmenes de datos no estructurados o semiestructurados, permitiendo acceso aleatorio y coherencia fuerte.
  • Consulta interactiva de Apache (Interactive Query): Optimización de Hive con almacenamiento en caché en memoria para realizar consultas más rápidas.
  • Apache Kafka: Plataforma para crear canalizaciones de datos en tiempo real y gestionar flujos de datos, con capacidades de cola de mensajes.


Escenarios de uso de HDInsight:

Procesamiento por lotes (ETL):

El proceso de Extracción, Transformación y Carga (ETL) extrae datos estructurados o no estructurados de fuentes heterogéneas, los transforma a un formato estructurado y los carga en un almacén de datos para su análisis o almacenamiento.

Almacenamiento de datos:

HDInsight permite realizar consultas interactivas sobre grandes volúmenes de datos (hasta petabytes) en cualquier formato, y también facilita la creación de modelos a través de herramientas de BI.

Diagram showing how HDInsight helps several tools gather, store, and prepare data for analysis, and then facilitates data analysis by other tools.

Internet de las Cosas (IoT):

HDInsight procesa datos en tiempo real provenientes de dispositivos IoT, usando plataformas como Apache Kafka para gestionar los flujos de datos.

Diagram of the Internet of things scenario, which the preceding text describes.

Ciencia de datos

Puede usar HDInsight para completar tareas comunes de ciencia de datos, como:

  • Ingesta de datos.
  • Diseño de características.
  • Modelado.
  • Evaluación del modelo.

En el diagrama siguiente se muestra un escenario de ciencia de datos, en el que:

  1. Los datos se recopilan de un origen de datos local mediante Azure Data Factory.
  2. A continuación, los datos ingeridos se almacenan en Azure Storage (ya sea Azure Blob Storage o Data Lake Store).
  3. Azure Spark en HDInsight procesa y prepara los datos para Azure Machine Learning. Los datos también se visualizan mediante Power BI.

Diagram that displays the data-science scenario, which the preceding text describes.

Híbrido:

HDInsight permite ampliar infraestructuras locales de macrodatos hacia la nube de Azure, aprovechando las capacidades avanzadas de análisis en la nube.

Diagram of the hybrid scenario, which the preceding text describes.

Componentes de código abierto en HDInsight:

Azure HDInsight permite crear clústeres con marcos de código abierto como Spark, Hive, Kafka, Hadoop y HBase. Los clústeres incluyen por defecto varios componentes como Apache Ambari, Avro, Hive3, HCatalog, Hadoop MapReduce, YARN, Phoenix, Pig, Sqoop, Tez, Oozie y ZooKeeper.

Lenguajes de programación en HDInsight:

HDInsight admite múltiples lenguajes de programación para clústeres como Spark, HBase, Kafka y Hadoop. Si algún módulo o paquete necesario no está instalado por defecto, se puede agregar mediante una acción de script.

Herramientas de desarrollo para HDInsight:

HDInsight se integra con varias herramientas de desarrollo, como:

  • IntelliJ, Eclipse, Visual Studio Code y Visual Studio para crear y enviar trabajos y consultas de datos.
  • Azure Toolkit for IntelliJ (versión 10)
  • Azure Toolkit for Eclipse (versión 6)
  • Herramientas de Azure HDInsight para VS Code (versión 13)
  • Herramientas de Azure Data Lake para Visual Studio (versión 9)

Inteligencia empresarial en HDInsight:

HDInsight permite la integración con herramientas de Business Intelligence (BI) para análisis y generación de informes, utilizando el complemento Power Query o el Microsoft Hive ODBC Driver:

  • Apache Spark BI: Visualización de datos con herramientas de análisis de datos.
  • Visualización de datos de Apache Hive con Microsoft Power BI.
  • Visualización de datos de Interactive Query Hive con Power BI.
  • Conexión de Excel a Apache Hadoop mediante Power Query o Hive ODBC Driver (requiere Windows).

Residencia de datos en la región:

  • Spark, Hadoop y LLAP no almacenan datos de clientes, cumpliendo automáticamente con los requisitos de residencia de datos en la región.
  • Kafka y HBase almacenan datos de clientes en una sola región, cumpliendo también con los requisitos de residencia de datos especificados en el Centro de confianza.


Compartir:

Ver más

Introducción a Azure Synapse Analytics
152 Informativa
Introducción a Azure Datalake Storage Gen2
135 Informativa
Introducción a la Ingeniería de Datos en Azure
141 Informativa
¿Qué es una KPI?
133 Informativa

author-introduccion-a-azure-hdinsight
Leonardo Narváez

Desarrollador de software apasionado y creativo con experiencia en diversos lenguajes y tecnologías. Especializado en la creación de soluciones innovadoras y eficientes, como aplicaciones web y móviles, sitios web interactivos y soluciones personalizadas.

Artículos