Analice datos en un lago de datos con Spark
Apache Spark es un motor de código abierto para el procesamiento distribuido de datos y se usa ampliamente para explorar, procesar y analizar grandes volúmenes de datos en el almacenamiento de lagos de datos. Spark está disponible como una opción de procesamiento en muchos productos de plataformas de datos, incluidos Azure HDInsight, Azure Databricks y Azure Synapse Analytics en la plataforma de nube Microsoft Azure. Uno de los beneficios de Spark es la compatibilidad con una amplia gama de lenguajes de programación, incluidos Java, Scala, Python y SQL, lo que hace que Spark sea una solución muy flexible para cargas de trabajo de procesamiento de datos, que incluyen limpieza y manipulación de datos, análisis estadístico y aprendizaje automático, y análisis y visualización de datos.
Aprovisionar un espacio de trabajo de Azure Synapse Analytics
Necesitará un espacio de trabajo de Azure Synapse Analytics con acceso al almacenamiento del lago de datos y un grupo de Apache Spark que pueda usar para consultar y procesar archivos en el lago de datos.
En este ejercicio, utilizará una combinación de un script de PowerShell y una plantilla ARM para aprovisionar un área de trabajo de Azure Synapse Analytics.
1.- Inicie sesión en el portal de Azure en https://portal.azure.com
.
2.- Utilice el botón [>_] a la derecha de la barra de búsqueda en la parte superior de la página para crear un nuevo Cloud Shell en el portal de Azure, seleccionando un entorno de PowerShell y creando almacenamiento si se le solicita. Cloud Shell proporciona una interfaz de línea de comandos en un panel en la parte inferior del portal de Azure, como se muestra aquí:
Nota : Si anteriormente ha creado un shell de nube que utiliza un entorno Bash , utilice el menú desplegable en la parte superior izquierda del panel de shell de nube para cambiarlo a PowerShell .
3.- Tenga en cuenta que puede cambiar el tamaño de la consola Cloud Shell arrastrando la barra separadora en la parte superior del panel o usando los íconos — , ◻ y X en la parte superior derecha del panel para minimizar, maximizar y cerrar el panel. Para obtener más información sobre el uso de Azure Cloud Shell, consulte la documentación de Azure Cloud Shell .
4.- En el panel de PowerShell, ingrese los siguientes comandos para clonar este repositorio:
rm -r dp203 -f git clone https://github.com/MicrosoftLearning/Dp-203-azure-data-engineer dp203
5.- Después de clonar el repositorio, ingrese los siguientes comandos para cambiar a la carpeta de este laboratorio y ejecutar el script setup.ps1 que contiene:
6.- Si se le solicita, elija la suscripción que desea usar (esto solo sucederá si tiene acceso a varias suscripciones de Azure).
7.- Cuando se le solicite, ingrese una contraseña adecuada para configurar su grupo de SQL de Azure Synapse.
Nota : ¡Asegúrese de recordar esta contraseña!
8.- Espere a que se complete el script: normalmente, esto demora alrededor de 10 minutos, pero en algunos casos puede demorar más.
Consultar datos en archivos
El script aprovisiona un espacio de trabajo de Azure Synapse Analytics y una cuenta de Azure Storage para alojar el lago de datos y luego carga algunos archivos de datos en el lago de datos.
Ver archivos en el lago de datos
- Una vez completado el script, en el portal de Azure, vaya al grupo de recursos dp500- xxxxxxx que creó y seleccione su área de trabajo de Synapse.
- En la página Descripción general de su espacio de trabajo de Synapse, en la tarjeta Abrir Synapse Studio , seleccione Abrir para abrir Synapse Studio en una nueva pestaña del navegador; inicie sesión si se le solicita.
- En el lado izquierdo de Synapse Studio, use el ícono ›› para expandir el menú: esto revela las diferentes páginas dentro de Synapse Studio que usará para administrar recursos y realizar tareas de análisis de datos.
- En la página Administrar , seleccione la pestaña Grupos de Apache Spark y observe que se ha creado un grupo de Spark con un nombre similar a spark xxxxxxx en el espacio de trabajo. Más adelante, utilizará este grupo de Spark para cargar y analizar datos de archivos en el almacenamiento del lago de datos para el espacio de trabajo.
- En la página Datos , vea la pestaña Vinculado y verifique que su espacio de trabajo incluya un vínculo a su cuenta de almacenamiento de Azure Data Lake Storage Gen2, que debe tener un nombre similar a synapse xxxxxxx (Principal - datalake xxxxxxx ) .
- Expanda su cuenta de almacenamiento y verifique que contenga un contenedor de sistema de archivos llamado archivos .
- Seleccione el contenedor de archivos y observe que contiene carpetas denominadas sales y synapse . La carpeta synapse la utiliza Azure Synapse y la carpeta sales contiene los archivos de datos que va a consultar.
- Abra la carpeta de ventas y la carpeta de pedidos que contiene, y observe que la carpeta de pedidos contiene archivos .csv de tres años de datos de ventas.
- Haga clic con el botón derecho en cualquiera de los archivos y seleccione Vista previa para ver los datos que contiene. Tenga en cuenta que los archivos no contienen una fila de encabezado, por lo que puede desmarcar la opción para mostrar los encabezados de columna.
Utilice Spark para explorar datos
- Seleccione cualquiera de los archivos en la carpeta de pedidos y, luego, en la lista Nuevo cuaderno de la barra de herramientas, seleccione Cargar en DataFrame . Un dataframe es una estructura en Spark que representa un conjunto de datos tabulares.
- En la nueva pestaña Notebook 1 que se abre, en la lista Adjuntar a , selecciona tu grupo de Spark ( spark xxxxxxx ). Luego, usa el botón ▷ Ejecutar todo para ejecutar todas las celdas del notebook (¡actualmente solo hay una!).
- Dado que es la primera vez que ejecuta código Spark en esta sesión, se debe iniciar el grupo de Spark. Esto significa que la primera ejecución de la sesión puede demorar unos minutos. Las ejecuciones posteriores serán más rápidas.
- Mientras espera que se inicialice la sesión Spark, revise el código que se generó, que se parece a esto: