MATRICÚLATE
PySpark Multi-Cloud y On-Premise
¡Videocurso de más de 100 sesiones!
🎁 ¿Quieres un 20% de DCTO extra?, usa el código:
descuentobda
¡Más de 100 sesiones en el VIDEOCURSO!
Conoce el temario de más de 100 sesiones divididas en 8 módulos
-
MÓDULO 1: FUNDAMENTOS DE SPARK Y ENTORNO DE DESARROLLO
- Introducción al curso PySpark Multi-Cloud y On-Premise
- Rol del Data Engineer en arquitecturas de Big Data
- Spark como motor de procesamiento distribuido
- Conceptos clave: cluster, driver, executor, jobs y stages
- Infraestructura de almacenamiento y procesamiento de datos
- Introducción práctica a PySpark utilizando Google Colab
- Preparación de notebooks de código para procesamiento distribuido
- Ejercicio práctico: configuración inicial del entorno de desarrollo
-
MÓDULO 2: PROCESAMIENTO DE DATOS CON PYSPARK
- Lectura de datos estructurados con PySpark
- Esquema de metadatos y tipos de datos
- Transformaciones con DataFrames
- Procesamiento estructurado con Spark SQL
- Escritura de resultados en distintos formatos
- Introducción a formatos optimizados para Big Data
- Ejercicio práctico: arquetipo de procesamiento básico de datos
-
MÓDULO 3: DATA LAKE, DELTA LAKE Y MODELAMIENTO DE DATOS
- Arquitectura Data Lake y Lakehouse
- Concepto de Delta Lake y ventajas frente a formatos tradicionales
- Modelamiento de datos estructurados y semi-estructurados
- Procesamiento por capas Bronze, Silver y Gold
- Lectura de archivos XML y JSON en PySpark
- Uso de UDF (User Defined Functions) en PySpark
- Instalación de librerías externas en proyectos Spark
- Ejercicio práctico: arquetipo avanzado de procesamiento Delta Lake
-
MÓDULO 4: OPTIMIZACIÓN Y PATRONES DE DISEÑO EN SPARK
- Conceptos de performance en procesamiento distribuido
- Sizing de infraestructura para procesamiento Big Data
- Garbage Collector en entornos Spark
- Patrones de optimización avanzado de SHOW
- Patrones de optimización avanzado de CACHE
- Patrones de optimización avanzado de CHECKPOINT
- Patrones de optimización avanzado de REPARTITION
- Optimización de pipelines de procesamiento distribuido
- Ejercicio práctico: optimización de performance en PySpark
-
MÓDULO 5: SISTEMAS DE ARCHIVOS DISTRIBUIDOS MULTI-CLOUD
- Concepto de almacenamiento distribuido en arquitecturas Big Data
- Integración de PySpark con Data Lakes en la nube
- Uso de S3 como sistema de almacenamiento en AWS
- Uso de Blob Storage como sistema de almacenamiento en Azure
- Uso de Cloud Storage en GCP
- Configuración de credenciales de acceso a almacenamiento cloud
- Montaje de sistemas de archivos remotos en PySpark
- Portabilidad de código entre plataformas cloud
- Ejercicio práctico: integración con almacenamiento multi-cloud
-
MÓDULO 6: PROCESAMIENTO DE DATOS EN TIEMPO REAL CON PYSPARK
- Introducción a arquitecturas de streaming de datos
- Concepto de procesamiento en tiempo real
- Uso de Kafka como sistema de mensajería distribuida
- Arquitectura de tópicos y particiones
- Integración de PySpark con Kafka
- Implementación de producers y consumers
- Uso de librerías de streaming para PySpark
- Ejercicio práctico: procesamiento de datos en tiempo real
-
MÓDULO 7: STREAMING MULTI-CLOUD (AWS, AZURE, GCP)
- Infraestructura cloud para procesamiento en tiempo real
- Uso de Kinesis en AWS para streaming de datos
- Uso de Event Hubs en Azure para streaming de datos
- Uso de Pub/Sub en GCP para procesamiento en tiempo real
- Configuración de credenciales y librerías de integración
- Implementación de producers y consumers en cada cloud
- Comparación de servicios de streaming multi-cloud
- Ejercicio práctico: integración de streaming multi-cloud
-
MÓDULO 8: ENTORNO PROFESIONAL ON-PREMISE E INTEGRACIÓN FINAL
- Configuración de PySpark en entorno local del desarrollador
- Instalación de dependencias necesarias para ejecución local
- Uso de Visual Studio Code para desarrollo profesional
- Estructura de proyectos de Data Engineering
- Ejecución de pipelines PySpark con Visual Studio Code
- Portabilidad de código entre Colab, Cloud y entorno local
- Integración final de arquitectura de procesamiento de datos
- Ejercicio práctico: implementación end-to-end del pipeline
Profesor
"He trabajado con todo tipo de proyectos, desde pequeños de unos cuántos miles de dólares, hasta muy grandes de presupuestos de millones de dólares"
✅14 años de experiencia en Big Data e Inteligencia Artificial
✅12 años de experiencia como docente universitario
✅Más detalles de mi perfil: LINKEDIN
Alonso Melgarejo
[email protected]Preguntas Frecuentes
-
¿Qué es Big Data Academy (BDA)?
Somos una empresa que tiene como objetivo desbloquear todo tu potencial en Big Data, Inteligencia Artificial y Cloud Computing
-
¿Hay cursos para principiantes?
Sí, desde workshops de primeros pasos hasta cursos y programas completos
-
¿Hay cursos para empresas o grupos grandes?
Sí, con buenos descuentos, puedes escribirnos a nuestro WhatsApp (+51 907 999 456)
-
¿Cuáles son los cursos en los que puedo matricularme?
Puedes encontrar los cursos y programas desde el siguiente enlace: CURSOS
-
¿Cuáles son los requisitos para matricularme en un curso?
Puedes revisar el brochure o la web de cada curso para conocer su detalle
-
¿Qué tipo de computadora requiero para iniciar un curso?
Una computadora simple, usamos infraestructura en la nube para practicar, puedes acceder incluso desde tu tablet
-
¿Cuántas horas semanales requiero para llevar un curso?
Depende de ti, pero te recomendamos de 2 a 3 horas semanales