¡Matricúlate!

PySpark Multi-Cloud y On-Premise

¡Videocurso de más de 100 sesiones!

🎁 ¿Quieres un 20% de DCTO extra?, usa el código:
descuentobda

MÓDULO 1: FUNDAMENTOS DE SPARK Y ENTORNO DE DESARROLLO
- Introducción al curso PySpark Multi-Cloud y On-Premise
- Rol del Data Engineer en arquitecturas de Big Data
- Spark como motor de procesamiento distribuido
- Conceptos clave: cluster, driver, executor, jobs y stages
- Infraestructura de almacenamiento y procesamiento de datos
- Introducción práctica a PySpark utilizando Google Colab
- Preparación de notebooks de código para procesamiento distribuido
- Ejercicio práctico: configuración inicial del entorno de desarrollo
MÓDULO 2: PROCESAMIENTO DE DATOS CON PYSPARK
- Lectura de datos estructurados con PySpark
- Esquema de metadatos y tipos de datos
- Transformaciones con DataFrames
- Procesamiento estructurado con Spark SQL
- Escritura de resultados en distintos formatos
- Introducción a formatos optimizados para Big Data
- Ejercicio práctico: arquetipo de procesamiento básico de datos
MÓDULO 3: DATA LAKE, DELTA LAKE Y MODELAMIENTO DE DATOS
- Arquitectura Data Lake y Lakehouse
- Concepto de Delta Lake y ventajas frente a formatos tradicionales
- Modelamiento de datos estructurados y semi-estructurados
- Procesamiento por capas Bronze, Silver y Gold
- Lectura de archivos XML y JSON en PySpark
- Uso de UDF (User Defined Functions) en PySpark
- Instalación de librerías externas en proyectos Spark
- Ejercicio práctico: arquetipo avanzado de procesamiento Delta Lake
MÓDULO 4: OPTIMIZACIÓN Y PATRONES DE DISEÑO EN SPARK
- Conceptos de performance en procesamiento distribuido
- Sizing de infraestructura para procesamiento Big Data
- Garbage Collector en entornos Spark
- Patrones de optimización avanzado de SHOW
- Patrones de optimización avanzado de CACHE
- Patrones de optimización avanzado de CHECKPOINT
- Patrones de optimización avanzado de REPARTITION
- Optimización de pipelines de procesamiento distribuido
- Ejercicio práctico: optimización de performance en PySpark
MÓDULO 5: SISTEMAS DE ARCHIVOS DISTRIBUIDOS MULTI-CLOUD
- Concepto de almacenamiento distribuido en arquitecturas Big Data
- Integración de PySpark con Data Lakes en la nube
- Uso de S3 como sistema de almacenamiento en AWS
- Uso de Blob Storage como sistema de almacenamiento en Azure
- Uso de Cloud Storage en GCP
- Configuración de credenciales de acceso a almacenamiento cloud
- Montaje de sistemas de archivos remotos en PySpark
- Portabilidad de código entre plataformas cloud
- Ejercicio práctico: integración con almacenamiento multi-cloud
MÓDULO 6: PROCESAMIENTO DE DATOS EN TIEMPO REAL CON PYSPARK
- Introducción a arquitecturas de streaming de datos
- Concepto de procesamiento en tiempo real
- Uso de Kafka como sistema de mensajería distribuida
- Arquitectura de tópicos y particiones
- Integración de PySpark con Kafka
- Implementación de producers y consumers
- Uso de librerías de streaming para PySpark
- Ejercicio práctico: procesamiento de datos en tiempo real
MÓDULO 7: STREAMING MULTI-CLOUD (AWS, AZURE, GCP)
- Infraestructura cloud para procesamiento en tiempo real
- Uso de Kinesis en AWS para streaming de datos
- Uso de Event Hubs en Azure para streaming de datos
- Uso de Pub/Sub en GCP para procesamiento en tiempo real
- Configuración de credenciales y librerías de integración
- Implementación de producers y consumers en cada cloud
- Comparación de servicios de streaming multi-cloud
- Ejercicio práctico: integración de streaming multi-cloud
MÓDULO 8: ENTORNO PROFESIONAL ON-PREMISE E INTEGRACIÓN FINAL
- Configuración de PySpark en entorno local del desarrollador
- Instalación de dependencias necesarias para ejecución local
- Uso de Visual Studio Code para desarrollo profesional
- Estructura de proyectos de Data Engineering
- Ejecución de pipelines PySpark con Visual Studio Code
- Portabilidad de código entre Colab, Cloud y entorno local
- Integración final de arquitectura de procesamiento de datos
- Ejercicio práctico: implementación end-to-end del pipeline

Profesor

"He trabajado con todo tipo de proyectos, desde pequeños de unos cuántos miles de dólares, hasta muy grandes de presupuestos de millones de dólares"

✅EXPERTO EN IA PARA BANCOS Y FINANCIERAS
✅14 años de experiencia en Big Data e Inteligencia Artificial
✅12 años de experiencia como docente universitario
✅Más detalles de mi perfil: LINKEDIN

Alonso Melgarejo

[email protected]

📋

Requisitos

No se necesita experiencia previa, ya que se aprende desde cero

🎓

Certificación Internacional

Al finalizar el curso obtendrás los certificados de 'PySpark Engineer', 'PySpark Architect' y 'PySpark Leader'

🎞️

¿Y si no puedo asistir en vivo?

No te preocupes, si no puedes asistir o llegas tarde, podrás acceder de por vida a las grabaciones de cada sesión desde nuestra plataforma.

Algunos alumnos incluso llevan las clases sólo con las grabaciones.

Se indispensable para tu empresa y ten un alto salario

🎁 ¿Quieres un 20% de DCTO extra?, usa el código:
descuentobda

Matricúlate aquí 👈

¿Qué es Big Data Academy (BDA)?

Somos una empresa que tiene como objetivo desbloquear todo tu potencial en Big Data, Inteligencia Artificial y Cloud Computing
¿Hay cursos para principiantes?

Sí, desde workshops de primeros pasos hasta cursos y programas completos
¿Hay cursos para empresas o grupos grandes?

Sí, con buenos descuentos, puedes escribirnos a nuestro WhatsApp (+51 907 999 456)
¿Cuáles son los cursos en los que puedo matricularme?

Puedes encontrar los cursos y programas desde el siguiente enlace: CURSOS
¿Cuáles son los requisitos para matricularme en un curso?

Puedes revisar el brochure o la web de cada curso para conocer su detalle
¿Qué tipo de computadora requiero para iniciar un curso?

Una computadora simple, usamos infraestructura en la nube para practicar, puedes acceder incluso desde tu tablet
¿Cuántas horas semanales requiero para llevar un curso?

Depende de ti, pero te recomendamos de 2 a 3 horas semanales

MATRICÚLATE