AQUÍ, aprende como en la empresa
Creamos este curso diseñado para resolver todos esos desafios empresariales que una academia normal no toma en cuenta.
Te enseñamos buenas prácticas, codificación, arquitecturas y arquetipos basados en estándares empresariales, lo que aprendas aquí lo aplicarás a la vida empresarial.
BENEFICIOS
✅ El profesor asesora empresas latinoamericanas en I.A. y Big Data
✅ Es un curso 100% de laboratorios prácticos
✅ Implementarás en las 4 nubes: Databricks, AWS, Azure y GCP, sobre un Data Lake
✅ Los materiales y grabaciones se quedan contigo para siempre
✅ Únete a nuestros alumnos, quienes en promedio completan 3 cursos
✅ Nuestros alumnos comienzan a trabajar lo aprendido desde el tercer mes
Al finalizar el curso tendrás las herramientas y el conocimiento disruptivo que te permitirá un alto salario.

¿𝐋𝐢𝐬𝐭𝐨 𝐩𝐚𝐫𝐚 𝐬𝐞𝐫 𝐮𝐧 Experto en Spark & Scala❓
En menos de 3 meses tendrás la capacidad de:
✅Aplicar PATRONES DE DISEÑO Y ARQUETIPOS para no “crear la rueda de nuevo”, es decir soluciones estándares para problemas comunes y aplicables a cualquier realidad empresarial, te ayudarán a optimizar el uso de la RAM y la CPU, mejorar los tiempos y dar calidad a tu código.
✅Implementar ESTÁNDARES DE SPARK & SCALA MULTI-CLOUD que te permitirán codificar en las 4 nubes más usadas en las empresas sin problemas: AWS, Azure, GCP y Databricks
✅Construir flujos de GOBIERNO DE DATOS & DATA LAKES que te permitirán organizar los miles de procesos que las empresas tienen para evitar que se interrumpan entre sí y te ahorrará re-trabajos de codificación.
✅APLICAR AL MUNDO EMPRESARIAL todo lo aprendido, el contenido del curso tiene toda la experiencia y buenas prácticas de nuestro profesor con 14 años de experiencia en Big Data & I.A.
EL ÚNICO REQUISITO es que conozcas la sintáxis básica de cualquier lenguaje de programación.
¡Un total de 8 sesiones en vivo!
Conoce el temario de 8 sesiones divididas en 8 módulos
-
MÓDULO 1: INTRODUCCIÓN Y PREPARACIÓN DEL ENTORNO EN DATABRICKS
- Big Data y Spark
- Procesamiento In-Memory
- Componentes de Spark
- Variables distribuidas en un clúster: RDD vs DATAFRAME
- Lenguajes de programación para Spark: Scala vs Python vs R
- Despliegue de clúster Spark
- Configuración a repositorio de datos
- Python como lenguaje de programación
- Infraestructura de Almacenamiento
- Infraestructura de Procesamiento
- Preparación de Clúster de Procesamiento
- Preparación de Clúster de Almacenamiento
- Programación de Spark & Scala con SQL
-
MÓDULO 2: PROCESAMIENTO FUNCIONAL CON SPARK & SCALA
- Programación funcional
- Dataframes para datos estructurados y semi-estructurados
- Transformations y operations en dataframes
- Creación de funciones personalizadas con UDFs
- UDFs con multi-parámetros
- Almacenamiento en formatos binarios de rápido procesamiento: Parquet y Avro
- Procesamientos en pasos encadenados
- Procesamientos en pasos separados
- Liberación de memoria con el Garbage Collector
- Arquetipo de procesamiento funcional
-
MÓDULO 3: IMPLEMENTACIÓN DELTA LAKE CON SPARK & SCALA
- Arquitectura Data Lake y Delta Lake
- Taxonomía Delta Lake
- Definición de capa BRONZE
- Definición de capa SILVER
- Definición de capa GOLD
- Lectura de archivos JSON
- Lectura de archivos XML
- Dataframes semi-estructurados
- Definición del esquema de formato semi-estructurado
- Patrón de diseño de modelamiento semi-estructurado
- Navegación de campos complejos
- Implementación de reglas de calidad
- Implementación de modelamiento
- Arquetipo de procesamiento sobre el Delta Lake
-
MÓDULO 4: TUNING Y PATRONES DE DISEÑO CON SPARK & SCALA
- Patrón de diseño show para evitar re-procesos
- Patrón de checkpoint para evitar colapso de memoria RAM
- Patrón de caché para reducir tiempos de procesamiento
- Aumentando el nivel de paralelización con executors
- Optimización de JOINS
- Optimización de modelamiento
- Arquetipo de procesamiento optimizado
- Definición de reserva de memoria según capacidad del clúster
- Reserva de memoria RAM sobre la sesión
- Gestión de particiones de los dataframes
-
MÓDULO 5: PROCESAMIENTO REAL-TIME CON SPARK & SCALA
- Arquitectura real-time y de storm data
- Kafka como interfaz estándar de procesamiento
- Creación de tópicos real-time
- Patrón micro-batch para optimización de ahorro de tiempo en CPU
- Patrón de diseño producer: read, format & write
- Patrón de diseño consumer: read, format, enrichment & process
- Patrón de diseño para emulación de storm data
- Pruebas de volumetría
-
MÓDULO 6: INFRAESTRUCTURA CLOUD PARA SPARK & SCALA BATCH
- Sistemas de archivos distribuidos
- DBFS como sistema de archivos sobre Databricks
- Blob Storage como sistema de archivos sobre Azure
- S3 como sistema de archivos sobre AWS
- Cloud Storage como sistema de archivos sobre GCP
- Montado remoto del Blob Storage con Spark & Scala
- Montado remoto del S3 con Spark & Scala
- Montado remoto del Cloud Storage con Spark & Scala
-
MÓDULO 7: INFRAESTRUCTURA CLOUD PARA SPARK & SCALA REAL-TIME
- Sistemas de tópicos y colas
- EventHubs como sistema de tópicos y colas sobre Azure
- Kinesis como sistema de tópicos y colas sobre AWS
- Pub/Sub como sistema de tópicos y colas sobre GCP
- Conexión remota a EventHubs con Spark & Scala
- Conexión remota a Kinesis con Spark & Scala
- Conexión remota a Pub/Sub con Spark & Scala
-
MÓDULO 8: MACHINE LEARNING SOBRE SPARK & SCALA
- Introducción teórica a los modelos analíticos
- Algoritmos de Machine Learning
- Infraestructura de procesamiento analítico
- Clústers de Big Data vs Servidores de GPU
- Spark como motor de procesamiento para algoritmos de Machine Learning
- Integración de Dataframes de Spark con Pandas con Koalas
- Algoritmos de clusterización y tipos de distancia
- Implementación de K-Means para segmentación de datos
- Calibración de parámetros sobre el modelo de K-Means
Profesor
"He trabajado con todo tipo de proyectos, desde pequeños de unos cuántos miles de dólares, hasta muy grandes de presupuestos de millones de dólares"
✅14 años de experiencia en Big Data e Inteligencia Artificial
✅12 años de experiencia como docente universitario
✅Más detalles de mi perfil: LINKEDIN
Alonso Melgarejo
[email protected]
Nuestros 69 mil alumnos nos recomiendan
MATRICÚLATE
OFERTA
¡De regalo un videocurso de 30 sesiones!
- Curso de Spark & Scala Multi-Cloud +
- Videocurso "Fundamentos de Spark para Big Data"
Todo por 129 dólares

Preguntas Frecuentes
-
¿Qué es Big Data Academy (BDA)?
Somos una empresa que tiene como objetivo desbloquear todo tu potencial en Big Data, Inteligencia Artificial y Cloud Computing
-
¿Hay cursos para principiantes?
Sí, desde workshops de primeros pasos hasta cursos y programas completos
-
¿Hay cursos para empresas o grupos grandes?
Sí, con buenos descuentos, puedes escribirnos a nuestro WhatsApp (+51 907 999 456)
-
¿Cuáles son los cursos en los que puedo matricularme?
Puedes encontrar los cursos y programas desde el siguiente enlace: CURSOS
-
¿Cuáles son los requisitos para matricularme en un curso?
Puedes revisar el brochure o la web de cada curso para conocer su detalle
-
¿Qué tipo de computadora requiero para iniciar un curso?
Una computadora simple, usamos infraestructura en la nube para practicar, puedes acceder incluso desde tu tablet
-
¿Cuántas horas semanales requiero para llevar un curso?
Depende de ti, pero te recomendamos de 2 a 3 horas semanales