AQUÍ, aprende como en la empresa

Creamos este curso diseñado para resolver todos esos desafios empresariales que una academia normal no toma en cuenta.

Te enseñamos buenas prácticas, codificación, arquitecturas y arquetipos basados en estándares empresariales, lo que aprendas aquí lo aplicarás a la vida empresarial.

BENEFICIOS

✅ El profesor asesora empresas latinoamericanas en I.A. y Big Data
✅ Es un curso 100% de laboratorios prácticos
✅ Implementarás en las 4 nubes: Databricks, AWS, Azure y GCP, sobre un Data Lake
✅ Los materiales y grabaciones se quedan contigo para siempre
✅ Únete a nuestros alumnos, quienes en promedio completan 3 cursos
✅ Nuestros alumnos comienzan a trabajar lo aprendido desde el tercer mes

Al finalizar el curso tendrás las herramientas y el conocimiento disruptivo que te permitirá un alto salario.

¿𝐋𝐢𝐬𝐭𝐨 𝐩𝐚𝐫𝐚 𝐬𝐞𝐫 𝐮𝐧 Experto en Spark & Scala❓

En menos de 3 meses tendrás la capacidad de:

✅Aplicar PATRONES DE DISEÑO Y ARQUETIPOS para no “crear la rueda de nuevo”, es decir soluciones estándares para problemas comunes y aplicables a cualquier realidad empresarial, te ayudarán a optimizar el uso de la RAM y la CPU, mejorar los tiempos y dar calidad a tu código.

✅Implementar ESTÁNDARES DE SPARK & SCALA MULTI-CLOUD que te permitirán codificar en las 4 nubes más usadas en las empresas sin problemas: AWS, Azure, GCP y Databricks

✅Construir flujos de  GOBIERNO DE DATOS & DATA LAKES que te permitirán organizar los miles de procesos que las empresas tienen para evitar que se interrumpan entre sí y te ahorrará re-trabajos de codificación.

APLICAR AL MUNDO EMPRESARIAL todo lo aprendido, el contenido del curso tiene toda la experiencia y buenas prácticas de nuestro profesor con 14 años de experiencia en Big Data & I.A.

EL ÚNICO REQUISITO es que conozcas la sintáxis básica de cualquier lenguaje de programación.

¡Un total de 8 sesiones en vivo!

Conoce el temario de 8 sesiones divididas en 8 módulos

  • MÓDULO 1: INTRODUCCIÓN Y PREPARACIÓN DEL ENTORNO EN DATABRICKS

    • Big Data y Spark
    • Procesamiento In-Memory
    • Componentes de Spark
    • Variables distribuidas en un clúster: RDD vs DATAFRAME
    • Lenguajes de programación para Spark: Scala vs Python vs R
    • Despliegue de clúster Spark
    • Configuración a repositorio de datos
    • Python como lenguaje de programación
    • Infraestructura de Almacenamiento
    • Infraestructura de Procesamiento
    • Preparación de Clúster de Procesamiento
    • Preparación de Clúster de Almacenamiento
    • Programación de Spark & Scala con SQL
  • MÓDULO 2: PROCESAMIENTO FUNCIONAL CON SPARK & SCALA

    • Programación funcional
    • Dataframes para datos estructurados y semi-estructurados
    • Transformations y operations en dataframes
    • Creación de funciones personalizadas con UDFs
    • UDFs con multi-parámetros
    • Almacenamiento en formatos binarios de rápido procesamiento: Parquet y Avro
    • Procesamientos en pasos encadenados
    • Procesamientos en pasos separados
    • Liberación de memoria con el Garbage Collector
    • Arquetipo de procesamiento funcional
  • MÓDULO 3: IMPLEMENTACIÓN DELTA LAKE CON SPARK & SCALA

    • Arquitectura Data Lake y Delta Lake
    • Taxonomía Delta Lake
    • Definición de capa BRONZE
    • Definición de capa SILVER
    • Definición de capa GOLD
    • Lectura de archivos JSON
    • Lectura de archivos XML
    • Dataframes semi-estructurados
    • Definición del esquema de formato semi-estructurado
    • Patrón de diseño de modelamiento semi-estructurado
    • Navegación de campos complejos
    • Implementación de reglas de calidad
    • Implementación de modelamiento
    • Arquetipo de procesamiento sobre el Delta Lake
  • MÓDULO 4: TUNING Y PATRONES DE DISEÑO CON SPARK & SCALA

    • Patrón de diseño show para evitar re-procesos
    • Patrón de checkpoint para evitar colapso de memoria RAM
    • Patrón de caché para reducir tiempos de procesamiento
    • Aumentando el nivel de paralelización con executors
    • Optimización de JOINS
    • Optimización de modelamiento
    • Arquetipo de procesamiento optimizado
    • Definición de reserva de memoria según capacidad del clúster
    • Reserva de memoria RAM sobre la sesión
    • Gestión de particiones de los dataframes
  • MÓDULO 5: PROCESAMIENTO REAL-TIME CON SPARK & SCALA

    • Arquitectura real-time y de storm data
    • Kafka como interfaz estándar de procesamiento
    • Creación de tópicos real-time
    • Patrón micro-batch para optimización de ahorro de tiempo en CPU
    • Patrón de diseño producer: read, format & write
    • Patrón de diseño consumer: read, format, enrichment & process
    • Patrón de diseño para emulación de storm data
    • Pruebas de volumetría
  • MÓDULO 6: INFRAESTRUCTURA CLOUD PARA SPARK & SCALA BATCH

    • Sistemas de archivos distribuidos
    • DBFS como sistema de archivos sobre Databricks
    • Blob Storage como sistema de archivos sobre Azure
    • S3 como sistema de archivos sobre AWS
    • Cloud Storage como sistema de archivos sobre GCP
    • Montado remoto del Blob Storage con Spark & Scala
    • Montado remoto del S3 con Spark & Scala
    • Montado remoto del Cloud Storage con Spark & Scala
  • MÓDULO 7: INFRAESTRUCTURA CLOUD PARA SPARK & SCALA REAL-TIME

    • Sistemas de tópicos y colas
    • EventHubs como sistema de tópicos y colas sobre Azure
    • Kinesis como sistema de tópicos y colas sobre AWS
    • Pub/Sub como sistema de tópicos y colas sobre GCP
    • Conexión remota a EventHubs con Spark & Scala
    • Conexión remota a Kinesis con Spark & Scala
    • Conexión remota a Pub/Sub con Spark & Scala
  • MÓDULO 8: MACHINE LEARNING SOBRE SPARK & SCALA

    • Introducción teórica a los modelos analíticos
    • Algoritmos de Machine Learning
    • Infraestructura de procesamiento analítico
    • Clústers de Big Data vs Servidores de GPU
    • Spark como motor de procesamiento para algoritmos de Machine Learning
    • Integración de Dataframes de Spark con Pandas con Koalas
    • Algoritmos de clusterización y tipos de distancia
    • Implementación de K-Means para segmentación de datos
    • Calibración de parámetros sobre el modelo de K-Means

Profesor

"He trabajado con todo tipo de proyectos, desde pequeños de unos cuántos miles de dólares, hasta muy grandes de presupuestos de millones de dólares"

EXPERTO EN IA PARA BANCOS Y FINANCIERAS
✅14 años de experiencia en Big Data e Inteligencia Artificial
✅12 años de experiencia como docente universitario
✅Más detalles de mi perfil: LINKEDIN

Alonso Melgarejo

Nuestros 69 mil alumnos nos recomiendan

MATRICÚLATE

OFERTA

¡De regalo un videocurso de 30 sesiones!

  1. Curso de Spark & Scala Multi-Cloud +
  2. Videocurso "Fundamentos de Spark para Big Data"

Todo por 129 dólares

📋

Requisitos

No necesitas de ninguna experiencia previa, ya que aprenderás desde cero

🎓

Certificación Internacional

Al finalizar el curso obtendrás el certificado de "Spark & Scala Professional"

Preguntas Frecuentes

  • ¿Qué es Big Data Academy (BDA)?

    Somos una empresa que tiene como objetivo desbloquear todo tu potencial en Big Data, Inteligencia Artificial y Cloud Computing

  • ¿Hay cursos para principiantes?

    Sí, desde workshops de primeros pasos hasta cursos y programas completos

  • ¿Hay cursos para empresas o grupos grandes?

    Sí, con buenos descuentos, puedes escribirnos a nuestro WhatsApp (+51 907 999 456)

  • ¿Cuáles son los cursos en los que puedo matricularme?

    Puedes encontrar los cursos y programas desde el siguiente enlace: CURSOS

  • ¿Cuáles son los requisitos para matricularme en un curso?

    Puedes revisar el brochure o la web de cada curso para conocer su detalle

  • ¿Qué tipo de computadora requiero para iniciar un curso?

    Una computadora simple, usamos infraestructura en la nube para practicar, puedes acceder incluso desde tu tablet

  • ¿Cuántas horas semanales requiero para llevar un curso?

    Depende de ti, pero te recomendamos de 2 a 3 horas semanales