AQUÍ, aprende como en la empresa
Creamos este curso diseñado para resolver todos esos desafios empresariales que una academia normal no toma en cuenta.
Te enseñamos buenas prácticas, codificación, arquitecturas y arquetipos basados en estándares empresariales, lo que aprendas aquí lo aplicarás a la vida empresarial.
BENEFICIOS
✅ El profesor asesora empresas latinoamericanas en I.A. y Big Data
✅ Es un curso 100% de laboratorios prácticos
✅ Implementarás en las 4 nubes: Databricks, AWS, Azure y GCP, sobre un Data Lake
✅ Los materiales y grabaciones se quedan contigo para siempre
✅ Únete a nuestros alumnos, quienes en promedio completan 3 cursos
✅ Nuestros alumnos comienzan a trabajar lo aprendido desde el tercer mes
Al finalizar el curso tendrás las herramientas y el conocimiento disruptivo que te permitirá un alto salario.

¿𝐋𝐢𝐬𝐭𝐨 𝐩𝐚𝐫𝐚 𝐬𝐞𝐫 𝐮𝐧 𝐃𝐚𝐭𝐚 𝐄𝐧𝐠𝐢𝐧𝐞𝐞𝐫 𝐒𝐞𝐧𝐢𝐨𝐫❓
En menos de 3 meses tendrás la capacidad de:
✅Aplicar PATRONES DE DISEÑO Y ARQUETIPOS para no “crear la rueda de nuevo”, es decir soluciones estándares para problemas comunes y aplicables a cualquier realidad empresarial, te ayudarán a optimizar el uso de la RAM y la CPU, mejorar los tiempos y dar calidad a tu código.
✅Implementar ESTÁNDARES DE BIG DATA MULTI-CLOUD que te permitirán codificar en las 4 nubes más usadas en las empresas sin problemas: AWS, Azure, GCP y Databricks
✅Construir flujos de GOBIERNO DE DATOS & DATA LAKES que te permitirán organizar los miles de procesos que las empresas tienen para evitar que se interrumpan entre sí y te ahorrará re-trabajos de codificación.
✅APLICAR AL MUNDO EMPRESARIAL todo lo aprendido, el contenido del curso tiene toda la experiencia y buenas prácticas de nuestro profesor con 14 años de experiencia en Big Data & I.A.
EL ÚNICO REQUISITO es que conozcas la sintáxis básica de cualquier lenguaje de programación.
¡Un total de 12 sesiones en vivo!
Conoce el temario de 12 sesiones divididas en 8 módulos
-
MÓDULO 1: ARQUITECTURAS DE BIG DATA
- Arquitecturas de Big Data
- Arquitecturas de Cloud Computing
- Tecnologías sobre Big Data
- Infraestructura de almacenamiento y procesamiento
- Hadoop como ecosistema de almacenamiento
- Trabajando de manera distribuida sobre un clúster
- Hadoop como estándar en el mundo del Big Data
- HDFS como motor de almacenamiento
- YARN como gestor de recursos
- MapReduce vs Spark como motor de procesamiento
- Preparación de entornos
- Capacidad física de un clúster
-
MÓDULO 2: PROCESAMIENTO DISTRIBUIDO CON HIVE
- Hive como infraestructura de almacenamiento
- SQL sobre Spark
- Archivos de HDFS como tablas Hive
- Particionamiento estático y dinámico
- Formatos binarios de archivos: Parquet, Delta
- Compresión optimizada de datos
- Configuración y tuneo de procesos en Hive
- Sqoop como motor de ingesta de datos
- Importando datos a Hadoop a bases de datos relacionales
- Arquetipo de ingesta de datos batch
- Arquetipo de modelamiento de datos
- Arquetipo de procesamiento de datos
-
MÓDULO 3: PROCESAMIENTO SOBRE SPARK
- Python con Spark para PySpark
- Programación funcional
- Dataframes para datos estructurados y semi-estructurados
- Transformations y operations en dataframes
- Creación de funciones personalizadas con UDFs
- UDFs con multi-parámetros
- Almacenamiento en formatos binarios de rápido procesamiento: Parquet y Delta
- Procesamientos en pasos encadenados
- Procesamientos en pasos separados
- Liberación de memoria con el Garbage Collector
-
MÓDULO 4: PROCESAMIENTO SEMI-ESTRUCTURADO & INSTALACIÓN DE LIBRERÍAS
- Lectura de archivos JSON
- Lectura de archivos XML
- Dataframes semi-estructurados
- Definición del esquema de formato semi-estructurado
- Patrón de diseño de modelamiento semi-estructurado
- Navegación de campos complejos
- Navegación manual de campos array
- Navegación automática de campos array
- Trazabilidad y debugeo de errores
- Instalación de librerías desde repositorios públicos
- Instalación de librerías desde repositorios privados
-
MÓDULO 5: BIG DATA ON AWS
- Servicios de Big Data disponibles en AWS
- Arquitectura de Big Data sobre AWS
- Implementación de un Data Lake para Gobierno de Datos sobre AWS
- Ingesta y almacenamiento de datos sobre el S3
- Interfaz SQL de AWS con Athena
- Implementación de flujos ETL con Glue
- Infraestructura para clústers de Big Data con EMR
- Implementación de soluciones con Spark para EMR
- Despliegues y workflows con Wokflows for Glue y Step Functions
-
MÓDULO 6: BIG DATA ON AZURE
- Servicios de Big Data disponibles en Azure
- Arquitectura de Big Data sobre Azure
- Implementación de un Data Lake para Gobierno de Datos sobre Azure
- Ingesta y almacenamiento de datos sobre el Blob Storage
- Datasets sobre Data Factory
- Implementación de flujos ETL con Dataflow
- Infraestructura para clústers de Big Data con HDInsight
- Implementación de soluciones con Spark para HDInsight
- Despliegues y workflows con Data Factory
-
MÓDULO 7: BIG DATA ON GCP
- Servicios de Big Data disponibles en GCP
- Arquitectura de Big Data sobre GCP
- Implementación de un Data Lake para Gobierno de Datos sobre GCP
- Ingesta y almacenamiento de datos sobre el Cloud Storage
- Interfaz SQL de GCP con Bigquery
- Implementación de flujos ETL con Data Fusion
- Infraestructura para clústers de Big Data con Dataproc
- Implementación de soluciones con Spark para Dataproc
- Despliegues y workflows con Cloud Composer
-
MÓDULO 8: PROCESAMIENTO REAL-TIME SOBRE BIG DATA
- Procesamiento de datos real time
- ¿Streaming, real time, near real time o micro batch?
- Arquitectura general para proyectos real time
- Captura de datos desde fuentes real time: tormenta de datos
- La elasticidad en la capa de captura y procesamiento
- La importancia de la paralelización elástica
- Evitando el colapso de CPU
- Kafka como repositorio temporal de baja latencia
- Tópico, producers y consumers
- Tuning de tópicos
- Procesamiento real time con Spark Streaming
- Arquetipo de procesamiento real time
- Arquetipo enriquecimiento real time
- Limitaciones y cómo superarlas
Profesor
"He trabajado con todo tipo de proyectos, desde pequeños de unos cuántos miles de dólares, hasta muy grandes de presupuestos de millones de dólares"
✅14 años de experiencia en Big Data e Inteligencia Artificial
✅12 años de experiencia como docente universitario
✅Más detalles de mi perfil: LINKEDIN
Alonso Melgarejo
[email protected]
Nuestros 69 mil alumnos nos recomiendan
MATRICÚLATE
OFERTA
¡De regalo un videocurso de 30 sesiones!
- Curso de Data Engineer & Big Data Multi-Cloud +
- Videocurso de Fundamentos de Spark para Big Data
Todo por 119 dólares
*¿Quieres una mejor oferta?, sigue bajando para obtenerla

¡Llévate mucho más!
Sólo por esta semana, para las 10 primeras matrículas
Te llevas:
- 🧑💻CURSO EN VIVO: de Data Engineer & Big Data Multi-Cloud
- 🎁VIDEOCURSO: Fundamentos de Spark para Big Data
- 🎁EDICIÓN GRABADA: Del curso "Arquitectura para Entornos de Big Data & Cloud" de 6 sesiones, valorizado en 100 dólares
- 🎁WORKSHOP GRABADO: De 3 días de "Construye tu Primer Data Lake"
PROMOCIÓN: Sólo a ⚡$199 dólares *

Preguntas Frecuentes
-
¿Qué es Big Data Academy (BDA)?
Somos una empresa que tiene como objetivo desbloquear todo tu potencial en Big Data, Inteligencia Artificial y Cloud Computing
-
¿Hay cursos para principiantes?
Sí, desde workshops de primeros pasos hasta cursos y programas completos
-
¿Hay cursos para empresas o grupos grandes?
Sí, con buenos descuentos, puedes escribirnos a nuestro WhatsApp (+51 907 999 456)
-
¿Cuáles son los cursos en los que puedo matricularme?
Puedes encontrar los cursos y programas desde el siguiente enlace: CURSOS
-
¿Cuáles son los requisitos para matricularme en un curso?
Puedes revisar el brochure o la web de cada curso para conocer su detalle
-
¿Qué tipo de computadora requiero para iniciar un curso?
Una computadora simple, usamos infraestructura en la nube para practicar, puedes acceder incluso desde tu tablet
-
¿Cuántas horas semanales requiero para llevar un curso?
Depende de ti, pero te recomendamos de 2 a 3 horas semanales