Cómo usar el Big Data

¿Sabes cómo usar el Big Data para que tus procesos no colapsen?

Apréndelo aquí

Es común que cuando estés programando tus procesos trabajes en un entorno como tu laptop local que puede tener 16GB de RAM.

En la etapa de desarrollo tus procesos funcionan muy bien por que trabajas con poca volumetría, pero CUANDO HACES EL PASE A PRODUCCIÓN ESTOS TERMINAN COLAPSANDO, ya que la volumetría excede la memoria RAM de tu laptop.

Esto clásicamente se solucionaba usando un servidor, simplemente poníamos un server con mucha potencia, por ejemplo podría tener 100GB de memoria RAM, de esta manera podíamos soportar volumetrías mucho más grandes, pero los servidores también tienen límites.

UNA MANERA EN CÓMO LAS EMPRESAS SOLUCIONABA ESTO de forma clásica era usar un clúster de varios servidores, por ejemplo teniendo 10 servidores de 100 GB de RAM cada uno, tendríamos una potencia computacional de 1000 GB de RAM, de esta manera teníamos mucha potencia computacional para procesar volumetría de cientos de gigas

Sin embargo, el proceso que has codificado tienes que ADAPTARLO PARA QUE DISTRIBUYA SU CARGA DE TRABAJO en cada uno de esos 10 servidores, el proceso por sí solo no hace la distribución, es algo que tú tienes que codificar y esto te toma mucho tiempo.

AQUÍ ES DONDE ENTRAN LOS CLÚSTERS DE BIG DATA, los cuales permiten distribuir de manera automática la carga de trabajo, por ejemplo supongamos que vienen 300 GB de volumetría, el proceso de Big Data tomará esos 300 GB y los distribuirá entre los 10 servidores del clúster, si al día siguiente vienen 500 GB, el proceso de Big Data también los distribuirá de manera automática entre los 10 servidores

Gracias a esto puedes enfocarte sólo en codificar tu proceso y no invertir tiempo en codificar cómo distribuir la carga de trabajo

¿CÓMO PUEDES APRENDER TODO ESTO?

AQUÍ, aprende como en la empresa

Creamos este curso diseñado para resolver todos esos desafios empresariales que una academia normal no toma en cuenta.

Te enseñamos buenas prácticas, codificación, arquitecturas y arquetipos basados en estándares empresariales, lo que aprendas aquí lo aplicarás a la vida empresarial.

BENEFICIOS

✅ El profesor asesora empresas latinoamericanas en I.A. y Big Data
✅ Es un curso 100% de laboratorios prácticos
✅ Implementarás en las 4 nubes: Databricks, AWS, Azure y GCP, sobre un Data Lake
✅ Los materiales y grabaciones se quedan contigo para siempre
✅ Únete a nuestros alumnos, quienes en promedio completan 3 cursos
✅ Nuestros alumnos comienzan a trabajar lo aprendido desde el tercer mes

Al finalizar el curso tendrás las herramientas y el conocimiento disruptivo que te permitirá un alto salario.

¿𝐋𝐢𝐬𝐭𝐨 𝐩𝐚𝐫𝐚 𝐬𝐞𝐫 𝐮𝐧 𝐃𝐚𝐭𝐚 𝐄𝐧𝐠𝐢𝐧𝐞𝐞𝐫 𝐒𝐞𝐧𝐢𝐨𝐫❓

En menos de 3 meses tendrás la capacidad de:

✅Aplicar PATRONES DE DISEÑO Y ARQUETIPOS para no “crear la rueda de nuevo”, es decir soluciones estándares para problemas comunes y aplicables a cualquier realidad empresarial, te ayudarán a optimizar el uso de la RAM y la CPU, mejorar los tiempos y dar calidad a tu código.

✅Implementar ESTÁNDARES DE BIG DATA MULTI-CLOUD que te permitirán codificar en las 4 nubes más usadas en las empresas sin problemas: AWS, Azure, GCP y Databricks

✅Construir flujos de GOBIERNO DE DATOS & DATA LAKES que te permitirán organizar los miles de procesos que las empresas tienen para evitar que se interrumpan entre sí y te ahorrará re-trabajos de codificación.

✅APLICAR AL MUNDO EMPRESARIAL todo lo aprendido, el contenido del curso tiene toda la experiencia y buenas prácticas de nuestro profesor con 14 años de experiencia en Big Data & I.A.

EL ÚNICO REQUISITO es que conozcas la sintáxis básica de cualquier lenguaje de programación.

¡Un total de 12 sesiones en vivo!

Conoce el temario de 12 sesiones divididas en 8 módulos

MÓDULO 1: ARQUITECTURAS DE BIG DATA
- Arquitecturas de Big Data
- Arquitecturas de Cloud Computing
- Tecnologías sobre Big Data
- Infraestructura de almacenamiento y procesamiento
- Hadoop como ecosistema de almacenamiento
- Trabajando de manera distribuida sobre un clúster
- Hadoop como estándar en el mundo del Big Data
- HDFS como motor de almacenamiento
- YARN como gestor de recursos
- MapReduce vs Spark como motor de procesamiento
- Preparación de entornos
- Capacidad física de un clúster
MÓDULO 2: PROCESAMIENTO DISTRIBUIDO CON HIVE
- Hive como infraestructura de almacenamiento
- SQL sobre Spark
- Archivos de HDFS como tablas Hive
- Particionamiento estático y dinámico
- Formatos binarios de archivos: Parquet, Delta
- Compresión optimizada de datos
- Configuración y tuneo de procesos en Hive
- Sqoop como motor de ingesta de datos
- Importando datos a Hadoop a bases de datos relacionales
- Arquetipo de ingesta de datos batch
- Arquetipo de modelamiento de datos
- Arquetipo de procesamiento de datos
MÓDULO 3: PROCESAMIENTO SOBRE SPARK
- Python con Spark para PySpark
- Programación funcional
- Dataframes para datos estructurados y semi-estructurados
- Transformations y operations en dataframes
- Creación de funciones personalizadas con UDFs
- UDFs con multi-parámetros
- Almacenamiento en formatos binarios de rápido procesamiento: Parquet y Delta
- Procesamientos en pasos encadenados
- Procesamientos en pasos separados
- Liberación de memoria con el Garbage Collector
MÓDULO 4: PROCESAMIENTO SEMI-ESTRUCTURADO & INSTALACIÓN DE LIBRERÍAS
- Lectura de archivos JSON
- Lectura de archivos XML
- Dataframes semi-estructurados
- Definición del esquema de formato semi-estructurado
- Patrón de diseño de modelamiento semi-estructurado
- Navegación de campos complejos
- Navegación manual de campos array
- Navegación automática de campos array
- Trazabilidad y debugeo de errores
- Instalación de librerías desde repositorios públicos
- Instalación de librerías desde repositorios privados
MÓDULO 5: BIG DATA ON AWS
- Servicios de Big Data disponibles en AWS
- Arquitectura de Big Data sobre AWS
- Implementación de un Data Lake para Gobierno de Datos sobre AWS
- Ingesta y almacenamiento de datos sobre el S3
- Interfaz SQL de AWS con Athena
- Implementación de flujos ETL con Glue
- Infraestructura para clústers de Big Data con EMR
- Implementación de soluciones con Spark para EMR
- Despliegues y workflows con Wokflows for Glue y Step Functions
MÓDULO 6: BIG DATA ON AZURE
- Servicios de Big Data disponibles en Azure
- Arquitectura de Big Data sobre Azure
- Implementación de un Data Lake para Gobierno de Datos sobre Azure
- Ingesta y almacenamiento de datos sobre el Blob Storage
- Datasets sobre Data Factory
- Implementación de flujos ETL con Dataflow
- Infraestructura para clústers de Big Data con HDInsight
- Implementación de soluciones con Spark para HDInsight
- Despliegues y workflows con Data Factory
MÓDULO 7: BIG DATA ON GCP
- Servicios de Big Data disponibles en GCP
- Arquitectura de Big Data sobre GCP
- Implementación de un Data Lake para Gobierno de Datos sobre GCP
- Ingesta y almacenamiento de datos sobre el Cloud Storage
- Interfaz SQL de GCP con Bigquery
- Implementación de flujos ETL con Data Fusion
- Infraestructura para clústers de Big Data con Dataproc
- Implementación de soluciones con Spark para Dataproc
- Despliegues y workflows con Cloud Composer
MÓDULO 8: PROCESAMIENTO REAL-TIME SOBRE BIG DATA
- Procesamiento de datos real time
- ¿Streaming, real time, near real time o micro batch?
- Arquitectura general para proyectos real time
- Captura de datos desde fuentes real time: tormenta de datos
- La elasticidad en la capa de captura y procesamiento
- La importancia de la paralelización elástica
- Evitando el colapso de CPU
- Kafka como repositorio temporal de baja latencia
- Tópico, producers y consumers
- Tuning de tópicos
- Procesamiento real time con Spark Streaming
- Arquetipo de procesamiento real time
- Arquetipo enriquecimiento real time
- Limitaciones y cómo superarlas

Horario según tu país

INICIO: 26 de Agosto - 12 sesiones en vivo

Perú, Colombia, Ecuador, Panamá
- Lunes y Miércoles de 6:30PM a 9:30PM
Argentina, Uruguay
- Lunes y Miércoles de 8:30PM a 11:30PM
Chile, Paraguay, Puerto Rico, Bolivia, Venezuela
- Lunes y Miércoles de 7:30PM a 10:30PM
México, Costa Rica
- Lunes y Miércoles de 5:30PM a 8:30PM

Profesor

"He trabajado con todo tipo de proyectos, desde pequeños de unos cuántos miles de dólares, hasta muy grandes de presupuestos de millones de dólares"

✅EXPERTO EN IA PARA BANCOS Y FINANCIERAS
✅14 años de experiencia en Big Data e Inteligencia Artificial
✅12 años de experiencia como docente universitario
✅Más detalles de mi perfil: LINKEDIN

Alonso Melgarejo

[email protected]

"En 2024, continuamos liderando el avance de proyectos innovadores de Inteligencia Artificial en toda Latinoamérica"

"Melgarejo fue considerado uno de los pocos arquitectos de Big Data en 2016"

Entrevistas y eventos del profesor

Lo que nuestros alumnos dicen

"Sus clases son muy claras y precisas y concisas"

"Estimado profesor quería agradecerle por el workshop"

Nuestros 69 mil alumnos nos recomiendan

MATRICÚLATE

OFERTA

¡De regalo un videocurso de 30 sesiones!

Curso de Data Engineer & Big Data Multi-Cloud +
Videocurso de Fundamentos de Spark para Big Data

Todo por 119 dólares

Matricúlate aquí 👈

🚨

¿Quieres una mejor oferta?

Sólo por esta semana tienes acceso a una oferta especial, sigue leyendo y conócela

¡Llévate mucho más!

Sólo por esta semana, para las 10 primeras matrículas

Te llevas:

🧑‍💻CURSO EN VIVO: de Data Engineer & Big Data Multi-Cloud
🎁VIDEOCURSO: Fundamentos de Spark para Big Data
🎁EDICIÓN GRABADA: Del curso "Arquitectura para Entornos de Big Data & Cloud" de 6 sesiones, valorizado en 100 dólares
🎁WORKSHOP GRABADO: De 3 días de "Construye tu Primer Data Lake"

PROMOCIÓN: Sólo a ⚡$199 dólares *

*Válido hasta agotar las 10 primeras matrículas, agotadas las vacantes el botón se deshabilitará

Llévatelo TODO AQUÍ 👈

📋

Requisitos

Conocimientos básico en cualquier lenguaje de programación

🎓

Certificación Internacional

Al finalizar el curso obtendrás los certificados de "Big Data Engineer Professional" y "Big Data Architect Fundamentals"

🎞️

¿Y si no puedo asistir en vivo?

No te preocupes, si no puedes asistir o llegas tarde, podrás acceder de por vida a las grabaciones de cada sesión desde nuestra plataforma.

Algunos alumnos incluso llevan las clases sólo con las grabaciones.

Se indispensable para tu empresa y ten un alto salario

Inicio: 26 de Agosto - 12 sesiones

Matricúlate aquí 👈

Preguntas Frecuentes

¿Qué es Big Data Academy (BDA)?

Somos una empresa que tiene como objetivo desbloquear todo tu potencial en Big Data, Inteligencia Artificial y Cloud Computing
¿Hay cursos para principiantes?

Sí, desde workshops de primeros pasos hasta cursos y programas completos
¿Hay cursos para empresas o grupos grandes?

Sí, con buenos descuentos, puedes escribirnos a nuestro WhatsApp (+51 907 999 456)
¿Cuáles son los cursos en los que puedo matricularme?

Puedes encontrar los cursos y programas desde el siguiente enlace: CURSOS
¿Cuáles son los requisitos para matricularme en un curso?

Puedes revisar el brochure o la web de cada curso para conocer su detalle
¿Qué tipo de computadora requiero para iniciar un curso?

Una computadora simple, usamos infraestructura en la nube para practicar, puedes acceder incluso desde tu tablet
¿Cuántas horas semanales requiero para llevar un curso?

Depende de ti, pero te recomendamos de 2 a 3 horas semanales