El curso propuesto está dividido en dos módulos que permiten conocer por una parte la gestión de la plataforma Cloudera desplegada en el clúster y, por otra, utilizar los diferentes servicios de Big Data para la explotación de los datos. En concreto, los módulos son:
- Módulo 1. Introducción Big Data y Cloudera: permite conocer la base tecnológica de la plataforma Cloudera (Apache Hadoop), así como su instalación, administración y utilización de los diferentes servicios Big Data que se pueden desplegar.
- Módulo 2. Explotación de datos con Hadoop y Spark: incluye contenidos teóricos y prácticos de utilización de los servicios de explotación de datos de la plataforma Cloudera. Además, permitirá conocer el uso de la tecnología Spark sobre la plataforma Cloudera para el desarrollo e aplicaciones en distribuido. Por último, se orientarán el uso de los servicios para el desarrollo de aplicaciones de utilicen ténicas de Machine Learning para la explotación de datos..
MÓDULO 1. Introducción a Big Data y Cloudera
- INTRODUCCIÓN A TECNOLOGÍAS BIG DATA
- ¿Qué es Big Data y qué hay de nuevo?
- Principales tecnologías Big Data
- Ecosistema Apache Hadoop
- APACHE HADOOP
- Almacenamiento de datos en Hadoop: HDFS.
- Gestión de recursos y tareas: YARN. Introducción al Seguridad en el Desarrollo
- CLOUDERA
- Introducción a Cloudera
- Instalación, configuración y mantenimiento del clúster Cloudera
- Descripción de servicios en Cloudera
- Cloudera Manager
MÓDULO 2. Explotación de datos con Hadoop y Spark
- SERVICIOS DE INGESTA Y TRANSFORMACIÓN DE DATOS
- Apache Sqoop: intercambio de datos con bases de datos relacionales.
- Apache Pig: transformación de datos
- Apache Hive: acceso y explotación de datos (SQL)
- Apache Impala: acceso eficiente a datos
- APACHE SPARK
- Introducción a Apache Spark
- Conceptos básicos, RDDs, transformaciones y acciones
- SpakSQL con Dataframes
- Introducción a Python y Jupyter
- Desarrollo de aplicaciones con Spark
- MACHINE LEARNING
- Introducción a Big Data Analytics
- Técnicas de Machine Learning
- SparkML
- H20: open source machine learning platform