Big Data Analyitics en Cloudera

  • Big Data
  • curso
  • 40 horas

El curso propuesto está dividido en dos módulos que permiten conocer por una parte la gestión de la plataforma Cloudera desplegada en el clúster y, por otra, utilizar los diferentes servicios de Big Data para la explotación de los datos. En concreto, los módulos son:

 

  • Módulo 1. Introducción Big Data y Cloudera: permite conocer la base tecnológica de la plataforma Cloudera (Apache Hadoop), así como su instalación, administración y utilización de los diferentes servicios Big Data que se pueden desplegar.

 

  • Módulo 2. Explotación de datos con Hadoop y Spark: incluye contenidos teóricos y prácticos de utilización de los servicios de explotación de datos de la plataforma Cloudera. Además, permitirá conocer el uso de la tecnología Spark sobre la plataforma Cloudera para el desarrollo e aplicaciones en distribuido. Por último, se orientarán el uso de los servicios para el desarrollo de aplicaciones de utilicen ténicas de Machine Learning para la explotación de datos..

MÓDULO 1. Introducción a Big Data y Cloudera

  • INTRODUCCIÓN A TECNOLOGÍAS BIG DATA
    • ¿Qué es Big Data y qué hay de nuevo?
    • Principales tecnologías Big Data
    • Ecosistema Apache Hadoop
  • APACHE HADOOP
    • Almacenamiento de datos en Hadoop: HDFS.
    • Gestión de recursos y tareas: YARN. Introducción al Seguridad en el Desarrollo
  • CLOUDERA
    • Introducción a Cloudera
    • Instalación, configuración y mantenimiento del clúster Cloudera
    • Descripción de servicios en Cloudera
    • Cloudera Manager

MÓDULO 2. Explotación de datos con Hadoop y Spark

  • SERVICIOS DE INGESTA Y TRANSFORMACIÓN DE DATOS
    • Apache Sqoop: intercambio de datos con bases de datos relacionales.
    • Apache Pig: transformación de datos
    • Apache Hive: acceso y explotación de datos (SQL)
    • Apache Impala: acceso eficiente a datos
  • APACHE SPARK
    • Introducción a Apache Spark
    • Conceptos básicos, RDDs, transformaciones y acciones
    • SpakSQL con Dataframes
    • Introducción a Python y Jupyter
    • Desarrollo de aplicaciones con Spark
  • MACHINE LEARNING
    • Introducción a Big Data Analytics
    • Técnicas de Machine Learning
    • SparkML
    • H20: open source machine learning platform


Más información

Envíanos tus datos y nos pondremos en contacto contigo para darte más información y ajustar el curso a las necesidades de tu empresa

Datos del participante



Datos de la empresa


Empresa asociada al ITI SiNo

He leído y acepto la política de privacidad

Datos Básicos

Duración: 40 horas