Audiencia:
Este curso pretende desmitificar la tecnología de datos / hadoop y demostrar que no es difícil de entender.
Descripción general de los grandes datos:
- Qué es Big Data?
- Por qué Big Data está ganando popularidad
- Grandes estudios de datos
- Características de los grandes datos
-
Soluciones para trabajar en Big Data.
Hadoop y sus componentes:
- Qué es Hadoop y cuáles son sus componentes.
- Arquitectura Hadoop y sus características de Datos que puede manejar / Procesar.
- Breve historia de Hadoop, empresas que la usan y por qué han comenzado a usarla.
- Hadoop Marco de trabajo y sus componentes-explicado en detalle.
- ¿Qué es HDFS y lee? -escribe al sistema de archivos distribuido de Hadoop.
- Cómo configurar Hadoop Cluster en diferentes modos: Stand-alone / Pseudo / Multi Node cluster.
(Esto incluye configurar un clúster de Hadoop en VirtualBox / KVM / VMware, configuraciones de red que deben ser examinadas cuidadosamente, ejecutar Daemons de Hadoop y probar el clúster).
- Qué es el trabajo de marco Reducir mapa y cómo funciona.
- Ejecución de mapas Reduzca los trabajos en el clúster Hadoop.
- Entender la replicación, el reflejo y la conciencia Rack en el contexto de los clústeres Hadoop.
Planificación de clústeres de Hadoop:
- Cómo planificar su clúster de hadoop.
- Entender el software de hardware para planificar el clúster de hadoop.
- Comprender las cargas de trabajo y el clúster de planificación para evitar fallos y realizar un trabajo óptimo.
Qué es MapR y por qué MapR:
- Visión general de MapR y su arquitectura.
- Comprensión y funcionamiento de MapR Control System, volúmenes MapR, instantáneas y espejos.
- Planificación de un clúster en el contexto de MapR.
- Comparación de MapR con otras distribuciones y Apache Hadoop.
- MapR y la implementación del clúster.
Configuración y administración del clúster:
- Gestión de servicios, nodos, instantáneas, volúmenes de espejo y clústeres remotos.
- Comprensión y gestión de nodos.
- Comprensión de los componentes de Hadoop, Instalación de componentes de Hadoop junto con MapR Services.
- Acceso a los datos en el clúster, incluyendo a través de NFS Administración de servicios y nodos.
- Gestión de datos mediante el uso de volúmenes, administración de usuarios y grupos, gestión y asignación de funciones a nodos, puesta en marcha de la clausura de nodos, administración de clústeres y supervisión de rendimiento, configuración / análisis y monitorización de métricas para supervisar el rendimiento, configurar y administrar la seguridad MapR.
- Entender y trabajar con M7- Almacenamiento nativo para tablas MapR.
- Configuración del clúster y ajuste para un rendimiento óptimo.
Actualización de clústeres e integración con otras configuraciones:
- Actualización de la versión de software de MapR y tipos de actualización.
- Configuración del clúster Mapr para acceder al clúster HDFS.
- Configuración del cluster MapR en Amazon Elastic Mapreduce.
Todos los temas anteriores incluyen demostraciones y sesiones de práctica para que los estudiantes tengan experiencia práctica de la tecnología.