Denominación de la asignatura: Ingeniería para el Procesado Masivo de Datos
Maestría a la que pertenece: Maestría en Análisis y Visualización de Datos Masivos
Créditos ECTS: 9
Ciclo en mapa curricular ideal: Tercer semestre

Presentación

La idoneidad de las técnicas de inteligencia artificial en diferentes tipos de problemas hace que exista una gran cantidad de herramientas software que permiten su rápida aplicación, adaptación a un problema concreto. En esta asignatura nos centraremos en el lenguaje R.

Además, en esta asignatura se presentará el framework Hadoop, que proporciona sistemas y técnicas para el almacenamiento y el procesamiento distribuido de grandes cantidades de datos. En particular, la asignatura busca familiarizar al estudiante con HDFS (Hadoop Distributed File System), el sistema de archivos que utiliza Hadoop para el almacenamiento de datos, y con MapReduce, el paradigma de programación ideado por Google en 2004 y empleado por Hadoop para el procesamiento de datos de forma paralela. Del mismo modo, se presentarán al estudiante otras utilidades integradas dentro del ecosistema Hadoop, tales como Hive (lenguaje similar a SQL para realizar consultas de datos) o Pig (lenguaje de script para realizar análisis de datos de forma sencilla), que pueden resultar un recurso útil y eficiente para la realización de ciertas tareas. También se introducirán técnicas para conectar Hadoop con otras tecnologías como R, con el fin de aumentar las posibilidades que permite. Finalmente se estudiarán algunos casos de uso en los que se ha empleado Hadoop, tanto en la industria como en el entorno científico, con el fin de que se puedan comprender mejor los problemas que se pueden resolver con las herramientas aprendidas durante el curso.

Tema 1. Introducción a las tecnologías big data

  • Introducción y objetivos
  • La sociedad interconectada: la era del cliente
  • Definición de las tecnologías big data
  • Origen de las tecnologías big data

Tema 2. HDFS y MapReduce

  • Introducción y objetivos
  • Introducción a HDFS
  • Arquitectura de HDFS
  • Comandos de HDFS más frecuentes
  • Programación distribuida y MapReduce

Tema 3. Spark I

  • Introducción y objetivos
  • Apache Spark

Tema 4. Spark II

  • Introducción y objetivos
  • Spark MLib
  • Spark Structured Streaming
  • Apache Hive

Tema 5. Kafka e Impala

  • Introducción y objetivos
  • Apache Kafka
  • Apache Impala

Tema 6. Introducción a R

  • Introducción y objetivos
  • ¿Qué es R?
  • Orígenes y antecedentes
  • ¿Por qué R?
  • Instalación del entorno de R
  • Primeros pasos con R
  • Consejos prácticos sobre el uso de la consola de R

Tema 7. El lenguaje R

  • Introducción y objetivos
  • Características básicas del lenguaje R
  • Tipos de datos y operadores
  • Estructuras de datos
  • Estructuras de control
  • Funciones

Tema 8. Introducción al análisis de datos con R (I)

  • Introducción y objetivos
  • Manipulación de datos
  • Estadística básica con R
  • Introducción a la minería de datos con R

Tema 9. Gráficos y visualización de datos

  • Introducción y objetivos
  • Creando gráficos básicos con R
  • Personalización de gráficos
  • Combinando gráficos
  • Exportando gráficos a fichero
  • Interacción básica con gráficos

Tema 10. Introducción al análisis de datos con R (II)

  • Introducción y objetivos
  • Minería de texto
  • Análisis de grafos

Las actividades formativas de la asignatura se han elaborado con el objetivo de adaptar el proceso de aprendizaje a las diferentes capacidades, necesidades e intereses de los alumnos.

Las actividades formativas con el docente son las siguientes:

  • Diálogo e interacción virtual con profesor.
  • Participación activa durante la clase virtual.
  • Formulación de preguntas sobre los temas y problemas planteados en la sesión virtual.
  • Análisis de conceptos expuestos por el docente durante la sesión virtual.
  • Exposición de dudas y de preguntas mediante el uso de correo web.
  • Análisis y solución de problemas con exposición de ideas mediante el chat.
  • Realización de prácticas en Laboratorio virtual:
    • Fundamentos del lenguaje R.
    • Despliegue de Hadoop.

Las actividades formativas independientes son las siguientes:

  • Realización de test parciales al finalizar cada tema.
  • Entrega de los informes de las prácticas del laboratorio virtual.
  • Trabajos:
    • Análisis de datos con R.
    • Aplicación de MapReduce.
    • Aplicación de SparK.
  • Interacción en el foro virtual sobre escenarios de apliacación de R.
Descargar programación

Estas actividades formativas prácticas se completan, por supuesto, con estas otras:

  • Estudio personal
  • Tutorías. Las tutorías se pueden articular a través de diversas herramientas y medios. Durante el desarrollo de la asignatura, el profesor programa tutorías en días concretos para la resolución de dudas de índole estrictamente académico a través de las denominadas “sesiones de consultas”. Como complemento de estas sesiones se dispone también del foro “Pregúntale al profesor de la asignatura” a través del cual se articulan algunas preguntas de alumnos y las correspondientes respuestas en el que se tratan aspectos generales de la asignatura. Por la propia naturaleza de los medios de comunicación empleados, no existen horarios a los que deba ajustarse el alumno.
  • Examen final online

Bibliografía básica

Recuerda que la bibliografía básica es imprescindible para el estudio de la asignatura. Cuando se indica que no está disponible en el aula virtual, tendrás que obtenerla por otros medios: librería UNIR, biblioteca...

Los textos necesarios para el estudio de la asignatura han sido elaborados por UNIR y están disponibles en formato digital para consulta, descarga e impresión en el aula virtual.

Bibliografía complementaria

  • Bianchi, V., Dasgupta, N. y Anjoleto, R. (2018). Hands-On Data Science with R. Reino Unido: Packt Publishing.
  • Dean, J. y Ghemawat, S. (2004). MapReduce: Simplified Data Processing on Large Clusters. In Proceedings of the 6th Symposium on Operating System Design and Implementation.
  • Grolemund, G. y Wickham, H. (2016). R for Data Science. Estados Unidos: O'Reilly Media.
  • Kabacoff, R. (2011). R in action. Nueva York: Editorial Manning.
  • Loebman, S., Nunley, D., Yong-Chul, K., Howe, B., Balazinska, M. y Gardner, J. P. (2009). Analyzing massice astrophysical datasets: Can Pig/Hadoop or a relational DBMS help? Proceedings of the 2009 IEEE International Conference on Cluster Computing and Workshops, 1-10.
  • Singh, C. y Kumar, M. (2019). Mastering Hadoop 3. Reino Unido: Packt Publishing.
  • Taylor, R. (2010). An overview of the Hadoop/MapReduce/HBase framework and its current applications on bioinformatics. BMC Bioinformatics, 11.
  • White, T. (2012). Hadoop. The Definitive Guide (3rd Edition). Massachusetts: O’Reilly.
  • White, T. (2015). Hadoop The Definitive Guide 4th Edition. Storage and Analysis at Internet Scale. Estados Unidos: O'Reilly Media.
  • Zaharia, M. y Chambers, B. (2018). Spark: The Definitive Guide. Big Data Processing Made Simple. Estados Unidos: O'Reilly Media Release.

La calificación se compone de dos partes principales:

Examen: se realiza al final de la asignatura, es de carácter online y obligatorio. El examen se valora sobre 10 puntos.

Evaluación continua: se compone de las calificaciones obtenidas en las diferentes actividades formativas llevadas a cabo a lo largo de la asignatura.

La nota final se calcula teniendo en cuenta que la nota obtenida en el examen equivale al 30% y la nota obtenida en la evaluación continua equivale al 70%. La nota final debe sumar mínimo 7 puntos para aprobar la asignatura.

Sistema de evaluación %
Test parciales en plataforma 10
Participación en sesiones, foros y otros medios 10
Laboratorios virtuales 20
Trabajos 30
Examen final online 30

Obviamente, al tratarse de formación online puedes organizar tu tiempo de estudio como desees, siempre y cuando vayas cumpliendo las fechas de entrega de actividades, trabajos y exámenes. Nosotros, para ayudarte, te proponemos los siguientes pasos:

  1. Desde el Campus virtual podrás acceder al aula virtual de cada asignatura en la que estés matriculado y, además, al aula virtual del Curso de introducción al campus virtual. Aquí podrás consultar la documentación disponible sobre cómo se utilizan las herramientas del aula virtual y sobre cómo se organiza una asignatura en la UNIR y también podrás organizar tu plan de trabajo con tu tutor personal.
  2. Observa la programación semanal. Allí te indicamos qué parte del temario debes trabajar cada semana.
  3. Ya sabes qué trabajo tienes que hacer durante la semana. Accede ahora a la sección Temas del aula virtual. Allí encontrarás el material teórico y práctico del tema correspondiente a esa semana.
  4. Comienza con la lectura de las Ideas clave del tema. Este resumen te ayudará a hacerte una idea del contenido más importante del tema y de cuáles son los aspectos fundamentales en los que te tendrás que fijar al estudiar el material básico. Consulta, además, las secciones del tema que contienen material complementario.
  5. Dedica tiempo al trabajo práctico (sección Actividades y Test). En la programación semanal te detallamos cuáles son las actividades correspondientes a cada semana y qué calificación máxima puedes obtener con cada una de ellas.
  6. Te recomendamos que participes en los eventos del curso (sesiones presenciales virtuales, foros de debate…). Para conocer la fecha concreta de celebración de los eventos debes consultar las herramientas de comunicación del aula vitual. Tu profesor y tu tutor personal te informarán de las novedades de la asignatura.

En el aula virtual del Curso de introducción al campus virtual encontrarás siempre disponible la documentación donde te explicamos cómo se estructuran los temas y qué podrás encontrar en cada una de sus secciones.

Recuerda que en el aula virtual del Curso de introducción al campus virtual puedes consultar el funcionamiento de las distintas herramientas del aula virtual: Correo, Foro, Sesiones presenciales virtuales, Envío de actividades, etc.

Ten en cuenta estos consejos...

  • Sea cual sea tu plan de estudio, accede periódicamente al aula Virtual, ya que de esta forma estarás al día de las novedades del curso y en contacto con tu profesor y con tu tutor personal.
  • Recuerda que no estás solo: consulta todas tus dudas con tu tutor personal utilizando el correo electrónico. Además, siempre puedes consultar tus dudas sobre el temario en los foros que encontrarás en cada asignatura (Pregúntale al profesor).
  • ¡Participa! Siempre que te sea posible accede a los foros de debate. El intercambio de opiniones, materiales e ideas nos enriquece a todos.
  • Y ¡recuerda!, estás estudiando con metodología on line: tu esfuerzo y constancia son imprescindibles para conseguir buenos resultados. ¡No dejes todo para el último día!