Última revisión realizada: 25/11/2022 |
|
Denominación de la asignatura: | Ingeniería para el Procesado Masivo de Datos |
Postgrado al que pertenece: | Máster Universitario en Análisis y Visualización de Datos Masivos / Visual Analytics & Big Data |
Créditos ECTS: | 6 |
Cuatrimestre en el que se imparte: | Primer cuatrimestre |
Carácter de la asignatura: | Obligatoria |
Materia a la que pertenece: | Marketing e Informática |
Presentación
En esta asignatura, se presentará el framework de aplicaciones más utilizado para el procesado masivo de datos, que proporciona sistemas y técnicas para el almacenamiento y el procesamiento distribuido, tanto en bloque como en streaming, de grandes cantidades de datos de diversa naturaleza; es decir, las tecnologías para atacar las 3 V del big data: volumen, variedad, velocidad.
En particular, la asignatura busca familiarizar al estudiante con sistemas de almacenamiento distribuido, como HDFS (Hadoop Distributed File System), y de procesamiento, como MapReduce, el paradigma de programación ideado por Google en 2004 y germen del procesamiento distribuido. No obstante, uno de los pilares básicos del temario será Spark, tecnología líder para el procesado distribuido de datos, tanto en bloque (batch) como en streaming, e incluso para el desarrollo y la ejecución de modelos de machine learning distribuidos.
Del mismo modo, se presentarán al estudiante otras utilidades integradas dentro del ecosistema Hadoop, tales como Hive o Impala, que son sistemas que permiten a profesionales sin conocimientos de programación, pero con experiencia con SQL, realizar consultas de grandes datos distribuidas; o como Kafka, un sistema de mensajería que propicia el transporte rápido de grandes volúmenes de datos entre numerosas aplicaciones productoras y consumidoras, de forma distribuida y escalable.
Finalmente, se considerará la posibilidad de ejecutar todas estas tecnologías no solo en servidores locales, sino también en servicios de computación en la nube (cloud computing), y se analizarán las ventajas que esto conlleva. Se detallarán las tres principales plataformas que proporcionan servicios en la nube: Amazon Web Services, Microsoft Azure, y Google Cloud Platform. Con este fin, se examinarán los servicios que ofrecen tanto de infraestructura (infrastructure as a service, IaaS) como de plataformas big data (platform as a service, PaaS).
Competencias básicas
- CB6. Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
- CB7. Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
- CB8. Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
- CB9. Que los estudiantes sepan comunicar sus conclusiones, y los conocimientos y razones últimas que las sustentan, a públicos especializados y no especializados de un modo claro y sin ambigüedades.
- CB10. Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
Competencias generales
- CG1. Diseñar y elaborar planes de intervención profesional relacionados con el entorno de análisis de datos y visualización de la información, e implementarlos y desarrollarlos mediante los métodos y procesos adecuados.
- CG2. Tener la capacidad necesaria para ejercer las funciones profesionales requeridas para el análisis de datos y la visualización de la información en el seno de las entidades de TI.
- CG3. Evaluar los recursos necesarios, planificar y organizar las actividades, sin olvidar la revisión del propio progreso y desempeño en el análisis de datos y visualización de la información.
Competencias específicas
- CE6. Explicar las características de una situación física o virtual a partir del conjunto de datos que la define y construir diagramas que representen de forma visual dicha situación.
- CE7. Evaluar y asesorar sobre las técnicas de inteligencia artificial aplicables para el procesado masivo de datos sobre un conjunto dado de datos y de acuerdo a unos requisitos establecidos.
- CE8. Diseñar e implementar una estrategia integrada de técnicas estadísticas y de inteligencia artificial para el desarrollo de sistemas descriptivos y predictivos.
- CE9. Comprender el funcionamiento y características de las técnicas habituales de procesamiento masivo de datos.
- CE10. Anticipar los riesgos y beneficios derivados de la aplicación de las técnicas de procesamiento masivo de datos en una situación real.
- CE11. Identificar las herramientas comerciales y de software libre orientadas al análisis estadístico, inteligencia artificial y procesamiento masivo de datos.
Competencias transversales
- CT2. Identificar las nuevas tecnologías como herramientas didácticas para el intercambio comunicacional en el desarrollo de procesos de indagación y de aprendizaje.
- CT4. Adquirir la capacidad de trabajo independiente, impulsando la organización y favoreciendo el aprendizaje autónomo.
Tema 1. Introducción a las tecnologías big data
- Introducción y objetivos
- La sociedad interconectada: la era del cliente
- Definición de las tecnologías big data
- Origen de las tecnologías big data
Tema 2. HDFS y MapReduce
- Introducción y objetivos
- Introducción a HDFS
- Arquitectura de HDFS
- Comandos de HDFS más frecuentes
- Programación distribuida y MapReduce
Tema 3. Spark I
- Introducción y objetivos
- Apache Spark
- Componentes de Spark
- Arquitectura de Spark
- Resilient distributed datasets (RDD)
- Transformaciones y acciones
- Jobs, stages y tasks
- Ejemplo completo con RDD
Tema 4. Spark II
- Introducción y objetivos
- DataFrames en Spark
- API estructurada de Spark: lectura y escritura de DataFrames
- API estructurada de Spark: manipulación de DataFrames
- Ejemplo de uso de API estructurada
- Spark SQL
- Ejemplo de Spark SQL
Tema 5. Spark III
- Introducción y objetivos
- Spark MLlib
- Spark Structured Streaming
Tema 6. Apache Kafka
- Introducción y objetivos
- Mensajería publicación/suscripción
- Introducción a Apache Kafka
- Casos de uso típicos de Kafka
- Conceptos fundamentales
- Implementación de productores Kafka
- Implementación de consumidores Kafka
Tema 7. Hive e Impala
- Introducción y objetivos
- Apache Hive
- Apache Impala
Tema 8. Cloud computing I
- Introducción y objetivos
- Introducción a cloud computing
- Ventajas del cloud computing
- Tipos de nube y servicios en la nube
- Casos de uso de los servicios en la nube
- Microsoft Azure
Tema 9. Cloud computing II
- Introducción y objetivos
- Amazon Web Services
- Regiones y availability zones (AZ)
- Servicios transversales: seguridad y gestión
- Servicios de computación
- Servicios de red
- Servicios de almacenamiento
- Bases de datos
- Servicios de big data y analítica
- Machine learning e inteligencia artificial
Tema 10. Cloud computing III
- Introducción y objetivos
- Google Cloud Platform
- Regiones y zonas
- Servicios transversales: seguridad y gestión
- Servicios de computación
- Servicios de red
- Servicios de almacenamiento
- Bases de datos
- Servicios de big data y analítica
- Machine learning e inteligencia artificial
Las actividades formativas de la asignatura se han elaborado con el objetivo de adaptar el proceso de aprendizaje a las diferentes capacidades, necesidades e intereses de los alumnos.
Las actividades formativas de esta asignatura son las siguientes:
- Trabajos: Actividades de cierta complejidad que conllevan, por ejemplo, una búsqueda de información, análisis y crítica de lecturas, resolución de problemas, etc.
- Casos prácticos: El objetivo pedagógico es que el estudiante detecte situaciones relevantes, analice la información complementaria, tome decisiones en relación con el escenario que se plantea y proponga soluciones o indique cómo mejorar la situación de partida.
- Laboratorios virtuales: Son sesiones presenciales virtuales que se llevan a cabo con herramientas de videoconferencia, cuyo objetivo es que los alumnos utilicen algún tipo de herramienta informática para realizar uno o varios supuestos prácticos.
- Test de evaluación: Al final de cada tema, los estudiantes pueden realizar este tipo de test, que permite al profesor valorar el interés del estudiante en la asignatura.
Estas actividades formativas prácticas se completan, por supuesto, con estas otras:
- Estudio personal
- Tutorías. Las tutorías se pueden articular a través de diversas herramientas y medios. Durante el desarrollo de la asignatura, el profesor programa tutorías en días concretos para la resolución de dudas de índole estrictamente académico, a través de las denominadas “sesiones de consultas”. Como complemento de estas sesiones, se dispone también del foro “Pregúntale al profesor de la asignatura”, a través del cual se articulan algunas preguntas de alumnos y las correspondientes respuestas, y en el que se tratan aspectos generales de la asignatura. Por la propia naturaleza de los medios de comunicación empleados, no existen horarios a los que deba ajustarse el alumno. El profesor atenderá a las preguntas formuladas por los estudiantes en el foro en un plazo no superior a los dos días lectivos.
- Examen final presencial u online
Las horas de dedicación a cada actividad se detallan en la siguiente tabla:
ACTIVIDADES FORMATIVAS | HORAS POR ASIGNATURA | % PRESENCIAL |
---|---|---|
Sesiones presenciales virtuales | 15 horas | 100 % |
Recursos didácticos audiovisuales | 6 horas | 0 |
Estudio del material básico | 60 horas | 0 |
Lectura del material complementario | 45 horas | 0 |
Casos prácticos y laboratorios virtuales | 15 horas | 13.3 % |
Trabajos y test de evaluación | 14 horas | 0 |
Tutorías | 16 horas | 30 % |
Trabajo colaborativo | 7 horas | 0 |
Examen final | 2 horas | 100 % |
Total | 180 horas | - |
Bibliografía básica
Recuerda que la bibliografía básica es imprescindible para el estudio de la asignatura. Cuando se indica que no está disponible en el aula virtual, tendrás que obtenerla por otros medios: librería UNIR, biblioteca...
Los textos necesarios para el estudio de la asignatura han sido elaborados por UNIR y están disponibles en formato digital para consulta, descarga e impresión en el aula virtual.
Bibliografía complementaria
- Chambers, B. and Zaharia, M. (2018). Spark: the definitive guide. O’Reilly.
- Erl, T. (2013). Cloud computing: concepts, technology and architecture. Prentice Hall.
- Karau, H. y Warren, R. (2017). High Performance Spark. O’Reilly.
- Narkhede, N., Shapira, G. y Palino, T. (2017). Kafka: the definitive guide. O’Reilly.
- Quinto, B. (2018). Next-generation big data: a practical guide to Apache Kudu, Impala, and Spark. Apress.
- Rafaels, R. (2015). Cloud computing: from beginning to end. CreateSpace Independent Publishing Platform.
- White, T. (2015). Hadoop: the definitive guide (4a edición). O’Reilly.
El sistema de calificación se basa en la siguiente escala numérica:
0 - 4, 9 | Suspenso | (SS) |
5,0 - 6,9 | Aprobado | (AP) |
7,0 - 8,9 | Notable | (NT) |
9,0 - 10 | Sobresaliente | (SB) |
La calificación se compone de dos partes principales:
El examen se realiza al final del cuatrimestre y es de carácter PRESENCIAL U ONLINE Y OBLIGATORIO. Supone el 60 % de la calificación final y, para que la nota obtenida en este examen se sume a la nota final, es obligatorio APROBARLO.
La evaluación continua supone el 40 % de la calificación final. Este 40 % de la nota final se compone de las calificaciones obtenidas en las diferentes actividades formativas llevadas a cabo durante el cuatrimestre.
Ten en cuenta que la suma de las puntuaciones de las actividades de la evaluación continua permite que realices las que prefieras hasta conseguir el máximo puntuable mencionado. En la programación semanal de la asignatura, se detalla la calificación máxima de cada actividad o evento concreto puntuables.
Sistema de evaluación | Ponderación min - max |
---|---|
Participación del estudiante (sesiones, foros, tutorías) | 5% - 10% |
Trabajos, proyectos, laboratorios/talleres y casos | 10% - 30% |
Test de evaluación | 5% - 10% |
Examen final | 60% - 60% |
Observaciones: es necesario que el estudiante obtenga una calificación mínima de 5 sobre 10 en el examen final para que pueda computarse la nota obtenida en la evaluación continua.
Alicia Rodríguez Carrión
Formación académica: Doctora en Ingeniería Telemática, con Mención Europea y dentro del plan de doctorado con Mención de Calidad, e ingeniera de Telecomunicación por la Universidad Carlos III de Madrid.
Experiencia: Senior researcher y data scientist en Fujitsu Laboratories of Europe, enfocada en proyectos del vertical financiero. Previamente, ha sido investigadora y docente en programas de grado y posgrado en la Universidad Carlos III de Madrid. Asimismo, en el entorno empresarial, ha trabajado desarrollando modelos relacionados con el riesgo de crédito y la predicción de siniestros de conducción.
Líneas de investigación: Ha participado en proyectos de investigación de financiación europea y nacional, donde se ha enfocado en el estudio de patrones de movilidad humana y en la predicción de la localización basada en datos procedentes de dispositivos móviles, con especial interés en la preservación de la privacidad y en el consumo energético. Fruto de estas investigaciones, ha publicado numerosos artículos en revistas internacionales de impacto, capítulos de libro y contribuciones a diversas conferencias.
Pablo Villacorta Iglesias
Formación académica: Doctor en Informática (2015). Durante la realización de sus tesis, disfrutó de una Beca FPU del Ministerio de Educación. Es ingeniero en Informática (2009) y licenciado en Ciencias y Técnicas Estadísticas (2012, Premio Extraordinario y Segundo Premio Nacional) por la Universidad de Granada. Adicionalmente, ha completado varios cursos de formación a distancia acerca de Ciencia de datos, Tecnologías big data, Apache Spark (tecnología en la que es desarrollador certificado por Databricks), aprendizaje automático y deep learning.
Experiencia: Ha sido docente de grado en la Universidad de Granada, donde ha impartido Ingeniería del Conocimiento e Introducción a la Programación. Asimismo, ha sido profesor de Ciencia de Datos con R y Python en el Data Science Bootcamp de IE Business School (2017), en Madrid. Desde 2015, trabaja como científico de grandes datos en Stratio Big Data Inc, para cuya labor utiliza Apache Spark. Está acreditado por ANECA como profesor ayudante doctor, profesor de universidad privada y profesor contratado doctor.
Líneas de investigación: Ha formado parte del grupo de Modelos de Decisión y Optimización en el departamento de Ciencias de la Computación e IA de la Universidad de Granada. Ha publicado más de veinticinco artículos en revistas internacionales y congresos, en temas de razonamiento con adversarios, soft computing, prospectiva tecnológica y software estadístico. Es autor o coautor de seis paquetes de R disponibles en CRAN.
Obviamente, al tratarse de formación online, puedes organizar tu tiempo de estudio como desees, siempre y cuando vayas cumpliendo las fechas de entrega de actividades, trabajos y exámenes. Nosotros, para ayudarte, te proponemos los siguientes pasos:
- Desde el Campus virtual, podrás acceder al aula virtual de cada asignatura en la que estés matriculado y, además, al aula virtual del Curso de introducción al campus virtual. Aquí podrás consultar la documentación disponible sobre cómo se utilizan las herramientas del aula virtual y sobre cómo se organiza una asignatura en la UNIR, y también podrás organizar tu plan de trabajo con tu tutor personal.
- Observa la programación semanal. Allí te indicamos qué parte del temario debes trabajar cada semana.
- Ya sabes qué trabajo tienes que hacer durante la semana. Accede ahora a la sección Temas del aula virtual. Allí encontrarás el material teórico y práctico del tema correspondiente a esa semana.
- Comienza con la lectura de las Ideas clave del tema. Este resumen te ayudará a hacerte una idea del contenido más importante del tema y de cuáles son los aspectos fundamentales en los que te tendrás que fijar al estudiar el material básico. Consulta, además, las secciones del tema que contienen material complementario.
- Dedica tiempo al trabajo práctico (sección Actividades y Test). En la programación semanal, te detallamos cuáles son las actividades correspondientes a cada semana y qué calificación máxima puedes obtener con cada una de ellas.
- Te recomendamos que participes en los eventos del curso (sesiones presenciales virtuales, foros de debate…). Para conocer la fecha concreta de celebración de los eventos, debes consultar las herramientas de comunicación del aula vitual. Tu profesor y tu tutor personal te informarán de las novedades de la asignatura.
En el aula virtual del Curso de introducción al campus virtual, encontrarás siempre disponible la documentación donde te explicamos cómo se estructuran los temas y qué podrás encontrar en cada una de sus secciones.
Recuerda que, en el aula virtual del Curso de introducción al campus virtual, puedes consultar el funcionamiento de las distintas herramientas del aula virtual: Correo, Foro, Sesiones presenciales virtuales, Envío de actividades, etc.
Ten en cuenta estos consejos...
- Sea cual sea tu plan de estudio, accede periódicamente al aula virtual, ya que, de esta forma, estarás al día de las novedades del curso y en contacto con tu profesor y con tu tutor personal.
- Recuerda que no estás solo: consulta todas tus dudas con tu tutor personal utilizando el correo electrónico. Además, siempre puedes consultar tus dudas sobre el temario en los foros que encontrarás en cada asignatura (Pregúntale al profesor).
- ¡Participa! Siempre que te sea posible, accede a los foros de debate. El intercambio de opiniones, materiales e ideas nos enriquece a todos.
- Y ¡recuerda!, estás estudiando con metodología online: tu esfuerzo y constancia son imprescindibles para conseguir buenos resultados. ¡No dejes todo para el último día!