Última revisión realizada: 24/11/2022

Denominación de la asignatura: Bases de Datos para el Big Data
Postgrado al que pertenece: Máster universitario en Análisis y Visualización de Datos Masivos / Visual Analytics & Big Data
Créditos ECTS: 6
Cuatrimestre en el que se imparte: Primero
Carácter de la asignatura: Obligatoria
Materia a la que pertenece: Infraestructuras para el Big Data

Presentación

La captura y el almacenamiento de la información son frecuentemente las fases iniciales en un proceso de análisis y representación de datos. La eficiencia del proceso general de análisis depende en gran proporción de seleccionar los métodos correctos, tanto para obtener como para almacenar datos sin procesar.

Esta asignatura proporciona los conceptos y las técnicas necesarias para, en un inicio, saber identificar posibles fuentes de datos y evaluar la aplicabilidad de los datos utilizando parámetros de calidad.

Además, se proporciona un resumen de las distintas tecnologías para el almacenamiento de información, comenzando con formatos de ficheros planos, tales como CSV, XML y JSON. El resumen incluye un breve repaso de SQL y la descripción de nuevas tecnologías NoSQL, aplicadas comúnmente en entornos Big Data.

Durante la asignatura se trabaja con el motor de base de datos MongoDB, cuya aplicabilidad se ve reflejada en el creciente número de usuarios y recursos de documentación como libros y artículos. La relevancia de esta tecnología hace meritorio un estudio en profundidad de patrones de diseño de esquemas en bases de datos orientadas a documentos.

Aparte de aprender las operaciones básicas para el tratamiento de datos en MongoDB, también conoceremos operaciones comunes durante la gestión de este tipo de bases de datos. Concretamente, aprenderemos los métodos de migración y distribución de bases de datos, así como conocer los parámetros de configuración adecuados para un entorno de producción.

Competencias básicas

  • CB6: Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
  • CB7: Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB8: Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB9: Que los estudiantes sepan comunicar sus conclusiones, y los conocimientos y razones últimas que las sustentan, a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB10: Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Competencias generales

  • CG3: Evaluar los recursos necesarios, planificar y organizar las actividades, sin olvidar la revisión del propio progreso y desempeño en el análisis de datos y visualización de la información.
  • CG5: Manejar adecuadamente información relativa al sector del análisis de datos y visualización de la información, atendiendo a la legislación vigente, notas técnicas, revistas especializadas, Internet, documentos internos de la empresa, etc.

Competencias específicas

  • CE1. Adquirir una visión general del proceso que engloba el mapeo de una situación física o virtual, el procesado y análisis de los datos subyacentes y la representación visual de dicha realidad.
  • CE3. Analizar y seleccionar los datos que mejor representen una situación física o virtual y enunciar los requisitos que debe cumplir un método de almacenamiento apropiado para dichos datos.
  • CE4. Elaborar, a partir de los requisitos de almacenamiento para un conjunto de datos, un sistema de almacenamiento acorde a las necesidades detectadas.
  • CE5. Identificar los descriptores más habituales para un conjunto de datos y valorar su aplicabilidad a un conjunto de datos conocido.
  • CE10. Anticipar los riesgos y beneficios derivados de la aplicación de las técnicas de procesamiento masivo de datos en una situación real.
  • CE21. Diseñar e implementar un sistema que combine técnicas de captura y almacenamiento, análisis y visualización de datos, de modo que el sistema sea capaz de representar la realidad subyacente.

Competencias transversales

  • CT2. Identificar las nuevas tecnologías como herramientas didácticas para el intercambio comunicacional en el desarrollo de procesos de indagación y de aprendizaje.
  • CT4. Adquirir la capacidad de trabajo independiente, impulsando la organización y favoreciendo el aprendizaje autónomo.

Tema 1. Métodos de captura de información

  • Introducción y objetivos
  • Origen y calidad de los datos
  • Organización de los datos
  • Casos de estudio
  • Referencias bibliográficas

Tema 2. NoSQL

  • Introducción y objetivos
  • Descripción y tipos de bases de datos NoSQL
  • Teorema CAP
  • Elección de base de datos: NoSQL vs. SQL
  • Bases de datos NoSQL

Tema 3. MongoDB

  • Introducción y objetivos
  • Descarga e instalación
  • Software de apoyo
  • Flexibilidad del modelo de datos
  • Inserción de datos
  • Lectura de datos
  • Actualización de datos
  • Caso práctico

Tema 4. MongoDB: Agregación

  • Introducción y objetivos
  • Conceptos
  • Map-Reduce
  • Aggregation Framework
  • Casos prácticos

Tema 5. Gestión de MongoDB

  • Introducción y objetivos
  • Seguridad
  • Respaldo
  • Rendimiento
  • Sharding

Tema 6. Drivers de conexión

  • Introducción y objetivos
  • Referencias: dónde consultar cada driver
  • Ejemplos de uso

Tema 7. Cassandra

  • Introducción y objetivos
  • Descarga e instalación
  • Conceptos generales
  • Modelo de datos y relaciones
  • CQL3
  • TTL y WriteTime
  • Índices
  • Ejercicio práctico: instalación con Docker
  • Referencias bibliográficas

Tema 8. Neo4j

  • Introducción y objetivos
  • Descarga e instalación
  • Conceptos generales
  • Graph Data Modelling
  • Interfaz Neo4j
  • CQL
  • Visualización de grafos
  • Caso práctico
  • Referencias bibliográficas

Tema 9. Redis

  • Introducción y objetivos
  • Conceptos generales
  • Modelo de datos, estructura y módulos
  • Arquitectura y topología
  • Despliegue en Docker
  • Drivers
  • Referencias bibliográficas

Tema 10. Datos en el cloud

  • Introducción y objetivos
  • Cloud computing
  • Modelos de cloud computing
  • Tipos de servicios cloud
  • Virtualización
  • Docker
  • Manos a la obra con Docker
  • Iniciar un contenedor con MongoDB
  • Referencias bibliográficas

Las actividades formativas de la asignatura se han elaborado con el objetivo de adaptar el proceso de aprendizaje a las diferentes capacidades, necesidades e intereses de los alumnos.

Las actividades formativas de esta asignatura son las siguientes:

  • Lección magistral: exposición oral de un tema estructurado para facilitar los contenidos sobre la materia objeto de estudio de forma organizada.
  • Estudio de casos: análisis de un problema o suceso real para conocerlo, interpretarlo, resolverlo, generar hipótesis, contrastar datos, reflexionar, completar conocimientos, diagnosticarlo y buscar las soluciones.
  • Resolución de ejercicios y problemas: ejercitar, ensayar y poner en práctica los conocimientos previos. Suele utilizarse como complemento de la lección magistral.
Descargar programación

Estas actividades formativas prácticas se completan, por supuesto, con estas otras:

  • Estudio personal
  • Tutorías. Las tutorías se pueden articular a través de diversas herramientas y medios. Durante el desarrollo de la asignatura, el profesor programa tutorías en días concretos para la resolución de dudas de índole estrictamente académico a través de las denominadas “sesiones de consultas”. Como complemento de estas sesiones se dispone también del foro “Pregúntale al profesor de la asignatura” a través del cual se articulan algunas preguntas de alumnos y las correspondientes respuestas en el que se tratan aspectos generales de la asignatura. Por la propia naturaleza de los medios de comunicación empleados, no existen horarios a los que deba ajustarse el alumno.
  • Examen final presencial u online

Las horas de dedicación a cada actividad se detallan en la siguiente tabla:

ACTIVIDADES FORMATIVAS HORAS POR ASIGNATURA % PRESENCIAL
Sesiones presenciales virtuales 15 horas 100 %
Recursos didácticos audiovisuales 6 horas 0
Estudio del material básico 60 horas 0
Lectura del material complementario 45 horas 0
Casos prácticos y laboratorios virtuales 15 horas 13.3 %
Trabajos y test de evaluación 14 horas 0
Tutorías 16 horas 30 %
Trabajo colaborativo 7 horas 0
Examen final 2 horas 100 %
Total 180 horas -

Bibliografía básica

Recuerda que la bibliografía básica es imprescindible para el estudio de la asignatura. Cuando se indica que no está disponible en el aula virtual, tendrás que obtenerla por otros medios: librería UNIR, biblioteca...

Los textos necesarios para el estudio de la asignatura han sido elaborados por UNIR y están disponibles en formato digital para consulta, descarga e impresión en el aula virtual.

Bibliografía complementaria

  • Ahmad, K. y Javed, M. (2017). Hands-On Redis. In NoSQL: Database for Storage and Retrieval of Data in Cloud (pp. 355-364). Londres: Chapman and Hall/CRC.
  • Contreras, D. (2020). Sistemas de almacenamiento NoSQL [Trabajo de Fin de Grado]. Recuperado de https://repositorio.comillas.edu/jspui/handle/11531/35086
  • Deka, G. C. (Ed.). (2017). NoSQL: database for storage and retrieval of data in cloud. Boca Ratón: CRC Press.
  • Gessert, F., Wingerath, W. y Ritter, N. (2020). Fast and Scalable Cloud Data Management (pp. 1-193). Nueva York: Springer.
  • González, R. A. y Moreno, D. J. (2021). Evaluación de seguridad de gestores de bases de datos Nosql MongoDB, Redis y Cassandra [Proyecto de Grado]. Recuperado de https://repository.ucatolica.edu.co/handle/10983/25449
  • Jose, B. y Abraham, S. (2020). Performance analysis of NoSQL and relational databases with MongoDB and MySQL. Materials today: PROCEEDINGS24, 2036-2043.
  • Luengo, J., García-Gil, D., Ramírez-Gallego, S., García, S. y Herrera, F. (2020). Big data preprocessing: enabling smart data. Basingstoke: Springer Nature.
  • Manchale, A. (2021). Tug Grall On Redis. IEEE Software38(4), 130-132.
  • Matallah, H., Belalem, G. y Bouamrane, K. (2020). Evaluation of NoSQL databases: MongoDB, Cassandra, HBase, Redis, Couchbase, OrientDB. International Journal of Software Science and Computational Intelligence (IJSSCI)12(4), 71-91.
  • Palanisamy, S. y SuvithaVani, P. (2020, January). A survey on RDBMS and NoSQL Databases MySQL vs MongoDB. In 2020 International Conference on Computer Communication and Informatics (ICCCI) (pp. 1-7). IEEE.
  • Sanka, A. I., Chowdhury, M. H. y Cheung, R. C. (2021). Efficient High-Performance FPGA-Redis Hybrid NoSQL Caching System for Blockchain Scalability. Computer Communications169, 81-91.
  • Santos, M. Y. y Costa, C. (2020). Big Data: Concepts, Warehousing, and Analytics (pp. i-xxx). Dinamarca: River Publishers.
  • Santos, N. y Masala, G. L. (2018, June). Big data security on cloud servers using data fragmentation technique and NoSQL database. In International Conference on Intelligent Interactive Multimedia Systems and Services (pp. 5-13). Nueva York: Springer, Cham.
  • Shrivastava, S. (2020). A Review of Spatial Big Data Platforms, Opportunities, and Challenges. IETE Journal of Education61(2), 80-89.
  • Störl, U., Klettke, M. y Scherzinger, S. (2020). NoSQL Schema Evolution and Data Migration: State-of-the-Art and Opportunities. En EDBT (pp. 655-658).

El sistema de calificación se basa en la siguiente escala numérica:

0 - 4, 9 Suspenso (SS)
5,0 - 6,9 Aprobado (AP)
7,0 - 8,9 Notable (NT)
9,0 - 10 Sobresaliente (SB)

La calificación se compone de dos partes principales:

El examen se realiza al final del cuatrimestre y es de carácter PRESENCIAL U ONLINE Y OBLIGATORIO. Supone el 60 % de la calificación final y para que la nota obtenida en este examen se sume a la nota final, es obligatorio APROBARLO.

La evaluación continua supone el 40 % de la calificación final. Este 40 % de la nota final se compone de las calificaciones obtenidas en las diferentes actividades formativas llevadas a cabo durante el cuatrimestre.

Ten en cuenta que la suma de las puntuaciones de las actividades de la evaluación continua permite que realices las que prefieras hasta conseguir el máximo puntuable mencionado. En la programación semanal de la asignatura, se detalla la calificación máxima de cada actividad o evento concreto puntuables.

Sistema de evaluación Ponderación min - max
Participación del estudiante 0% - 10%
Trabajos, proyectos, laboratorios/talleres y/o casos 20% - 30%
Test de evaluación 0% - 10%
Examen final 60% - 60%

Luis de la Fuente Valentín

Formación académica:Doctor en Ingeniería Telemática por la Universidad Carlos III de Madrid, obtenido con Mención Europea y con plan de doctorado con Mención de Calidad.

Experiencia:Tiene una amplia experiencia en docencia universitaria en la Universidad Carlos III de Madrid y la Universidad Internacional de La Rioja. Director del Máster en Visual Analytics y Big Data de UNIR. Investigador senior en el Vicerrectorado de Investigación y Tecnologías de UNIR. Participación en proyectos INTUITEL y A4Learning.

Líneas de investigación:Ha participado en proyectos de investigación de financiación europea (como INTUITEL, HoTEL, eLANE), nacional (como MOSAIC Learning) y regional (como eMadrid o AppMOOC). Su investigación se ha centrado en el ámbito de las tecnologías educativas, estándares educativos y learning analytics. Tiene más de 50 publicaciones entre revistas internacionales de impacto y contribuciones en conferencias de investigación de alto nivel.

Marlon Cárdenas Bonett

Formación académica: Doctor en Informática por la Universidad Complutense de Madrid. Máster en Big Data & Data Science por la Universidad Autónoma de Madrid, Máster en ingeniería de sistemas de información por la Universidad Rey Juan Carlos e Ingeniería del Software por la Universidad de Salamanca.

Experiencia: Actualmente es director del Máster en Análisis y Visualización de Datos Masivos y docente en éste y otros títulos de postgrado en UNIR. Es responsable del área de Data Science en la compañía Sopra Steria y lidera varias iniciativas de proyecto en el área de la analítica avanzada en esta misma compañía ante distintos clientes. También imparte docencia en la Universidad Francisco de Vitoria.

Líneas de investigación: He participado en proyectos europeos de investigación como (FoTRRIS, RiseWise, RAISD), nacional (ColosAAL). Actualmente colabora con el grupo de investigación GRASIA de la Universidad Complutense de Madrid, en líneas de trabajo relacionadas son los sistemas multi-agentes y la inteligencia artificial. En el ámbito de la salud, trabaja en proyectos de investigación en colaboración con la Fundación San Juan de Dios, analizando y estructurando historias clínicas electrónicas.

Obviamente, al tratarse de formación online puedes organizar tu tiempo de estudio como desees, siempre y cuando vayas cumpliendo las fechas de entrega de actividades, trabajos y exámenes. Nosotros, para ayudarte, te proponemos los siguientes pasos:

  1. Desde el Campus virtual podrás acceder al aula virtual de cada asignatura en la que estés matriculado y, además, al aula virtual del Curso de introducción al campus virtual. Aquí podrás consultar la documentación disponible sobre cómo se utilizan las herramientas del aula virtual y sobre cómo se organiza una asignatura en la UNIR y también podrás organizar tu plan de trabajo con tu tutor personal.
  2. Observa la programación semanal. Allí te indicamos qué parte del temario debes trabajar cada semana.
  3. Ya sabes qué trabajo tienes que hacer durante la semana. Accede ahora a la sección Temas del aula virtual. Allí encontrarás el material teórico y práctico del tema correspondiente a esa semana.
  4. Comienza con la lectura de las Ideas clave del tema. Este resumen te ayudará a hacerte una idea del contenido más importante del tema y de cuáles son los aspectos fundamentales en los que te tendrás que fijar al estudiar el material básico. Consulta, además, las secciones del tema que contienen material complementario.
  5. Dedica tiempo al trabajo práctico (sección Actividades y Test). En la programación semanal te detallamos cuáles son las actividades correspondientes a cada semana y qué calificación máxima puedes obtener con cada una de ellas.
  6. Te recomendamos que participes en los eventos del curso (sesiones presenciales virtuales, foros de debate…). Para conocer la fecha concreta de celebración de los eventos debes consultar las herramientas de comunicación del aula vitual. Tu profesor y tu tutor personal te informarán de las novedades de la asignatura.

En el aula virtual del Curso de introducción al campus virtual encontrarás siempre disponible la documentación donde te explicamos cómo se estructuran los temas y qué podrás encontrar en cada una de sus secciones.

Recuerda que en el aula virtual del Curso de introducción al campus virtual puedes consultar el funcionamiento de las distintas herramientas del aula virtual: Correo, Foro, Sesiones presenciales virtuales, Envío de actividades, etc.

Ten en cuenta estos consejos...

  • Sea cual sea tu plan de estudio, accede periódicamente al aula virtual, ya que de esta forma estarás al día de las novedades del curso y en contacto con tu profesor y con tu tutor personal.
  • Recuerda que no estás solo: consulta todas tus dudas con tu tutor personal utilizando el correo electrónico. Además, siempre puedes consultar tus dudas sobre el temario en los foros que encontrarás en cada asignatura (Pregúntale al profesor).
  • ¡Participa! Siempre que te sea posible accede a los foros de debate. El intercambio de opiniones, materiales e ideas nos enriquece a todos.
  • Y ¡recuerda!, estás estudiando con metodología online: tu esfuerzo y constancia son imprescindibles para conseguir buenos resultados. ¡No dejes todo para el último día!