Denominación de la asignatura |
La Búsqueda de Datos en el Periodismo de Investigación: Minería de Datos |
Máster al que pertenece |
Master Universitario en Periodismo de Investigación, Datos y Visualización |
Créditos ECTS |
6 |
Cuatrimestre en el que se imparte |
Primer cuatrimestre |
Carácter de la asignatura | Obligatoria |
Esta asignatura pretende liberar al alumno de la dependencia de empresas o instituciones en cuanto al acceso y utilización de la información publicada sobre ellas. Independientemente del formato elegido por estas entidades para compartir sus datos, el alumno contará con herramientas para acceder a los datos y digitalizarlos o descargarlos de la manera más eficiente.
Con los sistemas de reconocimiento óptico de caracteres se eliminará la barrera relativa a la publicación de documentos en formato no reutilizable (PDF). Las herramientas de scraping, una vez conocida la arquitectura de la web, permitirán descargar grandes cantidades de información de manera estructurada. Asimismo, se probará el potencial de los datos generados en las redes sociales como fuente de información en el desempeño de la profesión, acompañando la muestra con herramientas que permiten hacer efectiva esta idea. Para todos estos casos, una vez conseguida la información, se mostrarán técnicas de limpieza que minimicen errores y maximicen precisión y eficiencia en el trabajo con los datos.
Por último, se hará una introducción al trabajo que otros perfiles más técnicos desarrollan en este mismo ámbito, dejando la puerta abierta a la profundización del alumno, o como mínimo, a la posibilidad de una colaboración fluida con programadores informáticos en el proceso de búsqueda de información.
Competencias básicas
Competencias generales
Competencias específicas
Competencias transversales .
Tema 1. Introducción a la Minería de Datos
Introducción a la Minería de datos
Minería y Big Data
Configuración de los datos.
Técnicas de minería de datos
Minería y medios
Tema 2. El «ecosistema» de los datos
Cómo encontrarlos
Formatos: xls, csv, json, pdf, kml, shp…
Algunos conversores
Calidad de los datos
Tema 3. Extracción de datos de PDF
¿Por qué es necesario?
Consideraciones previas
Tabula y otros OCR de texto
OCR de imagen
Evaluación del resultado.
Tema 4. Exprimir la web
Investigar online
Búsqueda avanzada en Google
Investigación basada en «metadatos»
Información sobre webs y dominios
Búsqueda inversa de imágenes
Tema 5. Las redes sociales como fuente de datos (e historias)
5.1. ¿Cómo estudiar este tema?
5.2. La utilidad de las redes sociales
5.3. Exprimir las redes
5.4. Twitter y Carto
Tema 6. Técnicas de recopilación de datos en la web I
6.1. ¿Cómo estudiar este tema?
6.2. ¿Por qué es necesario?
6.3. Introducción a HTML y CSS
6.4. Importar con Google
6.5. Introducción a XPATH
6.6. Scraper
Tema 7. Técnicas de recopilación de datos en la web II
7.1. ¿Cómo estudiar este tema?
7.2. Import.io
7.3. ParseHub
7.4. ¿Cuándo recurrir al webscraping?
Tema 8. Limpieza y transformación de los datos
8.1. ¿Cómo estudiar este tema?
8.2. ¿Por qué son necesarias?
8.3. ¿Dónde están los problemas?
8.4. Maniobras básicas sin salir de Excel
8.5. Add-ins para limpiar datos en Excel
Tema 9. Limpieza y transformación de los datos en OpenRefine
9.1. ¿Cómo estudiar este tema?
9.2. Breve historia
9.3. Instalación y puesta en marcha
9.4. Anatomía y funciones de OpenRefine
9.5. Geolocalización con OpenRefine
Tema 10. Lenguajes de programación y API en Minería
¿Para qué programar?
Los lenguajes
Conceptos generales de programación
Introducción a Python
API
Un ejemplo: The Juicer
Referencias bibliográficas
Las actividades formativas de la asignatura se han elaborado con el objetivo de adaptar el proceso de aprendizaje a las diferentes capacidades, necesidades e intereses de los alumnos.
Las actividades formativas de esta asignatura son las siguientes:
En la programación semanal puedes consultar cuáles son las actividades concretas que tienes que realizar en esta asignatura.
Estas actividades formativas prácticas se completan, por supuesto, con estas otras:
Las horas de dedicación a cada actividad se detallan en la siguiente tabla:
ACTIVIDADES FORMATIVAS |
HORAS |
Sesiones Presenciales Virtuales | 15,0 |
Lecciones magistrales | 6,0 |
Talleres prácticos virtuales | 12,5 |
Estudio del material básico | 44,5 |
Lectura de material complementario | 18,0 |
Trabajos, casos prácticos, test | 29,0 |
Tutorías | 16,0 |
Trabajo colaborativo | 7,0 |
Examen final presencial | 2 |
Total |
150 |
Bibliografía básica
La asignatura se estudia a través de los apuntes elaborados por UNIR y que están desarrollados a través de las Ideas clave.
Bibliografía complementaria
Armendáriz, Agustín; Taggart, Kendall (2015). Useful command line tools for reporters
URL: https://github.com/armendariz/terminal_recipes
BBC. The Juicer. Disponible en web: http://bbcnewslabs.co.uk/projects/juicer/
Beggin, R. (2016). How journalists can apply ethical frameworks to webscraping. Disponible en web: http://ire.org/blog/car-conference-blog/2016/03/11/how-journalists-can-apply-ethical-frameworks-web-s/
Bradshaw, P. (2012). Scraping for Journalists. Disponible en la web: http://acervo-digital.espm.br/e-books/scrapingforjournalists.pdf
CartoDB. Connecting Twitter Data to a CartoDB Dataset
URL: https://docs.cartodb.com/tutorials/connect_twitter_datasource/#twitter-credits
Crucianelli, S. (2014). Herramientas digitales para periodistas. Disponible en web: https://knightcenter.utexas.edu/hdpp.pdf
Geere, Duncan (2012). Engaging people around your data.
Disponible en web: http://datajournalismhandbook.org/1.0/en/delivering_data_10.html
Google (2014). Tutorial de KML. Disponible en web:https://developers.google.com/kml/documentation/kml_tut?hl=es
Graves, Lucas; Nyhan, Brendan (2015). Why do Journalists Fact-check?
URL: http://ejc.net/magazine/article/minority-voices-on-social-media-networks
Harvey, P. (2016). Installing Exiftool. Disponible en web: http://www.sno.phy.queensu.ca/~phil/exiftool/install.html
Hirst, Tony (2013). Analysing UK Lobbying Data Using OpenRefine
Disponible en web: http://schoolofdata.org/2013/06/04/analysing-uk-lobbying-data-using-openrefine/
Import.io. Manual XPATHs. Disponible en la web:http://importio.desk.com/customer/en/portal/articles/2399490-manual-xpaths?b_id=12993
JSON.org. Introducción a JSON. Disponible en web:http://www.JSON.org/JSON-es.html
Lai, R. (2014). Free the Data. Disponible en web: http://ire.org/blog/car-conference-blog/2014/03/01/free-data-getting-government-agencies-give-goods/
Léchenet, A. (2014). The Role of the Computer Assisted Reporter. Disponible en web:https://reutersinstitute.politics.ox.ac.uk/sites/default/files/Global%20Database%20Investigations%20-%20The%20role%20of%20the%20computer-assisted%20reporter.pdf
M. Russel, D. (2015). Learning Rapidly. Disponible en web:http://searchresearch1.blogspot.com.es/2015/05/answer-conversation-about-learning.html
Mazzote, N. (2013). 5 herramientas digitales para extraer datos de archivos PDF.Disponible en web: https://knightcenter.utexas.edu/es/blog/00-13777-5-herramientas-digitales-para-extraer-datos-de-archivos-pdf-protegidos
McGoveran, Catherine (2014). import.io + OpenRefine + Google Fusion Tables = Magic!
Disponible en web: https://www.import.io/post/importio-open-refine-google-fusion-tables-magic/
Metodología de Offshore Leaks. Disponible en web: https://www.icij.org/offshore/how-icijs-project-team-analyzed-offshore-files
Nguyen, D. (2010). Scraping for Journalism: A Guide for Collecting Data. Disponible en web: https://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data
Nguyen, D. (2010). A guide for collecting data. Disponible en la web: https://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data
Nguyen, Dan (2010). Using Google Refine to Clean Messy Data. Disponible en web: https://www.propublica.org/nerds/item/using-google-refine-for-data-cleaning
OpenDataSoft. Open Data Portals arround the World. Disponible en web: https://www.opendatasoft.com/a-comprehensive-list-of-all-open-data-portals-around-the-%20world/
Orenstein, D. (2000) Application Programming Interface. Disponible en web: http://www.computerworld.com/article/2593623/app-development/application-programming-interface.html
Paul Myers (2016). How to Save Online Evidence and Why it Matters. Disponible en web: http://www.bbc.co.uk/blogs/collegeofjournalism/entries/d94c04e8-a12a-47a5-8943-b3bc4db4e313
Quartz (2015). Quartz Guide to Bad Data. Disponible en la web: https://github.com/Quartz/bad-data-guide
Rankovic, Larisa (2011). Minority voices on social media networks
Disponible en web: http://ejc.net/magazine/article/minority-voices-on-social-media-networks
Richardson, Leonard (2015). Beautiful Soup. Disponible en web: https://www.propublica.org/nerds/item/the-stories-of-everyday-lives-hidden-in-reams-of-data
Rivas Santos, V.M. (2001). Tutorial de XPATH. Disponible en web: http://geneura.ugr.es/~victor/cursillos/xml/XPath/
School of Data (2014). Evita errores al momento de limpiar tus datos. Disponible en web: http://es.schoolofdata.org/2014/02/03/evita-errores-al-momento-de-limpiar-tus-datos/
Shiab, N. (2015). On the Ethics of Web Scraping. Disponible en la web: http://gijn.org/2015/08/12/on-the-ethics-of-web-scraping-and-data-journalism/
Silverman, Craig; Tsubaki, Rina (2014). A guide to Verifying Digital Conten in Emergencies. Disponible en web: http://gijn.org/2014/03/18/a-guide-to-verifying-digital-content-for-emergency-coverage/
Sweigart, Al (2015). APIs, not apps: What the future will be like when everyone can code. Disponible en web: https://opensource.com/education/15/9/apis-not-apps
W3Schools. XML tutorial. Disponible en web:http://www.w3schools.com/xml/
Wentworth, Peter; Elkner, Jeffrey; Downey, Allen B.; Meyers, Chris (2012). How to think like a Computer Scientist.
Disponible en web: http://openbookproject.net/thinkcs/python/english3e/
W3Schools. HTML 5 Tutorial. Disponible en web: http://www.w3schools.com/html/default.asp
El sistema de calificación se basa en la siguiente escala numérica:
0 - 4, 9 |
Suspenso |
(SS) |
5,0 - 6,9 |
Aprobado |
(AP) |
7,0 - 8,9 |
Notable |
(NT) |
9,0 - 10 |
Sobresaliente |
(SB) |
La calificación se compone de dos partes principales:
El examen se realiza al final del cuatrimestre y es de carácter PRESENCIAL y OBLIGATORIO. Supone el 60% de la calificación final y para que la nota obtenida en este examen se sume a la nota final, es obligatorio APROBARLO.
La evaluación continua supone el 40% de la calificación final. Este 40% de la nota final se compone de las calificaciones obtenidas en las diferentes actividades formativas llevadas a cabo durante el cuatrimestre.
Ten en cuenta que la suma de las puntuaciones de las actividades de la evaluación continua permite que realices las que prefieras hasta conseguir el máximo puntuable mencionado. En la programación semanal de la asignatura, se detalla la calificación máxima de cada actividad o evento concreto puntuables.
SISTEMA DE EVALUACIÓN |
PONDERACIÓN |
PONDERACIÓN |
Participación del estudiante |
8,3% |
8,3% |
Trabajos y casos prácticos |
30% |
30% |
Test de autoevaluación |
1,7% |
1,7% |
TOTAL EVALUACIÓN CONTINUA |
40% |
40% |
Examen final presencial |
60% |
60% |
TOTAL EVALUACIÓN FINAL |
60% |
60% |
Montse Hidalgo
Formación
Licenciada en Periodismo y diplomada en Comunicación Política por la Universidad de Navarra y Máster en Periodismo de Investigación, Datos y Visualización por la Universidad Rey Juan Carlos y Unidad Editorial.
Experiencia
Actualmente es periodista freelance en diferentes medios de comunicación. Antes ha trabajado como redactora en El Mundo Data, El Diario Vasco y La Opinión de Tenerife.
Obviamente, al tratarse de formación online puedes organizar tu tiempo de estudio como desees, siempre y cuando vayas cumpliendo las fechas de entrega de actividades, trabajos y exámenes. Nosotros, para ayudarte, te proponemos los siguientes pasos:
Recuerda que en el aula virtual del Curso de introducción al campus virtual puedes consultar el funcionamiento de las distintas herramientas del aula virtual: Correo, Foro, Sesiones presenciales virtuales, Envío de actividades, etc.
Ten en cuenta estos consejos…
|