Un curso de profesor asociado en UC3M impartiendo Periodismo de datos

Resumen de un curso de experiencia en la asignatura de Periodismo de Datos del doble grado de Periodismo y Humanidades de la UC3M.

Edificio Concepción Arenal del Campus UC3M en Getafe

Cuando salieron plazas de profesor asociado en UC3M para “Periodismo de datos” el curso 2021-2022 no lo dudé porque nunca había sido “profesor asociado” ni había dado formación reglada a alumnxs de grado “periodismo de datos”.

Primeros pasos

Daba dos asignaturas en el curso, ambas del doble grado de Periodismo y Humanidades. El primer semestre (o cuatrimestre), a alumnxs de cuarto curso; y el segundo, de quinto.

Hay muchos aspectos emocionantes de la experiencia del curso 2021-2022 pero me voy a centrar en el término que Paul Bradshaw ha trabajado mucho en su experiencia docente en periodismo de datos: la aversión a las matemáticas. Lo cierto es que esta aversión no es exclusiva del periodismo de datos pero a muchxs estudiantes les choca que para hacer “cosas” de periodismo o visualización de datos tengan que aplicar nociones básicas de matemáticas. En mi experiencia y por las tecnologías que contemplo esta “aversión” la traslado al “ordenador”, si bien hace unos años creía que esa aversión era a la “informática” o a lo que ellxs denominan “programar”.

Hablo de “aversión al ordenador” pero también se podría hablar de cómo la relación con el ordenador de lxs nativxs digitales ha cambiado sustancialmente haciéndoles extremadamente aptos en el manejo de muchas aplicaciones gráficas mientras que, paradójicamente, parecen analfabetos en usos anteriores, sin interfaces gráficas o procedimientos gráficos.

Figure 1: Detalle de pizarra con boceto de bases del periodismo de datos

En la primera clase de ambos cursos me sorprendió que trajeran el ordenador portátil, lo cual me remitía a un cierto uso cotidiano con las tecnologías que podía mitigar esa aversión y me animaba con la apuesta formativa. Sin embargo, se han acostumbrado a otros usos del ordenador, a los que le proponen las nuevas interfaces gráficas y capacitivas: buscan en Google en vez de explorar la Web –incluso cuando tienen la URL o el dominio, lo buscan en Google; usan el buscador del sistema operativo en vez de recordar dónde se encuentran sus archivos o tener conciencia de una estructura de directorios –antes, en el lugar donde está el buscador de Windows, se situaba el botón “Inicio” por el que accedías al menú de programas y a una estructura de directorios o carpetas; utilizan uno o varios antivirus sin saber qué son, qué hacen o qué significan; utilizan fuentes documentales bien posicionadas –es decir, los primeros resultados de la búsqueda, aunque su explicación sea pobre, escasa o errónea– en vez de artículos científicos, enciclopedias, la Wikipedia o el material docente aportado; piensan que las “cosas” –esas a las que me refería antes, trabajos de periodismo de datos o visualizaciones de datos– salen fácilmente, como cuando aprietas un botón y se enciende la luz, y que no merece la pena saber, investigar o aprender los procesos que están implicados, incluso aunque ello te permita hacer mejores “cosas”.

Figure 2: Detalle boceto pizarra de conocimientos previos

La ficha reina y Excel (gobierna)

La asignatura se basa en la ficha reina aunque se tiene “libertad de cátedra”. Una de las cosas que se dicen ahí es que entre los objetivos, el mapa de competencias:

Las materias ligadas a esta asignatura están estrechamente vinculadas a las nociones básicas de las hojas de Excel y búsqueda y uso de fuentes de información.

Y en la “Descripción de los contenidos. Programa”, el punto 7 dice:

  1. HERRAMIENTAS (I);(II);(III) más comunes empleadas en el Periodismo de Datos. Un caso de herramienta habitual; (Excel).

Aunque reconozco el uso que se ha dado a Excel en el mundo del periodismo de datos y de su predecesor del “Computer Assisted Reporting” (CAR), ni es la única tecnología que se ha usado ni considero que tenga que ser la que un curso universitario aborde. Además, entiendo que cuando se habla de Excel en periodismo de datos es por una serie de cuestiones que no son tanto de Excel como de una relación determinada con la informática:

  1. Se supone que “todo el mundo dispone” de Excel, pero eso no es cierto.
  2. Se considera fácil de usar, y puede ser por su entorno gráfico. Sin embargo, hay otros con entorno gráfico que merecen más la pena aprender, IMHO, como Refine, Pandas o RStudio.
  3. Se dice que es el que se utiliza en los medios actuales. Probablemente se utilice mucho y también es cierto que si pudieran usar las otras alternativas a las que me refería lo harían.
  4. Es el que abre CSV. Ahí llegamos a una de esas cuestiones básicas de uso de un ordenador como son los programas que se asocian a ciertos tipos de archivo, algo plenamente configurable y normalmente desconocido para la mayoría de usuarixs; no debería serlo para periodistas de datos.

Que se pueden resumir en dos:

  1. Excel es el software que “todo el mundo usa” para trabajar con datos (CSV, tablas, hojas de cálculo, etc.).
  2. Excel es gráfico

Es decir, normalmente se menciona Excel porque es lo que se conoce. Creo que con este enfoque de partida nos perdemos muchas cosas buenas, de las que a mí me llamaron la atención y me gustan del mundo del periodismo y la visualización de datos y que encajan plenamente con lo expresado en la ficha reina.

También creo que se asumen muchas otras por un grado preocupante de desconocimiento de la historia, evolución y actualidad del mundo del periodismo de datos; y creo que siendo un grado universitario merece la pena ir un poco más allá y pensar “out of the box”. Además, en su ciclo formativo de grado, ya han tenido una asignatura de Excel, merece la pena que conozcan otras cosas.

Figure 3: Detalle de pizarra con boceto de formatos de datos: *SV, XML, JSON

Aunque Excel nunca es una opción como software, sí que lo menciono porque sirve para explicar ciertos conceptos:

  • Se confunde Excel con hojas de cálculo o tablas de datos.
  • Excel es un programa que visualiza datos tabulados, hay otros.
  • Excel es un programa donde se pueden utilizar funciones para trabajar con los datos tabulados, hay otros.
  • El concepto de “funciones” es algo que remite a programar y se utiliza en más programas aunque no se “programe”.
  • Excel usa el formato de datos XLSX. La última X proviene de XML, cuando en 2008, Microsoft Office convirtió sus formatos de archivo en formatos compatibles con XML. XML significa eXtensible Markup Language.
  • El formato XLSX es propietario y privativo aunque hay otras aplicaciones que pueden leerlo al estar documentado.
  • El formato de datos tabulados más simple es TSV o CSV aunque conviene conocer los JSON y XML como tipos de formatos de datos utilizados en periodismo y visualización de datos.

De hecho, una de las preguntas del examen fue: “¿Qué relación tiene el formato CSV con Excel?”. Las preguntas del examen se basaban en lo dado en clase que recogía en el repositorio UC3M Periodismo Datos para el primer cuatrimestre y esta web de la guía docente en el segundo.

Guía docente

Pese a haber explicado varias veces todo lo anterior, pese a tener los apuntes de clase publicados y dejar consultarlo durante el examen, alguna persona puso la respuesta que le dio está página web que aportaba algunas cosas interesantes pero también cosas raras como:

¿Por qué se utilizan archivos CSV??

Los archivos CSV se utilizan principalmente para importar y exportar información importante, como datos de clientes o pedidos, hacia y desde su base de datos.

¿“Clientes o pedidos”? No creo que mencionara esos términos en las clases ni que ese comentario fuera fruto de una reflexión consciente de ese alumnx sino un “corta y pega” acrítico. Esta aversión unida a la falta de sentido crítico de las tecnologías fue la parte más difícil de gestionar. Muchxs alumnxs se mostraban extrañadxs, contrariadxs o incluso desafiantes ante este enfoque y repetían como un mantra algo que no es cierto: “no queremos aprender a programar”. Es decir, no se les pedía en ningún momento “aprender a programar” sino realizar un acercamiento al ordenador que va más allá del uso que ya tenían del mismo, un uso fundamentalmente clientelar y adaptado a las modernas interfaces de usuarix.

Sin embargo, esto me motivaba más y mantuve con mayor ilusión si cabe el reto propuesto, aprender ciertas nociones básicas de periodismo de datos que les permitira reflexionar y decidir si querían utilizar las tecnologías de otras maneras posibles.

El primer cuatrimestre empecé por la terminal, git y Markdown, lo cual nos llevó mucho tiempo hasta conseguir un estado compartido parecido, y de ahí pasamos a Open Refine, Tabula, Datawrapper y, finalmente, Github, para tener publicados los trabajos. Se pueden ver a través de la organización que creé en Github, Ponte Datos, en homenaje a Concepción Arenal, nombre del edificio donde se realizaban las clases, periodista entre otras cosas y cuyo segundo apellido era Pontes.

Figure 4: Detalle de organización Ponte Datos en Github, github.com/pontedatos

Durante las vacaciones de Navidad de 2021, cerca del final del primer cuatrimestre y dando vueltas a cómo hacer que esa transición inicial hacia un uso distinto del ordenador y de las tecnologías fuera más rápido, descubrí que UC3M contaba con un JupyterHub que empleaban fundamentalmente en asignaturas técnicas. Jupyter es una aplicación web que permite ejecutar código de Python, R, Julia u otros lenguajes –si se ha configurado como tal– a la vez que escribir en formato Markdown. Les pedí permiso para utilizarlo en esta asignatura y dieron acceso fácilmente a todxs lxs matriculadxs. Da gusto contar con software libre de calidad disponible desde la propia universidad.

Lo bueno de Jupyter es que te sitúa más cerca de la programación fácilmente y con resultados producidos más rápidos que con la suma de otras tantas tecnologías porque puedes disponer de todas las librerías de Python, o de R, para tus propósitos. En nuestro caso utilizamos las librerías requests (para solicitar datos de la web o conectarnos a una API), Pandas (para analizar los datos) y Folium (para pintarlos en un mapa). Tenerlo en la propia universidad con la cuenta de la universidad permitía no tener que depender de los distintos entornos de cada cual en su portátil. Además, al estar instalado sobre una máquina GNU/Linux se podía lanzar una terminal web sobre tu espacio del Jupyterhub y ejecutar comandos de bash. No avancé mucho en posibilidades de personalización por aquí por falta de tiempo. A cambio, también abordamos la instalación en cada equipo, una vez que lo habían disfrutado en el de la universidad, para tener autonomía sobre los cuadernos, que quedaban actualizados en los repositorios de Github. Como guinda del pastel habría faltado que hubiera también un servidor de git de la propia universidad, que no existe aunque sí que me encontré algunos departamentos que los utilizaban.

Figure 5: Detalle de pizarra con boceto de explicación de CLI, GUI, API

Las pruebas de evaluación continua fueron casi las mismas. La primera, un comentario libre sobre algún trabajo de periodismo y/o visualización de datos, en Markdown y en Github. Esto servía para ir conociendo la plataforma y la sintaxis Markdown. La segunda pedía un comentario más elaborado que incorporara cuestiones que se daban en clase, como el uso de unas tecnologías u otras, si eran libres, propietarias o servicios, las tipografías, los colores, la estructura, el código, los datos… de nuevo en Markdown y en Github. A partir de aquí los caminos divergen del primero al segundo cuatrimestre.

En el primer cuatrimestre la tercera prueba incorporaba un trabajo de storytelling con datos propuestos que había que limpiar y analizar con Refine, visualizar con Datawrapper y contar. La cuarta prueba consistía en buscar un conjunto de datos del portal de datos abiertos de España, datos.gob.es, con el que había que hacer lo mismo que en el anterior trabajo. El trabajo final consistía en realizar una página web a partir de una plantilla de Bootstrap, en concreto la Sticky footer with fixed navbar y uso de Pandoc para la transformación de Markdown a HTML. En este caso me inspiraba en el trabajo que realicé para el curso de introducción al periodismo y la visualización de datos de la Asociación de la Prensa de Madrid en mayo de 2021.

Figure 6: Detalle de pizarra con boceto de tecnologías Internet y Web

Por su parte, en el segundo cuatrimestre las tercera y cuarta pruebas consistieron en cuadernos de Jupyter, uno que se conectaba a la API de datos del Covid para visualizar datos en tiempo real de algunos países y el segundo que se conectaba a la API del portal de datos abiertos del Ayuntamiento de Zaragoza, inspirado en el trabajo que realizó Martín Nadal en el Curso de Visualización de Datos Urbanos en etopia_, Zaragoza en octubre y noviembre de 2021. Su trabajo final consistió en recopilar todos estos trabajos apropiadamente en Markdown para aprovechar de la transformación que realiza Github a HTML.

Si habías cumplido con estas cuatro pruebas y el trabajo final solo había que examinarse de la parte teórica que consistía, como he puesto antes de ejemplo, en una serie de preguntas que venían de los apuntes. Esto se realizaba también en línea, en el repositorio de Github de cada cual, por lo que se contaba con plena conexión a Internet y, por tanto, a los propios apuntes.

Resultados

En los dos cuatrimestres la mayoría de las personas matriculadas siguió las clases, realizó las cuatro pruebas de evaluación continua, el trabajo final, el examen y ¡aprobado!, y muchxs con notable o sobresaliente, en ambos cuatrimestres. Y también aprobaron todxs lxs que completaron el examen de convocatoria extraordinaria.

Especial ilusión me hizo en el primer cuatrimestre una alumna que usaba GNU/Linux en el ordenador pero tenía la distribución “capada”, es decir, venía preinstalada con su portátil y no podía utilizarla con plenos poderes, por lo que le propuse instalar de cero una distribución con la que pudiera aprender sin cortapisas como Debian y lo realizó durante una tutoría.

Varias alumnas solicitaron tutorías e incluso a veces las realizábamos en línea si alguien solicitaba conectarse desde casa porque no podía acercarse a la universidad.

Me gustaría destacar algunos de los trabajos finales de este primer cuatrimestre:

Figure 7: Detalle trabajo de Paula Buedo
Figure 8: Detalle trabajo de Adela Lobo
Figure 9: Detalle trabajo Alba Martínez
Figure 10: Detalle trabajo de Azahara Serrano

En el segundo cuatrimestre me encontré con una agradable sorpresa inicial, dos alumnxs que venían de oyentes porque les habían dicho que se aprendía de datos. Solicité a UC3M que pudieran acceder al JupyterHub y se les dio acceso, de nuevo muchas gracias por prestar ese servicio tan bien.

Otra experiencia muy positiva fue una alumna que por cuestiones personales no podía venir a clase y solicitaba tutorías semanales en línea a las que se apuntaban otras alumnas en línea o presencialmente.

Me gustaría destacar algunos de los trabajos finales realizados de este segundo cuatrimestre:

Figure 11: Mapa creado por Teresa López
Figure 12: Uso de Pandas y Plot de Python sobre Jupyter

Agradecimientos

Por último, agradecer a la Universidad Carlos III de Madrid contar con esa asignatura, al Departamento de Comunicación por todo el apoyo prestado y a lxs alumnxs haber completado la asignatura y haberse esforzado más de lo que hubieran deseado probablemente.

No sería justo no agradecer muy especialmente a David Rodríguez Mateos, profesor del Departamento de Comunicación y coordinador de la asignatura “Periodismo de datos” en el grado de Periodismo, sus consejos y comentarios sobre el desarrollo del curso. Lamento que esta experiencia no tenga continuidad por mi parte pero le deseo todo lo mejor al departamento, a David y a la asignatura para que desde una universidad pública se aborde esta formación con el alcance, calidad y rigor que se merece.

Enlaces

Aunque están en el artículo, igual pasaron desapercibidos:

Adolfo Antón Bravo
Adolfo Antón Bravo
Coordinador del Máster de Periodismo y Visualización de Datos de la Universidad de Alcalá

Periodismo y visualización de datos, web semántica, bash, emacs, orgmode