La calidad del aire en Madrid desde la estadística y el análisis de datos

¿CÓMO ES EL AIRE EN MADRID?¿CORTAMOS O NO EL TRÁFICO?

Aprovechando los incidentes provocados por los cortes al tráfico de vehículos particulares en la ciudad de Madrid por episodios de alta contaminación, vamos a mostrar una aproximación al uso de distintas técnicas y herramientas para el análisis de datos. De este modo podremos comprobar que una combinación de las mismas nos puede dar datos muy valiosos y de sencilla interpretación en cualquier tipo de análisis con datos obtenidos de diversas fuentes.

INTRODUCCIÓN

La creciente contaminación en las grandes ciudades es uno de los grandes problemas sanitarios que afectan a la población de las mismas. Estudios relacionan el incremento de determinado tipo de contaminantes como las PM2.5 (Partículas Menores de 2,5 µm), PM10 (Partículas Menores de 10 µm), NO (monóxido de nitrógeno) y NO₂ (dióxido de nitrógeno) con el aumento de ingresos hospitalarios por afecciones respiratorias y cardiovasculares

Si nos centramos en una ciudad como Madrid buena parte de las partículas en suspensión de menos de 2,5µ (PM2.5), que son por tanto 100% respirables y contienen, entre otros, metales pesados, tienen origen antropogénico (como las emisiones de los vehículos de gasóleo), aunque únicamente se contemplan a efectos de restricciones de acceso al centro de la ciudad por parte del tráfico particular los valores de Dióxido de Nitrógeno (NO₂).

Típicamente se toma como dato de estudio principal de la concentración del gas NO₂ en la atmósfera.  El gas NO₂ se forma como subproducto en los procesos de combustión a altas temperaturas. Por ello es un contaminante frecuente en zonas urbanas debido a la gran cantidad de vehículos motorizados.

¿QUÉ ES EL PROTOCOLO ANTICONTAMINACIÓN DEL AYUNTAMIENTO DE MADRID?

Con el fin de paliar los problemas derivados de los episodios de alta contaminación, existen varias normativas de obligado cumplimiento para la ciudad de Madrid. Se apoya en las siguientes leyes:

  • Normativa europea de calidad del aire (Directiva 2008/50)
  • Ley 34/2007, de 15 de noviembre, de Calidad del Aire y Protección de la Atmósfera
  • Fija los umbrales de concentración de NO₂ (en µgr/m³) que establecen los siguientes estados: Preaviso, Aviso y Alerta.

Requisitos para definir los estados

Tabla1. Condiciones de salto

ENTONCES, ¿CUÁNDO SE CORTA EL TRÁFICO?

El tráfico se corta a partir del denominado Escenario 2 del Protocolo para episodios de alta contaminación del Ayuntamiento de Madrid, que implica 1 día de superación del nivel de Aviso o 2 consecutivos del nivel de Preaviso, según la Tabla 1. Condiciones de salto.

PROTOCOLO ANTICONTAMINACIÓN DEL AYUNTAMIENTO DE MADRID. ZONAS Y ESTACIONES

En este post nos vamos a centrar fundamentalmente en el estudio de la zona 1 por varios motivos:

  • Es donde se dan los valores más elevados de NO₂.
  • Sus estaciones se encuentran situadas dentro de la M30, es decir la zona con la restricción de entrada de vehículos particulares a partir del escenario 2.
  • Es la que tiene un mayor número de estaciones y casi todas de tipología “tráfico” (7 de las 10).
  • Es la zona que presenta un mayor número de “positivos”, es decir valores mayores de 180 µgr/m³.

 En la siguientes ilustración y tabla vamos a ver como se distribuyen las estaciones en la ciudad de Madrid

ubicación estaciones madrid

Ilustración1. Ubicación de estaciones

estaciones por zona

Tabla2. Estaciones por zona

 

¿QUÉ OBJETIVOS NOS FIJAMOS PARA ESTE ESTUDIO?

Apoyándonos en diferentes herramientas y técnicas estadísticas buscamos lo siguiente:

  • Realizar un análisis estadístico descriptivo de los datos, de manera que podamos conocer qué es lo que ha pasado y pasa con los mismos.

CONSTRUCCIÓN DE LA BASE DE DATOS

Como primer paso para realizar nuestro estudio Construimos inicialmente un conjunto de datos “maestro”. A partir de él construiremos otros subconjuntos más específicos para nuestros propósitos, concretamente para la zona 1. Para ello usaremos distintas fuentes:

  • Datos de la calidad del aire. Procedencia Ayuntamiento de Madrid con periodicidad horaria del 01/01/2014 al 31/05/2016
    • Concentración de NO₂ (μg/m³)
    • Hora (UTC) de la medida
    • Estación de medida
    • Fecha (año, mes, día)

Para enriquecer el dataset maestro se han incorporado otras variables que podrían influir en los niveles de NO₂.

  • Datos precio del gasóleo. Estos datos también abiertos, se han obtenido de la página “históricos del precio de la gasolina y diésel de España”.
  • Datos meteorológicos. Datos obtenidos en datosclima.es. Son datos diarios, obtenidos de dos estaciones de Madrid, situadas en Ciudad Universitaria Y Retiro y que contienen la siguiente información:
    • Temperatura máxima, media y mínima (ºC)
    • Hora en la que se alcanza la temperatura máxima y mínima en el día (h)
    • Rachas y velocidad máxima del viento (km/h)
    • Precipitación total diaria (l/m²)
    • Precipitación acumulada en periodos de 6 horas (l/m²)
  • Datos de georeferencia. Obtención de las coordenadas geográficas de las 24 estaciones con el software de Google Maps.

¿QUÉ HERRAMIENTAS/APLICACIONES VAMOS A USAR?

sparkr studioexceltableau

Spark. Con Spark, que da para otro post, se ha realizado la extracción, limpieza y procesado. No es estrictamente necesario el uso de Spark, aunque en grandes volúmenes de datos facilita enormemente la tarea. La base de datos final obtenida con Spark está en formato csv y contiene los siguientes campos:

fechahora,S28079004,S28079008,…….. ,S28079060,temp,velo,preci,flagFinde,gasolina,alarma

  • fechahora: fecha y hora en formato aa/mm/dd/hh
  • S28079004: código de la estación (24 estaciones). Muestra el valor de NO₂ en μg/m³
  • temp: muestra la temperatura en grados centígrados
  • velo: velocidad del viento en km/h
  • preci: Precipitación total en períodos de 6 horas (l/²)
  • flagFinde: valor binario que nos indica si el día corresponde a fin de semana (1) o no (0)
  • gasolina: precio del gasóleo en €/litro
  • alarma: nos indica en binario si se dan las condiciones de salto de preaviso, aviso o alerta.

Excel. Con los datos obtenidos del csv de Spark y extracciones propias, se han preparado diferentes libros de Excel y csv, (algunos de los cuales se les ha añadido la información geográfica), a fin de facilitar el trabajo y poder cargar datasets más “amigables” a Tableu,  Rstudio y BigML .

Rstudio. Se ha usado Rstudio para la obtención de resúmenes estadísticos, histogramas y boxplot tanto de las estaciones como de las zonas.

Tableau. Con esta herramienta se ha intentado, de forma muy visual, mostrar comportamientos de estaciones y zonas en relación a las distintas variables contempladas, así como la ubicación de las estaciones.

Los datos usados se corresponden al período comprendido entre el 01 de enero de 2014 a las 00:01 y el 31 de mayo de 2016 a las 24:00

ANÁLISIS ESTADÍSTICO ZONA 1. DISTRIBUCIÓN DE LOS DATOS

Usamos R para el cálculo del resumen de los datos. Funciones summary() y sd().

summary() nos dará, para el período de estudio y para cada estación una serie de medidas de centralización o dispersión de los datos:

  • los valores máximos y mínimos
  • la Media: Medida de centralización. Es la suma del valor de todos los datos divido por el número total de ellos.
  • la Mediana: Medida de centralización. Es el valor central de los datos y es más apropiada cuando existe una gran dispersión de los mismos.
  • 1er y 3er cuartil: Medida de dispersión. Su resta nos dará el Rango Intercuartílico (RIC) que nos dice cuánto de separan el 50% de los datos de la Mediana.

 

sd() por su parte representa la desviación estándar, que es una medida del grado de dispersión de los datos con respecto al valor promedio.

zona 1

Ilustración2. Boxplot de estaciones de Zona1

desviación estaciones

Tabla4. Desviación Estándar y Rango Intercuartílico

De la Tabla3 y Tabla4, así como de la Ilustración2, podemos obtener las siguientes conclusiones:

  • Los valores máximos superan para todas las estaciones los umbrales de aviso (200 μg/m³) y para la estación de Avenida de Ramón y Cajal el umbral de alerta (400 μg/m³).
  • Aunque hay una gran amplitud en los datos, la mayoría se concentran en una banda estrecha por debajo de los 100 µgramos/m³.
    Podemos observar que los valores más altos corresponden a la estación de Escuelas Aguirre con un 50 % de los valores de NO₂ entre 33 µgramos/m3 y 69 µgramos/m³ y los menores se corresponden con la estación de Retiro con el 50% de los valores entre 13 µgramos/m3 y 40 µgramos/m³.
  • Proximidad entre la desviación estándar y el rango intercuartílico.
  • Para todas las estaciones, salvo para la de Retiro, podemos considerar valores atípicos aquellos que están ligeramente por encima de 100-110 µgramos/m³. Sin embargo, parte de estos valores atípicos serán los que provoquen los estados de preaviso, aviso y alerta.
  • Los valores menores se corresponden a la estación de Retiro, lo que confirma que la masa forestal del Parque del Retiro disminuye sensiblemente los valores de contaminación.

Teniendo en cuenta lo visto, y la legislación vigente podríamos concluir que la calidad del aire en Madrid, en términos de NO₂, es generalmente buena.

ANÁLISIS ZONA 1. OTRAS VARIABLES QUE PUEDEN INFLUIR

Las siguientes ilustraciones están realizadas con Tableu

  • Precio de Gasóleo: Como podemos ver en la ilustración, el precio del gasóleo parece no influir en exceso al contrario de lo que podría pensarse (un menor precio más uso de vehículo particular y calefacciones).

precio gasoleo

Ilustración3. Impacto del precio del gasóleo
  • Día de la semana: Se diferencian los días laborales de los festivos.  En días laborables existen dos zonas horarias de mayor contaminación correspondiendo éstas a las horas pico de tráfico por la mañana y por la tarde en torno a las 20-21 horas. En el caso del fin de semana, la zona más relevante se corresponde con las horas nocturnas, observándose un incremento progresivo desde las 19 horas hasta 24 horas.

niveles contaminación

Ilustración4. Niveles de contaminación según día y hora
  • Época del año: Los valores se disparan en los períodos comprendidos entre mediados de octubre y mediados de enero

valores zona 1

Ilustración5. Histórico de los valores máximos de concentración de NO2 por estación de Zona 1
  • Temperatura: Influye en los valores de contaminantes por transporte convectivo vertical. Sin embargo, al tener únicamente datos de la temperatura a “ras de suelo” no lo contemplamos en el estudio
  • Precipitaciones: Xavier Querol, investigador del CSIC propone en su estudio que “lluvias con más de 2 litros por metro cuadrado ya tienen un efecto importante para limpiar las partículas contaminantes, pero no para el dióxido de nitrógeno. En ese caso, lo realmente importante es que haya viento“. No tendremos en cuenta por tanto la lluvia para este estudio, aunque fuertes lluvias sí parecen disminuir el nivel de NO₂
  • Viento: Rachas superiores a 30 Km/h parecen disminuir la concentración de NO₂

Poniendo los datos meteorológicos en conjunto

aire en madrid

Ilustración6. Impacto de lluvia y viento en los niveles de NO₂

Podemos ver que fuertes lluvias o rachas de viento de más de 30 Km/h disminuyen los niveles de NO₂.

ANÁLISIS ZONA 1. CONCLUSIONES

  • Los valores de NO₂ están relacionados con la época del año y el tipo de día de la semana, así los días laborables los picos se producen a las horas de mayor desplazamiento de vehículos durante la mañana y la tarde, los fines de semana los picos se producen en horas nocturnas.
  • En cuanto a la meteorología:
    • La temperatura influye si se produce transporte convectivo vertical.
    • La lluvia, según el CSIC no elimina el NO₂, aunque nuestro estudio muestra que fuertes precipitaciones sí parecen limpiar la atmosfera.
    • El viento sí influye de manera determinante en la eliminación del NO₂ por transporte convectivo horizontal, si bien estudios indican que deben darse determinadas circunstancias de dirección del mismo y duración de las rachas. Sí parece verse en nuestro estudio que el viento debe soplar con una velocidad superior a 30 Km/h para que arrastre las partículas de NO₂.
    • En cuanto al precio del gasóleo, su influencia parece nula en los valores de NO₂.

¿SE CUMPLIÓ CON LA LEGISLACIÓN VIGENTE?

El protocolo para el escenario 2 debería haberse aplicado los siguientes días:

                2014: 31 de octubre

                2015: 05 de enero, 12 y 13 de noviembre, 03, 04, 05 de diciembre

El ayuntamiento de Madrid, en este caso aplicó el protocolo correspondiente al Escenario 2 el día 13/11/2015 y los días 03, 04 y 05 de diciembre de 2015.

Si se hubiese aplicado el protocolo actual de fecha 01/02/2016 el escenario cambia sensiblemente  

                2014: 17 de julio; 4 de septiembre; 21, 28, 29, 30 y 31 de octubre; 12, 19 y 24 de             diciembre

                2015: 2, 3, 4, 5, 6, 8, 10 y 11 de enero; 10 de mayo; 17 de octubre; 12, 13, 14 de              noviembre; 1, 3, 4, 5, 19, 20, 23 y 24 de diciembre

                2016: 21 de febrero

¿QUÉ PODEMOS ESPERAR ENTONCES?

Hipótesis: Se podría pensar que activando los protocolos se disminuiría la concentración de NO₂ (disminución del tráfico) para los días inmediatamente siguientes a la activación. Sin embargo, esto no se aprecia en los días 4-5/12/2015. Parece que la disminución del tráfico no es suficiente. Un factor que podría ser determinante en los niveles de NO₂ es sin duda alguna el uso de los calefactores en el período invernal. Hay que tener en cuenta que, en el centro de las ciudades, que son las que se ven afectadas por los cortes de tráfico, la mayor parte de los edificios cuentan con sistemas de calefacción basadas en la combustión de carbón o gasóleo.

Autor:

Fundador de Metriplica y socio de la consultora Multiplica Licenciado en Ciencias y técnicas estadísticas. Programador Mainframe Profesor de Masters y Postgrados en diversas universidades y escuelas de negocio.

Leave Comment

Your email address will not be published. Required fields are marked *