Es sabido que una gran parte de los fenómenos que involucran a “grandes números” y tienen una componente aleatoria, es decir, que dependen en un modo u otro del azar, se comportan estadísticamente de acuerdo a lo que se conoce como una “Distribución Normal”, o más coloquialmente, como una “campana de Gauss”.

La maldita pandemia que nos asola cumple con esas condiciones: desgraciadamente ya tenemos una muestra gigante (casi 200 mil casos “confirmados”, sea cual sea el criterio o “no criterio” de este gobierno criminal para contabilizar los casos) y una componente “aleatoria”, pues salvo colectivos que están muy expuestos al virus, como los sanitarios, el contagio de el resto de la población depende de múltiples factores (contacto o no con un infectado, carga viral recibida, etc, etc) que lo convierten en casi una cuestión de azar.

¿Se está comportando la propagación del virus de acuerdo una distribución normal?

Usemos los datos que nos proporciona el Ministerio de la Incompetencia y la Muerte (antes llamado Ministerio de Sanidad), aun sabiendo que “no son fiables” por dos razones: (1) no todas las CC.AA. siguen los mismos criterios para contabilizar a los contagiados y (2) estos criterios cambian a lo largo del tiempo. Lo primero no es muy grave, a efectos estadísticos, siempre y cuando el criterio se hubiera mantenido inalterado, en cada CC.AA., a lo largo del tiempo, es decir, si no hubiera ocurrido lo segundo. Lo segundo (cambio de criterio en algunas CC.AA., en particular Cataluña) ha ocurrido, sobre todo, en estos 3 o 4 últimos días, cuando han “aflorado” unos cuantos miles de casos que, realmente, se produjeron hace días aunque se declaren de golpe ahora.

Para estar seguro de que todos sabemos de lo que hablamos, esta es la famosa campana de Gauss (o, mejor ficho, una de las campanas de Gauss, pues hay muchísimas -de hecho infinitas- dependiendo de la desviación estándar de la muestra):

Captura_de_pantalla_2020-04-19_a_las_19.30.48

Nótese, para lo que viene después, que en la campana de Gauss perfecta la “subida” es igual a la “bajada” (la curva es simétrica).

Veamos ahora como se ha comportado a lo largo del tiempo la variable real, esto es, el número de nuevos casos.

Si usamos como periodo para la muestra el número de nuevos casos POR DÍA, esto es lo que sale:

Captura_de_pantalla_2020-04-19_a_las_19.32.23

Esta variable (número de nuevos casos por día) tiene bastante volatilidad (“picos” y “valles”), por lo que es difícil imaginarse aquí una campana de Gauss. Para “limar” esos picos y valles, veamos cual ha sido el número de nuevos contagios por semana, es decir, la suma de nuevos contagios CADA SIETE DÍAS CONSECUTIVOS:

Captura_de_pantalla_2020-04-19_a_las_19.32.57

Esto ya empieza a recordar a una campana de Gauss, pero hay un problema: no es simétrica.

¿Y si resultara que el comportamiento de esta lacra es distinto en la “subida” y en la “bajada”, pero que en cada una de esas dos fases se comporta como sendas distribuciones normales, distintas entre si (diferente desviación estándar) pero igualmente distribuciones normales?

Ajustemos una distribución normal SOLO A LA SUBIDA, i.e. a los datos hasta el “pico” -la semana que termina el 30M-. Esto es lo que sale[1]:

Captura_de_pantalla_2020-04-19_a_las_19.33.38

Como se observa, la subida se ha comportado casi exactamente como una distribución normal. ¡VAMOS BIEN!

Ahora fijémonos en la BAJADA y hagamos lo propio, pero IGNORANDO EL DATO DE LOS TRES ÚLTIMOS DÍAS (14M a 16M) pues es cuando ciertas CC.AA. han hecho el “ajuste”, metiendo en esos días muchos casos de fechas anteriores, que distorsionan la serie.

Si ajustamos los datos de la BAJADA (hasta el 13M) a otra distribución normal, esto es lo que sale:

Captura_de_pantalla_2020-04-20_a_las_13.38.25

Como se observa, TAMBIEN LA BAJADA SE AJUSTA BASTANTE BIEN A UNA DISTRIBUCUÓN NORMAL[2] (olvidándonos de los datos “falsos” de los tres últimos días)

Llegados a este punto, el ciudadano que lea esta nota (si alguien la lee) pensará: ¿y para que carajo me sirve todo esto cuando están muriendo más de 500 personas todos los días?

Pues, efectivamente, no sirve de mucho, salvo para saber que SI LOS NÚMEROS PROPORCIONADOS POR EL MINISTERIO NO SON TOTALMENTE FALSOS, y por tanto la distribución normal que resulta de esos datos es mínimamente fiable:

  • A parir del 26 de abril, aproximadamente, el número de nuevos contagios por día estará por debajo de 1.000
  • A partir del 10 de mayo, aproximadamente, el número de nuevos contagios por día estará por debajo de 100.
  • El número total de nuevos contagios hasta finales de mayo (cuando ya el número de nuevos contagios diarios se mida por unidades, no por miles) es de unos 30.000.

Captura_de_pantalla_2020-04-19_a_las_19.35.16

¿Y que hay del capítulo más dramático, los fallecidos?

A fecha de hoy, la mortandad acumulada (fallecidos/contagiados) está en el 10,4%, aunque viene subiendo lenta pero continuamente desde el principio de la pandemia, por lo que no es descartable que -desgraciadamente- terminemos con una mortandad entre el 11% y el 12% (con los criterios actuales), en línea con la de otros países europeos (Francia, Italia y UK).

Si es así, y como la estadística apunta a unos 220.000 contagiados totales, el número de fallecidos estará en el entorno de 25.000 víctimas. Como hasta ayer ya ha habido 19.478 víctimas (al menos contabilizadas), significa que, con los mismos criterios, se producirán hasta fin de mayo del orden de 5.500 nuevos fallecimientos.

Ojalá que el modelo se equivoque, y se equivoque al alza y los datos reales cuando todo esto termine sean mucho mejores que los expuestos en esta nota, pero me temo que la estadística, cuando la muestra es suficiente, no se equivoca. Que Dios nos ayude.

 

[1] Se trata de una distribución normal con media CERO y desviación estándar de 6,475, por si alguien quiere hacer la comprobación. El error en el ajuste es solo del 2,6%.

[2] En este caso es una distribución normal de media CERO y desviación estándar de 13,80. El error es solo del 0,5%