BigQuery et SQL

Pour pratiquer Google BigQuery et SQL, j’ai pris une base de données publique sur les décès liés à la COVID, et je l’ai croisé avec une base de données sur la population mondiale.

Ensuite, j’ai pu calculer le taux de mortalité en fonction de la population, chose que les médias de parlent souvent pas, mais qui est très pertinent.

 

Visualisation

J’ai connecté BigQuery à DataStudio, ensuite il était aisé de faire une visualisation de ces données. 

Voici le code SQL utilisé dans BigQuery ainsi que les graphiques DataStudio.

SELECT
  date,
  countries_and_territories AS Pays,
  SUM(deaths) AS Morts,
  year_2018 AS Population_2018,
  ROUND(deaths/year_2018*100000,2) AS Tx_de_mortalite
FROM
  `bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide`
JOIN
  `bigquery-public-data.world_bank_global_population.population_by_country`
ON
  `bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide`.country_territory_code = `bigquery-public-data.world_bank_global_population.population_by_country`.country_code
WHERE
  date IN (SELECT MAX(date)
  FROM
    `bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide`)
GROUP BY
  date,
  countries_and_territories,
  year_2018,
  Tx_de_mortalite
HAVING
  Morts>10
ORDER BY
  Morts DESC;

Ce tableau représente le nombre de décès par 100 000 habitants. J’ai exclu les pays avec moins de 10 décès et moins de 1M d’habitants car ça biaisait les résultats.

Données mise à jour quotidiennement.

 

On peut voir ce « treemap » comme un cimetière où chaque pays détient un place proportionnelle aux nombres de décès qu’il a subit par le COVID.

Données mise à jour quotidiennement.

Rien d’énormément complexe, mais ce fût une bonne pratique pour dérouiller mon SQL!