10 millions de demandes de données : comment une équipe de Times a suivi Covid

Times Insider explique qui nous sommes et ce que nous faisons, et fournit des informations en coulisse sur la façon dont notre journalisme se réunit.
Ce matin, les programmes écrits par les développeurs du New York Times ont fait plus de 10 millions de demandes de données Covid-19 à partir de sites Web du monde entier. Les données que nous collectons sont des instantanés quotidiens des flux et reflux du virus, y compris pour chaque État américain et des milliers de comtés, villes et codes postaux américains.

Vous avez peut-être vu des tranches de ces données dans les cartes et graphiques quotidiens que nous publions au Times. Ces pages combinées, qui ont impliqué plus de 100 journalistes et ingénieurs de toute l'organisation, sont la collection la plus vue de l'histoire de nytimes.com et sont un élément clé de l'ensemble de reportages Covid qui a remporté le prix Pulitzer 2021 du Times.

pour la fonction publique.
Le projet de suivi des coronavirus du Times était l’un des nombreux efforts qui ont aidé à combler le vide dans la compréhension du public de la pandémie laissé par l’absence d’une réponse gouvernementale coordonnée. Le Coronavirus Resource Center de l'Université Johns Hopkins a collecté des données sur les cas nationaux et internationaux.

Et le Covid Tracking Project à The Atlantic a rassemblé une armée de volontaires pour collecter des données sur les États américains, en plus des tests, des données démographiques et des données sur les établissements de santé.
Au Times, notre travail a commencé avec une seule feuille de calcul.
Fin janvier 2020, Monica Davey, rédactrice au bureau national, a demandé à Mitch Smith, un correspondant basé à Chicago, de commencer à recueillir des informations sur chaque cas américain de Covid-19.

Une ligne par cas, méticuleusement signalée sur la base d'annonces publiques et saisie à la main, avec des détails tels que l'âge, le lieu, le sexe et la condition.
À la mi-mars, la croissance explosive du virus s'est avérée trop importante pour notre flux de travail. La feuille de calcul est devenue si volumineuse qu'elle est devenue insensible, et les journalistes n'ont pas eu assez de temps pour signaler et saisir manuellement les données de la liste sans cesse croissante des États et des comtés américains que nous devions suivre.

À cette époque, de nombreux services de santé nationaux ont commencé à déployer des efforts de signalement de Covid-19 et des sites Web pour informer leurs électeurs de la propagation locale. Le gouvernement fédéral a dû relever des défis au début pour fournir un ensemble de données fédérales unique et fiable.
Les données locales disponibles étaient partout sur la carte, au propre comme au figuré.

La mise en forme et la méthodologie variaient considérablement d'un endroit à l'autre.
Au sein du Times, un groupe de développeurs de logiciels basé dans une salle de rédaction a été rapidement chargé de créer des outils pour augmenter autant que possible le travail d'acquisition de données. Nous deux – Tiff est un développeur de salle de rédaction et Josh est un éditeur graphique – finirions par former cette équipe en pleine croissance.

Le 16 mars, l'application principale fonctionnait en grande partie, mais nous avions besoin d'aide pour extraire de nombreuses autres sources. Pour s'attaquer à ce projet colossal, nous avons recruté des développeurs de toute l'entreprise, dont beaucoup n'avaient aucune expérience en salle de rédaction, pour participer temporairement à la rédaction de scrapers.
Mise à jour 24 juin 2021, 8 h 41 HE
À la fin du mois d'avril, nous collections par programme des chiffres dans les 50 États et près de 200 comtés.

Mais la pandémie et notre base de données semblaient toutes deux se développer de façon exponentielle.
De plus, quelques sites notables ont changé plusieurs fois en quelques semaines seulement, ce qui nous a obligés à réécrire notre code à plusieurs reprises. Les ingénieurs de notre salle de rédaction se sont adaptés en rationalisant nos outils personnalisés, alors qu'ils étaient utilisés quotidiennement.

Pas moins de 50 personnes au-delà de l'équipe de grattage ont été activement impliquées dans la gestion et la vérification quotidiennes des données que nous collectons. Certaines données sont toujours saisies à la main et toutes sont vérifiées manuellement par des journalistes et des chercheurs, une opération sept jours sur sept. La rigueur des rapports et la maîtrise du sujet étaient des éléments essentiels de tous nos rôles, des journalistes aux réviseurs de données en passant par les ingénieurs.

En plus de publier des données sur le site Web du Times, nous avons rendu notre ensemble de données accessible au public sur GitHub fin mars 2020 pour que tout le monde puisse les utiliser.
Alors que les vaccinations réduisent le bilan du virus à travers le pays – dans l'ensemble, 33,5 millions de cas ont été signalés – un certain nombre de services de santé et d'autres sources mettent à jour leurs données moins souvent. À l'inverse, les Centers for Disease Control and Prevention fédéraux ont élargi leurs rapports pour inclure des chiffres complets qui n'étaient que partiellement disponibles en 2020.

Tout cela signifie que certaines de nos propres collectes de données personnalisées peuvent être fermées. Depuis avril 2021, notre nombre de sources programmatiques a chuté de près de 44 %.
Notre objectif est d'atteindre environ 100 grattoirs actifs à la fin de l'été ou au début de l'automne, principalement pour le suivi des points chauds potentiels.

Le rêve, bien sûr, est de conclure nos efforts alors que la menace du virus s'atténue considérablement.
Une version de cet article a été initialement publiée sur NYT Open, le blog du New York Times sur la conception et la construction de produits pour l'actualité.