Ce que les scientifiques des données ont appris en modélisant la propagation de Covid-19 La science

En mars 2020, alors que la propagation de Covid-19 envoyait des ondes de choc dans tout le pays, la biologiste intégrative Lauren Ancel Meyers a fait une présentation virtuelle à la presse de ses découvertes. En parlant de la façon dont la maladie pourrait dévaster les hôpitaux locaux, elle a souligné un graphique où la courbe rouge la plus raide était étiquetée: "pas de distanciation sociale". Les hôpitaux de la région d'Austin, au Texas, seraient débordés, a-t-elle expliqué, si les résidents ne réduisaient pas de 90 % leurs interactions en dehors de leur foyer.

Meyers, qui modélise les maladies pour comprendre comment elles se propagent et quelles stratégies les atténuent, avait été nerveux à l'idée d'apparaître dans un événement public – et a même décliné l'invitation au début. Son équipe de l’Université du Texas à Austin venait de rejoindre le groupe de travail de la ville d’Austin sur Covid et ne savait pas comment, exactement, leurs modèles de Covid seraient utilisés. De plus, en raison de l'évolution rapide de l'urgence, ses conclusions n'avaient pas été vérifiées de la manière habituelle.

"Nous étions confiants dans nos analyses, mais n'avions jamais rendu publiques des projections de modèles qui n'avaient pas fait l'objet d'une validation interne substantielle et d'un examen par les pairs", écrit-elle dans un e-mail. En fin de compte, elle a décidé que le public avait besoin d'une communication claire sur la science derrière le nouvel ordre de séjour à domicile à Austin et dans ses environs.

La pandémie de Covid-19 a déclenché une nouvelle ère de modélisation des maladies, dans laquelle des graphiques autrefois relégués aux pages de revues scientifiques ornaient quotidiennement les premières pages des principaux sites Web d'information. Des scientifiques de données comme Meyers ont été propulsés sous les projecteurs du public, comme des météorologues prévoyant des ouragans pour la première fois à la télévision en direct. Ils savaient que les attentes étaient élevées, mais qu'ils ne pouvaient pas parfaitement prédire l'avenir. Tout ce qu'ils pouvaient faire était d'utiliser les mathématiques et les données comme guides pour deviner ce que le lendemain apporterait.

Alors qu'une plus grande partie de la population des États-Unis est complètement vaccinée et que la nation se rapproche d'un sentiment de normalité pré-pandémique, les modélisateurs de maladies ont la possibilité de revenir sur la dernière année et demie en termes de ce qui s'est bien passé et de ce qui n'a pas marché. 't. Avec autant d’inconnues au départ – comme la probabilité qu’un individu transmette Covid dans différentes circonstances et à quel point c’est mortel dans différents groupes d’âge – il n’est pas surprenant que les prévisions aient parfois raté la cible, en particulier à la mi-2020. Les modèles se sont améliorés à mesure que davantage de données devenaient disponibles non seulement sur la propagation des maladies et la mortalité, mais aussi sur la façon dont le comportement humain différait parfois des mandats officiels de santé publique.

Les modélistes ont dû jouer à fond avec des défis qu'ils n'avaient pas anticipés à l'origine. Les scientifiques des données n'ont pas pris en compte le fait que certaines personnes interpréteraient mal ou ignoreraient carrément les conseils des autorités de santé publique, ou que différentes localités prendraient des décisions différentes concernant la distanciation sociale, le port de masques et d'autres stratégies d'atténuation. Ces variables en constante évolution, ainsi que les données sous-déclarées sur les infections, les hospitalisations et les décès, ont conduit les modèles à mal calculer certaines tendances.

"Fondamentalement, Covid nous a tout jeté à la fois, et la modélisation a nécessité des efforts considérables contrairement à d'autres maladies", écrit Ali Mokdad, professeur à l'Institute for Health Metrics and Evaluation, IHME, à l'Université de Washington, dans un e-mail .

Pourtant, Meyers considère qu'il s'agit d'un «âge d'or» en termes d'innovation technologique pour la modélisation des maladies. Bien que personne n'ait inventé une nouvelle branche des mathématiques pour suivre Covid, les modèles de maladie sont devenus plus complexes et adaptables à une multitude de circonstances changeantes. Et à mesure que la qualité et la quantité de données auxquelles les chercheurs pouvaient accéder s'amélioraient, leurs modèles aussi.

Un modèle utilise les mathématiques pour décrire un système basé sur un ensemble d'hypothèses et de données. Moins il y a d'informations disponibles sur une situation jusqu'à présent, plus le modèle sera à la fois difficile à décrire le moment présent et à prédire ce qui se passera demain.

Ainsi, au début de 2020, les scientifiques des données ne s'attendaient jamais à deviner exactement le nombre de cas et de décès de Covid un jour donné. Mais ils visaient à avoir un cadre pour aider les communautés, que ce soit au niveau local ou national, à se préparer et à répondre à la situation du mieux qu'elles le pouvaient.

Les modèles sont comme des "garde-corps" pour donner une idée de ce que l'avenir peut nous réserver, explique Jeffrey Shaman, directeur du programme Climat et santé à la Columbia University Mailman School of Public Health.

« Vous devez en quelque sorte déterminer ce qui pourrait vous arriver, compte tenu de ces hypothèses sur le comportement de la société humaine », dit-il. "Et vous devez changer ces hypothèses, afin que vous puissiez dire ce qu'il peut ou ne peut pas faire."

La crise du Covid a également conduit à de nouvelles collaborations entre data scientists et décideurs, débouchant sur des modèles orientés vers des solutions actionnables. Lorsque les chercheurs se sont associés à des professionnels de la santé publique et à d'autres intervenants locaux, ils ont pu adapter leurs prévisions aux préoccupations et aux besoins spécifiques de la communauté.

L'équipe de Meyers a fait partie intégrante des plans Covid de la région d'Austin, rencontrant fréquemment les responsables locaux pour discuter des dernières données, des perspectives et des réponses appropriées. Le groupe de travail municipal réunit des chercheurs avec le maire, le juge du comté, les autorités de santé publique, les PDG des grands hôpitaux et les responsables des systèmes scolaires publics. Meyers dit que cette approche axée sur les données pour l'élaboration des politiques « a aidé à protéger la ville » – par rapport au reste du Texas, la région d'Austin a subi les taux de mortalité de Covid les plus bas.

« Au cours de la dernière année, nous avons probablement fait progresser l'art, la science et les applications des modèles autant que nous l'avons fait au cours des décennies précédentes », dit-elle.

Lauren Ancel Meyers et son équipe modélisent le Covid-19 depuis le début de la pandémie.

(Université du Texas à Austin)

Au cœur des modèles de dynamique Covid du groupe Meyers, qu’ils exécutent en collaboration avec le Texas Advanced Computing Center, se trouvent des équations différentielles – essentiellement des mathématiques qui décrivent un système en constante évolution. Chaque équation correspond à un état dans lequel un individu pourrait se trouver, tel qu'un groupe d'âge, un niveau de risque de maladie grave, qu'il soit vacciné ou non et comment ces variables pourraient changer au fil du temps. Le modèle exécute ensuite ces équations en ce qui concerne la probabilité de contracter Covid dans des communautés particulières.

Les équations différentielles existent depuis des siècles, et l'approche consistant à diviser une population en groupes « sensibles », « infectés » et « récupérés » remonte à 1927. C'est la base d'un type populaire de modèle Covid, qui essaie pour simuler la propagation de la maladie sur la base d'hypothèses sur le nombre de personnes qu'un individu est susceptible d'infecter.

Mais Covid a exigé que les scientifiques des données rendent leurs boîtes à outils existantes beaucoup plus complexes. Par exemple, Shaman et ses collègues ont créé un modèle de métapopulation qui comprenait 375 emplacements liés par des schémas de déplacement entre eux.

En utilisant les informations de toutes ces villes, « nous avons pu estimer avec précision les taux d'infection non documentés, la contagiosité de ces infections non documentées et le fait qu'une excrétion pré-symptomatique avait lieu, le tout d'un seul coup, fin janvier. l'année dernière », dit-il.

La modélisation IHME a commencé à l'origine pour aider les hôpitaux de l'Université de Washington à se préparer à une augmentation dans l'État, et s'est rapidement étendue pour modéliser les cas et les décès de Covid dans le monde. Au printemps 2020, ils ont lancé un site Web interactif qui comprenait des projections ainsi qu'un outil appelé "utilisation des ressources hospitalières", montrant au niveau de l'État américain combien de lits d'hôpital, et séparément de lits de soins intensifs, seraient nécessaires pour répondre à la demande projetée. . Mokdad dit que de nombreux pays ont utilisé les données de l'IHME pour informer leurs restrictions liées à Covid, se préparer aux poussées de maladies et étendre leurs lits d'hôpitaux.

Au fur et à mesure que l'exactitude et l'abondance des données se sont améliorées au cours de la pandémie, les modèles tentant de décrire ce qui se passait se sont également améliorés.

En avril et mai 2020, l'IHME a prédit que le nombre de cas et de décès de Covid continuerait de baisser. En fait, le Conseil des conseillers économiques de la Maison Blanche de Trump a fait référence aux projections de mortalité de l'IHME en présentant la courbe "cubic fit" du conseiller économique Kevin Hassett, qui prédisait une baisse des décès beaucoup plus importante que celle de l'IHME. Le modèle de Hassett, basé sur une fonction mathématique, a été largement ridiculisé à l'époque, car il n'avait aucun fondement en épidémiologie.

Mais les projections de l'IHME d'une baisse estivale n'ont pas tenu non plus. Au lieu de cela, les États-Unis ont continué à enregistrer des taux élevés d'infections et de décès, avec un pic en juillet et août.

Mokdad note qu'à cette époque, l'IHME ne disposait pas de données sur l'utilisation du masque et la mobilité ; au lieu de cela, ils avaient des informations sur les mandats de l'État. Ils ont également appris au fil du temps que les restrictions basées sur l'état ne prédisaient pas nécessairement le comportement ; il y avait une variation significative en termes d'adhésion à des protocoles tels que la distanciation sociale entre les États. Les modèles IHME se sont améliorés parce que les données se sont améliorées.

"Maintenant, nous avons des données de mobilité à partir de téléphones portables, nous avons des enquêtes sur le port de masques, et tout cela aide le modèle à mieux fonctionner", explique Mokdad. "C'était plus une fonction des données que du modèle lui-même."

De meilleures données ont des impacts tangibles. Aux Centers for Disease Control and Prevention, Michael Johansson, qui dirige l'équipe de modélisation Covid-19, a noté une avance dans les prévisions d'hospitalisation après que les données d'hospitalisation au niveau de l'État soient devenues publiques à la fin de 2020. À la mi-novembre, le CDC a tout donné la modélisation potentielle regroupe l'objectif de prévoir le nombre d'admissions hospitalières positives pour Covid, et l'ensemble de données commun les met sur un pied d'égalité. Cela a permis au CDC de développer des prévisions « d'ensemble » – réalisées en combinant différents modèles – visant à aider à se préparer aux futures demandes de services hospitaliers.

"Cela a amélioré la capacité d'action et l'évaluation de ces prévisions, qui sont incroyablement utiles pour comprendre où les besoins en ressources de santé peuvent augmenter", écrit Johansson dans un e-mail.

Les projections initiales de Meyers sur Covid étaient basées sur des simulations sur lesquelles elle et son équipe de l'Université du Texas, Austin, travaillaient depuis plus d'une décennie, depuis l'épidémie de grippe H1N1 de 2009. Ils avaient créé des outils et des simulateurs en ligne pour aider l'État du Texas à planifier la prochaine pandémie. Lorsque Covid-19 a frappé, l'équipe de Meyers était prête à passer à l'action.

« Dès que nous avons entendu parler de ce virus anormal à Wuhan, nous nous sommes mis au travail », explique Meyers, désormais directeur du Consortium de modélisation UT Covid-19. "Je veux dire, nous construisions des modèles, littéralement, le lendemain."

Les chercheurs peuvent guider les décideurs politiques vers des modèles mathématiques de la propagation d'une maladie, mais cela ne signifie pas nécessairement que les informations entraîneront des changements de politique. Dans le cas d'Austin, cependant, les modèles de Meyers ont aidé à convaincre la ville d'Austin et du comté de Travis d'émettre une ordonnance de séjour à domicile en mars 2020, puis de la prolonger en mai.

Le groupe de travail de la région d'Austin a mis au point un système de code couleur indiquant cinq étapes différentes des restrictions et des risques liés à Covid. L'équipe de Meyers suit quotidiennement les admissions hospitalières liées à Covid dans la région métropolitaine, ce qui constitue la base de ce système. Lorsque les taux d'admission sont suffisamment bas, une « étape » inférieure pour la région est déclenchée. Plus récemment, Meyers a travaillé avec la ville pour réviser ces seuils afin de prendre en compte les taux de vaccination locaux.

Mais parfois, les recommandations basées sur des modèles ont été annulées par d'autres décisions gouvernementales.

Au printemps 2020, des tensions sont apparues entre les habitants d'Austin qui souhaitaient maintenir des restrictions strictes sur les entreprises et les décideurs politiques du Texas qui souhaitaient ouvrir l'économie. Cela comprenait des travaux de construction, que l'État a déclarés autorisés.

En raison de la nature du travail, les travailleurs de la construction sont souvent en contact étroit, ce qui augmente le risque d'exposition virale et de maladie grave. En avril 2020, les résultats de la modélisation du groupe Meyers ont montré que les 500 000 ouvriers du bâtiment de la région d'Austin avaient une probabilité quatre à cinq fois plus élevée d'être hospitalisés avec Covid que les personnes du même âge dans différents groupes professionnels.

Les chiffres réels de mars à août se sont avérés étonnamment similaires aux projections, les travailleurs de la construction étant cinq fois plus susceptibles d'être hospitalisés, selon l'analyse de Meyers et ses collègues dans JAMA Network Open.

"Peut-être que cela aurait été encore pire si la ville n'en avait pas été consciente et avait essayé d'encourager un comportement de précaution", a déclaré Meyers. "Mais il s'est certainement avéré que les risques étaient beaucoup plus élevés et se sont probablement répandus dans les communautés où vivaient ces travailleurs."

Certains chercheurs comme Meyers s'étaient préparés toute leur carrière pour tester leurs modèles de maladie sur un événement comme celui-ci. Mais un nouveau venu est rapidement devenu une célébrité mineure.

Youyang Gu, un data scientist de 27 ans à New York, n'avait jamais étudié les tendances des maladies avant Covid, mais avait de l'expérience dans l'analyse sportive et la finance. En avril 2020, alors qu'il rendait visite à ses parents à Santa Clara, en Californie, Gu a créé un modèle de maladies infectieuses basé sur les données avec un composant d'apprentissage automatique. Il a publié des prévisions de décès pour 50 États et 70 autres pays sur covid19-projections.com jusqu'en octobre 2020; plus récemment, il s'est penché sur les tendances de la vaccination aux États-Unis et sur la « voie vers la normalité ».

Alors que Meyers et Shaman disent qu'ils n'ont trouvé aucune mesure particulière plus fiable que toute autre, Gu s'est initialement concentré uniquement sur le nombre de décès car il pensait que les décès étaient enracinés dans de meilleures données que les cas et les hospitalisations. Gu dit que c'est peut-être une raison pour laquelle ses modèles se sont parfois mieux alignés sur la réalité que ceux des institutions établies, comme la prévision de l'augmentation à l'été 2020. Il n'est pas sûr des effets directs de ses modèles sur les politiques, mais le dernier année où le CDC a cité ses résultats.

Aujourd'hui, certains des principaux modèles ont un désaccord majeur sur l'étendue des décès sous-déclarés. Le modèle IHME a fait une révision en mai de cette année, estimant que plus de 900 000 décès sont survenus à cause de Covid aux États-Unis, par rapport au nombre CDC d'un peu moins de 600 000. Les chercheurs de l'IHME ont obtenu l'estimation la plus élevée en comparant les décès par semaine à la semaine correspondante de l'année précédente, puis en tenant compte d'autres causes qui pourraient expliquer les décès excessifs, tels que la consommation d'opioïdes et la faible utilisation des soins de santé. L'IHME prévoit que d'ici le 1er septembre, les États-Unis auront connu 950 000 décès dus à Covid.

Cette nouvelle approche contredit de nombreuses autres estimations, qui ne supposent pas qu'il y ait un si grand sous-dénombrement des décès dus à Covid. Ceci est un autre exemple de la façon dont les modèles divergent dans leurs projections parce que différentes conditions supposées sont intégrées dans leur machinerie.

Les modèles Covid sont désormais équipés pour gérer de nombreux facteurs différents et s'adapter à des situations changeantes, mais la maladie a démontré la nécessité de s'attendre à l'inattendu et d'être prêt à innover davantage à mesure que de nouveaux défis se présentent. Les scientifiques des données réfléchissent à la manière dont les futurs vaccins de rappel Covid devraient être distribués, à la manière d'assurer la disponibilité des masques faciaux s'ils sont nécessaires de toute urgence à l'avenir, et à d'autres questions à ce sujet et à d'autres virus.

«Nous travaillons déjà dur pour essayer, avec un peu plus de temps, espérons-le, de réfléchir à la façon dont nous devrions réagir et prédire ce que COVID va faire à l'avenir», a déclaré Meyers.