Les efforts pour étudier les premiers stades de la pandémie de coronavirus ont reçu l'aide d'une source surprenante. Un biologiste aux États-Unis a « fouillé » des séquences partielles du génome du SRAS-CoV-2 depuis les débuts de l'épicentre probable de la pandémie à Wuhan, en Chine, qui ont été déposées – mais plus tard retirées – d'une base de données du gouvernement américain.

Les séquences partielles du génome abordent une énigme évolutive concernant la diversité génétique précoce du coronavirus SARS-CoV-2, bien que les scientifiques soulignent qu'elles ne font pas la lumière sur ses origines. On ne sait pas non plus pourquoi des chercheurs de l'Université de Wuhan ont demandé que les séquences soient supprimées de la Sequence Read Archive (SRA), un référentiel de données de séquençage brutes conservé par le National Center for Biotechnology Information (NCBI), qui fait partie des US National Institutes. de la santé (NIH).

Les séquences supprimées du génome du coronavirus déclenchent une intrigue scientifique

« Ces séquences sont informatives, elles ne sont pas transformatrices », explique Jesse Bloom, généticien de l'évolution virale au Fred Hutchinson Cancer Research Center de Seattle, Washington, qui décrit dans une prépublication du 22 juin comment il a récupéré les séquences1.

Bloom a découvert les séquences après avoir recherché des données génomiques des premiers stades de la pandémie. Un document de recherche de mai 2020 contenait un tableau de données de séquence accessibles au public, qui comprenait des entrées que Bloom n'avait pas rencontrées2. Les séquences étaient associées à un article, qui appliquait une technologie connue sous le nom de séquençage nanopore pour détecter le matériel génétique du SRAS-CoV-2 dans des échantillons de personnes. Cette étude a été publiée dans la revue Petit en juin 20203, après avoir été publié sur bioRxiv en mars de la même année4.

Lorsque Bloom a recherché les séquences dans le SRA en utilisant les détails répertoriés dans l'article de mai 2020, la base de données n'a renvoyé aucune entrée. La SRA conserve les séquences dans un stockage cloud géré par Google, et Bloom s'est demandé s'il pouvait trouver des versions archivées des séquences sur des serveurs cloud. Cette approche a fonctionné et Bloom a pu récupérer les données de 50 échantillons, dont 13 contenaient suffisamment de données brutes pour générer des séquences génomiques partielles.

Mystère de l'évolution

Les séquences aident à résoudre un mystère évolutif sur les premiers stades de la pandémie, dit Bloom. Les premières séquences virales de Wuhan proviennent d'individus liés au marché des fruits de mer de Huanan de la ville en décembre 2019, qui était initialement considéré comme l'endroit où le coronavirus est passé pour la première fois des animaux aux humains. Mais les séquences du marché des fruits de mer sont plus éloignées des plus proches parents du SRAS-CoV-2 chez les chauves-souris - l'origine ultime la plus probable du virus - que les séquences ultérieures, dont une collectée aux États-Unis.

C'était surprenant, dit Bloom, car vous vous attendriez à ce que les virus des premiers stades de l'épidémie de Wuhan soient plus étroitement liés aux parents infectant les chauves-souris du SRAS-CoV-2. Les séquences récupérées, qui ont probablement été collectées en janvier et février 2020, montrent que c'est le cas – elles sont plus étroitement liées aux virus des chauves-souris que ne le sont les séquences de personnes liées au marché des fruits de mer.

Cela s'ajoute à un nombre croissant de preuves, y compris des rapports de cas probables remontant à novembre 2019, selon lesquels les premiers cas humains de COVID-19 n'étaient pas associés au marché des fruits de mer de Huanan, selon Bloom et d'autres scientifiques.

"Pour moi, il me semblait que le marché de Wuhan était l'un des premiers événements à grande diffusion", explique Sudhir Kumar, généticien évolutionniste à l'Université Temple de Philadelphie, en Pennsylvanie. Les séquences que Bloom a déterrées, ajoute-t-il, suggèrent que le SRAS-CoV-2 a développé une grande diversité aux premiers stades de la pandémie en Chine – y compris à Wuhan.

Stephen Goldstein, virologue à l'Université de l'Utah à Salt Lake City, souligne que les séquences récupérées par Bloom n'étaient pas cachées : elles sont décrites en détail, avec suffisamment d'informations sur les séquences pour connaître leur relation évolutive avec d'autres premières séquences du SRAS-CoV-2, dans le Petit papier. « Je ne pense pas que cette préimpression nous dise grand-chose de nouveau, mais elle met au premier plan les données de séquence qui ont été accessibles au public, bien que sous le radar », a déclaré Goldstein.

Bloom dit que bien que les séquences aient été publiées, leur suppression de la SRA signifiait que peu de scientifiques les connaissaient. Un rapport commandé par l'Organisation mondiale de la santé sur les origines de la pandémie n'a pas inclus les séquences dans une analyse évolutive des premières données du SRAS-CoV-2. "Personne n'a remarqué qu'ils existaient", dit Bloom.

Les auteurs correspondants du Petit papier n'a pas répondu aux questions de la nature équipe de presse sur les raisons pour lesquelles ils ont demandé que les séquences soient supprimées de la SRA, ce qui s'est produit avant la publication du document. Dans un communiqué, le NIH a déclaré avoir supprimé les données à la demande des chercheurs, qui ont déclaré qu'ils prévoyaient de les soumettre à une autre base de données.

Bloom – qui a co-écrit une lettre appelant à une nouvelle enquête sur les origines de la pandémie, y compris la possibilité que le virus se soit échappé ou ait fui d'un laboratoire5 – dit que son étude ne fait aucune lumière sur les origines de la pandémie, ni sur les raisons pour lesquelles le les séquences ont été supprimées. Mais il espère que ses efforts encourageront les chercheurs à « sortir des sentiers battus » et à se tourner vers d'autres sources, telles que les données d'archives, pour glaner plus d'informations sur les premiers jours de la pandémie. « Il y a probablement plus de données là-bas », dit-il.