Afin de résoudre l'ensemble de gènes codant pour la protéine SRAS-CoV-2, nous devons d'abord clarifier ce que nous entendons par ORF et gène codant pour la protéine, car les termes sont utilisés avec des significations légèrement différentes par différents auteurs. Ici, nous utilisons ORF pour signifier tout tronçon contigu de codons commençant par un codon de départ, se terminant par un codon d'arrêt, et sans codons d'arrêt intermédiaires dans la trame, tout en ajustant le décalage de cadre programmé dans ORF1ab. Nous n'exigeons pas qu'un ORF soit traduit ou dépasse une longueur minimale. Il est courant dans la communauté bioinformatique de définir l'ORF d'une manière qui ne nécessite pas de preuve de traduction, bien que cette définition puisse être moins familière dans la communauté virologique. Nous ne considérerons un ORF comme un «gène codant une protéine» que s'il est traduit en un fonctionnel protéine, c'est-à-dire une protéine qui contribue à la transmission virale, à la réplication, à l'évitement immunitaire ou à la forme physique globale. La traduction est une condition nécessaire mais non suffisante pour qu'un ORF soit un gène codant pour une protéine, car l'acte de traduction peut remplir une fonction même si le peptide qu'il produit n'est pas fonctionnel, comme pour les uORF régulateurs28, et de faibles niveaux de traduction peut résulter de caractéristiques de séquence aléatoires évoluant de manière neutre sans apporter aucun avantage en termes de fitness au virus. L'exigence que le gène soit fonctionnel au niveau de la protéine est courante dans les projets d'annotation de gène eucaryote tels que GENCODE. Nous reconnaissons que cette définition est un idéal théorique et que le marquage d'un ORF comme codant ou non une protéine doit être considéré comme provisoire et sujet à changement à mesure que des preuves supplémentaires s'accumulent. Nous notons qu'un ORF traduit peut être important même s'il ne s'agit pas d'un gène codant pour une protéine s'il code pour un antigène détectable par le système immunitaire ou un test de diagnostic.

Sélection et alignement des déformations, contrainte

Nous avons sélectionné et aligné 44 complets Sarbécovirus génomes (SARS-CoV-2, SARS-CoV et 42 souches infectant les chauves-souris, Fig.3, données supplémentaires 1) à des distances évolutives bien adaptées pour identifier les gènes codant pour les protéines et la sélection purifiante non codante, couvrant ~ 3 substitutions par site 4 fois dégénéré en moyenne (comparable aux projets 29-mammifères / 12-mouches29,30), et allant de 1,2 (E) à 4,8 (O-MT / nsp16) et plus (données supplémentaires 2). Bétacoronavirus à l'extérieur Sarbécovirus (y compris le MERS-CoV) sont trop éloignés (par exemple, aucune homologie détectable entre les ORF 6-7a-7b-8), et les isolats de SARS-CoV-2 / SARS-CoV sont trop proximaux pour des signatures évolutives fiables. Les distances évolutives entre le SRAS-CoV-2 et d'autres sarbécovirus, telles que mesurées par l'identité nucléotidique, varient considérablement à travers le génome (Fig. 2 supplémentaire, données supplémentaires 9).

une Comparaison au niveau des gènes. Divergence évolutive inter-souche à long terme (X-axis) et la variation intra-déformation à court terme (y-axis) montrent une forte concordance (ligne pointillée de régression linéaire, corrélation de Spearman = 0,70) à travers les protéines matures (croisements, indiquant l'erreur standard de la moyenne sur chaque axe), indiquant que SarbécovirusLes pressions sélectives de la clade persistent dans la pandémie actuelle. Les gènes bien caractérisés à l'échelle du coronavirus (noir) montrent moins de changements dans les deux échelles de temps (en bas à gauche) et les ORF moins bien caractérisés (en bleu) en montrent plus dans les deux (en haut à droite). Les exceptions significativement divergentes sont les suivantes: nsp3 et S1 (en bas à droite) montrant des SNV changeant les acides aminés significativement moins que prévu de leur croisement.Sarbécovirus évolution rapide, et N (en haut à gauche), montrant beaucoup plus, peut-être en raison de l'évolution accélérée de la pandémie actuelle. b Région de nucléocapside à évolution rapide. En haut: le contexte du gène de la nucléocapside montrant les prédictions d'épitopes des lymphocytes B (noir, piste «IEDB Predictions»), et notre hub de pistes d'annotation montrant: les acides aminés conservés (blocs rouges), les codons sous contrainte synonyme (blocs verts) et la classification SNV ( graduations colorées) comme conservées / non conservées (foncé / clair) et faux-sens / synonymes (rouge / vert); Les 3 pistes supérieures montrent les codons AUG (vert) et les codons d'arrêt (rouge) dans trois cadres. En bas: Focus sur la région de 20 acides aminés R185-G204 (encadré en pointillé) dans l'épitope de cellules B prédit (noir) significativement enrichi pour les mutations changeantes d'acides aminés (rouge) perturbant des résidus parfaitement conservés, indiquant une sélection positive dans le SRAS- CoV-2 pour éviter le système immunitaire. c Contexte évolutif du Spike D614G. Sarbécovirus alignement (texte) entourant le SNV à changement d'acide aminé D614G, dont la fréquence a augmenté dans plusieurs emplacements géographiques, suggérant une transmissibilité accrue. Ce SNV A à G perturbe un nucléotide parfaitement conservé (police gras, A à G), qui perturbe un acide aminé parfaitement conservé (boîte rouge, D à G), dans un 11-amino- région acide (boîte noire en pointillé, vert clair = substitutions synonymes) à travers les sarbécovirus hôtes de chauve-souris, suggérant que D614G pourrait représenter une mutation adaptative homme-hôte.

Des protéines à évolution plus rapide à travers les sarbécovirus ont montré plus de mutations modifiant les acides aminés au sein du SARS-CoV-2 (corrélation de Spearman 0,70), indiquant Sarbécovirus les pressions évolutives continuent de s'appliquer pendant la pandémie actuelle (Fig. 10a). Cet accord inter vs intra-souche s'est également maintenu à la résolution des codons, avec des mutations changeantes d'acides aminés perturbant préférentiellement les résidus non conservés (535 mutations en 3264 positions, 16,4%) par rapport aux résidus conservés (607 sur 6480, 9,4%, P