Cette section fournit une description de la procédure de collecte de données, des critères d'inclusion et de la désidentification. De plus, des statistiques détaillées des données sont présentées pour faciliter leur utilisation. Plus important encore, l'applicabilité de l'ensemble de données COVID-CT-MD pour le développement de solutions ML / DNN est expliquée. Cette section se termine en décrivant les limites possibles de l'ensemble de données fourni. Ce travail de recherche est effectué sur la base du numéro de certification de politique 30013394 de l'acceptabilité éthique pour l'utilisation secondaire des données médicales approuvée par l'Université Concordia, Montréal, Canada. De plus, le consentement éclairé est obtenu de tous les patients.

Collecte de données

L'ensemble de données COVID-CT-MD contient des tomodensitogrammes volumétriques de la poitrine de 169 patients positifs pour une infection au COVID-19, 60 patients atteints de CAP et 76 patients normaux. Les cas de COVID-19 sont collectés de février 2020 à avril 2020, tandis que les cas de PAC et les cas normaux sont collectés d'avril 2018 à décembre 2019 et de janvier 2019 à mai 2020, respectivement, au Babak Imaging Center, Téhéran, Iran. Trois principaux critères sont considérés par trois radiologues pour classer les participants, comme suit:

  1. 1.

    Résultats d'imagerie, y compris:

    • Opacités de verre broyé (GGO), se référant aux opacités transparentes brumeuses;

    • Schéma de consolidation, ce qui signifie que l'air dans les alvéoles et les bronchioles périphériques est remplacé par du liquide;

    • Crazy Paving, faisant référence à des cloisons interlobulaires épaissies et à des lignes intralobulaires superposées sur un fond d'opacité en verre dépoli;

    • Atteinte pulmonaire bilatérale et multifocale;

    • Distribution périphérique; et

    • Plus de distribution dans les lobes inférieurs.

  2. 2.

    Les résultats cliniques, y compris les symptômes, les caractéristiques, les antécédents du patient et les résultats de la RT-PCR, le cas échéant; et

  3. 3.

    Épidémiologie, se référant à savoir si le participant vient de zones à haut risque ou a eu un contact étroit avec un patient COVID-19 positif.

Si un participant est identifié comme positif selon les trois critères, l'étiquette COVID-19 est attribuée. Sinon, le participant est classé comme CAP ou normal. Cette procédure est suivie par les trois radiologues. Par la suite, le vote à la majorité est adopté pour l'affectation finale. Les trois radiologues ont une concordance de 88,9% pour identifier les cas de COVID-19, CAP et normaux, tandis que les premier et deuxième radiologues ont 91,1% de concordance, les premier et troisième radiologues ont 97,4% de concordance et les deuxième et troisième radiologues ont 89,1% de concordance..

Un sous-ensemble de 54 cas de COVID-19 et 25 cas de PAC a été analysé par le premier radiologue pour identifier et étiqueter les tranches avec des preuves d'infection. Le sous-ensemble marqué des données contient 4 957 tranches montrant une infection et 18 392 tranches sans infection.

Outre les coupes de tomodensitométrie, des données cliniques sont collectées pour les patients, notamment:

  • L’âge des patients;

  • Le sexe des patients;

  • Poids des patients;

  • Caractéristiques cliniques: y compris les symptômes, la raison de la numérisation et les antécédents des patients;

  • Histoire de la chirurgie;

  • Suivi : certains des patients COVID-19 sont suivis après la scintigraphie et leur état, y compris la récupération, l'hospitalisation et le décès, est enregistré;

  • RT-PCR : un résultat positif de RT-PCR est disponible pour certains des patients COVID-19.

Les tomodensitogrammes sont constitués d'images 2D en coupe à partir de minces sections du corps (tranches), créant une représentation 3D des structures à l'intérieur du corps. Dans les scanners CT modernes, un générateur de rayons X rotatif envoie plusieurs faisceaux de rayons X dans l'objet sous plusieurs angles. La quantité de rayonnement traversant l'objet est ensuite capturée par des détecteurs de rayonnement sensibles, suivie d'un processus assisté par ordinateur, qui reconstruit les informations obtenues à partir des détecteurs en images séquentielles détaillées à l'aide de techniques de reconstruction d'image5. Toutes les images dans COVID-CT-MD sont obtenues à partir d'un scanner SIEMENS, SOMATOM Scope en vue axiale, en utilisant la technique d'acquisition hélicoïdale, c'est-à-dire que le patient est déplacé à travers le portique tandis que les faisceaux de rayons X et les détecteurs tournent rapidement autour du patient. Les images sont reconstruites à l'aide de la méthode de reconstruction par rétroprojection filtrée (FBP )6. La taille de la matrice de reconstruction (taille de sortie des images) est fixée à 512 × 512, et le noyau de reconstruction D40s est utilisé pour réduire le flou et le bruit en modifiant le contenu fréquentiel des données lors de la reconstruction d'image dans le scanner7. Enfin, toutes les images sont fournies dans l'unité Hounsfield et enregistrées au format DICOM (Digital Imaging and Communications in Medicine). Il convient de mentionner que suivant les protocoles de tomodensitométrie thoracique recommandés pour les cas suspects ou le suivi des métastases, bronchectasies, pneumopathie interstitielle et infections pulmonaires8, toutes les images sont des TDM sans contraste (NCCT) et aucune d'elles n'est une angiographie pulmonaire par TDM (CTPA). Les images acquises sont, par conséquent, reconstruites en CT haute résolution (HRCT).

Le tableau 2 montre différents paramètres d'acquisition CT, où la tension de crête (kVp) et le temps d'exposition affectent la dose d'exposition au rayonnement, tandis que l'épaisseur de la tranche représente la résolution axiale. Comme le montre le tableau 2, l'épaisseur de la tranche, le kVP et le temps d'exposition sont presque les mêmes avec quelques variations dans quelques cas de CAP. La distance de la source au détecteur et la distance de la source au patient, qui sont traditionnellement appelées SID et SOD, respectivement, sont également les mêmes dans tous les cas, à l'exception de quelques cas de CAP. La valeur d'exposition minimale et maximale (en mAs) utilisée dans le processus de balayage est également présentée dans le tableau 2. La valeur d'exposition détermine la dose de rayonnement totale en tomodensitométrie. La distribution des valeurs d'exposition est illustrée par les graphiques en violon pour chaque type de maladie sur la figure 1. En conséquence, la moyenne et l'écart type des valeurs d'exposition sont indiqués dans le tableau 3.

Tableau 2 Paramètres de tomodensitométrie utilisés pour acquérir l'ensemble de données COVID-CT-MD.Ratio d'infection moyen dans chaque lobe du poumon pour les cas de COVID-19 et de CAP dans l'ensemble de données étiqueté.

Limites

Bien que tous les cas et les étiquettes soient confirmés par trois radiologues expérimentés, nous aimerions décrire quelques limitations que les utilisateurs de données peuvent rencontrer. Ces limitations sont les suivantes:

  • Les processus de marquage des tranches et des lobes se concentrent davantage sur les régions présentant des manifestations distinctes plutôt que sur des résultats minimes.

  • Tous les patients COVID-19 n'ont pas confirmé un résultat RT-PCR positif, car ce test n'était pas accessible au public en Iran au moment de la première émergence du COVID-19. En outre, la charge élevée de patients nécessitant un examen COVID-19 n'a pas permis un test RT-PCR inclusif. Le diagnostic de certains patients de l'ensemble de données COVID-CT-MD est confirmé sur la base des résultats de la tomodensitométrie, ainsi que des résultats cliniques et de l'épidémiologie.

  • Bien que la plupart des cas de tomodensitométrie de faible qualité soient exclus, il peut encore y avoir des cas avec un artefact de mouvement léger, ce qui est inévitable, car les patients atteints de COVID-19 souffrent de dyspnée.

  • Pendant le processus de marquage des coupes et des lobes, certaines zones suspectes adjacentes à la paroi thoracique et au diaphragme ne sont pas étiquetées comme «infectées», en raison de leur mauvaise distinction.