Poster abstract

Objectif

Lors de la conception des algorithmes d'aide à la détection il convient de réaliser une évaluation sur un jeu de données pertinent pour la tâche étudiée. Il existe des bonnes pratiques de constitution desdits jeux, mais la réalisation effective revient au concepteur. 

La clarté et transparence de la démarche de validation offre une meilleure compréhension du fonctionnement de l'algorithme. En particulier, la connaissance de jeux de données utilisés pour évaluer un algorithme permet de projeter les performances revendiquées sur un cas d'usage et dans un contexte concrets, ainsi que de mieux comprendre le fonctionnement attendu. Nous nous focalisons sur la signification des performances lors d'évaluation sur des différents jeux de données.

Patients et Méthodes

Dans la communauté de recherche, il existe des initiatives de constitution de jeux de données rendu publics. En mammographie nous notons les bases Européennes (telles que CSAW-CC, INBreast), Asiatiques (CMMD, VinDR) ou Nord-américaines (BCS-DBT). Les données y sont souvent mono-constructeur, et composées selon une approche différente. 

Par exemple, INBreast est augmenté avec des cas pathologiques, tandis que CSAW représente une population de dépistage.

Nous étudions les performances de l'algorithme d'une solution d'aide à la détection Breast-SlimView proposée par la société Hera-MI en utilisant les données provenant desdits bases. Nous analysons des différentes métriques et discutons leurs pertinence et signification. Nous calculons la métrique AUC ROC avec les points opératoires à des valeurs de sensibilité différentes. Nous évoquons les avantages et les manquements de chaque jeu et nous discutons les évolutions possibles.

Résultats

L'algorithme étudié génère une prédiction par région indiquant l'aspect anormal d'une ou de plusieurs zones dans l'image. Cette prédiction permet une interprétation de classification binaire et le calcul de la métrique AUC ROC. La prédiction par région permet également le calcul d'AUC FROC. Pour les deux métriques les points opératoires différents sont calculés. Nous obtenons les métriques variables selon les données utilisées. Par exemple, pour le jeu de données INBreast nous obtenons les performances AUCROC = 0.95 avec notamment la sensibilité de 97%, et spécificité de 67%. Pour le jeu CMMD, le score AUCROC est de 0.82, et la spécificité est de 52% pour la même sensibilité de 97%. Avec la sensibilité plus basse de 85%, nous pouvons observer les spécificités plus élevées, de 88% et de 80% pour INBreast et CMMD respectivement.

Conclusion

Les résultats reflètent l'hétérogénéité des sources de données. Numériquement les métriques obtenues sur le jeu de données CMMD peuvent être décourageantes surtout en comparaison de celles obtenues avec INBreast. Cette différence de performances peut être liée à la multitude de facteurs : i) qualité dégradée des images provenant de la base CMMD (mammographies compressées avec pertes), ii) constructeurs différents, iii) typologie de seins différente (population asiatique versus population sud-européenne), iv) la proportion de cancers plus significative (70% contre 30%). Or, chaque évaluation isolée ne permet pas de généraliser, et en même temps les performances sur les jeux de données combinés ne mettront pas en évidence les spécificités de chaque jeu. Afin de palier ladite hétérogénéité, il est important de réunir les données représentatives pour un cas d'usage spécifique, incluant la population, la pathologie, les marques de mammographes. En outre, il est important de bien contextualiser les métriques prenant en compte toutes les caractéristiques. En ce sens, une initiative française sera bienvenue avec une contribution des experts techinques et cliniques.