Thèse Année : 2024

Reduction of color-induced bias for artificial intelligence-based classification of breast cancer histological images

Réduction du biais lié à la coloration des coupes histologiques de cancer du sein pour le développement d'outils de classification par intelligence artificielle

Résumé

Artificial intelligence (AI)-assited diagnosis is an ongoing revolution in pathology. Many proofs of concept of diagnostic assistance tools are published, and some of them are already at the commercialization step. However, a frequent drawback of AI models in medicine, where datasets are often relatively small and annotations can be unreliable, is their propension to make part or all of their decisions rather on bias in training dataset than on concrete biological features. Technically, it is well known that variability in microscopic image staining arises from the multiplicity of tissue staining protocols across laboratories, and over time within a single laboratory, constituting one of the main sources of bias in machine learning for digital pathology. So as to deal with it, many teams have written about color normalization and augmentation methods. However, few of them have monitored their effects on bias reduction and model generalizability. In our study, two methods for stain augmentation (AugmentHE) and fast normalization (HEnorm) have been created and their effect on bias reduction has been monitored. Actually, they have also been compared to previously described strategies. To that end, a multicenter dataset created for breast cancer histological grading has been used. Thanks to it, classification models have been trained in a single center before assessing its performance in other centers images. This setting led to extensively monitor bias reduction while providing accurate insight of both augmentation and normalization methods. AugmentHE provided an 81% increase in color dispersion compared to geometric augmentations only. In addition, every classification model that involved AugmentHE presented a significant increase in the area under receiving operator characteristic curve (AUC) over the widely used RGB shift. More precisely, AugmentHE-based models showed at least 0.14 AUC increase over RGB shift-based models. Regarding normalization, HEnorm appeared to be up to 78x faster than conventional methods. It also provided satisfying results in terms of bias reduction. Altogether, our pipeline composed of AugmentHE and HEnorm improved AUC on biased data by up to 21.7% compared to usual augmentations. Conventional normalization methods coupled with AugmentHE yielded similar results while being much slower. In conclusion, we have validated an open-source tool that can be used in any deep learning-based digital pathology project on H&E whole slide images (WSI) that efficiently reduces stain-induced bias and later on might help increase pathologists' confidence when using AI-based products.

L'intelligence artificielle (IA) appliquée au diagnostic est en passe de bouleverser le métier de pathologiste. Les preuves de concept d'outils d'assistance au diagnostic abondent, et la commercialisation de tels outils a commencé. Cependant, un inconvénient fréquent des modèles d'IA en médecine, domaine dans lequel les jeux de données sont souvent relativement petits et dont l'annotation est soumise à caution, est leur tendance à prendre tout ou partie de leurs décisions sur la base de biais présents dans les jeux de données d'entraînement plutôt que sur des caractéristiques biologiques concrètes. Techniquement, il est bien connu qu'il existe une variabilité de coloration des images microscopiques du fait de la multiplicité des protocoles de coloration des tissus entre laboratoires, et dans le temps au sein d'un même laboratoire, constituant ainsi l'une des principales sources de biais dans l'apprentissage automatique en pathologie digitale. Pour remédier à cela, de nombreuses équipes ont publié des travaux sur la normalisation et l'augmentation des couleurs. Cependant, peu d'entre elles ont évalué leurs effets sur la réduction des biais et la généralisabilité des modèles. Dans cette étude, nous avons développé deux méthodes d'augmentation (AugmentHE) et de normalisation (HEnorm) des couleurs des images microscopiques en coloration standard (hématoxyline éosine (H&E)), et leurs effets sur la réduction des biais ont été monitorés. Ces deux méthodes ont également été comparées aux outils d'augmentation et de normalisation les plus largement utilisés dans la littérature. Un jeu de données multicentrique conçu pour le grading histologique du cancer du sein a été utilisé. Grâce à cela, des modèles de classification ont été entraînés sur les images microscopiques de cancers du sein issues d'un centre unique avant d'évaluer leur performance sur des images provenant d'autres centres. Ce design a permis de monitorer de manière approfondie la réduction des biais tout en fournissant une évaluation précise des méthodes d'augmentation et de normalisation. AugmentHE entraînait une augmentation de 81 % de la dispersion des couleurs par rapport aux augmentations géométriques seules. De plus, tous les modèles de classification impliquant AugmentHE présentaient une augmentation significative de l'aire sous la courbe ROC (AUC) par rapport à la technique de RGB shift largement utilisée. Plus précisément, les modèles basés sur AugmentHE ont montré une augmentation d'au moins 0,14 de l'AUC par rapport aux modèles basés sur le RGB shift. En ce qui concerne la normalisation, HEnorm s'est révélé jusqu'à 78 fois plus rapide que les méthodes conventionnelles, tout en fournissant des résultats satisfaisants en termes de réduction des biais. En résumé, notre pipeline composé d'AugmentHE et de HEnorm a amélioré l'AUC sur des données biaisées jusqu'à 21,7 % par rapport aux augmentations usuelles. Les méthodes de normalisation conventionnelles couplées à AugmentHE ont donné des résultats similaires, bien qu'elles soient beaucoup plus lentes. En conclusion, nous avons validé un outil open source pouvant être utilisé dans tout projet de pathologie numérique basé sur l'apprentissage profond appliqué aux lames entières (WSI) colorées à l'H&E, qui réduit efficacement les biais liés à la coloration et pourrait, à terme, renforcer la confiance des pathologistes dans l'utilisation d'outils basés sur l'IA.

Fichier principal
Vignette du fichier
2024TLSES191.pdf (15.03 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)
Licence

Dates et versions

tel-05063765 , version 1 (12-05-2025)

Licence

Identifiants

  • HAL Id : tel-05063765 , version 1

Citer

Camille Franchet. Réduction du biais lié à la coloration des coupes histologiques de cancer du sein pour le développement d'outils de classification par intelligence artificielle. Cancer. Université de Toulouse, 2024. Français. ⟨NNT : 2024TLSES191⟩. ⟨tel-05063765⟩
129 Consultations
170 Téléchargements

Partager

  • More