Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients - Archive ouverte HAL Access content directly
Theses Year : 2022

Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients

Apprentissage de réseaux causaux interprétables à partir de très grands ensembles de données, application à 400 000 dossiers médicaux de patients atteints d'un cancer du sein

(1)
1

Abstract

Uncovering cause-effect relationships in non-experimental settings has shown to be a very complex endeavor, given the numerous limitations and biases found in observational data. Recent progress in causal discovery methodologies, and in the causal inference literature in general, has contributed to the development of techniques that learn the underlying causal structure of the events recorded through observational data, allowing us to perform causal discovery and inference in observational data. The approach improved and used in the studies that this thesis describes is based on novel information-theoretic methods to analyze information-rich clinical data from ~400,000 curated clinical records as well as medical consultation reports of breast cancer patients diagnosed in the US between 2010 and 2016 as part of the SEER program. While numerous methods have been developed to identify correlations in heterogeneous clinical records, a central challenge remains: to uncover unsuspected cause-effect relationship. It is now considered a priority to guide clinical understanding and treatments by novel and innovative data analysis and computational methods. Apart from skin cancer, breast cancer is the most common cancer in women in the United States, and the second leading cause of cancer death among women. Yet, there are few efforts to analyze the large amount of observational data related to this disease from a causal perspective. By analyzing the aforementioned dataset, it was possible to infer a network that presents many putative and genuine causal relationships, supporting previous discoveries in the literature but also shedding light for new discussions.
Découvrir des relations de cause à effet dans des contextes non expérimentaux s'est avéré très complexe, étant donné les nombreuses limitations et biais que présentent les données d'observation. Les progrès récents dans les méthodologies de découverte causale et dans la littérature sur l'inférence causale ont contribué au développement de techniques qui permettent l'apprentissage de la structure causale sous-jacente des événements enregistrés par les données d'observation. L'approche améliorée et utilisée dans cette thèse est basée sur de nouvelles méthodes de théorie de l'information permettant d'analyser des données cliniques provenant de ~400000 dossiers et rapports de consultations médicales de patientes atteintes de cancer du sein, diagnostiquées aux États-Unis entre 2010 et 2016 dans le cadre du programme SEER. Si de nombreuses méthodes ont été développées pour identifier des corrélations dans des dossiers cliniques hétérogènes, un défi majeur demeure : mettre en exergue des relations causales pour orienter la compréhension clinique et les traitements avec des méthodes novatrices d'analyse des données. Outre le cancer de la peau, le cancer du sein est le cancer le plus fréquent chez les femmes aux États-Unis et la deuxième cause de décès par cancer chez les femmes. Pourtant, peu d'efforts ont été déployés pour analyser la grande quantité de données d'observation liées à cette maladie dans une perspective causale. En analysant les données SEER, il a été possible d'inférer un réseau présentant de nombreuses relations causales putatives et réelles, soutenant les découvertes précédentes dans la littérature, mais mettant également en lumière de nouvelles discussions.
Fichier principal
Vignette du fichier
DA_CAMARA_RIBEIRO_DANTAS_these_2022.pdf (27.9 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03886559 , version 1 (06-12-2022)

Identifiers

  • HAL Id : tel-03886559 , version 1

Cite

Marcel da Câmara Ribeiro-Dantas. Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients. Machine Learning [cs.LG]. Sorbonne Université, 2022. English. ⟨NNT : 2022SORUS162⟩. ⟨tel-03886559⟩
0 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More