Le mérite des données synthétiques

July 8, 2024 July 26, 2024 hdrncanada hdrncanada thumbnail

Qu’il s’agisse de gagner des concours de beaux-arts, de confondre les gens avec des “deepfakes” ou de simuler de vastes ensembles de données sur la santé, l’IA générative a capté l’imagination du public et suscité la consternation à parts égales. “Les images créées à l’aide de modèles d’IA générative ont soulevé la question de savoir si l’IA générative peut être créative. Elles soulèvent également des questions sur la confiance et sur la manière dont de fausses données ou de fausses images peuvent remplacer de vraies données”, explique Khaled El Emam, titulaire de la chaire de recherche du Canada en IA médicale et professeur à l’École d’épidémiologie et de santé publique de l’Université d’Ottawa.

Lorsqu’il s’agit de données sur la santé, a-t-il poursuivi, “la génération de données synthétiques est essentiellement de l’IA générative. On part d’un ensemble de données source – il peut s’agir d’un ensemble de données réelles ou d’un ensemble de données d’essais cliniques – et on entraîne un modèle génératif dans le but d’apprendre les schémas simples et complexes des données originales. Ce modèle est ensuite utilisé pour générer des données synthétiques”.

Les données synthétiques sont devenues de plus en plus utiles pour l’entraînement des modèles d’apprentissage automatique, les tests de logiciels et l’enseignement dans les universités, en partie grâce à la possibilité de générer de grands ensembles de données. Selon M. El Emam, l’un des principaux cas d’utilisation des données synthétiques dans la recherche en santé est la protection de la vie privée. “Parce qu’elles sont générées à partir d’un modèle, il n’y a pas de correspondance univoque entre les données synthétiques et les données sources, ou entre les données synthétiques et les personnes réelles, ce qui explique pourquoi les données synthétiques peuvent avoir de bonnes propriétés en matière de protection de la vie privée. Bien que les modèles génératifs ne puissent pas garantir que les données synthétiques présentent toujours de faibles risques pour la vie privée, “nous pouvons mesurer les risques pour la vie privée des données synthétiques parce que nous pouvons quantifier ces risques de manière raisonnablement satisfaisante”.

Les images créées à l’aide de modèles d’IA générative ont soulevé la question de savoir si l’IA générative peut être créative. Elles soulèvent également des questions sur la confiance et sur la manière dont de fausses données ou de fausses images peuvent remplacer de vraies données. ~ Khaled El Emam

Selon M. El Emam, les principes de base de la formation d’un modèle génératif sont les mêmes pour toutes les techniques. “Vous avez un générateur, comme un modèle statistique d’apprentissage automatique ou un réseau neuronal artificiel, qui ingère les données réelles, essaie d’apprendre les modèles dans les données réelles et génère ensuite les données synthétiques.” Un évaluateur compare ensuite les données synthétiques aux données réelles et calcule les mesures d’utilité et de confidentialité, en mesurant la qualité des données synthétiques et en évaluant les risques pour la vie privée. “L’évaluateur peut calculer un score qui est renvoyé au générateur pour qu’il ajuste ses paramètres. Ce processus itératif se poursuit jusqu’à ce que l’on obtienne un ensemble de données performant – soit un équilibre entre l’utilité et la protection de la vie privée, soit un ensemble de données qui maximise l’utilité uniquement si l’on se concentre sur cet aspect.

Il est important de noter qu’il n’est pas nécessaire de savoir comment les données synthétiques seront utilisées pour générer des données synthétiques utiles et à forte utilité. “Les données synthétiques peuvent être très réalistes, avec la même distribution, le même nom de variable, la même structure et les mêmes types de variables, et répondre aux mêmes conditions que les données d’origine.” Les données synthétiques peuvent également être utiles pour atténuer les biais, a-t-il ajouté. “Si vous avez deux groupes – disons des hommes et des femmes – où la distribution devrait être égale mais où il y a moins de femmes dans l’ensemble des données, vous prenez l’ensemble complet des données et vous formez un modèle génératif. On simule ensuite des patientes supplémentaires et on les ajoute à l’ensemble de données. L’analyse est effectuée sur les données avec les patientes simulées pour augmenter le groupe sous-représenté dans l’ensemble de données”.

Pour en savoir plus sur les recherches du M. El Emam utilisant des données synthétiques, regardez sa présentation dans le cadre des séances de discussion du RRDS Canada.

Le mérite des données synthétiques

Derniers articles

Soutien aux chercheur-euse-s incluant la recherche multirégionale dans leur demande de subvention de projet de printemps des IRSC

Vos données, leurs recherches – Est-ce acceptable ? Partie 2