Passer au contenu
Pas de visuels significatifs. Le texte se lit comme suit : Analyse distribuée pour la recherche multirégionale

Vous menez une recherche multirégionale? RRDS Canada peut vous aider!

L’analyse distribuée est une catégorie de méthodes qui permet d’analyser des données multirégionales sans les regrouper à un seul endroit. Les données sont d’abord harmonisées, ce qui permet de créer un fichier de données unique partitionné entre les environnements de recherche de confiance. Les analyses sont effectuées dans chacun de ces environnements, et les résultats sommaires sont transmis à un centre de coordination. Le nœud de coordination intègre les informations provenant de tous les centres de données pour produire l’analyse finale, que le chercheur peut ensuite consulter. Cela vous intéresse? Communiquez avec l’équipe de notre Guichet de soutien à l’accès aux données : dash@hdrn.ca. Téléchargez notre fiche d’information sur l’analyse distribuée.

Ressources en matière d’analyse distribuée

L’analyse distribuée facilite la recherche multirégionale, car elle offre une solution au cloisonnement des données sur la santé et lève d’autres obstacles au transport des données hors des organismes. L’analyse distribuée permet d’éviter les contraintes liées au regroupement des données. Elle permet de laisser les données dans leur environnement de recherche de confiance d’origine et de les analyser à l’intérieur d’un fichier de données unique, mais partitionné. L’analyse distribuée peut faciliter l’utilisation de données sensibles sur la santé et respecte les principes de souveraineté des données. Notre approche en matière d’analyse distribuée protège la confidentialité des données et permet d’utiliser des méthodes innovantes pour produire des résultats solides et généralisables qui éclairent les décisions stratégiques et contribuent à l’amélioration des systèmes de santé et des résultats pour la santé. Pour en savoir plus,  téléchargez notre Analyse distribuée FAQ et glossaire ou consultez notre page Ressources en matière d’analyse fédérée.

Un diagramme de flux de données. Le texte se lit comme suit : Analyse distribuée. Le logo du Réseau de recherche sur les données de santé du Canada se trouve au bas de l'écran.
Pas de visuels significatifs. Le texte se lit comme suit : Analyse fédérée. Série d'apprentissage collectif. L'état de la science. Le logo du Réseau de recherche sur les données de santé du Canada se trouve au bas de la page.

Série d’apprentissage collectif L’analyse fédérée : l’état de la science

En 2024, RRDS Canada a lancé la série d’apprentissage collectif L’analyse fédérée : l’état de la science, une série limitée de webinaires qui réunissait des penseurs et des experts de premier plan pour explorer et partager les connaissances actuelles sur l’analyse fédérée, un type particulier d’analyse distribuée. La série comprenait divers événements sur un vaste éventail de sujets, tels qu’un examen des avantages et des limites de diverses approches de l’analyse distribuée, une présentation d’exemples concrets d’analyses statistiques avec des données distribuées, une description des environnements de recherche de confiance au Canada et une analyse de l’intelligence artificielle dans un paysage fédéré. Regardez et diffusez les enregistrements.

Questions fréquemment posées

Il s’agit d’une analyse statistique d’une source de données distribuées au cours de laquelle des paramètres statistiques intermédiaires sont échangés entre des nœuds de données et le nœud de coordination. Aucune donnée individuelle n’est échangée lors d’une analyse distribuée.

un flux de données

Dans une analyse distribuée, des paramètres statistiques sont échangés entre des environnements de confiance, puis intégrés pour produire le résultat. Bien que le processus d’analyse distribuée diffère de celui de l’analyse groupée, les résultats sont essentiellement identiques (à la deuxième décimale près) avec les méthodes que nous utilisons actuellement. Le code pour les analyses distribuées est désormais disponible sur le Web sous la forme d’un ensemble de logiciels libres : GitHub Distributed Analysis Resources (en anglais seulement).

L’analyse distribuée permet d’inclure des données qui ne peuvent être déplacées ou regroupées en raison de restrictions juridiques, éthiques, liées aux politiques ou à l’acceptabilité sociale.

Il s’agit de quantités mathématiques abstraites comme les matrices. Pour en savoir plus sur l’objet des échanges, consultez l’exemple de régression logistique dans le document suivant : GitHub Distributed Analysis Resources: Logistic regression (en anglais seulement).

Les paramètres peuvent être transmis de différentes manières. Afin d’améliorer l’interopérabilité entre les différents outils d’analyse statistique, la transmission s’effectue par fichiers texte (CSV). Ces fichiers peuvent être transmis de différentes façons : courriel, One Drive, plateformes personnalisées, etc. Actuellement, le RRDS Canada utilise une plateforme Web (PARS3) pour coordonner l’échange des paramètres.

Les mêmes principes de qualité s’appliquent aux analyses distribuées et aux données regroupées. Par exemple, les sources de données distribuées doivent avoir le même modèle d’information. Des données et un modèle de mauvaise qualité influent de la même manière sur une analyse distribuée et une analyse groupée.

Une analyse fédérée est un sous-type d’analyse distribuée. Elle doit se soumettre à un plus grand nombre d’exigences techniques. Par exemple, les progiciels (R, Stata, SPSS, etc.) utilisés pour effectuer l’analyse de sources de données distribuées doivent être les mêmes, et la partition des données au niveau du nœud doit représenter l’information en utilisant la même technologie et les mêmes types de données (p. ex. un centre de données ne peut pas utiliser MSSQL et un autre centre, utiliser Oracle pour une analyse fédérée). L’analyse distribuée

Les exigences sont très similaires à celles d’une analyse groupée. Au minimum, les méthodes et modèles analytiques choisis doivent être cohérents, et la source de données choisie doit être conforme aux exigences du modèle (p. ex. en ce qui concerne les hypothèses du modèle et les données manquantes). Les variables indépendantes à inclure doivent être sélectionnées, notamment au moyen d’analyses exploratoires à l’un des nœuds (p. ex. le centre de données du RRDS Canada).

La principale exigence est de choisir une question de recherche à laquelle il est possible de répondre en utilisant l’une des méthodes analytiques prises en charge; à l’heure actuelle, les modèles de régression linéaire, de régression logistique et de régression à effet proportionnel sont pris en charge, avec et sans facteurs de pondération (voir GitHub Distributed Analysis Resources [en anglais seulement]). Nous sommes en train d’élargir le répertoire des méthodes disponibles; si vous ne trouvez pas la méthode requise, écrivez à dash@hdrn.ca. Toutes les politiques habituelles en matière de gouvernance des données et d’environnement sécurisé demeurent en vigueur.

À l’heure actuelle, il est possible d’effectuer une analyse distribuée au moyen des modèles de régression linéaire, de régression logistique et de régression à effet proportionnel (voir GitHub Distributed Analysis Resources [en anglais seulement]). Nous sommes en train d’élargir le répertoire des méthodes disponibles; si vous ne trouvez pas la méthode requise, écrivez à dash@hdrn.ca.

Le Guichet de soutien à l’accès aux données (GSAD) du RRDS Canada est un service de coordination offert par 14 centres de données au Canada. Le GSAD offre du soutien aux chercheurs qui ont besoin de données multirégionales pour effectuer des travaux au Canada. En soumettant votre projet au GSAD aux fins d’examen, vous pouvez obtenir gratuitement une évaluation de faisabilité et une estimation des coûts. Une fois que vous avez confirmé le financement et décidé de faire une demande officielle d’accès aux données, le GSAD aide votre équipe à obtenir les approbations et les autorisations, et à répondre aux exigences nécessaires pour accéder aux données conformément aux politiques et aux lois locales en vigueur. Enfin, lorsque les approbations et les autorisations nécessaires sont en place et que les données et le plan d’analyse de votre projet sont disponibles, les centres de données du RRDS Canada peuvent effectuer l’analyse distribuée (là où ces services sont offerts). Pour en savoir plus, écrivez à dash@hdrn.ca.

 

Lorsque vous soumettez votre projet au GSAD aux fins d’examen, les services allant de la coordination à l’obtention d’une évaluation de faisabilité du projet et à l’estimation des coûts sont gratuits. Lorsqu’une équipe de recherche confirme qu’elle souhaite soumettre une demande officielle d’accès aux données, les centres de données locaux répondent à cette demande selon un principe de recouvrement des coûts. Même si les coûts associés à la préparation des fichiers de données sur la santé, aux services analytiques et aux autres services fournis par les centres de données du RRDS Canada varient, la décision d’effectuer une analyse distribuée n’a que peu d’incidence sur les coûts.

Écrivez à dash@hdrn.ca, et nous vous dirigerons au bon endroit!

Veuillez consulter les ressources en ligne suivantes :