Pour des raisons éthiques et scientifiques, il est nécessaire que la recherche scientifique soit plus ouverte.

Cela implique que les protocoles, les plans d'analyse statistique soient transparents et les ensembles de données soient librement accessibles. Malheureusement, cette dernière condition est le plus souvent impossible à réaliser car elle est en contradiction avec d'autres contraintes éthiques et la législation en vigueur.

Technical presentation

Comment garder de bonnes propriétés statistiques ?

L’objectif de l’Open Cesp est de proposer des jeux de données dont les propriétés statistiques sont similaires à celle du jeu original, tout en respectant la vie privée des patients.

Bien sûr il ne s’agit en aucun cas de vraies données.

D’un point de vue formel les jeux de données proposés ici ont les mêmes distributions que les  originales.

Cela a été rendu possible grâce à l’écosystème de librairies open sources en langage R ou Python.

SynthPop

Le package R synthpop permet aux utilisateurs de créer des versions synthétiques de données confidentielles à destination des chercheurs souhaitant faire des inférences sur la population représentée par les données. Ils peuvent être utilisés pour effectuer des analyses statistiques. Les données synthétiques sont également utiles pour fournir des ensembles de données pour l'enseignement.

https://synthpop.org.uk/

SDV

La librairie SDV est un écosystème de librairie Python pour la génération de données synthétiques. Elles permettent aux utilisateurs d'entraîner facilement des modèles sur des ensembles de données à table unique, multi-tables et de séries chronologiques pour générer ultérieurement de nouvelles données synthétiques qui ont le même format et les mêmes propriétés statistiques que l'original.

https://sdv.dev/

Comment cela fonctionne ?

On s'assure que l'ensemble de données synthétiques crée des observations dont le niveau de similarité avec les observations originales est strictement inférieur à la similarité qu'on les observations originales entre elles. C'est ainsi que la confidentialité est garantie.

Bien entendu, aucune publication scientifique n'est possible à partir des analyses de ces données synthétiques. Si vous avez le sentiment que vos analyses pourraient avoir un intérêt scientifique, il sera nécessaire de prendre contact avec nous afin d'appliquer vos scripts aux jeux de données originaux. Ceci peut être fait en utilisant l'option "contactez-nous" de cette page.

Un accord formel devra être envisagé afin de garantir toutes les positions d'auteur pour d'éventuelles publications futures. En outre, une contribution financière limitée pourra éventuellement être demandée pour compenser la charge de travail de gestion des données et d'analyse statistique qui sera nécessaire.