[Post invité] - Data for Good x Substra Foundation - Pour une data science responsable et de confiance

Substra Foundation est une organisation à but non lucratif indépendante, qui a pour objectif de développer et de promouvoir un écosystème pour une data science responsable et de confiance. Elle a été créée en partant d’un constat : « le potentiel des technologies d’IA est immense, mais, aujourd’hui, il est difficile d’avoir confiance en l’IA » ; la solution proposée : développer des approches pour une IA responsable et de confiance.

Read More
Labelia Labs
Pourquoi et comment évaluer la contributivité d’un partenaire dans un projet collaboratif de machine learning ?

our satisfaire aux exigences de sécurité relatives aux données dans certains domaines, une solution est de se diriger vers des approches d’apprentissage automatique distribué, collaboratif et multi-acteurs. Mais cela implique alors l'élaboration d'une notion de contributivité pour quantifier la participation d’un partenaire au modèle final. La définition d’une telle notion n’est pas immédiate : pouvoir implémenter facilement, expérimenter et comparer différentes approches demande un outil de simulation. C’est ce que nous avons entrepris de développer, sous la forme de la librairie Python open source mplc dans le cadre d’un groupe de travail réunissant plusieurs partenaires.

Read More
Labelia Labs
What's up, doc?

Voici un moment déjà que la documentation générale du framework Substra est en ligne sans que nous n’ayons pris le temps d’en faire un petit tour, je vous propose donc d’y jeter un coup d’œil rétrospectif ensemble !

Comme vous le savez probablement, le logiciel open source n’est pas qu’une affaire de code publiquement accessible. C’est aussi et avant tout un projet, un lieu où se rassemblent discussions, essais et développements. Il est donc primordial de pouvoir s’y installer confortablement !

Read More
Comment résoudre la tension entre potentiel de l’IA et craintes associées ?

L’objectif de cet article est de présenter la démarche participative sur le thème « data science responsable et de confiance » que nous avons initiée à l’été 2019 et que nous animons depuis. Je vais suivre pour cela le fil de la présentation que j’en ai faite au meetup “Big data & ML” le 29 septembre 2020. J’espère que ce format blog permettra à un maximum de monde de découvrir cette initiative, peut-être d’y réagir, voire de venir y contribuer. Tous les retours sont les bienvenus, ils viennent alimenter la réflexion et les travaux et nous en avons besoin !

Read More
[1/2] Utilisation de l'apprentissage distribué pour la détection de deepfakes

Dans cet article, nous présentons plusieurs techniques de manipulation faciale appelées «deepfakes» et montrons pourquoi il est important d'améliorer la recherche sur la détection de deepfakes. Nous présentons l'état de l'art des jeux de données et des algorithmes de détection de deepfake, et introduisons une approche d'apprentissage automatique sécurisée, traçable et distribuée pour un benchmark d’algorithmes de détection de deepfake à l'aide du framework Substra.


Read More
Labelia Labs
Comment créer un produit que la communauté aime ?

Cet article de blog présente une première approche opérationnelle de Product Management pour le framework open source Substra. Cette approche est amenée à évoluer dans le temps afin de répondre au mieux aux besoins et à la vision de la communauté. Elle est toutefois une première pierre fondatrice destinée à enrichir notre communauté et ses modes de fonctionnement. Elle se repose sur les meilleures pratiques de l’Open Source, en particulier celles de la Fondation Apache.

Read More
Labelia Labs
Comment renforcer la confidentialité dans des projets de Data Science ?

Dans cet article, nous présentons les principales techniques de renforcement de la confidentialité (Privacy-Enhancing Techniques - PETs) qui sont actuellement développées et utilisées par divers acteurs technologiques. Nous expliquons brièvement leurs principes et discutons de leurs complémentarités potentielles avec le framework Substra. L'objectif de cet article est d’explorer les éventuelles intégrations du framework Substra avec d'autres technologies.

Read More
Romain BEY
Sécurisation de l’IA : faut-il centraliser ou décentraliser ?

La collecte massive de données personnelles constitue un nouveau risque d’atteinte à la vie privée et les citoyens-consommateurs demandent de nouvelles garanties de sécurité à leurs représentants et leurs entreprises. Alors que les données personnelles ont été historiquement sécurisées en les anonymisant, ces méthodes s’avèrent souvent inefficaces lorsqu’on considère des modèles d’intelligence artificielle entraînés sur des données massives. De nouveaux cadres de sécurisation doivent être mis en place, qui peuvent s’appuyer soit sur la centralisation des données chez un tiers de confiance, soit sur la décentralisation des données chez une multitude d’acteurs. 

Read More
Romain BEY
Comment la blockchain permet une collaboration saine entre hôpitaux et acteurs privés sur les données de santé ?

L'hôpital possède un nombre colossal de données

Chaque année, des millions de patients se font soigner dans les hôpitaux de France. Les données de ces patients sont naturellement conservées dans chacun des Systèmes d’Information (SI) des hôpitaux et constituent un matériau de base essentiel non seulement pour le soin mais aussi pour la recherche clinique.

L'hôpital regorge de données (données patients et diagnostic associé) dans de nombreux services : des mammographies et leurs diagnostics pour le cancer du sein, des données génomiques et les maladies associées, etc.

Comment exploiter ces données avec l’extérieur ?

Read More
Romain GoussaultComment
IA et données sensibles : une problématique de confiance

Aujourd'hui, partout dans le monde, quand un chercheur ou un data scientist veut utiliser un algorithme d'apprentissage machine pour créer un modèle de prédiction, il commence généralement par regrouper des données ou obtenir l'accès à un ensemble déjà constitué. Ensuite il observe ces données, consulte quelques statistiques descriptives, les manipule, etc. Un problème de confiance se pose alors : à partir du moment où on accède à des données, les seules protections qui subsistent contre une utilisation illégitime de ces données sont l'éthique et le droit - éthique du data scientist, droit des contrats ou accords qui encadrent l’utilisation des données. L’éthique et le droit, c’est-à-dire la confiance, qui est au coeur des travaux collaboratifs. Mais la confiance est-elle toujours suffisante ?

Read More