Le Data Mining

Facebook et Data mining

Exemple d'extraction et problèmes posés

Cette page présente des exemples d'extraction de données et propose quelques hypothèses sur les problèmes que ces données peuvent poser. (en imaginant par exemple que ces données puissent être vendues à des entreprises privées, consulter par des Etats policiers...etc)

Les statuts de l'utilisateur

Les statuts sont des publications effectuées par un utilisateur. Il peut s'agir de textes, de liens vers des pages web, ou bien de photos. Ce graphique représente la répartition entre ces différentes catégories après avoir analysé les données d'un utilisateur.

Les types de publications

Cette autre illustration présente la longueur des statuts de type texte en fonction du temps :

Longueur des statuts dans le temps

En mettant en rapport ces données avec les grands évènements de l'actualité, on pourrait imaginer dégager pour certains utilisateurs en lien entre certains types d'évènements et les réactions de l'utilisateur.

Toujours sur les statuts, ce graphique nous présente la répartition des publications de l'utilisateur en fonction des horaires de la journée.

Répartition des publications dans le temps

Cela s'avère être un bon indicateur du rythme de vie de l'utilisateur, de ces temps de repos...etc. Un employeur pourrait également s'inquiéter de l'utilisation du réseau social sur les horaires de travail.
A noter qu'il est également possible de connaitre les mots les plus employés dans les statuts. L'ensemble de ces éléments montre bien la nécessité de confidentialité de ces données.

Mobilité de l'utilisateur

En plus du site web, le réseau social propose également des applications mobiles (iOS, Android...). Toute activité sur Facebook mémorise également le media d'accès. Ce graphique permet de visualiser, en fonction des jours de la semaine et des différentes plages horaires, la répartition des accès entre desktop et mobile.

Mobilité de l'utilisateur

On obtient là aussi des informations sur le rythme de vie de l'utilisateur. En supposant que les usages mobiles soient révélateurs de l'absence de l'utilisateur de son domicile, les utilisations malintentionnées de ces données sont aisément imaginables.

Réseau de connaissances

Ce graphique présente les différentes interconnexions entre les connaissances d'un utilisateur. Il est possible de voir à qui correspond un point en le survolant. Les couleurs symbolisent différents groupes auxquels les personnes appartiennent (établissements scolaires fréquentés, entreprises...).

Réseau de connaissances

C'est ici qu'on peut imaginer la réelle puissance de l'extraction de données si l'on disposait également des données de ces utilisateurs interconnectés. Il serait alors possible d'effectuer de très nombreux recoupements, l'outil ne se contenterait plus d'agréger les données pour faciliter leur exploitation et leur analyse, mais bien d'appendre des éléments nouveaux. (un centre d'intérêt que l'utilisateur ne mentionne pas, ses habitudes, les gens qu'il fréquente le plus...)

Conclusion

Beaucoup d'autres données peuvent être disponibles, en fonction du niveau de détail qu'un utilisateur peut apporter à son profil (opinions politiques ou religieuses...). Facebook possède des données similaires pour plus d'un milliard d'utilisateurs, tous interconnectés. Des utilisations commerciales ont déjà eu lieu, bien que souvent contestées par la justice.
On voit donc bien le problème posé par l'exposition à grande échelle des données personnelles et leur exploitation avec le Data Mining. Le cadre légal peut changer, et on peut donc redouter des utilisations commerciales réellement intrusives ou encore une surveillance abusive de gouvernements.

Partie suivante