Accueil

Bannière

#12 Script : Comment les services vous espionnent ?

Comment est-ce que des services comme Google collectent un maximum de données sur vous, et à quoi ça leur sert?

Tags : script podcast

Hello ! Aujourd’hui épisode un peu plus light puisque je suis en pleine période d’écriture de Rapport de Stage, couplé d’un début de vacance. Donc j’ai pas forcément le temps de vous faire l’épisode que je voulais faire à la base, sur le JavaScript. Bref, le sujet caché derrière ce titre un poil putaclick, c’est les technologies que peuvent utiliser Google ou d’autres services pour vous espionner, enfin, en apprendre un maximum sur vous. On va commencer par parler un peu technologie informatique en général avec le fonctionnement des cookies, avant de passer sur des manières un peu plus appliquées. J’ai centré l’épisode autour de Google parce qu'il y avait beaucoup de matière, mais tout à la fin on parlera vite fait d’autres services. On ne va pas non plus parler des choses trop classiques, genre vos recherches Google, YouTube, vos emails sur Gmail et tout. Tout ça c’est directement dans l'écosystème Google, donc c’est trop facile. Non on va parler des choses un peu plus cachées genre reCaptcha, Google Analytics, Google Font ou Se Connecter avec Google.

Commençons par le début, c’est quoi un cookie. Je vais pas vous faire l’injure de faire la blague sur “Non c’est pas ce que vous mangez le soir devant une série Netflix”. Ah merde du coup je l’ai fait… Oublions. Un cookie est une donnée que peut déposer un serveur sur votre navigateur. En gros quand il répondra à une demande de votre navigateur, par exemple afficher une page web, il lui dira en même temps “S’il te plais, stock pendant 5 jours cette donnée avec ce nom, et renvoie là moi avec chaque requête”.

Les premiers à avoir développé cette technologie étaient John Giannandrea et Lou Montulli pour Netscape Navigator, et la première utilisation était pour savoir si une personne était déjà venue sur le site de Netscape avant ou non. Les cookies ont finalement été ajouté comme norme RFC2109. C’est super utile les cookies ! Ca permet de par exemple stocker des préférences d’un utilisateur sur le thème sombre ou clair, ou utiliser le principe des sessions pour vérifier si la personne est connectée, ou garder votre panier sur Amazon.

Revenons sur ce principe de sessions. Il n’est pas sécurisé de sauvegarder des informations directement sur le navigateur dans les cookies. En effet l’utilisateur peut parfaitement les modifiers si il le souhaite ! Tout comme il ne faut pas vérifier d’informations importantes côtés client (genre, des réponses à un QCM). Non, il vaut mieux utiliser le principe de session. En gros on va déposer dans un cookie un identifiant unique sous forme de suite de caractères, et sur le serveur, cet identifiant sera lié aux informations dont on a besoin.

Depuis d’autres systèmes sont apparu pour remplacer les sessions, comme les JSON Web Token, mais on en reparlera dans un épisode à part, vu que c’est une technologie super intéressante mais un peu complexe.

Comme vous pouvez le voir donc, les cookies ne sont pas mauvais à la base, c’est un outil très utile, voir indispensable pour un développeur. Mais le problème réside dans les cookies qu’on peut utiliser pour vous tracker. Si vous vous promenez sur YouTube, en étant connecté, vous aurez un cookie (ou quelque chose de similaire), qui sera là pour savoir quelle vidéo vous regardez. Et ensuite adapter vos vidéos vues par rapport à ça. Mais un cookie de session peut aussi suffire ! Genre vous n’avez pas de compte, mais Google peut, grâce à votre cookie de session, savoir quelles vidéos vous regardez, pour ensuite potentiellement l’utiliser sur d’autres services/sites internets.

Mais maintenant on va rentrer dans la partie un peu plus problématique du problème. Puisque là ce sont des cookies que vous savez présent (enfin plus ou moins quoi, vous vous en doutez bien). Il y a aussi des cookies tiers. Ces cookies ne sont pas déposés directement par le site que vous consultez, mais par d’autres sites. Vu que les cookies peuvent être déposés avec n’importe quelle ressource, il suffit que vous preniez un gif de Tenor ou Giphy, par exemple, pour que ce site dépose des cookies sur votre navigateur. Information supplémentaire également, les cookies sont liés au domaine. Par exemple une image provenant de tenor.com, même si elle est chargée depuis le site bigaston.me, pourra déposer un cookie lié à tenor.com. Ce cookie sera accessible depuis le site de tenor directement, et en connectant ça aux informations qu’il peut collecter sur les sites qui appellent les images (l’url pour en citer qu’une), il peut avoir plein d’information sur vous.

Mais ce qui est formidable avec Google, c’est qu’avec un compte Google vous pouvez vous connecter à plein de sites ! Et bien sûr, pas besoin mettre votre mot de passe à chaque fois ! Vous comprenez donc comment ça fonctionne : Google a déposé un cookie (en gros) sur votre ordinateur, qui lui permet de vous identifier. Et c’est vachement pratique ! Sauf que cette session du coup, va pouvoir être liée aux sites que vous visitez grâce à Se Connecter avec Google. Le site n’aura pas votre adresse email directement quand vous arrivez sur le site (encore heureux), mais Google saura directement que vous êtes allé sur ce site (même les sites de cul).

Et comment ils savent le contenu du site ? Bah… Google c’est un moteur de recherche, énormément de sites sont indexés chez eux, avec pleins d’informations, genre le type, le contenu, les tags… Que les créateurs de sites renseignent eux même, pour être mieux référencés sur Google.

Mais là on est encore sur le côté visible de l’iceberg. Il y a plein d’autres services de Google qui peuvent aider à collecter des données sur vous. Par exemple Google Analytics ! Un super service de statistiques, gratuit qui plus est, et très précis. Vous pouvez savoir l’âge, le sexe, une localisation précise des personnes qui viennent sur votre site (Note: Enfin anonymisés quoi, genre vous savez que c’est des Français mais pas qui c’est). Des données qui peuvent provenir en partie du compte Google des visiteurs, grâce à ce cookie de session. Les webmasters auront tendance à utiliser ce service parce qu’il est très simple à mettre en place (un simple code à mettre sur votre site), et vu que c’est Google, beaucoup de sites intègrent directement un champ pour spécifier votre code. Et je l’ai déjà dis, mais c’est gratuit. Un outil de statistique précis comme celui là (donc ne relevant pas juste le nombre d’affichage de la page), ça peut coûter très cher. Mais vous aurez compris qu'avec Google, c’est souvent gratuit parce qu'ils ont un intérêt derrière...

Google Font également ! Vous n’en avez peut-être jamais entendu parler, mais Google Font est un service qui permet d’avoir accès à une grand panoplie de polices de caractères. Et même pas besoin de vous embêter à les télécharger et les héberger ! Google en bon samaritain vous donne directement un moyen de l’intégrer sur votre site… Et cette intégration va permettre à Google de déposer un cookie sur votre navigateur, ou d'accéder à votre cookie de session, comme précédemment. Mais vous pouvez également télécharger les polices et les héberger vous même bien sur. Les polices sont plutôt connues en plus ! Genre Roboto ou Lato, dont vous avez peut-être déjà entendu parler, viennent de chez eux.

Et enfin, 4ème et dernier service de collecte de données de Google dont on va parler aujourd’hui, j’ai nommé reCaptcha. Vous en avez forcément entendu parler. C’est cette petite case à cocher “Je ne suis pas un robot” que vous voyez parfois quand vous voulez vous connecter ou vous inscrire à un site. Le système est super efficace, vu que Google se base en partie sur vos données de navigations pour vous autoriser à faire l’action que vous souhaitez. Les reCaptcha marcheront mieux si vous avez un compte Google connecté quelque part, ou si ça fait suffisament longtemps que vous naviguez.

Et si ces données ne sont pas suffisantes pour vous identifier sereinement, vous aurez le droit au petites cases de Google Street View à cocher. Petite case que Google peut au passage utiliser pour entraîner des algorithmes d’IA sur la détection d’objet, mais bon là n’est pas la question. Parce que sur les premières versions où vous entriez des mots ou des numéros de voies, ça aidait Google à numériser et à numéroter des rues dans Google Map. L’un des deux numéro était déjà validé par le système et servait de contrôle, et l’autre était plus là en teste annexe, mais aussi à avoir des nouvelles données.

Vous voulez une petite démonstration de reCaptcha ? Ouvrez un onglet de navigation privée (qui ne conserve pas les cookies), et allez essayer d'accéder à un site via reCaptcha. Vous aurez systématiquement les cases qui apparaîtront, puisque Google n’en sait pas suffisamment sur vous. Maintenant sur certaines versions il n’y a même plus de case à cocher souvent. C’est juste un programme qui tourne en arrière plan, et qui va aider le site à déterminer votre “score d’humanité”. Et si il ne peut pas, là vous aurez la petite case qui apparaît.

Bref. On a donc vu comment Google fait pour avoir des données sur vous. Maintenant on va voir à quoi ça sert non ? Et bien vous devez le savoir, Google sert aussi de régie publicitaire. Les entreprises qui veulent mettre de la pub vont pouvoir demander à cibler certaines personne en fonction des catégories (âge, sexe, centre d'intérêt, ...). Et de l’autre côté, les développeur vont pouvoir juste intégrer AdSense pour le web, et AdMob pour mobile, et Google s’occupera automatiquement de présenter les pubs. Vous aurez aussi des pubs directement sur les services de Google, genre intégrés sur YouTube, Google ou GMail. Mais pour pouvoir vendre de la pub, enfin la vendre à bon prix, il faut que les entreprises soient sûres qu’il y aura un bon taux de conversion (le nombre de personnes qui vont effectivement acheter en fonction du nombre de fois où la pub a été présentée). Et ce bon taux de conversion vient de pouvoir cibler précisément les utilisateurs. Déjà à partir du thème du site sur lequel la pub va s’afficher, mais aussi en fonction de l’utilisateur en lui même. Voilà pourquoi Google collecte pleins de données et vous offre des services gratuits.

On est vraiment rentré dans les détails avec Google parce que c’était ceux pour lesquels j’avais le plus de matière, mais pleins d’autres entreprises font de même bien sûr. Facebook par exemple avec les petits boutons J’aime, qui vont aussi collecter des données liés à votre compte Facebook. Données que les entreprises peuvent ensuite cibler pour vous présenter de la publicité. Mais Facebook c’est encore mieux, tu fournis toi même pleins de données, avec les pages que tu like, ton âge, tes centres d’intérêts...

Et même dans le milieu du podcast ça arrive. Pas forcément avec des cookies, mais avec d’autres méthodes. Imaginons une grosse plateforme de diffusion comme Acast. Ils fournissent une offre gratuite pour les podcasts qui brassent pas mal d’audience. Mais si vous regardez dans la description d’un épisode hébergé sur Acast, vous aurez un lien vers leur politique de confidentialité (au moins ils sont réglo, ils mettent le lien clairement). Et en fonction de vos centres d’intérêts, liés aux podcasts que vous écoutez, aux thèmes et tout, ils peuvent directement intégrer de la pub de leur côté qui va être ciblé sur vous. Alors oui ça ne sera peut-être pas aussi précis que Google, mais le podcast à un taux d’engagement beaucoup plus fort que les pubs classiques sur internet.

Et Radio France peut faire de même, en croisant les écoutes que vous pouvez faire en fonction de vos émission, ils peuvent vendre de la publicité ciblée ou non à des entreprises. C’est aussi pour ça qu’ils veulent recentrer sur leurs applications directement, beaucoup plus de données à collecter que via juste des requêtes de téléchargement.

Pour conclure, il faut que je précise quand même quelque chose. Je ne suis pas là pour vous jeter la pierre. J’utilise aussi les services de Google, je me connecte avec mon compte par flemme de faire un mot de passe en plus, j’utilise Google Font parce que c’est vachement pratique. J’utilise aussi beaucoup de leurs services genre Gmail, ou Google Docs/Drive. Mais je voulais essayer de vulgariser un peu les choses pour vous présenter ce qu’il se passe, et que vous soyez en pleine connaissance de causes. Dans les conditions de confidentialité de beaucoup de sites, vous verrez une petite clause à propos des boutons partager de sites tiers, ou à propos de Google Analytics, comme ça eux sont corrects au niveau de la lois. Le RGPD vient aussi pour ça, pour éviter les dérives.

J’ai aussi beaucoup spéculé sur certains points. Je ne suis pas certain à 100% que tout fonctionne de cette manière. Ils utilisent peut-être des données plus précises, collectent également via Google Chrome ou d’autres systèmes, mais globalement et techniquement, tout est réaliste et réalisable. En tout cas c’est comme ça que je coderais leurs systèmes si j’avais à le faire.

Mais du coup, que faire si on veut plus que Google (ou d’autres) nous espionnent ! Déjà il y a la possibilitée de passer sur des navigateurs qui bloquent ce genre de trackers. Genre Firefox ou Brave. C’est déjà un bon début. Ensuite sachez qu’il existe énormément d’alternatives aux services de Google ! L’association française Framasoft se bat pour ça. Vous avez des alternatives à Google Agenda, Docs, YouTube... Pour Twitter vous avez Mastodon, pour Google Drive vous avez cozy.io ! Pour les recherches, DuckDuckGo ou Qwant peuvent être une bonne alternative. Au niveau des mails, je vous conseille quand même ProtonMail, service d’email en Suisse qui met la vie privée au centre de ses principes.

Sachez aussi qu’une autre association française, la Quadrature du Net, se bat contre les GAFAM (Google Amazon Facebook Apple Microsoft) et pour les consommateurs. Vous pouvez également bloquer les cookies tiers dans les préférences de vos navigateurs, ce qui peut être déjà un bon point. Au final, une des meilleures recommandation que je peux vous faire c’est : préférez toujours des services hébergés en France, ou en Europe. Ils sont soumis à des lois précises qui empêchent les grosses dérives (enfin, plus ou moins).

Pour terminer, d’ici quelques mois, il y aura de gros changements pour les systèmes de cookies tiers. En effet bientôt les cookies auront différents niveaux de visibilité, ce qui fait que le navigateurs ne transmettra pas tous le temps les cookies tiers aux serveurs, en fonction de leur utilisateur, ajoutant également plus de sécuritée au système.

Et voilà, c’est le moment de la conclusion ! C’était un épisode un peu plus large que ceux que j’ai pu faire jusqu’à présent, mais je pense que il est important d’en parler ici, surtout dans une émission de vulgarisation. J’espère que l’épisode vous aura quand même plu ! Vous aurez dans la description des liens vers différentes ressources qui peuvent vous intéresser, et vers les différentes alternatives citées précédemment. Certaines sont payantes mais… n’oubliez pas l’adage qui dit “Quand c’est gratuit, c’est toi le produit !”

Je vais essayer de vous sortir un autre épisode d’ici la fin des vacances, mais ça va surtout être en fonction de comment avance mon rapport de stage, et ma préparation de l’année prochaine, au pire, on se donne rendez-vous en septembre. Comme d’habitude je remercie les personnes qui m’ont aidées à relire cet épisode, c’est à dire Buddakhiin et Mankoty. Vous pouvez me faire des retours sur Twitter @Bigaston, me soutenir financièrement sur utip.io/bigaston, et retrouver le transcript de cet épisode sur mon blog. Et oui ! C’est plus sur Google Doc, pour ne pas vous obliger à venir sur un service Google. Promis, il n’y a pas de trackers des GAFAM dedans… Bonne fin de vacance à vous, et à la prochaine ! Pluche !

🔗 Les liens

Licence Creative Commons

Publié le 14/08/2020