L'implémentation de Google Analytics côté serveur est-elle la solution ?

Question

Accepted Answer

L'avenir de l'analyse est un sujet de débat qui a fait l'objet d'une attention accrue au cours des derniers mois. Cette situation résulte de l'idée, soutenue à l'échelle européenne, que Google Analytics enfreint la loi GDPR. Des pays comme la France, l'Italie, l'Autriche et, plus récemment, la Finlande et la Norvège ont déclaré publiquement que Google Analytics était illégal.

Dans sa déclaration, l'autorité française de protection des données (CNIL) a mentionné une liste d'options conformes à la protection de la vie privée que les organisations doivent évaluer. L'une d'entre elles est l'implémentation de Google Analytics côté serveur. La CNIL est l'une des autorités européennes les plus respectées en matière de protection de la vie privée. Sa suggestion a donc retenu l'attention des communautés de la protection de la vie privée et du marketing, et a conduit certains à penser que l'implémentation de Google Analytics côté serveur était une solution infaillible aux problèmes juridiques liés aux transferts de données d'Analytics.

Cependant, l'implémentation côté serveur n'est pas sans inconvénients. Dans ce blog, nous allons l'examiner de plus près et tenter de répondre à deux questions :

L'implémentation côté serveur de Google Analytics est-elle conforme au GDPR ? Et cela vaut-il la peine de la mettre en œuvre ?

The UK Government chose Simple AnalyticsJoin them

Plongeons dans le vif du sujet !

Qu'est-ce que le suivi côté client et côté serveur ?

Le suivi côté client et le suivi côté serveur sont des méthodes différentes de collecte et de traitement des données relatives au comportement des utilisateurs.

Le suivi côté client (ou marquage côté client) recueille des informations à l'aide de scripts qui s'exécutent dans le navigateur de l'utilisateur, tels que des cookies ou des pixels. Le suivi côté serveur (ou marquage côté serveur), quant à lui, collecte les données à partir du serveur en enregistrant et en analysant les requêtes. Cela permet de collecter les données sans interagir avec l'appareil de l'utilisateur.

Dans le cas de Google Analytics, le suivi côté serveur est un peu différent. Google Analytics interagit toujours avec le navigateur de l'utilisateur en écrivant et en lisant des cookies. Cependant, les données collectées sont envoyées au serveur et non à Google. L'administrateur du serveur peut alors décider quelles données sont transmises à Google et de quelle manière. Le serveur agit donc essentiellement comme un proxy pour les données.

Quels sont les avantages et les inconvénients du suivi côté serveur ?

Le suivi côté serveur vous permet de mieux contrôler les informations envoyées à votre fournisseur de services d'analyse, qu'il s'agisse de Google ou d'une autre société. Vous pouvez décider d'envoyer ou non des données personnelles, de les anonymiser, de les pseudonymiser ou de les envoyer en clair.

La mise en œuvre côté serveur présente d'autres avantages. Votre site se chargera un peu plus rapidement car le script d'analyse n'a pas besoin d'être chargé par le navigateur. Cela améliore l'expérience de l'utilisateur et peut contribuer au classement dans les moteurs de recherche. En outre, vos analyses ne sont pas affectées par les logiciels de blocage des publicités car elles ne dépendent plus de l'interaction avec les paramètres du navigateur de l'utilisateur (bien que les cookies de Google Analytics et d'autres services d'analyse basés sur les cookies puissent toujours être bloqués).

Le principal inconvénient des configurations côté serveur est la lourdeur de leur mise en œuvre. Vous devez trouver un serveur si vous n'en avez pas déjà un et le protéger contre les cybermenaces. Vous devez mettre en place une interface utilisateur pour rendre les données du journal du serveur lisibles et trouver un moyen de filtrer le bruit de manière fiable, ce qui n'est pas trivial. Vous devez également mettre à jour manuellement le code à chaque fois que votre logiciel d'analyse est mis à jour.

En outre, vous devez disposer d'un accès complet au journal du serveur, ce que de nombreux fournisseurs de serveurs n'offrent pas. Cela réduit vos choix si vous avez l'intention de faire appel à un fournisseur (ce qui est l'option la plus abordable pour de nombreuses entreprises).

En définitive, la mise en place de Google Analytics côté serveur vous coûtera beaucoup plus cher que l'abonnement à un service payant d'analyse web conforme au GDPR. En fait, la CNIL elle-même note que l'abandon de Google Analytics peut être une option plus pratique, en raison des coûts d'une configuration côté serveur.

Enfin, il convient de noter que les cookies nécessitent toujours le consentement de l'utilisateur, même pour le marquage côté serveur. Cela concerne Google Analytics et tout autre service d'analyse basé sur les cookies.

Penchons-nous un peu plus sur la question.

Le côté serveur est-il la solution aux problèmes juridiques de Google Analytics ?

Toute implémentation de Google Analytics côté client envoie des données personnelles aux États-Unis. C'est là le cœur des problèmes juridiques de Google Analytics concernant les transferts de données (que nous avons abordés en profondeur sur un autre blog).

L'implémentation côté serveur permet à l'administrateur du serveur de contrôler totalement le traitement des données et de décider quelles données personnelles sont transmises à Google et lesquelles ne le sont pas. En théorie, vous pouvez configurer Google Analytics côté serveur et empêcher Google d'accéder aux données personnelles des visiteurs, ce qui rendrait Google Analytics conforme.

Mais comment cela fonctionne-t-il en pratique ? Quelles sont les données que vous ne devez pas transmettre à Google pour que Google Analytics soit conforme au GDPR ? Et quel est le coût en termes de performances ?

sergey_brin_and_larry_page_hiding_between_red_network-cables.png Les fondateurs, Sergey Brin et Larry Page, se cachant derrière l'internet

Quelles données doivent être rendues anonymes ?

Google Analytics transmet deux catégories de données personnelles aux Etats-Unis : Les adresses IP et les cookies. Les adresses IP ne sont pas un problème car Google Analytics n'en a pas vraiment besoin - en fait, Google Analytics 4 ne les collecte pas et ne les utilise que pour la communication. Vous pouvez mettre en œuvre Google Analytics côté serveur sans transmettre l'adresse IP de l'utilisateur à Google, avec peu ou pas d'impact sur la précision des informations fournies par Google Analytics.

Il en va autrement des cookies. Les cookies de Google Analytics comprennent un identifiant unique appelé ID client. Comme les adresses IP, les identifiants client sont des données à caractère personnel au sens du GDPR. Cependant, les identifiants doivent être envoyés d'une manière ou d'une autre car Google Analytics est construit autour d'eux.

Lesidentifiants uniques ne peuvent pas non plusêtre rendus anonymes, du moins pas au sens strict du terme. Les cookies de Google Analytics fonctionnent parce qu'ils sont uniques, et la suppression de leur partie unique (l'identifiant du client) les rend parfaitement inutiles. Le mieux que vous puissiez faire est de les hacher, mais chaque hachage doit être unique pour être utile - vous ne faites donc que remplacer un identifiant unique par un autre.

Comme mesure de protection supplémentaire, la CNIL suggère de modifier périodiquement les hachages. L'autorité considère la rotation des hachages comme une forme de pseudonymisation - quelque chose qui n'est pas une véritable anonymisation mais qui offre tout de même une certaine protection des données. En fait, le Comité européen de protection des données (l'institution où siègent toutes les autorités européennes de protection des données) mentionne la pseudonymisation forte comme une garantie possible pour les transferts de données. Mais il y a un prix à payer.

Quelles sont les performances de Google Analytics côté serveur ?

Cela dépend. Google Analytics fonde ses informations sur des données détaillées concernant l'activité en ligne des visiteurs du site web. Plus vous lui fournissez de données, plus il est performant. Si vous lui fournissez toutes les données qu'il collecterait côté client, il sera aussi performant qu'une installation côté client (et peut-être même un peu plus, car les bloqueurs de publicité ne seront plus un problème). Cependant, cela rend l'implémentation côté serveur aussi invasive que celle côté client, ce qui va à l'encontre de l'objectif même de l'implémentation de Google Analytics côté serveur. D'autre part, le fait de ne pas divulguer certaines données pour des raisons de confidentialité aura un impact négatif sur les performances de l'outil.

Les identifiants client mentionnés précédemment permettent à Google de suivre les visiteurs en associant plusieurs événements, sessions et pages consultées à la même personne. Par exemple, si vous accédez deux fois au même site web, Google Analytics lira votre identifiant client et ne vous comptera qu'une seule fois comme un visiteur unique.

Malheureusement, Google Analytics ne peut pas relier les mesures à un visiteur individuel une fois que son identifiant a été réécrit. Cela a un impact significatif sur la précision et le niveau de détail des informations fournies par Google Analytics. Par exemple, après la rotation des hachages, les utilisateurs qui reviennent obtiendront un nouveau hachage et seront à nouveau comptabilisés comme des visiteurs uniques par Google Analytics, de sorte que votre indicateur de visiteurs uniques est pratiquement réduit à néant.

L'implémentation de Google Analytics côté serveur garantit-elle vraiment la conformité ?

Supposons que vous preniez le taureau par les cornes. Vous vous donnez la peine d'implémenter Google Analytics côté serveur. Vous suivez les suggestions de la CNIL à la lettre : les seules informations personnelles que votre serveur transmet sont les identifiants clients hachés, et ces hachages sont fréquemment renouvelés. Êtes-vous en conformité avec les règles de transfert de données du GDPR ?

Peut-être.

Comme nous l'avons expliqué, la rotation des hachages est une pseudonymisation des données. La pseudonymisation est utile parce qu'elle rend l'identification des données personnelles improbable (c'est-à-dire qu'elle rend difficile de déterminer à qui appartiennent les données). Cette technique est parfois utilisée par les concurrents de Google Analytics afin de préserver la vie privée - par exemple, Fathom et Plausible le font (chez Simple Analytics, nous n'avons pas besoin de hachage car nous ne stockons pas du tout les adresses IP).

Toutefois, si une entité contrôle un grand nombre de données, elle pourrait être en mesure de les regrouper afin d'identifier les données pseudonymisées. Il s'agit d'une technique appelée "empreinte digitale".

Par exemple, si vous êtes actif sur Reddit, votre nom d'utilisateur Reddit est probablement un pseudonyme plein d'esprit. Toutefois, si vous publiez suffisamment d'informations sur votre âge, votre emploi, votre lieu de naissance, etc., les autres utilisateurs de Reddit finiront par comprendre qui vous êtes. (Oui, cet exemple est trop simple, mais vous voyez ce que je veux dire).

L'interconnexion de bases de données est la même chose, mais à plus grande échelle : quelqu'un met en commun de vastes bases de données et, avec un peu de magie noire de l'IA, des données pseudonymes peuvent parfois être réidentifiées.

Dans quelle mesure les données personnelles de vos visiteurs sont-elles en sécurité une fois que vous les avez hachées et transmises à Google ?

Google contrôle certaines des plus grandes bases de données personnelles existantes. Il peut compter sur un savoir-faire exceptionnel et une technologie de pointe. Il est également fortement incité à relier les bases de données entre elles, car la publicité est sa principale source de revenus, et c'est dans le profilage que se trouve l'argent véritable.

Même si un visiteur n'est pas identifiable sur la seule base de son hash actualisé, Google pourrait combiner ces données avec des données collectées ailleurs, par exemple via le compte Google d'un visiteur, via les API de Google ou via les traqueurs de publicité sur les appareils Android(AAID). Cela suffit probablement à rendre de nombreux visiteurs identifiables. Cela signifie que les hachages peuvent toujours constituer des données à caractère personnel au sens du GDPR, même si le serveur les fait pivoter.

Soyons clairs : nous ne prétendons pas que Google réidentifie les données pseudonymisées et anonymisées. Google affirme qu'il ne le fait pas. À notre avis, les antécédents de l'entreprise en matière de protection de la vie privée incitent à la prudence.

Nous ne prétendons pas non plus que les hachages rotatifs sont des données personnelles dans le scénario que nous avons décrit. C'est aux tribunaux et aux autorités de le déterminer. Après tout, dans leurs décisions contre Google Analytics, certaines autorités de protection des données (y compris la CNIL elle-même) ont reconnu que la question de l'identification croisée était pertinente dans ces affaires. C'est une bonne raison de se méfier.

En définitive, il n'est pas certain qu'une implémentation de Google Analytics côté serveur garantisse la conformité avec les règles du GDPR sur les transferts de données, même en supposant que vous preniez toutes les précautions possibles.

Quelles sont les implications de l'analyse côté serveur en matière de protection de la vie privée ?

L'analyse côté serveur a des implications intéressantes en matière de protection de la vie privée. Sur le papier, elle est potentiellement plus respectueuse de la vie privée, car elle vous permet de décider exactement quelles données vous souhaitez collecter et si vous souhaitez les partager.

Toutefois, la collecte des données pourrait être moins transparente. L'analyse côté serveur vous permet de travailler sur des données personnelles directement à partir du journal de votre serveur. Vos utilisateurs n'ont aucune idée de ce qui se passe, car ils ne peuvent pas ouvrir les paramètres de leur navigateur et vérifier leurs cookies.

En définitive, la transparence est la clé d'une mise en œuvre correcte du suivi côté serveur. Les utilisateurs ont le droit d'être informés des données personnelles qui sont traitées à des fins d'analyse du web et de la base juridique sur laquelle elles reposent. C'est à vous qu'il appartient de mettre en œuvre l'analyse côté serveur de manière transparente et conforme.

L'analyse côté serveur a également des implications en matière de consentement. Comme nous l'avons expliqué, les cookies de Google Analytics requièrent un consentement même lorsque le logiciel est implémenté côté serveur. Il en va de même pour tout logiciel d'analyse web qui utilise des cookies : tous les cookies non essentiels nécessitent un consentement en vertu de la directive "vie privée et communications électroniques", que l'analyse soit mise en œuvre côté client ou côté serveur.

Le marquage côté serveur vous permet également de collecter d'autres données sans interagir avec le navigateur de l'utilisateur. Mais **cela ne signifie pas que vous n'avez pas besoin d'obtenir le consentement de l'**utilisateur.

Les choses deviennent un peu complexes ici, mais en règle générale, si les données que vous collectez vous permettent d'identifier un utilisateur parmi tous vos visiteurs, vous ne devez collecter ces données qu'avec son consentement, car il est très probable que celui-ci soit requis. C'est le cas même si vous n'utilisez pas réellement ces mesures pour distinguer les utilisateurs : le simple fait qu'elles vous permettent de le faire en fait des données personnelles et, selon toute vraisemblance, rend le consentement obligatoire.

D'autre part, vous pouvez collecter certains indicateurs sans consentement, à condition qu'ils ne vous permettent pas de distinguer un utilisateur, même lorsqu'ils sont liés à d'autres indicateurs. Par exemple, il n'y a aucun inconvénient à collecter des interactions sur votre serveur et à les utiliser à des fins d'analyse, à condition que ces données ne vous permettent pas de suivre les utilisateurs.

En résumé : si les données vous permettent de suivre les utilisateurs, soyez prudent et demandez leur consentement.

L'implémentation côté serveur est-elle nécessaire avec des alternatives respectueuses de la vie privée ?

Cela dépend du service. Dans le cas de Google Analytics, l'implémentation côté serveur répond à des questions juridiques liées aux règles de transfert des données. Si une solution respectueuse de la vie privée ne transmet pas de données à caractère personnel aux États-Unis, une implémentation côté serveur n'est pas nécessaire pour se conformer aux règles de transfert de données.

Cependant, l'analyse côté serveur offre d'autres avantages en matière de conformité. Par exemple, elle peut vous permettre d'expurger les adresses IP avant de les transmettre. Si vous envisagez une alternative à Google Analytics, vous devez examiner attentivement sa documentation juridique et prendre en compte les avantages éventuels d'une implémentation côté serveur pour ce service spécifique.

Dans le cas spécifique de Simple Analytics, la mise en œuvre côté serveur n'est pas nécessaire, car nous ne collectons aucune donnée personnelle de vos visiteurs et ne les transmettons pas en dehors de l'UE.

Conclusions

En résumé :

Transmettre les identifiants des clients à Google en clair ou utiliser des hachages statiques revient en fait à implémenter Google Analytics côté client et ne rend pas Google Analytics conforme aux règles de transfert de données ;
Ne pas envoyer d'identifiants client du tout rend Google Analytics complètement inutile ;
La rotation des hachages paralyse les performances de Google Analytics et ne garantit toujours pas à 100 % le respect des règles de transfert des données, car l'utilisateur peut toujours être identifiable ;
Toutes ces options sont lourdes à mettre en œuvre.

En définitive, l'implémentation de Google Analytics côté serveur ne semble pas être une solution viable. Elle est trop coûteuse à mettre en œuvre pour les petites entreprises, fait que l'outil est moins performant que la concurrence et ne garantit pas totalement que les transferts de données seront conformes à 100 % au GDPR.

Le cœur du problème est que Google Analytics n'est pas un outil respectueux de la vie privée. Il est conçu pour collecter des informations fines en suivant les visiteurs de manière agressive. Essayer de mettre en œuvre Google Analytics d'une manière respectueuse de la vie privée va à l'encontre de sa conception même. C'est pourquoi cela demande beaucoup de travail et donne des résultats médiocres.

Il est évident que nous avons un parti pris pour notre propre solution, mais le passage à un service respectueux de la vie privée est plus facile, moins coûteux et permet d'obtenir de meilleures performances que l'implémentation de Google Analytics côté serveur. Chez Simple Analytics, nous croyons en un internet indépendant et convivial pour les visiteurs de sites web. Nous veillons à ce qu'il soit toujours possible pour les propriétaires de sites web d'obtenir les informations dont ils ont besoin sans enfreindre la loi. Si vous êtes d'accord avec cette idée, n'hésitez pas à nous contacter !

L'implémentation de Google Analytics côté serveur est-elle la solution ?

Qu'est-ce que le suivi côté client et côté serveur ?

Quels sont les avantages et les inconvénients du suivi côté serveur ?

Le côté serveur est-il la solution aux problèmes juridiques de Google Analytics ?

Quelles données doivent être rendues anonymes ?

Quelles sont les performances de Google Analytics côté serveur ?

L'implémentation de Google Analytics côté serveur garantit-elle vraiment la conformité ?

Quelles sont les implications de l'analyse côté serveur en matière de protection de la vie privée ?

L'implémentation côté serveur est-elle nécessaire avec des alternatives respectueuses de la vie privée ?

Conclusions

GA4 est complexe. Essayez Simple Analytics