Google Analytics – Spam referer, ghost referer
Avoir un site internet, tenir un blog, c’est bien. Avoir un site fréquenté, un blog lu, c’est mieux. Pour obtenir des statistiques de la fréquentation de votre site, vous avez sûrement installé un outil de tracking. De nombreux outils existent, mais le plus connu d’entre eux reste Google Analytics. Depuis des années j’utilise cet outil proposé gratuitement par Google. Un outil qui propose des fonctionnalités puissantes, très avancées, même si la majorité des utilisateurs n’en font qu’une utilisation basique. Pourtant, depuis quelques mois, une ombre est apparue au tableau : les spams Google Analytics ! Le phénomène est connu de Google depuis 2013, mais s’est fortement accentué depuis début 2015 sur les sites que je gère.
Spammer Google Analytics ?
L’idée peut paraitre étrange : pourquoi fausser les statistiques d’un autre site ? Tout simplement parce-que ça vous permet d’attirer l’oeil des webmasters utilisant Google Analytics vers votre site. La technique utilisée par ces spammeurs leur permet tout simplement d’apparaitre dans votre dashboard Analytics, dans la liste des sites référents, exactement comme si le webmaster de ces sites avait ajouté un lien vers votre blog.
Ensuite ? Votre curiosité vous emmène à aller voir qui vous a fait un lien. Une fois rendu sur le site, aucun lien – évidemment – mais un site qui va gagner de l’argent grâce à votre curiosité. En répétant cette opération sur de très nombreux comptes Google Analytics, ces sites récupèrent un nombre de visites impressionant.
Le nombre de visiteurs en provenance de ces sites est généralement assez faible : en général entre 10 et 20 par jour, mais cela peut fortement varier selon les sites, les jours, et l’humeur des robots qui réalisent ces « fausses visites » (m.atthi.eu y échappe plutôt pour le moment). Dans le cas où votre blog n’attire que quelques visiteurs quotidiens, la proportion de spam peut facilement vous donner l’impression que votre site n’est lu visité que par des robots. #HashtagDéception.
Vous allez donc avoir envie de virer ces robots, qui n’ont rien à faire dans vos statistiques Google Analytics. Mais l’affaire ne va pas s’avérer si facile que ça.
Comment bloquer les spam Google Analytics ?
Google propose une option dans les propriétés de vos statistiques, qui permettent d’exclure les « appels provenant de robots connus ». Il suffirait donc de cocher cette case pour se débarrasser de free-social-buttons, iloveitaly, et tous ses amis. Bien essayé, mais ces robots ne doivent pas être connus de Google. Je vous conseille quand même d’activer l’option, car je suppose que Google travaille quand même sur une méthode pour filtrer ces robots, et l’option pourrait devenir utile un jour. Ça se passe dans Admin > Vue > Propriétés de la vue. Puis cocher tout en bas :
On ne va pas s’arrêter ici. Les robots n’étant apparemment pas connus de Google, on va tenter de bloquer ce « trafic trafiqué » autrement. (Il faut tout faire soi-même ici…). Ça se complique un peu, mais ne fuyez pas.
Le referrer, kézako ?
Le referrer est une donnée qui est transmise à votre serveur quand un internaute demande d’accéder à une page. Cela correspond en général à l’URL de provenance des visiteurs qui arrivent sur votre site. C’est cette donnée qui est utilisée par Google Analytics pour afficher la provenance de vos utilisateurs dans l’onglet « Acquisition » de votre dashboard Google Analytics.
Et… (vous me voyez venir ?), c’est cette donnée qui est utilisée (faussée) par les robots spammeurs afin d’apparaitre dans vos statistiques, qui effectuent donc du Referrer Spam.
Il faut savoir que les serveurs connaissent en général l’URL de provenance (referral) des visiteurs qui arrivent sur votre site. J’ai donc fouillé dans les journaux de visites (logs Apache) pour retrouver ces bots par leur URL de provenance, et mettre un terme à leur petit numéro. Et là, surprise ! Je trouvais bien certains referrer, mais pas tous ceux qui apparaissent dans mon Google Analytics.
Conclusion : il existe 2 types de robots spammeurs Google Analytics.
Effectivement, certains robots apparaissent dans vos statistiques en ayant réellement visité votre site, et ont donc déclenché l’apparition dans Google Analytics de façon « logique » (comme un utilisateur normal). Mais d’autres… ne prennent même pas la peine de visiter votre site (aucun respect). Ils utilisent seulement une faille de Google Analytics, et reproduisent simplement l’appel à Google Analytics que fait un visiteur « classique » lorsqu’il se connecte à une page. On parle dans ce cas de Ghost Referrer Spam.
Comment différencier Spam Referrer et Ghost Spam Referrer ?
Regarder dans les journaux de visites, c’est bien, mais c’est pas accessible à tout le monde. Certains hébergeurs ne vous laissent même pas les voir. La différenciation entre Spam Referrer et Ghost Referrer peut également se faire directement dans Google Analytics, et ça va être beaucoup plus simple !
Rendez-vous dans Google Analytics > Acquisition > Tout le trafic > Canaux. Entre la courbe des visites, et le tableau récapitulatif, vous allez trouver cela :
Cliquez sur « Dimension secondaire », et rajoutez « Nom d’hôte ». Une colonne du même nom va s’ajouter au tableau.
La liste est longue. J’ai sélectionné uniquement une partie des sources de trafic ici. Ce qui est intéressant, c’est la colonne Nom d’hôte, dans laquelle vous devriez avoir tout le temps (ou presque) l’URL de votre site.
Pour toutes les sources de trafic vous paraissant louches, on distingue 2 cas :
- le nom d’hôte correspond à l’URL de votre site : c’est un spam referrer.
- le nom d’hôte n’est pas défini (not set), ou ne correspond pas à votre site : c’est un ghost spam referrer. Le robot ne savait même pas sur quel site il agissait. Il a donc soit mis une valeur au hasard (google.es/fr/com, etc) ou n’a même pas mis de valeur (not set).
Attention : il peut y avoir des cas particuliers, notamment Google Translate, qui peut apparaitre dans la colonne « Nom d’hôte ». Cela correspond au cas où un internaute visite votre site après avoir traduit votre site via Google Translate. Il navigue donc sur votre site dans l’interface de traduction Google.
Ici, on voit donc que core.traackr est un Spam Referrer classique, et les 8 autres sont des ghosts.
Bloquer les Spam referer bots.
Ils s’appellent semalt.com ou buttons-for-website… Ces Spam Referer arrivent dans votre dashboard Google Analytics suite à une vraie visite réalisée sur votre site. Il est donc plus simple de les bloquer car il suffit de leur bloquer l’accès à votre site. Alors comment bloquer semalt ?
Ces quelques lignes dans un fichier .htaccess à la racine de votre site permettront de bloquer l’accès à tous les visiteurs (robots ou non) en provenance des sites précisés. (plus d’informations sur la création de fichier .htaccess ici)
# Begin Spam Referrer
RewriteCond %{HTTP_REFERER} semalt.com [NC,OR]
RewriteCond %{HTTP_REFERER} buttons-for-website.com [NC,OR]
RewriteCond %{HTTP_REFERER} autre-site.com [NC]
RewriteRule .* – [F]
# End
Répétez une ligne se terminant par [NC,OR] pour chaque Spam Referer que vous voulez bloquer. Une fois ces lignes ajoutées, les bots seront bloqués, et vous n’aurez plus de nouvelles visites de leur part. Ciao, bon débarras ! En revanche, les statistiques déjà collectées ne disparaitront pas de Google Analytics. Vous pouvez utiliser la méthode n°1 de blocage des Ghost Spam Referer bots expliquées ci-dessous pour que les anciennes statistiques n’apparaissent plus.
Bloquer les Ghost Referer bots.
Les ghosts sont devenus plus populaires depuis un moment. Il faut dire qu’ils demandent des robots moins puissants. Plusieurs techniques s’offrent à vous pour les bloquer, donc une beaucoup plus radicale que les autres, qui devrait vous débarrasser de tous les ghost referer. Même ceux que vous ne connaissez pas encore.
Attention : les 2 techniques proposées ci-dessous vont agir sur les « vues » statistiques de votre site dans Google Analytics. Des données pourront être perdues si vos filtres ne sont pas correctement paramétrés. Je vous conseille au préalable de dupliquer la vue que vous utilisez aujourd’hui, afin de pouvoir garder un oeil global sur vos statistiques, même en incluant les spam referrer. Pour créer cette vue, il suffit d’aller dans « Admin », puis cliquer sur la liste de vos vues, et « Créer une vue ».
Cette vue ne servira que de « sauvegarde » de vos futures données. Dommage, lorsqu’une vue est créée, elle ne reprend pas les statistiques collectées jusqu’à aujourd’hui. Votre vue nouvellement créée est donc vide : 0 visites.
Technique n°1 : Bloquer les referer dans Google Analytics.
Bloquer un par un les différents sites référents qui correspondent à du spam. Cette technique ressemble à la méthode utilisée pour bloquer les spam referrer (non ghost), sauf que l’on bloque ces référents directement dans Google Analytics, et pas via un htaccess. D’ailleurs, rien ne vous empêche de bloquer l’intégralité des spam referrer (ghost ou non) via cette méthode.
Restons dans l’onglet « Admin » de notre site dans Google Analytics. Puis choisir « Filtres » dans le volet « Vue » (le plus à droite), Vous allez devoir construire une règle d’exclusion des referers considérés comme spam.
Notez que l’exclusion se fait sur le champ de filtrage « Source de la campagne », et pas sur le « Site référent ». Cela vient du fait que (techniquement) les robots simulent le « Site référent » via les Campagnes Google Analytics.
La règle de filtrage peut paraitre compliquée, mais ne l’est pas tant que ça :
- écrire tous les sites que vous voulez exclure, séparé par des barres verticales ( | )
- remplacer les points (.) par « antislash-point » ( \. )
J’ai pour ma part retiré les extensions des noms de domaines (com, fr, org, eu, net, …) car ces sites ont souvent des variantes dans plusieurs extensions.
Voilà la règle utilisée dans l’exemple, rien ne vous empêche de la copier-coller et de l’utiliser telle-quelle. Elle inclut les principales URL de spam referer.
buy-cheap-online\.|darodar\.|event-tracking\.|free.*traffic|free-social-buttons\.|get-free-traffic-now\.|guardlink\.|hulfingtonpost\.|ilovevitaly\.|sanjosestartups\.|semalt\.|share.?buttons\.|social.?buttons\.
Cliquer ensuite sur « Vérifier ce filtre », et vérifier que les lignes que vous souhaiter voir disparaitre n’apparaissent plus dans la colonne « Après l’application de ce filtre ».
« Enregistrer », et voilà vos statistiques plus propres.
Technique n°2 : Vérifier le « Nom d’hôte ».
On l’a vu précédemment, dans le paragraphe « Comment différencier Spam Referrer et Ghost Referrer ?« , la plupart des ghosts spam referrer ne savent pas quel site ils spamment. Vous n’êtes qu’un numéro. Et ils passent leur vie à spammer ces numéros un par un (VDM).
Dans un premier temps, il va falloir identifier les « Noms d’hôtes » (hostname) qui devront être inclus dans vos statistiques. Pour avoir la liste des noms d’hôtes qui ont été utilisés pour voir votre blog, il suffit de se rendre dans vos rapports Google Analytics, dans la rubrique « Audience > Technologie > Réseau ». Ensuite, sélectionner « Dimension principale : Nom d’hôte. ». Vous devriez obtenir un tableau contenant des données de ce type :
Le tableau est facile à interpréter : les visites ayant comme nom d’hôte « m.atthi.eu » correspondent bien à des visites réellement effectuées sur mon blog. Les autres non. Il y a quand même quelques cas particuliers, notamment Google Translate, mais je vous suggère de ne conserver que vos noms de domaines spécifiques, quitte à perdre quelques visiteurs (les bot de spam referer ont compris que les personnes créant des filtres ne filtraient généralement pas le nom de domaine de Google Translate).
Une fois que vous avez votre liste des noms d’hôtes à conserver, allons créer notre filtre. Rendez-vous dans « Admin > Vue > Filtres ». Créer un filtre contenant les données suivantes :
Attention : encore une fois, si vous ne remplissez pas correctement vos données, vous risquez de perdre vos statistiques. De même, si vous changez de nom de domaine, ou que vous ajouter un nouveau nom de domaine à votre site, pensez absolument à le rajouter dans ce filtre, sous peine de perdre des statistiques !
Cette seconde méthode est plus risquée, mais plus efficace. Plus besoin d’aller guetter les nouveaux spam referer tous les 15 jours pour les ajouter à la liste des sites référents filtrés. C’est celle que j’ai préférée pour ce blog. A vous de faire votre choix.
[hr]Comme je le précisais au début de l’article, la team Analytics de chez Google est au courant de cette faille depuis presque 2 ans. On peut donc encore espérer une réaction de leur part face à un problème qui prend plus d’ampleur chaque mois. Google Analytics est un outil gratuit, mais aide grandement Google à collecter des données sur vos sites, et plus globalement sur les internautes. Laisser cet outil à l’abandon n’est donc sûrement pas une solution envisagée par le géant américain.
Si vous êtes arrivés jusqu’à la fin de cet article, je suppose que vous êtes touchés par ces pourriels de référant (si si, c’est le terme français). Quelle quantité / proportion de spam recevez-vous sur votre site ? Quelle solution avez-vous ou pensez-vous apporter pour contrer le phénomène ? Si vous avez la moindre interrogation, on peut s’en parler dans en commentaire !