Google Analytics – Spam referer, ghost referer
Avoir un site internet, tenir un blog, c’est bien. Avoir un site frĂ©quentĂ©, un blog lu, c’est mieux. Pour obtenir des statistiques de la frĂ©quentation de votre site, vous avez sĂ»rement installĂ© un outil de tracking. De nombreux outils existent, mais le plus connu d’entre eux reste Google Analytics. Depuis des annĂ©es j’utilise cet outil proposĂ© gratuitement par Google. Un outil qui propose des fonctionnalitĂ©s puissantes, trĂšs avancĂ©es, mĂȘme si la majoritĂ© des utilisateurs n’en font qu’une utilisation basique. Pourtant, depuis quelques mois, une ombre est apparue au tableau : les spams Google Analytics ! Le phĂ©nomĂšne est connu de Google depuis 2013, mais s’est fortement accentuĂ© depuis dĂ©but 2015 sur les sites que je gĂšre.
Spammer Google Analytics ?
L’idĂ©e peut paraitre Ă©trange : pourquoi fausser les statistiques d’un autre site ? Tout simplement parce-que ça vous permet d’attirer l’oeil des webmasters utilisant Google Analytics vers votre site. La technique utilisĂ©e par ces spammeurs leur permet tout simplement d’apparaitre dans votre dashboard Analytics, dans la liste des sites rĂ©fĂ©rents, exactement comme si le webmaster de ces sites avait ajoutĂ© un lien vers votre blog.
Ensuite ? Votre curiositĂ© vous emmĂšne Ă aller voir qui vous a fait un lien. Une fois rendu sur le site, aucun lien – Ă©videmment – mais un site qui va gagner de l’argent grĂące Ă votre curiositĂ©. En rĂ©pĂ©tant cette opĂ©ration sur de trĂšs nombreux comptes Google Analytics, ces sites rĂ©cupĂšrent un nombre de visites impressionant.
Le nombre de visiteurs en provenance de ces sites est gĂ©nĂ©ralement assez faible : en gĂ©nĂ©ral entre 10 et 20 par jour, mais cela peut fortement varier selon les sites, les jours, et l’humeur des robots qui rĂ©alisent ces « fausses visites » (m.atthi.eu y Ă©chappe plutĂŽt pour le moment). Dans le cas oĂč votre blog n’attire que quelques visiteurs quotidiens, la proportion de spam peut facilement vous donner l’impression que votre site n’est lu visitĂ© que par des robots. #HashtagDĂ©ception.
Vous allez donc avoir envie de virer ces robots, qui n’ont rien Ă faire dans vos statistiques Google Analytics. Mais l’affaire ne va pas s’avĂ©rer si facile que ça.
Comment bloquer les spam Google Analytics ?
Google propose une option dans les propriĂ©tĂ©s de vos statistiques, qui permettent d’exclure les « appels provenant de robots connus ». Il suffirait donc de cocher cette case pour se dĂ©barrasser de free-social-buttons, iloveitaly, et tous ses amis. Bien essayĂ©, mais ces robots ne doivent pas ĂȘtre connus de Google. Je vous conseille quand mĂȘme d’activer l’option, car je suppose que Google travaille quand mĂȘme sur une mĂ©thode pour filtrer ces robots, et l’option pourrait devenir utile un jour. Ăa se passe dans Admin > Vue > PropriĂ©tĂ©s de la vue. Puis cocher tout en bas :
On ne va pas s’arrĂȘter ici. Les robots n’Ă©tant apparemment pas connus de Google, on va tenter de bloquer ce « trafic trafiqué » autrement. (Il faut tout faire soi-mĂȘme ici…). Ăa se complique un peu, mais ne fuyez pas.
Le referrer, kézako ?
Le referrer est une donnĂ©e qui est transmise Ă votre serveur quand un internaute demande d’accĂ©der Ă une page. Cela correspond en gĂ©nĂ©ral Ă l’URL de provenance des visiteurs qui arrivent sur votre site. C’est cette donnĂ©e qui est utilisĂ©e par Google Analytics pour afficher la provenance de vos utilisateurs dans l’onglet « Acquisition » de votre dashboard Google Analytics.
Et… (vous me voyez venir ?), c’est cette donnĂ©e qui est utilisĂ©e (faussĂ©e) par les robots spammeurs afin d’apparaitre dans vos statistiques, qui effectuent donc du Referrer Spam.
Il faut savoir que les serveurs connaissent en gĂ©nĂ©ral l’URL de provenance (referral) des visiteurs qui arrivent sur votre site. J’ai donc fouillĂ© dans les journaux de visites (logs Apache) pour retrouver ces bots par leur URL de provenance, et mettre un terme Ă leur petit numĂ©ro. Et lĂ , surprise ! Je trouvais bien certains referrer, mais pas tous ceux qui apparaissent dans mon Google Analytics.
Conclusion : il existe 2 types de robots spammeurs Google Analytics.
Effectivement, certains robots apparaissent dans vos statistiques en ayant rĂ©ellement visitĂ© votre site, et ont donc dĂ©clenchĂ© l’apparition dans Google Analytics de façon « logique » (comme un utilisateur normal). Mais d’autres… ne prennent mĂȘme pas la peine de visiter votre site (aucun respect). Ils utilisent seulement une faille de Google Analytics, et reproduisent simplement l’appel Ă Google Analytics que fait un visiteur « classique » lorsqu’il se connecte Ă une page. On parle dans ce cas de Ghost Referrer Spam.
Comment différencier Spam Referrer et Ghost Spam Referrer ?
Regarder dans les journaux de visites, c’est bien, mais c’est pas accessible Ă tout le monde. Certains hĂ©bergeurs ne vous laissent mĂȘme pas les voir. La diffĂ©renciation entre Spam Referrer et Ghost Referrer peut Ă©galement se faire directement dans Google Analytics, et ça va ĂȘtre beaucoup plus simple !
Rendez-vous dans Google Analytics > Acquisition > Tout le trafic > Canaux. Entre la courbe des visites, et le tableau récapitulatif, vous allez trouver cela :
Cliquez sur « Dimension secondaire », et rajoutez « Nom d’hĂŽte ». Une colonne du mĂȘme nom va s’ajouter au tableau.
La liste est longue. J’ai sĂ©lectionnĂ© uniquement une partie des sources de trafic ici. Ce qui est intĂ©ressant, c’est la colonne Nom d’hĂŽte, dans laquelle vous devriez avoir tout le temps (ou presque) l’URL de votre site.
Pour toutes les sources de trafic vous paraissant louches, on distingue 2 cas :
- le nom d’hĂŽte correspond Ă l’URL de votre site : c’est un spam referrer.
- le nom d’hĂŽte n’est pas dĂ©fini (not set), ou ne correspond pas Ă votre site : c’est un ghost spam referrer. Le robot ne savait mĂȘme pas sur quel site il agissait. Il a donc soit mis une valeur au hasard (google.es/fr/com, etc) ou n’a mĂȘme pas mis de valeur (not set).
Attention : il peut y avoir des cas particuliers, notamment Google Translate, qui peut apparaitre dans la colonne « Nom d’hĂŽte ». Cela correspond au cas oĂč un internaute visite votre site aprĂšs avoir traduit votre site via Google Translate. Il navigue donc sur votre site dans l’interface de traduction Google.
Ici, on voit donc que core.traackr est un Spam Referrer classique, et les 8 autres sont des ghosts.
Bloquer les Spam referer bots.
Ils s’appellent semalt.com ou buttons-for-website… Ces Spam Referer arrivent dans votre dashboard Google Analytics suite Ă une vraie visite rĂ©alisĂ©e sur votre site. Il est donc plus simple de les bloquer car il suffit de leur bloquer l’accĂšs Ă votre site. Alors comment bloquer semalt ?
Ces quelques lignes dans un fichier .htaccess Ă la racine de votre site permettront de bloquer l’accĂšs Ă tous les visiteurs (robots ou non) en provenance des sites prĂ©cisĂ©s. (plus d’informations sur la crĂ©ation de fichier .htaccess ici)
#Â Begin Spam Referrer
RewriteCond %{HTTP_REFERER} semalt.com [NC,OR]
RewriteCond %{HTTP_REFERER} buttons-for-website.com [NC,OR]
RewriteCond %{HTTP_REFERER} autre-site.com [NC]
RewriteRule .* – [F]
# End
RĂ©pĂ©tez une ligne se terminant par [NC,OR] pour chaque Spam Referer que vous voulez bloquer. Une fois ces lignes ajoutĂ©es, les bots seront bloquĂ©s, et vous n’aurez plus de nouvelles visites de leur part. Ciao, bon dĂ©barras ! En revanche, les statistiques dĂ©jĂ collectĂ©es ne disparaitront pas de Google Analytics. Vous pouvez utiliser la mĂ©thode n°1 de blocage des Ghost Spam Referer bots expliquĂ©es ci-dessous pour que les anciennes statistiques n’apparaissent plus.
Bloquer les Ghost Referer bots.
Les ghosts sont devenus plus populaires depuis un moment. Il faut dire qu’ils demandent des robots moins puissants. Plusieurs techniques s’offrent Ă vous pour les bloquer, donc une beaucoup plus radicale que les autres, qui devrait vous dĂ©barrasser de tous les ghost referer. MĂȘme ceux que vous ne connaissez pas encore.
Attention : les 2 techniques proposĂ©es ci-dessous vont agir sur les « vues » statistiques de votre site dans Google Analytics. Des donnĂ©es pourront ĂȘtre perdues si vos filtres ne sont pas correctement paramĂ©trĂ©s. Je vous conseille au prĂ©alable de dupliquer la vue que vous utilisez aujourd’hui, afin de pouvoir garder un oeil global sur vos statistiques, mĂȘme en incluant les spam referrer. Pour crĂ©er cette vue, il suffit d’aller dans « Admin », puis cliquer sur la liste de vos vues, et « CrĂ©er une vue ».
Cette vue ne servira que de « sauvegarde » de vos futures donnĂ©es. Dommage, lorsqu’une vue est créée, elle ne reprend pas les statistiques collectĂ©es jusqu’Ă aujourd’hui. Votre vue nouvellement créée est donc vide : 0 visites.
Technique n°1 : Bloquer les referer dans Google Analytics.
Bloquer un par un les diffĂ©rents sites rĂ©fĂ©rents qui correspondent Ă du spam. Cette technique ressemble Ă la mĂ©thode utilisĂ©e pour bloquer les spam referrer (non ghost), sauf que l’on bloque ces rĂ©fĂ©rents directement dans Google Analytics, et pas via un htaccess. D’ailleurs, rien ne vous empĂȘche de bloquer l’intĂ©gralitĂ© des spam referrer (ghost ou non) via cette mĂ©thode.
Restons dans l’onglet « Admin » de notre site dans Google Analytics. Puis choisir « Filtres » dans le volet « Vue » (le plus Ă droite), Vous allez devoir construire une rĂšgle d’exclusion des referers considĂ©rĂ©s comme spam.
Notez que l’exclusion se fait sur le champ de filtrage « Source de la campagne », et pas sur le « Site rĂ©fĂ©rent ». Cela vient du fait que (techniquement) les robots simulent le « Site rĂ©fĂ©rent » via les Campagnes Google Analytics.
La rĂšgle de filtrage peut paraitre compliquĂ©e, mais ne l’est pas tant que ça :
- écrire tous les sites que vous voulez exclure, séparé par des barres verticales ( | )
- remplacer les points (.) par « antislash-point » ( \. )
J’ai pour ma part retirĂ© les extensions des noms de domaines (com, fr, org, eu, net, …) car ces sites ont souvent des variantes dans plusieurs extensions.
VoilĂ la rĂšgle utilisĂ©e dans l’exemple, rien ne vous empĂȘche de la copier-coller et de l’utiliser telle-quelle. Elle inclut les principales URL de spam referer.
buy-cheap-online\.|darodar\.|event-tracking\.|free.*traffic|free-social-buttons\.|get-free-traffic-now\.|guardlink\.|hulfingtonpost\.|ilovevitaly\.|sanjosestartups\.|semalt\.|share.?buttons\.|social.?buttons\.
Cliquer ensuite sur « VĂ©rifier ce filtre », et vĂ©rifier que les lignes que vous souhaiter voir disparaitre n’apparaissent plus dans la colonne « AprĂšs l’application de ce filtre ».
« Enregistrer », et voilà vos statistiques plus propres.
Technique n°2 : VĂ©rifier le « Nom d’hĂŽte ».
On l’a vu prĂ©cĂ©demment, dans le paragraphe « Comment diffĂ©rencier Spam Referrer et Ghost Referrer ?« , la plupart des ghosts spam referrer ne savent pas quel site ils spamment. Vous n’ĂȘtes qu’un numĂ©ro. Et ils passent leur vie Ă spammer ces numĂ©ros un par un (VDM).
Dans un premier temps, il va falloir identifier les « Noms d’hĂŽtes » (hostname) qui devront ĂȘtre inclus dans vos statistiques. Pour avoir la liste des noms d’hĂŽtes qui ont Ă©tĂ© utilisĂ©s pour voir votre blog, il suffit de se rendre dans vos rapports Google Analytics, dans la rubrique « Audience > Technologie > RĂ©seau ». Ensuite, sĂ©lectionner « Dimension principale : Nom d’hĂŽte. ». Vous devriez obtenir un tableau contenant des donnĂ©es de ce type :
Le tableau est facile Ă interprĂ©ter : les visites ayant comme nom d’hĂŽte « m.atthi.eu » correspondent bien Ă des visites rĂ©ellement effectuĂ©es sur mon blog. Les autres non. Il y a quand mĂȘme quelques cas particuliers, notamment Google Translate, mais je vous suggĂšre de ne conserver que vos noms de domaines spĂ©cifiques, quitte Ă perdre quelques visiteurs (les bot de spam referer ont compris que les personnes crĂ©ant des filtres ne filtraient gĂ©nĂ©ralement pas le nom de domaine de Google Translate).
Une fois que vous avez votre liste des noms d’hĂŽtes Ă conserver, allons crĂ©er notre filtre. Rendez-vous dans « Admin > Vue > Filtres ». CrĂ©er un filtre contenant les donnĂ©es suivantes :
Attention : encore une fois, si vous ne remplissez pas correctement vos donnĂ©es, vous risquez de perdre vos statistiques. De mĂȘme, si vous changez de nom de domaine, ou que vous ajouter un nouveau nom de domaine Ă votre site, pensez absolument Ă le rajouter dans ce filtre, sous peine de perdre des statistiques !
Cette seconde mĂ©thode est plus risquĂ©e, mais plus efficace. Plus besoin d’aller guetter les nouveaux spam referer tous les 15 jours pour les ajouter Ă la liste des sites rĂ©fĂ©rents filtrĂ©s. C’est celle que j’ai prĂ©fĂ©rĂ©e pour ce blog. A vous de faire votre choix.
[hr]Comme je le prĂ©cisais au dĂ©but de l’article, la team Analytics de chez Google est au courant de cette faille depuis presque 2 ans. On peut donc encore espĂ©rer une rĂ©action de leur part face Ă un problĂšme qui prend plus d’ampleur chaque mois. Google Analytics est un outil gratuit, mais aide grandement Google Ă collecter des donnĂ©es sur vos sites, et plus globalement sur les internautes. Laisser cet outil Ă l’abandon n’est donc sĂ»rement pas une solution envisagĂ©e par le gĂ©ant amĂ©ricain.
Si vous ĂȘtes arrivĂ©s jusqu’Ă la fin de cet article, je suppose que vous ĂȘtes touchĂ©s par ces pourriels de rĂ©fĂ©rant (si si, c’est le terme français). Quelle quantitĂ© / proportion de spam recevez-vous sur votre site ? Quelle solution avez-vous ou pensez-vous apporter pour contrer le phĂ©nomĂšne ? Si vous avez la moindre interrogation, on peut s’en parler dans en commentaire !