This is just a little website using a PHP blog.
Wednesday, February 11 2004
[jxla] Peut-on faire confiance aux référants ?01:05:42 AM by nioto
Une nouvelle sorte de "spam" a fait son apparition depuis un moment, "referer logs spam".
Certains petits sites ont trouvé dans le TOP 10 de leur référant, des sites pour adultes. Marrant? pas vraiment, non .
Celà arrive aux personnes qui utilisent webalizer et qui ne pense pas à protéger le répertoire des rapports de stats.
Certains petits sites ont trouvé dans le TOP 10 de leur référant, des sites pour adultes. Marrant? pas vraiment, non .
Celà arrive aux personnes qui utilisent webalizer et qui ne pense pas à protéger le répertoire des rapports de stats.
Il y a un article sur Slashdot à ce sujet.
Celà arrivent à de plus en plus de petits sites, ceux pour lesquels quelques milliers de requêtes permettent d'être bien positionné dans les statistiques.
Généralement on configure webalizer pour qu'il écrive les pages html sur le répertoire /stat/ ou /stats/ et basta, on pense pas à mettre un .htaccess, d'abord c'est pas facile quand on ne sait pas, et puis rentrer son mot de passe à chaque fois qu'on veut regarder ses stats c'est galère!
Il suffit de passer le lien à quelqu'un via IRC, newsgroup, mailing-liste publique, forum, etc. et boom, après un certain temps, les moteurs de recherche viennent la récupérer pour indexation.
Pourquoi font-ils celà ?
-> PageRank, plus le nombre de sites ayant un lien vers eux, mieux ils sont placés dans les pages de résultats.
Comment trouver des pages de stats ?
-> Rien de bien compliqué, un coup de Google. J'ai au moins 2 méthodes :
La 1ère vient du fait que webalizer met un lien en bas de chaque page
générée vers son site, il suffit donc de chercher les pages liées à http://www.mrunix.net/webalizer/ résultats :2200 .
La seconde, elle, concerne la convention de nommage de webalizer, il utilise toujours des noms de rapports de la forme usage_AAAAMM.html ( avec AAAA l'année en 4 caractères et MM le mois sur 2 caractères), du coup il suffit de chercher usage_200402.html pour obtenir 2720 urls !!
Comment lancer le processus ?
On écrit un petit programme qui fait des requêtes web ( des "HEAD /" plutôt que "GET /" pour économiser de la bande passante) en spécifiant le référant désiré.
Je dois pouvoir faire un tel programme d'une 40aines de lignes en WebL qui récupèrent sur google les pages possibles de statitiques, fassent 4-5 vérifications pour être plus sur d'avoir des rapports webalizer et de faire les 3000 requêtes avec le référant de mon choix !
Est-ce si embétant ?
Est-ce que le spam par mail est embêtant?
Pour ceux qui ont un hébergement au nombre de hits/jour limité, celà peut leur faire perdre une durée non négligeable d'accès à leur site
Solution :
mettez une authentification BASIC sur vos stats ou alors changer d'analiseur de logs.
Celà arrivent à de plus en plus de petits sites, ceux pour lesquels quelques milliers de requêtes permettent d'être bien positionné dans les statistiques.
Généralement on configure webalizer pour qu'il écrive les pages html sur le répertoire /stat/ ou /stats/ et basta, on pense pas à mettre un .htaccess, d'abord c'est pas facile quand on ne sait pas, et puis rentrer son mot de passe à chaque fois qu'on veut regarder ses stats c'est galère!
Il suffit de passer le lien à quelqu'un via IRC, newsgroup, mailing-liste publique, forum, etc. et boom, après un certain temps, les moteurs de recherche viennent la récupérer pour indexation.
Pourquoi font-ils celà ?
-> PageRank, plus le nombre de sites ayant un lien vers eux, mieux ils sont placés dans les pages de résultats.
Comment trouver des pages de stats ?
-> Rien de bien compliqué, un coup de Google. J'ai au moins 2 méthodes :
La 1ère vient du fait que webalizer met un lien en bas de chaque page
générée vers son site, il suffit donc de chercher les pages liées à http://www.mrunix.net/webalizer/ résultats :2200 .
La seconde, elle, concerne la convention de nommage de webalizer, il utilise toujours des noms de rapports de la forme usage_AAAAMM.html ( avec AAAA l'année en 4 caractères et MM le mois sur 2 caractères), du coup il suffit de chercher usage_200402.html pour obtenir 2720 urls !!
Comment lancer le processus ?
On écrit un petit programme qui fait des requêtes web ( des "HEAD /" plutôt que "GET /" pour économiser de la bande passante) en spécifiant le référant désiré.
Je dois pouvoir faire un tel programme d'une 40aines de lignes en WebL qui récupèrent sur google les pages possibles de statitiques, fassent 4-5 vérifications pour être plus sur d'avoir des rapports webalizer et de faire les 3000 requêtes avec le référant de mon choix !
Est-ce si embétant ?
Est-ce que le spam par mail est embêtant?
Pour ceux qui ont un hébergement au nombre de hits/jour limité, celà peut leur faire perdre une durée non négligeable d'accès à leur site
Solution :
mettez une authentification BASIC sur vos stats ou alors changer d'analiseur de logs.
