Googlebot suit-il les liens dans les PDF ?

Publié le 25/02/2015 par François-Olivier Hoizey, dans la rubrique Blog, Référencement

Petit billet rapide pour vous présenter le résultat d’un petit test que j’ai fait récemment.

Ca, c’était avant

A l’époque du linking massif, quand on pouvait lancer des scripts de spam sans avoir peur, une des techniques que j’utilisais était la diffusion massive et automatisée de PDF.

Le but était de créer des pages PDF contenant du texte (spinné) contenant des liens vers des pages de sites satellites, parfois vers celles du money site. Les ancres de ces liens étaient elles aussi spinnées. Ces PDF étaient alors uploadés en masse sur des sites de publication de PDF. L’upload était réalisé en tout automatique grâce à un script perso qui faisait tout ça en PHP/Curl, au rythme que je voulais (par exemple, un nombre aléatoire entre 3 et 8 par jour sur 6 mois). Ces PDF se liaient parfois entre eux pour se reverser un peu de PR.

Cette astuce permettait d’avoir de nouveaux domaines réferrants avec des liens contextualisés (en tout cas au niveau de la page) et des ancres variées.

Bref, ça c’était avant.

Et aujourd’hui ?

A cette époque, j’utilisais cette méthode car les liens étaient suivis dans les PDF (sinon ça n’avait aucun intérêt). Qu’en est il aujourd’hui ?

Pour le savoir, j’ai ajouté un lien « Allez vient le robot » (oui avec la phote d’aurtograffe) en bas de la home de nicemedia.fr. Ce lien pointe vers un fichier PDF qui, lui, contient un lien vers une page HTML créée pour l’occasion. La page HTML n’a bien sur reçu aucun autre lien que celui inclus dans le PDF et n’a été visitée que depuis Safari mobile sur mon iPad (pas de Chrome donc). Elle n’a été déclarée nulle part et n’est pas trackée.

Le PDF a été créé en texte (pas en image ni en vectoriel donc) sur Word.

Deux semaines après, voici le résultat : https://www.google.fr/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=%22Loutre+qui+pootre.%22

La page a bien été indexée.

Si j’avais été un peu plus malin j’aurais utilisé une ancre utilisant des mots qui ne sont pas présents dans la page HTML finale … mais j’ai été bête :)

Et ça sert à quoi ?

Cette information peut être utile dans le cas d’un site faisant des liens vers des fichiers PDF. Prenons le cas d’un site e-commerce faisant des liens vers des fiches techniques ou des notices de montage.

Certains clients veulent absolument maintenir ces liens et comme les techniques pour éviter de les rendre crawlables par les bots sans perdre de PR ne sont pas toujours utilisables, il peut-être intéressant de préconiser, a minima, de mettre un lien vers la home / vers la catégorie du produit / vers la fiche produit dans les fiches PDF afin de ne pas les transformer en dangling pages.

Visiblement, ça peut servir à certains.

A vous de trouver les autres usages possibles. Ma technique indiquée plus haut doit encore servir à quelque chose…

My two cents.

Abonnez-vous au flux flux RSS | You can skip to the end and leave a response. Pinging is currently not allowed.

2 Responses to “Googlebot suit-il les liens dans les PDF ?”

Mathieu dit :

26 février 2015 à 11 h 58 min

Attention !
Le fait qu’une URL présente quelque part soit suivie ne veut pas dire que sa présence passe du jus. Google sait par exemple suivre et indexer les simples citations d’urls (sans href autour) au sein d’une page. A ma connaissance, ce type de citation « texte » n’envoie pourtant pas de jus.
Même avec des liens suivis, les PDF sont donc peut être quand même des dangling pages, des trappes à jus.
Pareil pour ce qui est de génèrer des domaines référents variés qui apparaitraient dans GWT: les sources nofollow aussi apparaissent dans GWT, et c’est pas pour ça qu’elles comptent beaucoup.
Mais le test est intéressant quand même, merci. ;)
François-Olivier dit :

26 février 2015 à 12 h 03 min

Yes tu as tout à fait raison. C’est pour ça que j’ai indiqué que j’aurais du utiliser des mots différents dans l’ancre. A la communauté SEO de creuser plus loin ;)
Je vois mal comment on pourrait évaluer la chose de toutes façon car seul Google sait comment le PR est distribué. En toute logique, mais un frère Peyronnet pourrait confirmer ou infirmer, ça doit en passer.
Tout ce que je sais, c’est qu’à l’époque, « ma » technique sur les PDF fonctionnait furieusement bien pour le ranking donc à l’époque en tout cas c’était le cas.

Comme dit dans l’article de toutes façons pour ma part je préfère brouiller les pistes qui mènent vers les PDF pour que Google n’aille pas fouiller n’importe où.

Pas compris ta remarque sur WMT.

Googlebot suit-il les liens dans les PDF ?

Ca, c’était avant

Et aujourd’hui ?

Et ça sert à quoi ?

2 Responses to “Googlebot suit-il les liens dans les PDF ?”

Leave a Reply

Nouveau