L'ensemble des pages Internet disponibles constitue une base d'informations tentaculaire, parcourue par les moteurs de recherche. Google ne lève qu'une partie du voile sur ses méthodes…
Article de Jean-Paul DELAHAYE dans les dossier de pour la science
Lire le début de l'article et mon commentaire

Echange de mail avec M. Delahaye
De : delahaye@
Objet : Rép : Article Google pour la science
Date : 26 janvier 2010 08:10:52 HNEC
À : jean-yves@creusot.fr
Bonjour Monsieur Creusot,
Merci de votre message très intéressant.
Je sais que des gens se sont fait un métier de l'optimisation des sites web. Il existe déjà de nombreux livres sur je sujet et j'en ai plusieurs. En revanche je n'ai pas le type de documents que vous m'avez transmis, et je vous en remercie. L'article sur le PageRank est très intéressant.
Merci pour le contre-exemple. Je reconnais avoir été un peu péremptoire dans la phrase que vous citez.
Il ne faut pas oublier cependant ce que j'explique à propos du Google-bombing : un lien (par un mot donné X) sur une page Y conduit probablement à considérer le mot X comme un mot de la page Y, ce qui explique que même si X n'est pas dans la page Y, Google indiquera Y pour la requête X.
Je suis persuadé qu'une approche rigoureuse à base de tests massifs permettrait de démonter un peu le fonctionnement actuel réel du moteur de recherche de Google. Il est peu probable que des universitaires s'y attaquent car il leur semblera absurde d'étudier quelque chose qui est parfaitement connu de ceux qui le font marcher et le cachent. Du côté de ceux qui vendent de l'expertise, malheureusement, il n'est pas sûr qu'ils la vendraient mieux en remplaçant des intuitions et des jugements faiblement fondés, par des jugement basés sur des méthodes totalement rigoureuses. Du coup, il y a peu d'espoir d'accéder à des connaissances sûres concernant l'évolution du Pagerank. La solution viendra peut-être d'un moteur de recherche du futur qui jouera une règle de totale transparence (comme le logiciel libre). Je suis persuadé qu'on finira par en arrivé là tant la situation actuelle me paraît malsaine.
Bien cordialement,
Jean-Paul Delahaye
--------------------
Bonjour M. Delahaye,
je me permets de vous contacter directement par mail plutôt que par le biais du site de "pour la science" au sujet de votre article et de votre réponse concernant le pagerank.
Je n'ai absolument pas les compétences mathématiques et j'ai quitté les études depuis trop d'années pour essayer de vous répondre sur votre terrain universitaire. En revanche, je fais de l'informatique depuis plus de 20 ans, c'est une bonne partie mon activité professionnelle, et une de mes compétences concerne le référencement des sites internet. Cette activité ne s'invente pas et ne s'étudie pas à l'université, mais comme vous l'avez suggéré, il est tout de même possible de faire du reverse ingineering pour essayer des découvrir le fonctionnement de cette boite noire.
Certaines personnes sont spécialistes du domaine du référencement et vendent leurs services aux professionnels du web. Ces études et articles ne sont pas en libre accès, contrairement aux informations sur Wikipédia, mais réservés aux professionnels du référencement qui paient pour les consulter. Dans ce métier, nous n'avons aucun intérêt à ce que toutes ces informations soient publiques, même si l'expérience joue encore un rôle important. Je suis abonné à ces informations depuis 2002 et je peux vous assurer que Google évolue très vite.
Vous trouverez ci-joint un document de juin 2009 concernant le pagerank, vous pourrez constater qu'il est très bien documenté et donne quelques références. Je n'ai théoriquement pas l'autorisation de vous transmettre ce document, mais je pense que votre vision de l'importance du pagerank en sera légèrement modifiée.
De mon côté, j'exerce mon métier de référenceur de façon empirique : je lis les écrits des "spécialistes", je suis les annonces officielles de Google, je teste sur les différents sites internet que je crée ou que je maintiens, et je me forme une opinion/expérience qui ne se traduit pas en formules mathématiques.
Il me semble que vous annoncez dans votre article de façon un peu trop catégorique (et c'est l'objet de mon intervention) : "L'ordre dans lequel Google affiche ces pages pertinentes pour répondre à votre interrogation dépend de nombreux facteurs, mais les deux principaux sont, d'une part, la proximité des mots recherchés dans le texte et, d'autre part, la note qui a été attribuée à chaque page pertinente par l'algorithme Pagerank. Plus les mots sont proches dans une page, plus elle a de chances de se retrouver bien placée parmi les réponses retenues, mais parmi toutes les pages comportant Enigma et Turing rapprochées (elles sont très nombreuses), Pagerank fixe l'ordre des réponses."
Démonstration par un contre exemple :
Dans votre article, vous prenez comme exemple "enigma turing", on trouve en 5° place une page avec un pagerank de 2 sans le mot enigma :
Andrew Hodges : Alan Turing Ou L'énigme De L'intelligence - Livre ...
Achat Vente Garanti : Andrew Hodges : Alan Turing Ou L'énigme De L'intelligence - Livre neuf et ... L'énigme, c'est d'abord la vie même de Turing. ...
www.priceminister.com/.../Hodges-Andrew-Alan-Turing-Ou-L-enigme-De-L-intelligence-Livre.html
alors que le suivant comporte les 2 mots à proximité avec un pagerank de 7 :
Alan Turing - Wikipedia, the free encyclopedia
Aller à Hut 8 and Naval Enigma: In December 1940, Turing solved the naval Enigma indicator system, which was more mathematically complex than the ...
en.wikipedia.org/wiki/Alan_Turing
Mon intervention n'était faite en aucun cas pour "critiquer" votre travail, mais pour indiquer qu'on ne peut utiliser votre article pour référencer (on dirait de façon plus précise positionner) un site internet aujourd'hui.
Cordialement.
Bleu Piment / 4 rue Jules ferry - 88160 Le Thillot / Vosges / Tél: +33 (0)3 29 25 18 91 / Contactez-nous !
Informations légales - Conditions générales de vente - Nous trouver - Satisfaction clients
Agence Conseil - Site internet - Informatique - Création graphique - Référencement - Formation - Google Adwords