L'Art du référencement Web

Le fonctionnement des moteurs de recherches

Une étude concentrée sur le moteur de recherche Google

Dans cette partie, nous traiterons des moteurs de recherche. Nous concentrerons notre analyse sur celui de Google. En effet, nous allons rapidement constater que ce dernier est le plus utilisé par les internautes.

Répartition des recherches sur les moteurs en France :

Répartition des recherches sur les moteurs en France

Google répresente approximativement 90% des requêtes en France, ce qui laisse loin derrière les moteurs de recherche comme Yahoo ou Live Search. Les moteurs de recherches copient Google, parmi les constatations évidentes, nous vons présentons une liste des points similaires lors qu'un utilisateur tape une recherche sur un moteur. * Le nombre de résultats par page est égal à 10 * Un champ texte de recherche est présent en haut et bas de page * Le recherche peut s'effectuer dans le monde ou en France * Les publicités se situent en haut et sur le côté * La présentation des résultats (couleur, nombre de caractères)

Le traitement des requêtes

A présent, étudions comment fonctionne un moteur de recherche. Le fonctionnement se découpe en 4 étapes.

La première étape est la phase de crawling, elle consiste à parcoucir le Web afin de récupérer l'ensemble des pages.

La seconde étape correspond à une étape d'analyse. Chaque page précédemment trouvée en étape 1 est analysée. L'analyse s'appuie sur la structure HTML du site, ainsi une balise <title> sera mieux référencée qu'une balise de paragraphe <p> semantiquement moins intéressante. Cette phase supprimera le contenu inutile pour ne conserver que le contenu pertinent.

La troisième étape correspond à l'indexation. Les pages précédemment analysées sont stockées en base de données en associant les mots-clés à son URL.

La dernière étape est celle du traitement des requêtes. Lorsqu'un internaute saisit des mots-clés, Google va parcourir sa base de données pour ressortir les pages les plus pertinentes et les afficher à l'internaute.

En ce qui concerne le contenu supprimé, voici une liste d'éléments que Google ne voit pas. Il est possible de simuler le comportement du moteur de recherches de Google en utilisant le navigateur Lynx sous Unix. Nous verrons qu'il existe en revanche des solutions pour référencer des sites en flash ou bien pour optimiser le référencement des images ou des vidéos.

La pertinence

La pertinence correspond à l'ensemble des paramètres internes. Cela correspond aux facteurs suivants : Parmi les balises définies dans le langage HTML, Google accorde beaucoup d'importance à la balise <title>. Ensuite, les balises de titres <h1>, <h2> possède une valeur sémantique forte et sont très fortement appréciées par Google. Enfin, certaines balises pour graisser ou mettre en italique le texte jouent aussi un rôle majeur, car elles permettent à Google de déterminer que le contenu doit être mis en exergue. Le nom de domaine est un facteur clé du référencement. Les mots-clés les plus pertinents doivent y figurer.

Une URL est décrite selon le format suivante : protocole://mot_de_passe/nom_de_domaine:port/chemin#fragment

Les parties optionnelles sont citées ci-dessous :
  1. le protocole s'il s'agit d'HTTP
  2. le mot de passe dans le cas ou le protocole n'en nécessite aucun
  3. le port s'il s'agit d'HTTP

Considérons l'URL suivante :

http://www.monsite.fr?param=43

Cette URL est à éviter, car elle ne précise aucunement le contenu de la page. Si dans ce cas param correspond à une catégorie et que 43 identifie la catégorie des voitures de sports alors une URL de cette sorte est mieux adaptée :

http://www.monsite.fr/categorie/voiture/

Pour construire une telle URL il est nécessaire d'utiliser les techniques d'URL Rewriting présentées plus loin.
La liste ci-dessous reprend les différents points à respecter concernant les URLs :

La notoriété

La notoriété correspond à l'ensemble des paramètres externes. Les facteurs prépondérant sont les suivants : Le Page Rank permet à Google de mesurer la notoriété d'une page. Il se définit de la manière suivante :

L'image ci-dessous illustre le Page Rank :

Sphère qui illusrent le PageRank

La sphère jaune possède un PR élévé car elle possède un nombre de liens élévé. Les sphères vertes au PR faible pointent sur elle et distribuent leur PR. La sphère bleu réalise aussi un lien vers elle mais distribue son PR plus fort. La sphère rouge située en haut à droite possède elle aussi un PR élévé, mais à l'inverse de la sphère jaune, seule une sphère jaune fait un lien sur elle. Etant donné que la sphère jaune à un PR très élevé, elle distribue ainsi un PR élevé à la sphère rouge. Afin d'améliorer la notoriété d'un site Web, il convient de répondre aux trois points ci-dessous :