L'Art du référencement Web
Le fonctionnement des moteurs de recherches
Une étude concentrée sur le moteur de recherche Google
Dans cette partie, nous traiterons des moteurs de recherche. Nous concentrerons notre analyse sur celui de Google. En effet, nous allons rapidement constater que ce dernier est le plus utilisé par les internautes.Répartition des recherches sur les moteurs en France :
Le traitement des requêtes
A présent, étudions comment fonctionne un moteur de recherche. Le fonctionnement se découpe en 4 étapes.
La première étape est la phase de crawling, elle consiste à parcoucir le Web afin de récupérer l'ensemble des pages.
La seconde étape correspond à une étape d'analyse. Chaque page précédemment trouvée en étape 1 est analysée. L'analyse s'appuie sur la structure HTML du site, ainsi une balise <title> sera mieux référencée qu'une balise de paragraphe <p> semantiquement moins intéressante. Cette phase supprimera le contenu inutile pour ne conserver que le contenu pertinent.
La troisième étape correspond à l'indexation. Les pages précédemment analysées sont stockées en base de données en associant les mots-clés à son URL.
La dernière étape est celle du traitement des requêtes. Lorsqu'un internaute saisit des mots-clés, Google va parcourir sa base de données pour ressortir les pages les plus pertinentes et les afficher à l'internaute.
En ce qui concerne le contenu supprimé, voici une liste d'éléments que Google ne voit pas.- Le Flash
- Les Applets Java
- Le JavaScript
- Les vidéos
- Les images
La pertinence
La pertinence correspond à l'ensemble des paramètres internes. Cela correspond aux facteurs suivants :- La structure HTML (texte, mise en page)
- Le nom de domaine
- L'URL
Une URL est décrite selon le format suivante : protocole://mot_de_passe/nom_de_domaine:port/chemin#fragment
Les parties optionnelles sont citées ci-dessous :- le protocole s'il s'agit d'HTTP
- le mot de passe dans le cas ou le protocole n'en nécessite aucun
- le port s'il s'agit d'HTTP
Considérons l'URL suivante :
http://www.monsite.fr?param=43
Cette URL est à éviter, car elle ne précise aucunement le contenu de la page. Si dans ce cas param correspond à une catégorie et que 43 identifie la catégorie des voitures de sports alors une URL de cette sorte est mieux adaptée :http://www.monsite.fr/categorie/voiture/
Pour construire une telle URL il est nécessaire d'utiliser les techniques d'URL Rewriting présentées plus loin.La liste ci-dessous reprend les différents points à respecter concernant les URLs :
- séparés par des tirets ou des caractères considérés dit séparateur. Le trait du bas ou "_" n'étant pas considéré comme caractère séparateur
- La profondeur des URLs doit être inférieure à 4
- Une URL est associée à une unique page sous peine de se retrouver avec un cas de Duplicate Content pouvant amener au Black Listing de la page
- Eviter les "sessions ids" passé en URL. Ils n'apportent aucune valeur sur le contenu de la page.
La notoriété
La notoriété correspond à l'ensemble des paramètres externes. Les facteurs prépondérant sont les suivants :- Le contexte extérieur (Les liens externes)
- Le Page Rank ou PR
- Il s'applique à une page
- Un lien vers une page est équivalent à un vote, il augmente le PR
- Les votes sont répartis uniformément
- Les votes sont pondérés par le PR. Plus le vote a un PR élevé, plus le vote est important
- Il est compris entre 1 et 10 sur une échelle logarithmique
L'image ci-dessous illustre le Page Rank :
- Obtenir des liens externes avec un PR élévé pointant vers notre site
- Obtenir un grand nombre de liens
- Optimiser sa structure interne
- Chaque page du site doit réaliser un lien (backlink) sur la page principale
- Chaque page doit faire référence à son parent directe dans la hierarchie. Le Bread Crumb permet d'afficher un fil de navigation (accueil > catégorie > sport).
- Suite à cela, il est possible de faire des liens vers les pages secondaires à partir de la page principale afin de redistribuer le PR de la page principale aux pages secondaires
- Il faut éviter le JavaScript et les équivalents CSS permettant de mettre en gras en texte par exemple. Il faut préférer la semantique HTML.
- Il faut éviter les frames. Google tolère une unique URL pour une même page. Mettre en place des frames revient à contredire ce principe.