Aujourd’hui, un moteur de recherche comme Google possède des dizaines de milliards de pages indexées et traite plusieurs milliards de requêtes par jour.
Le moteur de recherche indexe les pages, c’est-à-dire qu'il les lit, mais pour être pertinent, il doit surtout en comprendre le contenu. Or, le contenu comprend des données très complexes à trier, à qualifier et à indexer. Il est donc extrêmement compliqué pour un moteur de recherche de fournir des réponses pertinentes et claires aux multiples requêtes des internautes.
Le Web sémantique est un système qui permet aux moteurs de recherche et autres logiciels de comprendre et de répondre aux demandes complexes de l’internaute en fonction du sens de ses demandes. Le web sémantique est le fait de « sémantiquement » structurer l’information au préalable dans une page web.
Cela passe par la mise en place de format de données (balises et attributs). Ainsi, l'ajout de ces balises supplémentaires dans le code HTML des pages web permet avec une précision impressionnante, au moteur de recherche de comprendre n’importe quelle information sur un site Internet et de faire des liens très rapidement.
Il suffit donc pour chaque propriété de préciser son type d’attribut. Par exemple, l’attribut « adresse » pour une adresse postale ou un attribut « review » pour une note sur un produit.
Les micro-données (Microdata ou structured data ou encore données structurées) sont donc les informations organisées et classées dans la page structurée avec les balises et les attributs. Tout se joue au niveau du vocabulaire utilisé. Plus celui-ci est riche, plus il est précis et plus le contenu de la page aura du sens pour les robots d’indexation.
Voici les différents types de contenus pour lesquels les micro-données peuvent être utilisées :
Il existe plusieurs standards introduits avec le HTML5, permettant de baliser le contenu d’une page web : Schema.org, Micro-données, Microformats, RDFa, FOAF, GoodRelations, OpenCyc.
Néanmoins, tous ces standards ne sont pas pris en compte par les moteurs de recherche.
Schema.org est un schéma de micro-données utilisé sur le Web et est supporté par Google, Bing, Yahoo et Yandex. C’est une communauté collaborative dont la mission est de créer, maintenir et promouvoir les schémas de données structurées sur Internet.
Schema.org propose une hiérarchie assez conséquente de termes adaptés à beaucoup de situations et une grande souplesse d'utilisation.
Une fiche structurée de la société apparaît sur le côté droit des recherches.
Dans les résultats, pour la page facebook, le fil d'ariane apparait avec le lieu géographique et l’activité. Sont également spécifiés la note et le nombre de votants (déclarées comme microdatas).
Chaque recherche propose une fiche détaillée avec le nom, le type, des visuels, les éléments associés (livres pour l’auteur, acteurs pour la série, titres pour le groupe de musique), les recherches associées et dans le cas du groupe de musique, des liens pour écouter ou les événements à venir du groupe.
Pour l'exemple de la série télévisée, les microdatas spécifiées sont le titre, le descriptif, le titre original, les créateurs, mais aussi le nombre de saisons, la date du premier épisode, les notes et avis... La structuration peut ainsi être extrêmement poussée.
Dans ce cas, les évènements ou actualités sont mis en valeur par rapport au reste des résultats.
Nous avons fait une recherche d'évènement sur Tours, Google affiche une liste d'évènements avec des informations comme la date, le nom et le lieu sont citées.
Pour les actualités, les microdatas affichées sont la source et l’heure de publication.
Google incite par tous les moyens à faciliter et à généraliser l’utilisation des données structurées et ce afin de répondre le plus pertinemment possible à la requête de l’internaute. Pourquoi ? Tout d’abord, Google peut indexer beaucoup plus rapidement les pages web. Il gagne ainsi du temps, et comme tout le monde le sait, le temps, c’est de l’argent !
Du coup, Google récompense les sites en leur donnant plus de visibilité. En exploitant mieux ces données, il les affiche différemment. Cela permet :
En termes de S.E.O. (Search Engine Optimization ou optimisation pour les moteurs de recherche), voici donc un autre moyen de vous démarquer de vos concurrents et de faire de la sémantique un vrai avantage !