Google a 20 ans

Sous le capot de Google |

Ils ont bouleversé nos habitudes, fait naître une giga-entreprise de près de 800 milliards US et littéralement changé le monde. Les algorithmes qui font fonctionner Google forment l’une des machines les plus performantes, les plus utilisées et les plus rentables de la planète. Qu’en sait-on ? Comment fonctionnent-ils ? Comment parviennent-ils à maintenir leur domination au fil des ans ?

Coup d’œil sur ce qui se cache sous le capot de Google.

Algorithme Un algorithme n’est rien de plus qu’une série d’opérations ou d’instructions qui permet de résoudre un problème ou d’obtenir un résultat.

1. Construction de l’index

Contrairement à ce qu’on pourrait penser, Google ne fouille pas le web chaque fois qu’on lui envoie une requête. Il fouille plutôt son propre index du web. Cet index est construit à l’aide de programmes informatiques appelés « araignées », qui se promènent sur les milliards de pages du web et suivent les liens qui s’y trouvent. En surfant ainsi de lien en lien, les araignées construisent d’immenses toiles. Les pages trouvées par les araignées sont compilées dans un index qui compte des centaines de milliards de pages web et qui est stocké sur les serveurs de Google. Des programmes spéciaux décident sur quelles pages envoyer les araignées et à quelle fréquence les revisiter, en portant attention aux nouvelles pages, à celles qui changent et aux liens « morts » qui ne fonctionnent pas.

2. Analyse des mots

Quand une requête est tapée dans Google, la première étape est d’essayer de bien comprendre ce que veut dire l’utilisateur. Le moteur de recherche corrige donc les fautes de frappe et d’orthographe, mais tire aussi profit des recherches sur le langage naturel pour comprendre la signification de ce qu’on lui demande. Un mot comme « changer », par exemple, peut être utilisé autant par un utilisateur qui veut savoir comment remplacer une ampoule que par un autre qui veut échanger de l’argent ou ajuster la luminosité de son ordinateur portable. Google comprend ces différentes significations. Google essaie aussi de deviner si on désire des résultats récents ou plus généraux, ou si on cherche une adresse ou une photo plutôt qu’un texte.

3. Recherche dans l’index

Google effectue alors le travail de force brute de trouver toutes les pages de l’index qui contiennent les termes de la recherche. Mais s’il ne s’en tenait qu’à ça, il nous retournerait un fouillis de résultats plus ou moins pertinents dans lequel on peinerait à se retrouver. Google pose donc plus de 200 questions à ces pages pour évaluer leur pertinence. Combien de fois les mots-clés y apparaissent-ils ? Ces mots figurent-ils dans le titre ou le texte ? La page inclut-elle des synonymes des mots recherchés ? C’est aussi à cette étape que l’algorithme le plus célèbre de Google intervient : PageRank. PageRank regarde le nombre de liens qui pointent vers la page analysée et pondère ces liens en fonction de l’importance des pages d’où ils émanent. « Si c’est la page de la Maison-Blanche qui pointe vers la page analysée, ça va compter plus que si c’est une page que je viens de créer dans mon sous-sol », illustre Michel Desmarais, professeur au département de génie informatique et génie logiciel à Polytechnique Montréal. PageRank, souligne M. Desmarais, a été le grand coup de génie de Larry Page et Sergey Brin, les fondateurs de Google. « Ça provient d’un théorème mathématique assez connu, mais personne n’avait pensé l’appliquer au domaine des hyperliens », dit-il. Google attribue finalement une note à chaque page en fonction de ces différents facteurs.

4. Le contexte

À cette étape, Google a déjà construit une hiérarchie assez solide des résultats. Mais une composante qui prend de plus en plus de place intervient alors : le classement des résultats selon le contexte. Un internaute qui tape « restaurant » à Matane ne recevra pas les mêmes résultats que celui qui tape le même mot à New Delhi. Google tient aussi compte de l’heure à laquelle est faite la requête et de l’appareil (téléphone mobile ? ordinateur de bureau ?) duquel elle provient. Il adapte aussi les résultats selon le profil de chaque utilisateur.

« Google a une richesse de données que personne ne peut obtenir, tant en quantité qu’en qualité. Ça apporte un grand avantage pour trouver la bonne page pour la bonne personne dans le bon contexte », souligne Michel Desmarais, de Polytechnique.

5. Retour des résultats

Il faut en moyenne une demi-seconde à Google pour retourner les résultats de recherche, classés en ordre de pertinence. Avant de les livrer, le moteur de recherche s’assure qu’il y a une certaine diversité de résultats et que ceux-ci ne sont pas concentrés dans une interprétation étroite de la requête qui pourrait s’avérer erronée. Quand Google trouve des publicités associées à la requête, il les présente aussi à l’internaute.

Des tests en temps réel

Les algorithmes de Google subissent des milliers d’améliorations chaque année. « Ils testent leurs algorithmes en faisant plusieurs versions qui roulent en simultané, révèle aussi Michel Desmarais, de Polytechnique. L’utilisateur n’a aucune idée de quel groupe il fait partie. Ils ont ainsi une expérience contrôlée et peuvent dire : cet algorithme a conduit à plus de clics dans les premiers résultats retournés que celui-là et est donc meilleur. Comme ils ont des dizaines de milliers de requêtes par seconde, c’est très rapide de voir ce qui fonctionne et ce qui ne fonctionne pas. »

Secrets d’entreprise

Si on sait en gros ce qui se passe pendant la demi-seconde qui sépare une requête Google et le retour des résultats, plusieurs détails demeurent des secrets d’entreprise bien gardés. « Google publie parfois des articles sur ses algorithmes et leurs améliorations, dit Michel Desmarais de Polytechnique Montréal. Mais ils ont aussi du développement interne qu’ils décident de ne pas publier. Ce que je devine, c’est qu’ils publient quand ils savent que les autres ne peuvent pas exploiter les avancées – parce qu’ils n’ont pas les données nécessaires que possède Google, par exemple », dit Michel Desmarais. Ces pans d'ombre ne veulent surtout pas dire que les algorithmes de Google sont « truqués », comme l’a affirmé récemment le président américain, Donald Trump – une accusation que Google s’est empressé de nier. L’expert Michel Desmarais souligne que si Google parvient à maintenir sa domination mondiale au fil des ans, c’est parce que l’entreprise réussit à attirer certains des meilleurs cerveaux de la planète.

Ce texte provenant de La Presse+ est une copie en format web. Consultez-le gratuitement en version interactive dans l’application La Presse+.