Dans cet article, nous allons voir comment faire une recherche efficiente sur les moteurs de recherche.

Les premières et secondes parties permettent de comprendre le contexte du Web et le fonctionnement des moteurs de recherche.

Les plus pressés pourront se rendre directement à la troisième partie, dans laquelle nous rentrons dans le vif du sujet.

Enfin, un tableau récapitulant l’ensemble des opérateurs de recherche figure en dernière partie.

Attention, une recherche efficace permet parfois d’obtenir des informations, voire des documents, qui, malgré leur accessibilité, n’avaient peut-être pas vocation à être public … L’utilisation ou la diffusion de ces informations peut alors s’avérer totalement illégale. Il convient donc de rester prudent et de ne pas s’exposer à d'éventuelles poursuites.

1 Internet, le grand bazar

Internet, ou plutôt le Web, propose un nombre de ressources sans cesse croissant. Selon le site “Internet Live Stats”, il existerait à ce jour (août 2022) 1,98 milliard de sites web dans le monde, avec un taux de croissance de l’ordre de trois nouveaux sites par seconde !

Les sources disponibles sont donc de tous horizons, de légitimité différente, de qualité très variable.

L’objet de cet article est de proposer des méthodes et des outils de collecte d'informations. Mais il faut bien avoir conscience que cette multiplicité des sources impose de traiter l’information avant de l’exploiter, en analysant les liens entre l’information, leur source, leur auteur.

Une information doit être choisie en fonction de sa pertinence et de la légitimité de sa source, et non en fonction de son positionnement dans un moteur de recherche.

Ces aspects relatifs à la méthodologie, la fiabilité des informations, etc … font l’objet d’un autre article.

2 Les moteurs de recherche, l’indexation, comment ça marche ?

Sur le Web, c’est bien connu, on trouve de tout …, pour autant, on n’y trouve pas forcément tout ! Et encore moins, ce qu’on espérerait y trouver (il ne faudrait peut-être pas trop rêver non plus !).

Et pour cause, les moteurs de recherche ne peuvent retourner que les données qu’ils ont eux-mêmes indexées. 

" Et donc, c’est quoi l’indexation ?"

Les moteurs de recherche (Google, Bing, et les autres) envoient des robots parcourir le Web. On appelle ces robots : spiders ou crawlers

Le robot scrute le Web en permanence et se promène de page en page en suivant les liens hypertextes.

Pour chaque page Web, ces robots vont collecter des mots qui peuvent être visibles (texte de la page, url, titre, …) ou invisibles (métatags, nom des fichiers images, description, …). Le robot associe la page d’un site aux mots-clés trouvés dans les parties visibles et invisibles.

Ces pages sont ensuite compilées dans un index (une sorte de base de données) et triées en fonction des mots trouvés, leur emplacement, du nombre de liens qui pointent vers elles, et plein d’autres choses (mais ça c'est le secret de fabrication de Google et consorts).

Comme le robot ne s’arrête jamais, cet index est constamment mis à jour.

" Aaaah, et donc … ? "

Et donc, lorsqu’un utilisateur tape des mots dans la barre de recherche, cela revient à interroger l’index. Les résultats de la recherche proviennent de l’index.

Dit autrement, les moteurs ne recherchent pas une page publiée sur le Web à un instant T, ils ne font pas une recherche en temps réel. Ils vont en fait lancer une recherche dans leurs propres bases de données, celles-ci ayant été créées à une date antérieure à la recherche.

" Et tout est indexé ? "

Non ! On estime que les moteurs de recherches indexent entre 5 et 10% de l’ensemble du Web : c’est ce qu’on appelle le Web visible, ou le Web de surface.

Les raisons de la non-indexation sont multiples, parmi lesquelles :

  • le webmaster ne souhaite pas que certaines pages soient indexées ; dans ce cas, il le spécifie explicitement dans un fichier robots.txt afin de donner des instructions aux robots des moteurs de recherche (on peut exclure des pages Web, des fichiers pdf, …)
  • les pages volumineuses ne sont que partiellement indexées ; de même pour les pages trop profondes
  • le contenu est dynamique, ou nécessité une authentification
  • et sans doute encore plein d’autres raisons …

Le reste ? C’est le Deep Web, ou le Web profond.

Malheureusement, l’expression “Deep Web” est souvent associée, à tort,  à une zone plus ou moins grise, vaguement illégale, …

En fait, c’est simple : le Deep Web, c’est tout ce qui n’a pas été indexé par les moteurs de recherches. On y va tous régulièrement, ne serait-ce que pour consulter ses comptes en banque ! Rien d’illégal, donc !

Enfin, il ne faut pas confondre le Deep Web avec le Dark Web. Le Dark Web est le contenu Web de réseaux overlay. Ces réseaux utilisent le réseau Internet, mais avec des protocoles spécifiques. Le Dark Web n’est alors accessible qu’avec des outils spécifiques (navigateur Tor par exemple). Ce n’est pas l’objet de ce billet.

3 Comment rechercher sur le Web ?

3.1 Quelques principes de base

Le premier réflexe est évidemment de taper des mots-clés, juste des mots-clés.

A ce stade, on peut d’ores et déjà préciser quelques points :

  • l’ordre des mots est important : le premier mot est considéré de façon prioritaire
  • les mots courants, tels les déterminants, les conjonctions, …, sont ignorés
  • la casse importe peu
  • Google ne prend en compte “que” 32 mots … Si cela ne vous paraît pas suffisant, il va peut-être falloir travailler un peu votre esprit de synthèse !

Ensuite, on parle souvent d'opérateurs booléens.

" boo… quoi ? "

Booléen, du nom du mathématicien Georges Boole. Une variable booléenne ne peut prendre que deux valeurs : vraie ou fausse. Il s’agit donc de faire remonter des résultats fondés sur la question de savoir si les conditions qui figurent dans la requête sont vraies ou fausses.

Voyons d’abord trois opérateurs :

  • AND (ou &) : les résultats doivent comprendre les mots indiqués, pas forcément dans l’ordre, et ils peuvent être séparés par d’autres mots ; mettre un espace entre les mots de la requête revient à indiquer AND
  • OR (ou | ) : les résultats doivent contenir au moins un des mots spécifiés
  • NOT (ou - ) : les résultats comprenant les mots situés derrière NOT (ou - ) seront exclus

Quelques exemples (pour clarifier, les mots de la requête sont volontairement en MAJUSCULE, mais la casse importe peu en réalité) :

  • ALAIN DELON : va nous renvoyer des pages avec les mots ALAIN et DELON, mais on peut avoir un résultat avec les deux mentions ALAIN TRUC et MICHEL DELON
  • ALAIN or DELON : on aura des résultats comprenant ALAIN DELON, mais aussi ALAIN TRUC, ainsi qu’avec MICHEL DELON
  • ALAIN DELON -CINEMA : idem que le premier cas, mais les pages traitant de cinéma seront exclues.

Là, on se dit qu’être un peu plus restrictif dans ses requêtes peut être utile.

On peut placer des guillemets ( “.“ ) autour d’un ensemble de mots-clés "ALAIN DELON” : dans ce cas, les résultats doivent contenir l’expression ALAIN DELON, telle quelle. Cette commande est bien utile pour rechercher une citation ou un extrait de texte. Mais attention, elle est parfois trop restrictive. Par exemple :

  • lors d’une recherche sur une personne, “ALAIN DELON”, “A. DELON”, “DELON ALAIN” et “DELON A.” sont des requêtes différentes
  • lors d’une recherche sur un numéro de téléphone, il peut être intéressant de saisir les numéros tout attachés, séparés par un point, par un tiret ou par un espace …

En combinant tout ça : 

  • la requête “ALAIN DELON” “VOITURE” -CINEMA va nous renvoyer des résultats comprenant à la fois ALAIN DELON et VOITURE, mais sans CINEMA.
  • la requête “ALAIN DELON” OR “A. DELON” OR “DELON ALAIN” OR “DELON A.” va nous faire les quatres requêtes vue plus avant en même temps

" Et si je ne me souviens plus exactement du prénom d’Alain Delon ? Je crois que ça commence par un A … C’était pas Albert, par hasard ? "

On peut essayer avec A* DELON : l’astérisque * permet de rechercher tous les mots commençant par A. Dans cet exemple, on va trouver des pages avec ANTHONY DELON (mais pas de ALBERT par contre !). Dans le même esprit *N est envisageable également (ici, on récupère les mots se terminant par un N).

Enfin, et avant de poursuivre, on peut remarquer qu’en haut des résultats de la recherche, Google propose quelques options (choix Outils) pour affiner la recherche (une période ou une date de publication, par exemple) :

Pour certains résultats, il est possible d’obtenir la page mise en cache par Google (en cliquant sur la flèche, à droite) :

Il en est de même avec Bing :

3.2 Allons plus loin …

On va se concentrer sur les opérateurs qui fonctionnent avec Google. La plupart des opérateurs indiqués fonctionnent avec d’autres moteurs de recherche, mais nous ne les avons pas tous testés.

  • site: L’opérateur site: permet de rechercher uniquement sur un site Web particulier. Par exemple, on pourra rechercher ALAIN DELON site:lemonde.fr : seules les pages du site lemonde.fr seront renvoyées. Dans le même esprit, on peut exclure un site de la recherche. Ainsi ALAIN DELON -site:lemonde.fr recherche les mots indiqués mais en excluant les pages du site lemonde.fr. Attention, ne pas mettre d’espace.
  • intext: et allintext: L’opérateur intext: suivi de mots-clés recherche des pages dont les mots-clés figurent dans le corps de texte d’un article, et uniquement dans le corps du texte. L’opérateur allintext: suivi de plusieurs mots-clés fait la même chose, mais ici, l’ensemble des mots-clés indiqués doivent apparaître dans le corps de l'article.
  • intitle: et allintitle: L’opérateur intitle: se concentre cette fois sur la balise title; de la page. Il s’agit du titre de la page, c’est ce qui apparaît sur l’onglet du navigateur lorsque la page est affichée. On utilise intitle: et allintitle: comme précédemment.
  • inanchor: et allinanchor: Plutôt que rechercher les mots-clés dans le corps de l’article, on va cette fois les rechercher dans le texte d’ancrage. Un texte d'ancrage est un mot ou un ensemble de mots sur une page Web, sur lequel vous pouvez cliquer pour accéder à une autre page. En d'autres termes, il s'agit du texte visible sur lequel vous pouvez cliquer sur un hyperlien.
  • inurl: et allinurl: Normalement, vous avez compris : l’opérateur inurl: recherche les termes indiqués dans l’url de la page.
  • related: L’opérateur related: suivi du nom d’un site Web permet de rechercher des sites alternatifs au site indiqué.
  • define: L'opérateur define: permet de limiter les résultats de la recherche à la définition du mot-clé indiqué. En général, les résultats renvoient sur des sites de référence ou qui proposent des définitions.
  • filetype: ou ext: (filetype et ext sont équivalents) Attention, on a là un opérateur assez redoutable ! Cet opérateur doit être suivi d’un type d’extension de fichier (pdf, doc, jpg, txt, …). Associé à un mot-clé, il permettra de trouver tous les fichiers incluant le mot-clé. On peut aussi l'associer à un site Web particulier avec l’opérateur site:
  • (...) Quand la requête commence à devenir complexe, ne pas hésiter à utiliser des parenthèses pour mettre un peu d’ordre et regrouper plusieurs parties ensemble.
  • # Le hashtag doit rechercher des contenus qui font le buzz, mais il est difficile d’apprécier la pertinence de cet opérateur
  • @ L’arobase permet de prendre en compte les social tags (balises pour les réseaux sociaux)
  • .. Cet opérateur (deux points) permet de faire des recherches entre deux valeurs numériques : code postal, prix, année. On l’utilise ainsi 2020..2022 par exemple.
  • cache: Cet opérateur, suivi d’un site Web renvoie la page en cache (ancienne version) enregistrée par Google

3.3 Quelques exemples

filetype:pdf “a. delon” -site:lemonde.fr : Cette requête renvoie des fichiers pdf contenant “a. delon”, mais exclut le site lemonde.fr de la recherche.

Remarque : On a volontairement indiqué “a. delon”, ce qui n’est pas la même chose que “alain delon”. Lorsque l’on fait une recherche sur une personne, il faut penser que le prénom est parfois indiqué avec uniquement son initiale. C’est parfois le cas dans des comptes rendus de réunion. Donc, il ne faut pas hésiter à tester cette option.

"alain delon" -nathalie site:lemonde.fr filetype:pdf : On cherche des fichiers pdf sur lemonde.fr contenant “alain delon”, mais pas “nathalie”.

" euuuh, il y a un problème avec Alain Delon ? "

Bah non, pourquoi, OK, un autre exemple :

filetype:pdf lemonde.fr “mon_email@mail.com" : on recherche des fichiers pdf sur le domaine lemonde.fr, contenant une adresse mail donnée.

site:lemonde.fr -inurl:https : Cette requête recherche sur le nom de domaine lemonde.fr en excluant les pages qui comprennent https dans l’url. Pour le coup, on va obtenir les pages en http.

appartement (paris OR fontainebleau OR aubervilliers) -location : Dans cet exemple, on voulait simplement mettre en évidence l’intérêt des parenthèses …

On peut être un peu rusé et indiquer aussi … des symboles dans une requête :

site:linkedin.com "responsable" (☎ OR ☏ OR ✆ ) "paris"

dans le même esprit : “alain delon” (☎ OR ☏ OR ✆ )

D'autres exemples de requêtes peuvent être trouvés sur Google Hacking Database :

https://www.exploit-db.com/google-hacking-database

L’idée est simplement de s’en inspirer et les adapter. 

3.4 Google advanced

Pour simplifier l'écriture des requêtes, Google propose la page suivante :

https://www.google.com/advanced_search

Mais un bon Ozinter devrait pouvoir s’en passer …, non ?

De plus, cette recherche avancée permet de faire beaucoup de requêtes, mais pas toutes. Notamment, toutes les extensions de fichiers (pour filetype:) ne sont pas possibles.

Donc, oui, il va falloir s’en passer.

3.5 Les autres possibilités de recherche

3.5.1 Les métamoteurs

Un métamoteur va agréger les résultats de plusieurs moteurs de recherche.

On peut citer :

3.5.2 Les moteurs internes et les moteurs spécialisés

En complément aux moteurs de recherches généralistes, il ne faut pas hésiter à se rendre sur des sites plus spécialisés et à utiliser leur moteur interne.

En particulier, les moteurs internes des sites Web de la presse locale ou de la presse quotidienne régionale peuvent donner des résultats pertinents, notamment dans le cadre de la recherche d’informations sur une personne ou sur un site particulier.

Enfin, parmi les moteurs spécialisés, on va citer, en vrac (liste non exhaustive) :

4 Derniers conseils …

Pour finir, quelques conseils :

  • De façon générale, tester plusieurs requêtes, et se contenter des premières pages de résultats
  • Affiner les requêtes au fur et à mesure
  • Essayer plusieurs moteurs de recherche : Google, c’est très bien, mais il y a aussi Bing et consorts
  • Pour les recherches de personnes, penser à remplacer le prénom par l’initiale, avec un point. Cela pourra notamment être utile dans les recherches de documents
  • Pour les recherches de personnes, faire volontairement une faute d’orthographe peut être intéressant : si le nom est “compliqué”, d’autres se seront peut-être déjà trompés avant vous !
  • Penser à faire un tour sur la presse locale
  • Et pour se faire une idée, testez différentes requêtes sur vous-même !

 

5 Tableau récapitulatif

opérateur

argument

description

AND ou &

mots-clés

Les résultats doivent correspondre à tous les mots indiqués.

C’est équivalent à mettre un espace.

OR ou |

mots-clés

Les résultats doivent correspondre à un ou plusieurs des mots indiqués

NOT ou -

mots-clés

site Web

Exclut des termes de la recherche

Peut s’utiliser avec d’autres opérateurs (-site: par ex)

“.“

mots-clés

Recherche sur une expression exacte, c'est à dire sur les mots situés entre les guillemets, dans le même ordre.

site:

site Web

Recherche uniquement sur un site Web particulier

intext: et allintext:

mots-clés

Recherche uniquement dans le corps du texte

intitle: et allintitle:

mots-clés

Recherche uniquement dans le titre de la page Web

inachor: et allinanchor:

mots-clés

Recherche uniquement dans le texte d’ancrage

inurl: et allinurl:

mots-clés

Recherche dans une url

related:

site Web

Recherche des sites alternatifs au site Web indiqué

define:

mot-clé

Recherche des sites proposant une définition du terme indiqué

filetype:

ext:

extension de fichier

pdf, doc, jpg, txt, …

Recherche des fichiers avec l’extension indiquée.

Peut aussi se cumuler avec l'indication de mots-clés (AND, OR, “.”)

Peut se cumuler avec site:

(.)

parties de requêtes

Permet de regrouper des portions de requête, lorsque celle-ci combine plusieurs opérateurs

# et @ 

mot-clé

Recherches sur les réseaux sociaux

 

2 valeurs numériques

Résultats compris entre les deux valeurs numériques indiquées (code postal, prix, année, …)

cache:

site Web

Renvoie la page en cache du site en argument

 



Retrouvez d'autres contenus pédagogiques passionnants en vous inscrivant !