Dans cet article, nous allons voir comment faire une recherche efficiente sur les moteurs de recherche.
Les premières et secondes parties permettent de comprendre le contexte du Web et le fonctionnement des moteurs de recherche.
Les plus pressés pourront se rendre directement à la troisième partie, dans laquelle nous rentrons dans le vif du sujet.
Enfin, un tableau récapitulant l’ensemble des opérateurs de recherche figure en dernière partie.
Attention, une recherche efficace permet parfois d’obtenir des informations, voire des documents, qui, malgré leur accessibilité, n’avaient peut-être pas vocation à être public … L’utilisation ou la diffusion de ces informations peut alors s’avérer totalement illégale. Il convient donc de rester prudent et de ne pas s’exposer à d'éventuelles poursuites.
Internet, ou plutôt le Web, propose un nombre de ressources sans cesse croissant. Selon le site “Internet Live Stats”, il existerait à ce jour (août 2022) 1,98 milliard de sites web dans le monde, avec un taux de croissance de l’ordre de trois nouveaux sites par seconde !
Les sources disponibles sont donc de tous horizons, de légitimité différente, de qualité très variable.
L’objet de cet article est de proposer des méthodes et des outils de collecte d'informations. Mais il faut bien avoir conscience que cette multiplicité des sources impose de traiter l’information avant de l’exploiter, en analysant les liens entre l’information, leur source, leur auteur.
Une information doit être choisie en fonction de sa pertinence et de la légitimité de sa source, et non en fonction de son positionnement dans un moteur de recherche.
Ces aspects relatifs à la méthodologie, la fiabilité des informations, etc … font l’objet d’un autre article.
Sur le Web, c’est bien connu, on trouve de tout …, pour autant, on n’y trouve pas forcément tout ! Et encore moins, ce qu’on espérerait y trouver (il ne faudrait peut-être pas trop rêver non plus !).
Et pour cause, les moteurs de recherche ne peuvent retourner que les données qu’ils ont eux-mêmes indexées.
" Et donc, c’est quoi l’indexation ?"
Les moteurs de recherche (Google, Bing, et les autres) envoient des robots parcourir le Web. On appelle ces robots : spiders ou crawlers.
Le robot scrute le Web en permanence et se promène de page en page en suivant les liens hypertextes.
Pour chaque page Web, ces robots vont collecter des mots qui peuvent être visibles (texte de la page, url, titre, …) ou invisibles (métatags, nom des fichiers images, description, …). Le robot associe la page d’un site aux mots-clés trouvés dans les parties visibles et invisibles.
Ces pages sont ensuite compilées dans un index (une sorte de base de données) et triées en fonction des mots trouvés, leur emplacement, du nombre de liens qui pointent vers elles, et plein d’autres choses (mais ça c'est le secret de fabrication de Google et consorts).
Comme le robot ne s’arrête jamais, cet index est constamment mis à jour.
" Aaaah, et donc … ? "
Et donc, lorsqu’un utilisateur tape des mots dans la barre de recherche, cela revient à interroger l’index. Les résultats de la recherche proviennent de l’index.
Dit autrement, les moteurs ne recherchent pas une page publiée sur le Web à un instant T, ils ne font pas une recherche en temps réel. Ils vont en fait lancer une recherche dans leurs propres bases de données, celles-ci ayant été créées à une date antérieure à la recherche.
" Et tout est indexé ? "
Non ! On estime que les moteurs de recherches indexent entre 5 et 10% de l’ensemble du Web : c’est ce qu’on appelle le Web visible, ou le Web de surface.
Les raisons de la non-indexation sont multiples, parmi lesquelles :
Le reste ? C’est le Deep Web, ou le Web profond.
Malheureusement, l’expression “Deep Web” est souvent associée, à tort, à une zone plus ou moins grise, vaguement illégale, …
En fait, c’est simple : le Deep Web, c’est tout ce qui n’a pas été indexé par les moteurs de recherches. On y va tous régulièrement, ne serait-ce que pour consulter ses comptes en banque ! Rien d’illégal, donc !
Enfin, il ne faut pas confondre le Deep Web avec le Dark Web. Le Dark Web est le contenu Web de réseaux overlay. Ces réseaux utilisent le réseau Internet, mais avec des protocoles spécifiques. Le Dark Web n’est alors accessible qu’avec des outils spécifiques (navigateur Tor par exemple). Ce n’est pas l’objet de ce billet.
Le premier réflexe est évidemment de taper des mots-clés, juste des mots-clés.
A ce stade, on peut d’ores et déjà préciser quelques points :
Ensuite, on parle souvent d'opérateurs booléens.
" boo… quoi ? "
Booléen, du nom du mathématicien Georges Boole. Une variable booléenne ne peut prendre que deux valeurs : vraie ou fausse. Il s’agit donc de faire remonter des résultats fondés sur la question de savoir si les conditions qui figurent dans la requête sont vraies ou fausses.
Voyons d’abord trois opérateurs :
Quelques exemples (pour clarifier, les mots de la requête sont volontairement en MAJUSCULE, mais la casse importe peu en réalité) :
ALAIN DELON
: va nous renvoyer des pages avec les mots ALAIN et DELON, mais on peut avoir un résultat avec les deux mentions ALAIN TRUC et MICHEL DELONALAIN or DELON
: on aura des résultats comprenant ALAIN DELON, mais aussi ALAIN TRUC, ainsi qu’avec MICHEL DELONALAIN DELON -CINEMA
: idem que le premier cas, mais les pages traitant de cinéma seront exclues.Là, on se dit qu’être un peu plus restrictif dans ses requêtes peut être utile.
On peut placer des guillemets ( “.“ ) autour d’un ensemble de mots-clés "ALAIN DELON” : dans ce cas, les résultats doivent contenir l’expression ALAIN DELON, telle quelle. Cette commande est bien utile pour rechercher une citation ou un extrait de texte. Mais attention, elle est parfois trop restrictive. Par exemple :
“ALAIN DELON”
, “A. DELON”
, “DELON ALAIN”
et “DELON A.”
sont des requêtes différentesEn combinant tout ça :
“ALAIN DELON” “VOITURE” -CINEMA
va nous renvoyer des résultats comprenant à la fois ALAIN DELON et VOITURE, mais sans CINEMA.“ALAIN DELON” OR “A. DELON” OR “DELON ALAIN” OR “DELON A.”
va nous faire les quatres requêtes vue plus avant en même temps" Et si je ne me souviens plus exactement du prénom d’Alain Delon ? Je crois que ça commence par un A … C’était pas Albert, par hasard ? "
On peut essayer avec A* DELON
: l’astérisque * permet de rechercher tous les mots commençant par A. Dans cet exemple, on va trouver des pages avec ANTHONY DELON (mais pas de ALBERT par contre !). Dans le même esprit *N
est envisageable également (ici, on récupère les mots se terminant par un N).
Enfin, et avant de poursuivre, on peut remarquer qu’en haut des résultats de la recherche, Google propose quelques options (choix Outils) pour affiner la recherche (une période ou une date de publication, par exemple) :
Pour certains résultats, il est possible d’obtenir la page mise en cache par Google (en cliquant sur la flèche, à droite) :
Il en est de même avec Bing :
On va se concentrer sur les opérateurs qui fonctionnent avec Google. La plupart des opérateurs indiqués fonctionnent avec d’autres moteurs de recherche, mais nous ne les avons pas tous testés.
site:
L’opérateur site: permet de rechercher uniquement sur un site Web particulier. Par exemple, on pourra rechercher ALAIN DELON site:lemonde.fr : seules les pages du site lemonde.fr seront renvoyées. Dans le même esprit, on peut exclure un site de la recherche. Ainsi ALAIN DELON -site:lemonde.fr recherche les mots indiqués mais en excluant les pages du site lemonde.fr. Attention, ne pas mettre d’espace.intext:
et allintext:
L’opérateur intext: suivi de mots-clés recherche des pages dont les mots-clés figurent dans le corps de texte d’un article, et uniquement dans le corps du texte. L’opérateur allintext: suivi de plusieurs mots-clés fait la même chose, mais ici, l’ensemble des mots-clés indiqués doivent apparaître dans le corps de l'article.intitle:
et allintitle:
L’opérateur intitle: se concentre cette fois sur la balise title; de la page. Il s’agit du titre de la page, c’est ce qui apparaît sur l’onglet du navigateur lorsque la page est affichée. On utilise intitle: et allintitle: comme précédemment.inanchor:
et allinanchor:
Plutôt que rechercher les mots-clés dans le corps de l’article, on va cette fois les rechercher dans le texte d’ancrage. Un texte d'ancrage est un mot ou un ensemble de mots sur une page Web, sur lequel vous pouvez cliquer pour accéder à une autre page. En d'autres termes, il s'agit du texte visible sur lequel vous pouvez cliquer sur un hyperlien.inurl:
et allinurl:
Normalement, vous avez compris : l’opérateur inurl: recherche les termes indiqués dans l’url de la page.related:
L’opérateur related: suivi du nom d’un site Web permet de rechercher des sites alternatifs au site indiqué.define:
L'opérateur define: permet de limiter les résultats de la recherche à la définition du mot-clé indiqué. En général, les résultats renvoient sur des sites de référence ou qui proposent des définitions.filetype:
ou ext:
(filetype et ext sont équivalents) Attention, on a là un opérateur assez redoutable ! Cet opérateur doit être suivi d’un type d’extension de fichier (pdf, doc, jpg, txt, …). Associé à un mot-clé, il permettra de trouver tous les fichiers incluant le mot-clé. On peut aussi l'associer à un site Web particulier avec l’opérateur site:(...)
Quand la requête commence à devenir complexe, ne pas hésiter à utiliser des parenthèses pour mettre un peu d’ordre et regrouper plusieurs parties ensemble.#
Le hashtag doit rechercher des contenus qui font le buzz, mais il est difficile d’apprécier la pertinence de cet opérateur@
L’arobase permet de prendre en compte les social tags (balises pour les réseaux sociaux)
..
Cet opérateur (deux points) permet de faire des recherches entre deux valeurs numériques : code postal, prix, année. On l’utilise ainsi 2020..2022
par exemple.cache:
Cet opérateur, suivi d’un site Web renvoie la page en cache (ancienne version) enregistrée par Googlefiletype:pdf “a. delon” -site:lemonde.fr
: Cette requête renvoie des fichiers pdf contenant “a. delon”, mais exclut le site lemonde.fr de la recherche.
Remarque : On a volontairement indiqué “a. delon”, ce qui n’est pas la même chose que “alain delon”. Lorsque l’on fait une recherche sur une personne, il faut penser que le prénom est parfois indiqué avec uniquement son initiale. C’est parfois le cas dans des comptes rendus de réunion. Donc, il ne faut pas hésiter à tester cette option.
"alain delon" -nathalie site:lemonde.fr filetype:pdf
: On cherche des fichiers pdf sur lemonde.fr contenant “alain delon”, mais pas “nathalie”.
" euuuh, il y a un problème avec Alain Delon ? "
Bah non, pourquoi, OK, un autre exemple :
filetype:pdf lemonde.fr “mon_email@mail.com"
: on recherche des fichiers pdf sur le domaine lemonde.fr, contenant une adresse mail donnée.
site:lemonde.fr -inurl:https
: Cette requête recherche sur le nom de domaine lemonde.fr en excluant les pages qui comprennent https dans l’url. Pour le coup, on va obtenir les pages en http.
appartement (paris OR fontainebleau OR aubervilliers) -location
: Dans cet exemple, on voulait simplement mettre en évidence l’intérêt des parenthèses …
On peut être un peu rusé et indiquer aussi … des symboles dans une requête :
site:linkedin.com "responsable" (☎ OR ☏ OR ✆ ) "paris"
dans le même esprit : “alain delon” (☎ OR ☏ OR ✆ )
D'autres exemples de requêtes peuvent être trouvés sur Google Hacking Database :
https://www.exploit-db.com/google-hacking-database
L’idée est simplement de s’en inspirer et les adapter.
Pour simplifier l'écriture des requêtes, Google propose la page suivante :
https://www.google.com/advanced_search
Mais un bon Ozinter devrait pouvoir s’en passer …, non ?
De plus, cette recherche avancée permet de faire beaucoup de requêtes, mais pas toutes. Notamment, toutes les extensions de fichiers (pour filetype:) ne sont pas possibles.
Donc, oui, il va falloir s’en passer.
Un métamoteur va agréger les résultats de plusieurs moteurs de recherche.
On peut citer :
En complément aux moteurs de recherches généralistes, il ne faut pas hésiter à se rendre sur des sites plus spécialisés et à utiliser leur moteur interne.
En particulier, les moteurs internes des sites Web de la presse locale ou de la presse quotidienne régionale peuvent donner des résultats pertinents, notamment dans le cadre de la recherche d’informations sur une personne ou sur un site particulier.
Enfin, parmi les moteurs spécialisés, on va citer, en vrac (liste non exhaustive) :
Pour finir, quelques conseils :
opérateur |
argument |
description |
AND ou & |
mots-clés |
Les résultats doivent correspondre à tous les mots indiqués. C’est équivalent à mettre un espace. |
OR ou | |
mots-clés |
Les résultats doivent correspondre à un ou plusieurs des mots indiqués |
NOT ou - |
mots-clés site Web |
Exclut des termes de la recherche Peut s’utiliser avec d’autres opérateurs (-site: par ex) |
“.“ |
mots-clés |
Recherche sur une expression exacte, c'est à dire sur les mots situés entre les guillemets, dans le même ordre. |
site: |
site Web |
Recherche uniquement sur un site Web particulier |
intext: et allintext: |
mots-clés |
Recherche uniquement dans le corps du texte |
intitle: et allintitle: |
mots-clés |
Recherche uniquement dans le titre de la page Web |
inachor: et allinanchor: |
mots-clés |
Recherche uniquement dans le texte d’ancrage |
inurl: et allinurl: |
mots-clés |
Recherche dans une url |
related: |
site Web |
Recherche des sites alternatifs au site Web indiqué |
define: |
mot-clé |
Recherche des sites proposant une définition du terme indiqué |
filetype: ext: |
extension de fichier pdf, doc, jpg, txt, … |
Recherche des fichiers avec l’extension indiquée. Peut aussi se cumuler avec l'indication de mots-clés (AND, OR, “.”) Peut se cumuler avec site: |
(.) |
parties de requêtes |
Permet de regrouper des portions de requête, lorsque celle-ci combine plusieurs opérateurs |
# et @ |
mot-clé |
Recherches sur les réseaux sociaux |
|
2 valeurs numériques |
Résultats compris entre les deux valeurs numériques indiquées (code postal, prix, année, …) |
cache: |
site Web |
Renvoie la page en cache du site en argument |