Page 5 sur 5

Re: Qwant, un moteur de recherche novateur

Publié : 27 Jui 2019, 09:26
par imarco
https://www.nextinpact.com/news/107727- ... et-pay.htm
Un blog technique pour mieux communiquer

Qwant insiste également de plus en plus sur son ouverture, qui ne passe pas que par l'utilisation et le développement de logiciels libres. Mais aussi sur une plus grande transparence de ses actions et la possibilité d'accès aux équipes.

Cela concerne d'ailleurs les ingénieurs de la société qui répondent directement à nos questions sur des aspects techniques du développement des produits, comme le chiffrement de Masq (nous y reviendrons). Il faut dire que le cas du partenariat avec Microsoft a montré qu'à vouloir faire trop vite et trop grand public, la machine pouvait parfois se gripper.

Cette annonce s'est en effet faite dans l'urgence de Viva Tech, oubliant d'expliquer les choix de la société, tant du point de vue stratégique que technique. C'est ainsi Tristan Nitot (entre autres) qui s'est retrouvé à faire le SAV à travers un billet publié sur son propre blog. Une expérience que la société veut éviter.

Surtout que le « drama » était facile à anticiper, comme nous le relevions alors. Les accords avec Microsoft, pour l'utilisation partielle des résultats de Bing ou son utilisation comme régie publicitaire, sont un point de tension historique du projet. Certains reprochant au moteur français, qui se présente comme une alternative aux moteurs américains, d'un peu trop s'associer à ce géant qui n'a pas toujours montré un grand intérêt pour le respect de la vie privée.

Mais en phase de croissance de son index, Qwant n'avait guère le choix. L'extension du partenariat permettait à la société de s'assurer une place dans le navigateur Edge mais également d'accéder aux services d'Azure pour son indexation, la phase la plus lourde pour un moteur de recherche. Surtout, un secteur où les technologies évoluent rapidement.

À travers les serveurs de Microsoft, Qwant a ainsi accès à une puissance de calcul importante, mais ne s'arrêtant pas aux seuls processeurs. La société peut y exploiter des GPU ou des FPGA pour accélérer ses calculs. Son équipe en charge de la recherche y travaille, et il était complexe de monter en charge sur de telles solutions chez un acteur français.

Même OVH, qui propose du GPU et du FPGA depuis des années ne pouvait répondre aux besoins de Qwant pour le moment (notamment via l'utilisation de Kubernetes). Il serait possible d'opter pour une infrastructure en propre, mais cela reviendrait à engager des millions d'euros pour une solution qui pourrait s'avérer ne plus être la plus adaptée d'ici quelques années. C'est pour cela que les hébergeurs existent : porter le risque du financement des infrastructures.

Concernant l'aspect vie privée, il n'y a pas vraiment de sujet puisqu'il s'agit uniquement de la phase d'indexation, qui consiste à « crawler » des pages publiques pour les analyser, comprendre leurs interactions et les noter. Tout ce qui concerne l'accès de l'internaute et ses recherches reste sur l'infrastructure propre à Qwant.

Mais de tout ça, il n'a pas été question dans le maigre plan de communication préparé. C'est sans doute pour cela qu'un nouveau blog a été mis en place il y a quelques jours : Better Web. Il doit couvrir de manière plus complète les choix techniques et stratégiques de Qwant, entre autres petits guides liés au respect de la vie privée.

Re: Qwant, un moteur de recherche novateur

Publié : 27 Jui 2019, 12:11
par nam1962
Un blog technique pour mieux communiquer
(...)
:gsourire:

Re: Qwant, un moteur de recherche novateur

Publié : 08 Jui 2019, 08:01
par nam1962
Quelques précisions glanées sur le forum Ubuntu :

Qwant qui se rapproche d'Hadopi ? https://www.nextinpact.com/brief/direct ... m-8645.htm

Quand les salaires chez Qwant sont juteux (comme l'étaient ceux chez Viadeo..) https://www.developpez.com/actu/268567/ ... -Bing-Ads/

Quand Qwant pistait les écoliers : http://meta-m.org/index.php/2018/08/20/ ... -bracelet/


Comme le dit l'un des commentateurs sur developpez, il est intéressant de :
- désactiver ublock origin
- faire les mêmes requêtes sur Bing et sur Qwant
- dans les deux cas, admirer les mêmes résultat et les jolies annonces Microsoft Bing Ads
Tout cela obtenu avec des subventions :gsourire:

Re: Qwant, un moteur de recherche novateur

Publié : 03 Aou 2019, 11:23
par imarco
Qwant : des résultats datés, limités (mais répétés)

Par Jean-Marc Manach
le vendredi 02 août 2019 à 18:06

Marc Longo, « concurrent » de Qwant condamné pour « dénigrement », accusait le moteur de ne pas avoir mis à jour son index depuis 2017. Non seulement il y a bien des résultats datés, mais Qwant limite aussi à 50 le nombre de résultats affichés par mots-clefs. Il les répétait jusqu'à 12 fois, laissant penser qu’il aurait indexé bien plus de pages qu’en réalité. Suite à notre enquête, Qwant a mis fin à ces étranges duplications.

Après avoir exposé la génèse de ce qui a amené Marc Longo à être condamné pour « dénigrement » par le tribunal de commerce de Paris, pour avoir osé critiquer Qwant (voir le premier volet de notre enquête), restait à vérifier ses accusations.

Pour mémoire, le tribunal de commerce de Paris a en effet rappelé que « la divulgation d’une information de nature à jeter le discrédit sur un concurrent constitue un dénigrement, peu important qu’elle soit exacte, l’exception de vérité n’étant pas admise en matière de dénigrement » (nous avons souligné ce passage, NDLR).

Dans l’enquête du Virus informatique, un développeur de Qwant avait expliqué que « pour le moment, les 4 000 requêtes les plus fréquentes, représentant 40 % des recherches textuelles, sont traitées avec l’outil de Qwant, les autres étant encore sous-traitées à Bing de Microsoft ».

Nous avons donc effectué des recherches sur plusieurs des mots-clefs identifiés par l’huissier mandaté par Marc Longo comme relevant de l’index de Qwant et qui, en avril-mai, ne renvoyaient que des résultats datant de 2017.

Si plusieurs de ceux qui l’avaient renvoyé à des recherches périmées ont été depuis corrigés (parfois nettoyés, de sorte de ne plus avoir l’année 2017 dans le champ « titre » des pages indexées), il en est d’autres dont le contenu continue à dater.

En mai dernier, l’huissier avait en effet effectué un second constat de... 600 pages, portant sur « certains des mots les plus utilisés par les internautes sur les moteurs de recherche (Macron, Brigitte macron, Marine le Pen, SNCF, France 2, France 5, Carrefour, France 3, le Bon coin, BNP, LCI, Airbus, la Banque postale, gmail, etc.) », censés émaner de l'index de Qwant.com, mais dont aucun n'était, alors, « postérieur à 2017 », comme l’atteste cette capture d’écran, que Longo avait tweeté peu de jour avant d’être condamné :

Qwant

À l'époque, YouTube était associé à 99 occurrences de l’année 2017, contre aucune en 2018 et 2019. La même requête, mi-juillet, était associée à 102 occurrences de 2017, 0 en 2018 et 4 pour l’année 2019. Une recherche YouTube sur Bing révèle par ailleurs que les résultats fournis aujourd’hui par Qwant sont très différents de ceux donnés par le moteur de recherche de Microsoft, et qu'ils émanent donc a priori de l'index de Qwant.
« lol watch this »

La présentation de YouTube sur Wikipedia (« un site web d’hébergement de vidéos »), telle que présente dans le cache de Qwant, figurait sur l’encyclopédie de janvier 2016 jusqu’au 14 mai 2018, date à laquelle elle a été modifiée pour préciser qu’il s’agissait aussi d’un « média social ».

« lol watch this », la bio du compte Twitter de YouTube, telle qu’indexée par Qwant, date quant à elle de 2017 : YouTube l’avait mise en ligne en novembre 2016 et modifiée le 16 janvier 2018, suite au « bad buzz » d’une vidéo montrant le cadavre d’un suicidé japonais, qui avait (re)soulevé le problème de la modération des vidéos sur la plateforme d'hébergement.

La page Facebook de YouTube affiche par ailleurs, sur Qwant, 81,9 millions de J'aime. Or, en mars 2017, elle en dénombrait déjà 82M, et en revendique aujourd’hui 83,6M.

Le 7e résultat, http://youtube-mp3.org/, ne répond plus depuis septembre 2017. La formulation associée au 8e résultat, « Si iTunes ne s’ouvre pas », figurait certes dans le code source de l’Apple Store jusqu’à fin 2017, mais elle n’est plus en vigueur depuis janvier 2018.

Le Tumblr de YouTube, qui figure en 12e position des résultats de Qwant, n’a plus été mis à jour depuis février 2017. gaming.youtube.com, le 13e résultat, avait été actif de juin 2015 à septembre 2018, date à laquelle il a été remplacé par youtube.com/gaming.

Qwant Youtube

Sur Qwant, la dernière vidéo de Scootersystems, l'un des (rares) youtubeurs indexés, affiche 447 716 vues. Sur YouTube, elle en dénombre aujourd’hui 552 635. Sachant, par ailleurs, que cette vidéo date de 2015.

Le titre de la chaîne YouTube de FranceDiploTv, « French Ministry of Foreign Affairs and International Development », aurait certes été utilisé de 2015 jusqu’en novembre 2018, mais il correspond au portefeuille attribué à Jean-Marc Ayrault du temps de la présidence de François Hollande. Depuis mai 2017 et l’élection d’Emmanuel Macron, le périmètre du ministère a été modifié. Archive.org indique que le titre de la page aurait bien été renommé « French Ministry for Europe and Foreign Affairs » en décembre 2018.

L'horodatage associé au blog de YouTube renvoie, de son côté, au 22 novembre 2017, alors que ledit blog a été moult fois mis à jour depuis. Le 15e résultat, « Restez branchés 2015 », était certes le titre de la page consacrée aux réseaux sociaux de la Garde côtière canadienne de 2015 à août 2018, mais la mention de 2015 en a été retirée en octobre 2018.

Les palmarès hebdomadaires des bande-annonce YouTube de Think with Google, son blog marketing, datent tous, par ailleurs, de l'été 2017. De plus, leurs URLs renvoient aujourd'hui à des erreurs 404 : ils ont en effet depuis changé de rubrique, et les nouveaux palmarès ne sont pas répertoriés.

Qwant Youtube

A contrario, une requête YouTube sur Qwant Junior retourne des résultats plus à jour : la page Instagram de YouTube y recense 19,7M de followers et 1 745 posts. Son profil Instagram compte aujourd’hui 20,6M d’abonnés, revendique 1 800 posts, son 1 745e datant d’il y a 8 semaines. Si les chiffres-clefs compilés par WebRankInfo.com sont ceux de 2019, ceux du blog du modérateur datent de 2017 (mis à jour en juin 2018).

Dans la liste des résultats rattachés à la requête « YouTube », on s’étonnera cela dit d’y trouver un site de « musique gratuite », trouveztout.org, permettant d’« écouter les nouveautés 2013 » (il n’a pas été mis à jour depuis « début 2014 »), ou encore un site de streaming hébergé par free.fr (http://www.bes.free.fr/) et... © 2009.

Si Qwant Junior semble plus mis à jour que Qwant web, YouTube est loin d’y être le seul mot-clef daté. Une requête au sujet de Gmail indique ainsi que sa page Facebook aurait 2 088 754 likes, alors qu’elle en dénombrait 2 011 101 en juin 2016, 2 612 937 en mai 2018, et aujourd’hui 2 935 959 (chiffre qui, à l'instar de ceux qui suivent, a pu évoluer depuis la rédaction de l'enquête, mi-juillet). L’article « Gmail et la pub : ce qui va vraiment changer » date, lui, du 5 juillet 2017. Le 25e résultat, un blog publicitaire, n’a pas été mis à jour depuis mars 2013.

En recherchant « google » sur Qwant, la page Facebook de Google France affiche 21 756 835 J’aime, alors qu’elle en revendique aujourd’hui 27 190 240.

Qwant Facebook Google

Un internaute cherchant Marine Le Pen sur Qwant sera par ailleurs renvoyé à des articles de Riposte laïque datant de 2015, de France Culture de 2016, de Bastamag, du Monde, de BFM, de Polemia et du Figaro datés 2017, à Marine2017.fr, l’ex-site de campagne, cybersquatté depuis (au moins) février 2018, aux comptes YouTube et Twitter du « Front national » (qui n’existe plus depuis juin 2018) ainsi qu’à cinq interviews, datant de 2011 ou 2015, disponibles en replay sur frontnational.com (qui redirige pourtant, depuis juin 2018, vers rassemblementnational.fr).

Qwant FN

S’il cherchait SNCF, Qwant l’inviterait à cliquer sur quatre liens renvoyant à voyages-sncf.com, bien qu’il ait été remplacé par oui.sncf en décembre 2017. Sur Qwant, la page Facebook de la SNCF affiche 184 390 J’aime, alors qu’elle en dénombre aujourd’hui 265 921. Celle d’Orange en compterait 22 396 178 d’après Qwant, alors qu’elle en revendique 28 379 277 à ce jour. Celle de Mediapart 766 737, contre 1 070 279 dixit Facebook.

Une requête aux mots-clefs « programme tv » renvoie d’autres résultats étonnants : le 33e, tv-express.com, fait ainsi la promo d’une « Passoire égouttoir magique » vendue par un certain Discount Concept, qui en avait récupéré le nom de domaine en septembre 2018. Progtv.net, 38e résultat, ne répond plus, lui, depuis juin 2018.

Qwant TV
Des nettoyages cosmétiques

En tout état de cause, le problème ne concerne donc pas que le seul « Qwant Junior », mais bel et bien le « moteur de recherche » web et principal de Qwant. Et, mi-juillet, il n’était toujours pas corrigé, quand bien même ses crawlers étaient censés, chaque jour, passer « sur plus d’un milliard de pages pour en ajouter, supprimer celles qui n’existent plus, ou mettre à jour toutes les informations qui les concernent ». Éric Léandri a depuis déclaré, sous serment, qu’il en visitait « 2 milliards par jour » (voir plus bas).

Si certaines (rares) pages datent de 2019, de nombreux résultats et sites web n’ont pas été mis à jour depuis 2017, à commencer par Wikipedia, Facebook et YouTube. Ce qui est d’autant plus étonnant que des mots-clefs aussi attractifs et populaires que Le boncoin, YouTube, Gmail, SNCF ou programme tv devraient a priori faire partie des plus régulièrement indexés et mis à jour par un moteur de recherche. Mais également parce que Marc Longo en avait parlé publiquement mi-avril, et que Qwant, non content d’inviter ses utilisateurs à lui faire part des problèmes qu’ils pourraient rencontrer, a dores et déjà corrigé ou nettoyé certaines de ces « erreurs ».

En mai, Alexandre Thuriot, architecte SEO (search engine optimization, NDLR) chez M6 Web, remarquait ainsi sur Twitter que les sites de Cdiscount et Darty, notamment, étaient eux aussi truffés de résultats datant de 2017. Ils ont depuis été corrigés… partiellement : leurs pages Facebook, telles qu’elles ont été indexées par Qwant, indiquent là aussi un nombre de « J'aime » bien inférieur à ce qu’il en est réellement.

Début juillet, Benoit Tabaka, directeur des relations institutionnelles et des politiques publiques de Google France, s’étonnait sur Twitter qu'une recherche au mot-clef « Médias » renvoyait, sur Qwant images, à des chaussettes (« medias », en espagnol). Qwant a depuis corrigé le problème (qui émane des résultats de Bing, le moteur images de Qwant n’étant encore qu’en phase beta), ce qui n'a pas empêché Guillaume Champeau de qualifier le tweet du « lobbyiste en chef de Google » de « coup bas ».

Le 11 juin, Stéphane Erard, ancien salarié de Qwant en conflit avec son ex-employeur, partageait de son côté sur Twitter une capture d'écran montrant que, en cherchant « mon ip » sur Qwant, le site monip.org révélait que le crawler de Qwant n'était autre que Bingbot, celui de Microsoft.

Depuis, Qwant a fait le ménage : le site monip.org a disparu des résultats (alors qu'il arrive encore en 14e position sur Bing), les adresses IP ont été remplacées par des x.x.x.x. (de sorte qu’il n’est plus possible de savoir si elles appartiennent à Microsoft ou Qwant), et le « noeud réseau rattaché AS AS199064 » (pour Autonomous System, soit l’ensemble de réseaux IP contrôlés par une entité, cf Wikipedia) enregistré par le service IP de Korben.info, est désormais rattaché à Qwant.

Sauf qu'en cherchant services.korben.info/ip ou « Nœud réseau rattaché » sur Qwant, l'AS associé au crawler de Qwant est bel et bien encore rattaché à Microsoft. La seconde réponse renvoie à ce titre à un blog qui avait démontré, en 2017 et en exploitant le même genre de traces réseaux, que Qwant et DuckDuckGo se fournissaient déjà à l'époque en résultats chez Bing, et que leurs crawlers respectifs étaient ce même Bingbot.

Qwant Bing
Des résultats répétés jusqu’à 12 fois

Non content de se reposer sur un index daté – ou en tout cas pas bien mis à jour – Qwant les présentait dans une interface que l'on pourrait qualifier de « truquée » (« dark pattern », en VO). Qwant ne répertorie en effet que 7 résultats à la requête « Nœud réseau rattaché ». Les mêmes que Bing.

Mais à la différence de ce dernier, qui d'ordinaire propose de cliquer sur la page suivante tous les 10 résultats (et qui en l'espèce n'en propose que 7), Qwant les répétait en boucle lorsqu'on faisait défiler la mollette, jusqu'à 12 fois (en fonction de la taille de votre écran), laissant entendre qu'il aurait donc indexé bien plus de résultats qu'il n’en présentait en réalité.

Qwant dark pattern

Ces étranges répétitions, rencontrées moult fois lors de notre enquête, ont soudainement disparu ce jeudi 1er août, à la veille de la publication de notre enquête, et alors que nous avions plusieurs fois relancé Qwant pour comprendre s'il s'agissait d'un « bogue », ou d'une « fonctionnalité », sans obtenir de réponse jusqu'à ce vendredi après-midi : « C'est une coïncidence. Nous travaillons sans cesse à améliorer notre moteur de recherche et j'imagine qu'une amélioration du système à fait disparaître la chose », nous fait savoir Tristan Nitot (voir ses autres réponses in extenso plus bas).

Par ailleurs, et quels que soient les mots-clefs recherchés, Qwant n'affichait jamais, et tout au plus, que 150 résultats (parfois moins) avant d'afficher, à la fin d'un « scroll down », que « Les résultats suivants sont probablement peu pertinents, veuillez reformuler votre requête ». Et lorsque Qwant avait moins de 50 réponses à proposer, le fait de « scroller » les répétais en boucle 3, 4, 5 et donc jusqu'à 12 fois en fonction du nombre de résultats disponibles (et de la taille de l'écran).

Le 1er août, à la veille de la publication de notre enquête, et alors que nous relancions Qwant pour en savoir plus à ce sujet (voir plus bas) ces deux fonctionnalités ont été modifiées : désormais, et sur les différents mots-clefs que nous avons testés, le moteur n'affiche plus que 50 résultats, que les réponses viennent de l'Index de Qwant ou de celui de Bing. Les étranges répétitions en boucle ont, d'autre part, disparu.

En tout état de cause, et fin juillet, une recherche sur le mot-clef YouTube ne renvoie ainsi qu'à... 45 résultats, répétés 3 fois en boucle, alors que Bing en revendique de son côté 438 000 000, Google 12 750 000 000, et Qwant Junior (qui fonctionne pourtant sur un nombre restreint de sites web mis en liste blanche) 130.

Qwant ne renvoie, de même, que 50 résultats aux mots-clefs google et figaro (répétés 3 fois), 47 pour sncf, 43 pour programme tv et 40 pour gmail (mais répétés 4 fois), ou encore 30 pour corse et 29 seulement pour sexe (répétés 6 fois). Voire : archive.org n’a enregistré aucune page active de sexepoursexe.com, et la dernière archive de sexe-sexe.fr date de… février 2015. Marine Le Pen, de son côté, n’a droit qu’à 26 résultats.

Qwant Youtube

Ce 31 juillet, à la veille de la publication de notre enquête, et alors que nous attendons les dernières réponses de Qwant à nos questions (que nous leur avions fait parvenir il y a près de 15 jours), une recherche aux mots-clefs le bon coin renvoie 60 résultats, contre 35 mi-juillet.

Ce faible nombre de résultats est d’autant plus étonnant qu’en filtrant les résultats pour n’afficher que ceux datant du dernier mois, Qwant renvoie une trentaine (maximum) de résultats plus récents, mais qui ne figurent pas, pour la plupart, dans ceux affichés par défaut. Reste qu’en l’état, et contrairement à Google ou Bing, Yandex ou Baidu – auquel Eric Léandri compare souvent Qwant – il est impossible de savoir combien de pages Qwant a indexé par mot-clef, sinon qu’il n’en affiche jamais plus de 50, et que ces résultats étaient répétés jusqu’à arriver à la limite de 150 résultats.
Des « moteurs » et des « interfaces » de recherche

Auditionné le 12 juin dernier par la commission d'enquête du Sénat sur la souveraineté numérique, Eric Léandri expliquait : « un moteur de recherche, c'est par définition un outil qui permet de savoir où se trouve l'information recherchée. Au préalable, il faut donc qu'il connaisse le maximum d'informations pour pouvoir répondre à la question qui lui est posée. C'est le rôle de l'index ». Avant de préciser : « pour constituer son index, Qwant envoie des logiciels appelés crawlers, ou indexeurs, qui, simulant l'activité d'un internaute lambda, se promène sur internet, regarde le contenu de la page et en note les changements ». Il ajoutait : « aujourd'hui, l'index de Qwant compte 20 milliards de pages, dont 2 milliards sont visitées chaque jour ». Soit 1 milliard de plus par jour qu’en novembre dernier.

Ce qui rend d’autant plus incompréhensible le fait qu’autant de pages datent encore de 2017 d’une part, et que Qwant ne répertorie, d’autre part, que moins de 50 pages par mot-clef lorsqu’il fait appel à son propre index.

Lors de ladite audition, Éric Léandri avait précisé : « dans le monde, il n'existe que huit vrais moteurs de recherche grand public qui disposent à la fois de leur propre index du web et de leurs propres algorithmes : Google et Bing aux États-Unis, Naver en Corée du Sud, Yandex en Russie, Baidu en Chine, Seznam en République Tchèque, Yahoo au Japon, et Qwant en France. Tous les autres sont des méta-moteurs qui utilisent exclusivement les résultats fournis par d'autres moteurs de recherche – la plupart du temps Google ou Bing. Ce sont des interfaces de recherche ». Et de conclure : « Cette différence est décisive. C'est en cela que Qwant est stratégique ».

En exergue de son audition, il n’en avait pas moins reconnu : « nous avons encore beaucoup de travail à réaliser ». « Nous avons parfois pris du retard, ce dont certains profitent d'ailleurs pour nourrir leur entreprise de déstabilisation, à grand renfort de théories du complot », visant implicitement (et notamment) Marc Longo, dont l'objectif serait de « démolir nos travaux et notre entreprise ».

« Il existe un point commun entre toutes ces attaques », soulignait alors Léandri : « ceux qui les relaient refusent systématiquement de s'intéresser à notre travail ». Nous avons d'ailleurs été invités à venir rencontrer l’équipe de Qwant, ce que nous avons décliné. L'enquête porte en effet sur le moteur de recherche, non la start-up. Les utilisateurs de Qwant s'en servent depuis leurs ordinateurs, pas les locaux de l'entreprise.

C’est pourtant précisément parce que Marc Longo s’était intéressé, dès son lancement en 2013, à son travail d’indexation du web, qu’il avait ensuite découvert que les résultats de Qwant étaient ceux de Bing, puis payé un huissier pour constater les résultats de l’index de Qwant, qu'il s’était permis de le critiquer.

En l’état, Longo n’a plus le droit, depuis sa condamnation mi-juin, de s’exprimer au sujet de Qwant, en attendant la décision du juge d’exécution qui l’a auditionné le 22 juillet, et qui devrait rendre son jugement le 10 septembre.
Les (nouvelles) explications de Qwant

Contacté il y a 15 jours pour comprendre ce qui relèverait du bug, du choix, de la stratégie, de problèmes techniques ou financiers, de dysfonctionnements ou de fonctionnalités, Qwant, par l’entremise de Tristan Nitot (que nous connaissons depuis longtemps), nous répondait le 26 juillet : « c'est un peu tout cela à la fois (...) et c'est aussi pour ça que Qwant investit toujours davantage qu'il gagne aujourd'hui. Construire un moteur de recherche coûte cher, mais c'est un investissement nécessaire et très profitable à moyen/long terme. Notre volonté est d'être le plus possible indépendants, mais les contraintes sont nombreuses. La techno, le temps, la trésorerie, l'infra, les attentes des utilisateurs, les besoins en scalabilité dues au succès de Qwant et à l'afflux de nouveaux utilisateurs... »

Et ce d’autant que, précise-t-il, « le moteur de recherche de Qwant évolue de façon constante » : « D'une part, nos ingénieurs améliorent les sous-systèmes et en conçoivent de nouveaux, qui viennent remplacer les anciens. Le tout tourne sur une infrastructure de plusieurs centaines de serveurs, ce qui est une contrainte en soi : quand on met un nouveau système en place, on doit en supprimer un autre pour faire de la place. C'est pour cela que le récent partenariat avec Microsoft autour de leur offre de cloud Azure est important pour nous : il nous donne de la flexibilité. Ainsi la génération de l'index commence à se faire sur de nouveaux serveurs basés en région parisienne en complément de ceux de notre infrastructure pour pouvoir indexer plus de pages et aussi augmenter la qualité des résultats. Tout cela fait que les limites que tu signales pourraient changer dans les jours qui viennent. Nous jonglons donc avec ces contraintes du mieux que nous pouvons, et il arrive que des bugs se glissent. Quand on nous les signale, nous les corrigeons aussi vite que possible ».

Nitot reconnaît par ailleurs, concernant le fait que le bug n'aurait concerné que la seule partie « Junior » – comme il l'avait expiqué en avril dernier – que « Guillaume s'est trompé de bonne foi. Il pensait le bogue limité à Qwant Junior, mais en fait il était aussi sur Qwant.com. Je lui ai demandé comment c'était arrivé. Voici sa réponse : »

« Je tweete trop et parfois trop vite. Au moment où je tweete ça, on est sûr que le bug se limite à cet onglet de Junior parce qu'on sait qu'il n'a pas migré comme les autres vers notre nouvelle techno et que ça semble donc logique d'avoir ce bug. C'est après coup qu'on réalise que c'est en réalité plus large et qu'on comprend alors ce qui s'est passé. J'aurais certainement dû prendre le temps de vérifier davantage avant de répondre – voire ne rien répondre du tout – mais sincèrement, quand ce genre de constatation vient d'individus qui passent (et je n'exagère pas) leurs journées à dénigrer Qwant et à chercher à prouver par A+B qu'on mentirait sur la réalité de notre index, alors qu'on est assis juste à côté des gens qui font cet index et qui se sentent insultés, franchement, on fatigue. Mea culpa, errarum humanum est. »

De sorte d’éviter d’avoir à trop couper ou interpréter les réponses de Tristan Nitot, vous trouverez ci-après la suite de nos questions-réponses, quasi in extenso.
Comment expliquez-vous que Qwant retourne plus de contenus datant de 2017 que de 2018 ou 2019, ainsi que des sites ou pages web qui n'existent plus depuis des années ?

Pour des raisons de coûts et de rapidité de réponse, il est vital pour nous de disposer de systèmes de caches à multiples niveaux : on a un cache HTTP classique. Derrière, on a un index « chaud » qui contient les requêtes les plus courantes. Derrière encore, un index "froid", lequel est directement alimenté par les crawlers, donc avec les données les plus à jour.

L'index chaud est une sous ensemble de l'index froid, il répond aux requêtes les plus fréquemment demandées par nos utilisateurs. Il peut arriver qu'il contienne des vieux documents, surtout si la requête ne contient qu'un mot. Cela s'explique par le fait qu'un très grand nombre de documents (plusieurs dizaines de millions) contiennent le mot recherché.

Ainsi, ordonner les 100 premiers documents les plus pertinents parmi les dizaines de millions que l'index remonte est extrêmement complexe et toujours un sujet de recherche, même chez nos concurrents. Quand tu affines une recherche en indiquant plus de mots dans la requête, tu facilites en fait le travail de l'index, qui remonte alors le document plus frais que tu recherches. Cela vient s'additionner avec le problème du cache que j'évoquais dans mon billet sur LinkedIn.
Comment expliquez-vous qu’en filtrant les résultats pour n’afficher que ceux datant du dernier mois, Qwant renvoie quelques dizaines d'autres résultats récents, qui ne figurent pas, pour la plupart, dans ceux affichés par défaut ?

Cela confirme ce que je dis plus haut : on a des résultats frais, nos crawlers fonctionnent, notre index aussi, mais les différents niveaux de cache font qu'il arrive que certains résultats affichés soient issus du cache et non pas de l'index. Nous travaillons à résoudre cela. Nous sommes en train de revoir ce système de cache et nous visons à le moderniser très prochainement, et il est fort possible que les conclusions de ton article ne correspondent plus à la réalité que pourront constater les lecteurs au moment de sa publication ou juste après.
Comment expliquez-vous qu'une requête effectuée sur Qwant ne renvoie que 150 résultats ?

C'est une pratique commune chez les moteurs de recherche, chez Qwant comme chez Google. En effet, il est démontré que 75 % des utilisateurs ne visitent que la première page. Du coup, les quelques pages suivantes sont très rarement visitées et donc suffisantes.

Nous avons pu observer que les seuls utilisateurs qui vont plus loin sont en fait des robots qui tentent de se faire un index à bon compte. Par exemple, voici quels résultats (10 résultats par page) sont cliqués sur une recherche. Dès le 10e résultat (fin de 1ere page), on tombe sous le 1%.

Du coup, mais peut-être ne l'as-tu pas vu, les moteurs de recherche – y compris Google – limitent le nombre de résultats. Quand je cherche "Crédit pas cher" dans Google, il me dit qu'il a près de 30 millions de résultats sur la 1ère page et m'en montre... 170 seulement. Quand je cherche "Macron" dans Google, j'ai 160 millions de résultats... qui tiennent en 9 ou 10 pages (ça dépend des fois).
Comment expliquez-vous que Qwant, qui indexait 20Md de pages en novembre 2018, et en crawlait 1Md par jour, n'en indexe toujours que 20Md aujourd'hui, tout en en crawlant dorénavant 2Md/jour ?

Il faut savoir que notre infra peut indexer jusqu'à 20 Md de pages pour l'instant. La limite ici pour l'indexeur est triple : le stockage, le CPU (traiter cette immense quantité de données) et les temps de réponse qui en dépendent.

Quant au crawl, nous sommes plutôt contraints par la bande passante (autant la notre que de du coté des sites crawlés, voir la notion de "politeness"). La vitesse de crawl est variable. Elle est fonction des phases de découvertes (on va alors vite) et de mise à jour des documents déjà présents (plus fait au fil de l'eau).
Pourquoi Qwant n'affiche-t-il pas, comme le prévoient les CGU de Bing, que tout ou partie des résultats sont fournis par Microsoft ?

C'est compliqué de répondre à ta question parce que les accords entre Microsoft et Qwant sont couverts par un accord de confidentialité que je dois respecter.
Comment expliquez-vous qu'une requête sur l'un des mots présents dans l'index de Qwant n'affiche jamais plus de 50 résultats seulement (contrairement à ceux en provenance de Bing, qui vous en fournit jusqu'à 150) ?

En fait tout cela est réglable et c'est susceptible d'évoluer : nous cherchons sans cesse le meilleur compromis entre l’expérience utilisateur (rapidité, pertinence) et les contraintes de nos systèmes. Comme les systèmes évoluent, ces contraintes évoluent aussi. Je vais me renseigner sur ce sujet.

MàJ reçue ce 2 août après-midi, après parution du premier article : Nous testons plusieurs types de réglages qui sont fonction du niveau de charge sur notre infrastructure, sachant, comme je te le disais, que les gens ne vont quasiment jamais au delà de la troisième page (30 résultats).
Comment expliquez-vous que, lorsque Qwant dispose de moins de 50 réponses, son interface les répète en boucle lorsque l'on défile vers le bas (jusqu'à plus de dix fois lorsque son index répertorie moins de 10 réponses), laissant entendre que son index comporterait donc bien plus de pages qu'il n'en contient réellement ?

Je vais me renseigner : j'ai posé la question en interne, j'attends leur réponse. Je penche pour un bug. Je te transmets ça dès que je l'ai avant mercredi 31/07 au soir normalement.

MàJ reçue hier après-midi : Comme tu le signales sur le mot-clé "Youtube", Il arrive exceptionnellement qu'une requête renvoie plusieurs fois le même jeu de résultats. C'est bien un bug. En l'occurrence, je n'arrive pas à le reproduire immédiatement mais je l'ai déjà vu. J'avais posé la question à mes collègues de la production sur l'origine de la chose, mais comme tu le sais ils étaient très occupés et je n'ai pas obtenu de réponse de leur part.
Comment expliquez-vous que ledit "dark pattern" ait été désactivé ce 1er août, à la veille de la publication de notre enquête ?

MàJ reçue ce 2 août après-midi, après parution du premier article : C'est une coïncidence. Nous travaillons sans cesse à améliorer notre moteur de recherche et j'imagine qu'une amélioration du système a fait disparaître la chose.
https://www.nextinpact.com/news/108113- ... epetes.htm

Re: Qwant, un moteur de recherche novateur

Publié : 03 Aou 2019, 20:49
par nam1962
C.Q.F.D. ;)

:P

Re: Qwant, un moteur de recherche novateur

Publié : 06 Aou 2019, 13:25
par imarco
MàJ, mardi 6 août : Ce lundi soir, à 21h46, Qwant a publié un fil sur Twitter en réponse à notre enquête (puis un billet sur Medium ce mardi midi), confirmant le « problème de cache » et « une erreur d’adressage qui a en quelque sorte « rebranché » un index de 2017 mis en sommeil ». La « répétition des mêmes résultats dans les 50 résultats proposés sur certaines requêtes » serait « un autre bug » que ses équipes « ont identifié et corrigé grâce à la question posée ».

Qwant ajoute : « sur chaque requête nous avons souvent des millions de résultats crawlés puis indexés mais ce sont bien uniquement les résultats les plus pertinents qui sont affichés » (ce dont nous n'avons jamais douté).

L’entreprise regrette enfin que « les conclusions de l’article laissent entendre que Qwant ment à ses utilisateurs et ne développe pas son index ». Ce que nous n’avons ni écrit ni (a fortiori) voulu laisser entendre.

Eric Léandri, président cofondateur de Qwant, a de son coté – et avec notre accord – mis en ligne nos échanges de mails. Ils montrent notamment que l'auteur de cette enquête n'a pas « refusé » l'invitation de Qwant, mais précisé qu'il n'y répondrait favorablement que lorsque Qwant aurait répondu à nos questions. Or, les dernières éléments ne nous sont parvenus qu'après la publication du premier volet.

En tout état de cause, nous ne pouvons que saluer cet effort de transparence de la part de Qwant