•

Publié par Thibault Rocher

Comment fonctionne le classement L3 de Perplexity ? Enquête sur son architecture, ses critères et les accusations de scraping

•

7 août 2025

Table of Contents

Résumé ⤵️

🔍 Perplexity utilise un système de classement en trois couches (L3) combinant tri initial, reclassement via machine learning (XGBoost) et filtrage final basé sur des signaux d’engagement et de similarité sémantique.
⚙️ 59 facteurs influencent la visibilité des contenus, incluant l’engagement immédiat (« new_post_ctr »), la fraîcheur, la structure du contenu, et des préférences thématiques (tech, IA, business).
🚨 Perplexity contournerait les règles d’indexation web, en ignorant les fichiers robots.txt et en se faisant passer pour des navigateurs pour scraper massivement des contenus.
🎯 Certains domaines sont surboostés manuellement (GitHub, Reddit, LinkedIn, Coursera, Booking…), et les vidéos YouTube bien titrées peuvent fortement impacter le ranking.

1. Perplexity AI lève (un peu) le voile sur son algorithme : ce que vous devez savoir

C’est une révélation qui agite le monde du SEO et des IA génératives depuis quelques jours. Grâce à une enquête poussée menée par Metehan Yeşilyurt – chercheur indépendant et ingénieur machine learning –, on découvre pour la première fois les coulisses de l’algorithme de classement utilisé par Perplexity AI, moteur conversationnel qui monte en puissance face à ChatGPT ou Gemini. Cette architecture de classement, baptisée L3 (Three-layer reranker), repose sur un système aussi opaque que redoutablement sélectif.

Et ce n’est pas tout. L’étude révèle aussi des méthodes controversées pour collecter les données, des signaux d’engagement ultra-précis, et une préférence algorithmique pour certains domaines jugés “fiables” comme Reddit, GitHub ou Coursera.

En clair, vous avez beau produire du contenu de qualité, si vous ne cochez pas ces nouvelles cases, vous risquez de devenir invisible sur Perplexity – et donc sur une part croissante du web.

Alors, que vous soyez créateur de contenu, consultant SEO ou simplement en veille sur les moteurs IA, cette actualité mérite toute votre attention. Dans cet article, vous allez découvrir comment fonctionne cette fameuse architecture L3, quels sont les 59 critères de classement identifiés, et surtout, comment adapter votre stratégie SEO pour rester visible à l’ère de l’IA.

2. L3 : une architecture de classement en trois couches

Depuis l’extérieur, Perplexity AI fonctionne comme un moteur de recherche conversationnel ultra rapide. Mais en coulisses, la sélection des résultats passe par une véritable usine algorithmique, structurée en trois étapes distinctes : c’est le système L3, pour Three-layer reranker. Et si vous voulez que vos contenus soient visibles, il est essentiel de comprendre comment ces couches opèrent.

Étape 1 : la présélection brutale

Lorsqu’un utilisateur pose une question, Perplexity va d’abord extraire rapidement des résultats bruts, grâce à un système de recherche classique, un peu à la manière de Bing ou Google. On parle ici de dizaines, voire centaines de documents potentiellement pertinents. C’est le passage en vrac, sans filtrage fin à ce stade.

Étape 2 : le scoring machine learning

Dans la deuxième couche, un modèle de machine learning — un XGBoost selon l’enquête — évalue chaque résultat selon un ensemble de critères (engagement, fraîcheur, autorité, cohérence sémantique…). C’est là que tout se joue : les scores attribués à chaque source vont déterminer qui passe à la dernière étape, et qui est éliminé sans appel.

Étape 3 : le reranking final

Enfin, la troisième couche consiste à reclasser les résultats restants. Seules les sources considérées comme très fiables, pertinentes et engageantes sont conservées. Et dans certains cas, si aucun résultat ne dépasse les seuils attendus, Perplexity peut décider de ne rien afficher du tout. C’est ce qu’on appelle un “fail-safe cut-off” : le vide plutôt que le doute.

🎯 Résultat : si votre contenu est mal structuré, peu engageant ou simplement peu aligné avec les attentes implicites de ce système, vous n’existez tout simplement pas dans Perplexity. Ce n’est plus une question de position 1 ou 10, mais d’être visible… ou totalement ignoré.

3. Les 59 facteurs de classement que vous devez connaître

Là où Google reste discret sur ses signaux de positionnement, Perplexity laisse échapper quelques indices plus concrets, notamment grâce à l’analyse de ses comportements internes. L’enquête de Metehan Yeşilyurt a permis d’identifier 59 facteurs de classement utilisés dans la seconde couche du système L3. Ces signaux servent à scorer chaque contenu de manière automatique via un modèle de machine learning — et à déterminer qui sera montré, ou non.

L’engagement : le nerf de la guerre

L’un des signaux les plus déterminants est appelé new_post_ctr (click-through rate des nouveaux contenus). En clair : Perplexity mesure très rapidement si les utilisateurs cliquent ou interagissent avec un lien fraîchement affiché. Si le taux de clic ou d’engagement est faible dans les premières heures, le contenu est purement et simplement déréférencé.

Autre signal notable : le time_decay_rate. Il mesure la perte d’intérêt dans le temps. Même un contenu performant initialement peut devenir invisible s’il ne génère plus de clics ou d’engagements dans la durée.

Au dela du pogo sticking ou du bounce rate, c’est vraiment sur la durée de vie du contenu (en durée dans le temps).

Cohérence sémantique et structure

Perplexity analyse également la similarité sémantique entre la requête de l’utilisateur et le contenu de votre page (balises, titres, paragraphes…). Il tient compte de la structure éditoriale : un contenu bien hiérarchisé, clair, avec des blocs logiques, sera favorisé.

Des signaux comme :

query_similarity_rank
title_match_boost
content_embedding_score

…permettent d’estimer à quel point votre contenu « colle » à l’intention de recherche formulée.

Thématiques, fraîcheur, autorité

Les thématiques tech, IA, business, science, santé… sont souvent mieux valorisées. À l’inverse, les sujets lifestyle ou trop généralistes peuvent être sous-cotés.

Enfin, les contenus récents, mis à jour régulièrement, publiés sur des domaines jugés fiables (nous y reviendrons), partent avec une longueur d’avance.

4. Les domaines surboostés par Perplexity : une autorité choisie… à la main

Dans d’anciens systèmes où l’autorité est souvent corrélée à la qualité du netlinking ou à l’ancienneté d’un site, Perplexity adopte une approche différente — beaucoup plus directe, presque manuelle. D’après l’analyse de Metehan Yeşilyurt et les tests croisés réalisés dans son enquête, mais aussi l’analyse du Blog du Modérateur, Perplexity ne se contente pas d’évaluer des signaux classiques. Il favorise activement certains domaines précis, sélectionnés comme « fiables par défaut ».

Une liste d’élus : GitHub, Reddit, LinkedIn, Coursera, Booking…

Parmi ces domaines privilégiés, on retrouve des plateformes très connues : GitHub, Reddit, LinkedIn, Coursera, Booking.com, Amazon, Stack Overflow… Ces sites bénéficient d’un traitement algorithmique de faveur : leurs contenus sont plus souvent affichés dans les résultats, et ils échappent en partie au scoring sévère appliqué aux autres.

Autrement dit, si vous publiez une information sur LinkedIn ou partagez un projet open source sur GitHub, vos chances d’apparaître dans Perplexity augmentent fortement — même si le contenu est court ou peu optimisé.

Une curation humaine assumée

Ce n’est pas un simple effet du netlinking ou du trafic organique ; l’enquête révèle que Perplexity applique un filtrage direct basé sur une liste blanche de domaines autorisés, dont l’influence sur le classement est explicite. Cela pose une vraie question d’équité pour les éditeurs indépendants, créateurs de contenu ou médias émergents.

« Quand l’IA trie ses sources sur liste blanche, ce ne sont pas les meilleurs contenus qui gagnent, mais les plus reconnus. Les éditeurs indépendants sont les premières victimes invisibles de cette sélection algorithmique. »
Thibault Rocher – Le SEO by Tibo

Faut-il publier ailleurs que sur votre propre site ?

C’est une question stratégique. Si vous voulez gagner en visibilité via Perplexity, il peut être judicieux de relayer vos contenus sur ces plateformes “favorisées”, ou de vous faire citer par elles. Un article repris sur Reddit ou cité sur Coursera peut soudain devenir beaucoup plus visible… qu’un article publié uniquement sur votre blog.

5. YouTube et tendances croisées : des effets de levier puissants à exploiter

L’enquête menée sur Perplexity révèle un phénomène particulièrement intéressant : l’algorithme ne se limite pas à analyser des contenus textuels ou des pages web. Il intègre aussi les signaux issus d’autres plateformes, notamment YouTube, pour identifier des sujets tendance et ajuster la visibilité de certains résultats. Cela ouvre des opportunités concrètes — à condition de bien comprendre comment ces signaux s’imbriquent.

Des vidéos alignées avec les requêtes = boost garanti

Lorsqu’une vidéo YouTube porte exactement le même titre qu’une requête tapée dans Perplexity, celle-ci est systématiquement mise en avant. Cela suggère que l’algorithme intègre une forme de correspondance directe entre les tendances de recherche et les contenus populaires sur YouTube.

Autrement dit, si vous créez une vidéo autour d’un sujet chaud (ex : “Comment fonctionne le ranking Perplexity AI ?”) avec ce titre exact, et que cette vidéo commence à générer un peu de traction, elle peut être automatiquement propulsée dans les réponses fournies par Perplexity.

Les tendances croisées comme signal d’intérêt utilisateur

Au-delà de YouTube, l’algorithme semble capter les tendances multi-plateformes : ce que les gens recherchent sur Google, ce qui buzz sur Reddit, ce qui se discute sur X ou LinkedIn. Le moteur cherche à capter des signaux « chauds » : qu’est-ce qui intéresse les gens en ce moment ? Et si votre contenu s’inscrit dans cette dynamique, vous gagnez en exposition.

Comment en profiter stratégiquement

Voici quelques actions concrètes à envisager :

Utiliser exactement les mots-clés de requêtes tendance dans vos titres YouTube ou posts LinkedIn.
Synchroniser vos publications entre plateformes : une vidéo + un post + un article autour du même sujet/titre.
Suivre les requêtes montantes via Google Trends ou Perplexity Discover (leur système de suggestions automatiques).

6. Scraping, robots.txt et controverses éthiques

Derrière l’efficacité redoutable de Perplexity se cache une méthode beaucoup plus discutable : selon plusieurs experts, le moteur d’IA ne respecterait pas les règles de base du web, à commencer par le fichier robots.txt, censé empêcher le crawl non autorisé de certaines pages. L’étude de Metehan Yeşilyurt et les analyses croisées publiées sur Abondance et Search Engine Land pointent une réalité troublante : Perplexity scrape massivement les contenus du web… même quand on lui demande de ne pas le faire.

Un contournement actif des protections

En théorie, tout moteur de recherche ou crawler respecte les indications du fichier robots.txt, qui sert à définir ce qu’un site accepte ou non de rendre public. Perplexity, de son côté, se ferait passer pour un navigateur classique, avec des user-agents type Chrome ou Firefox, pour contourner ces restrictions. Ces pratiques sont souvent qualifiées de « stealth crawling » (crawling furtif), un procédé bien connu dans l’univers des scrapers agressifs.

Autrement dit, si vous avez explicitement interdit à un robot d’indexer votre contenu, cela n’empêche pas Perplexity d’y accéder, de le lire, de l’ingérer, voire de le reformuler.

Des conséquences juridiques encore floues

La question du respect du copyright et des droits des éditeurs est donc loin d’être réglée. Perplexity n’est pas le seul à être concerné : OpenAI, Google et d’autres géants de l’IA sont déjà confrontés à des plaintes massives pour réutilisation de contenu sans autorisation. Mais la spécificité de Perplexity, c’est qu’il se positionne comme une interface de recherche « fiable », alors qu’en arrière-plan, il bypass les règles fondamentales de transparence du web.

Ce que cela implique pour vous

Si vous êtes éditeur de contenu, média ou consultant, il est possible que votre travail soit utilisé, reformulé ou résumé sans consentement explicite, même si vous l’avez protégé côté technique. Cela soulève une vraie question : comment rester visible sur ces plateformes, sans se faire voler la valeur de ce qu’on produit ?

7. Quel impact pour le SEO et les créateurs de contenu ?

Face à Perplexity, vous ne jouez plus uniquement avec les règles du SEO traditionnel. Vous entrez dans un écosystème où l’intention utilisateur, l’engagement instantané et la légitimité perçue prennent le dessus sur les backlinks ou les longues optimisations on-page. Et pour vous, créateur ou consultante SEO, cette nouvelle donne appelle des ajustements stratégiques clairs.

Le SEO technique ne suffit plus

Un site bien structuré, rapide, avec des balises bien en place ? C’est toujours utile, mais ça ne garantit plus rien sur Perplexity. L’algorithme ne va pas explorer tout le web. Il va chercher vite, scorer fort, et éliminer sans scrupule ce qui n’attire pas l’attention. Vous devez donc penser votre contenu comme un aimant à clics qualifiés, dès les premières heures de publication.

L’enjeu : la vitesse d’engagement

Le signal clé reste le new_post_ctr (taux de clics initial). Il faut donc :

publier à des heures stratégiques (audience active),
créer des titres ultra-ciblés et alignés avec les formulations des requêtes IA,
relayer vos contenus via newsletters ou réseaux dès la publication.

L’objectif est simple : créer un pic de trafic initial, sans quoi Perplexity vous ignore.

C’est ce qu’on constate déjà aussi sur le SEO traditionnel (Google/Bing) pour démontrer l’intérêt d’une page, en utilisant un facteur d’engagement (ici l’intérêt).

« Les créateurs qui réussiront demain sont ceux qui maîtrisent non seulement le SEO, mais aussi l’art de générer un pic d’engagement immédiat. »

« Le vrai moteur du classement IA ? Ce n’est pas seulement la qualité du contenu, mais la capacité à capter l’attention… dès la première seconde. »

Thibault Rocher – Consultant SEO – Le SEO by Tibo

Multicanal = plus de chances d’être vu

L’algorithme valorise les contenus qui circulent déjà ailleurs. Un article partagé sur LinkedIn, une vidéo complémentaire sur YouTube, un post Reddit qui reprend votre sujet… Tout cela renforce vos chances d’être sélectionné dans les réponses IA. En 2025, le SEO n’est plus mono-plateforme : il est interconnecté.

Pour exister dans l’écosystème des IA, il faut penser votre contenu comme un signal global, diffusé et amplifié sur plusieurs plateformes en même temps. Je crois sincèrement au pouvoir des communautés, portée par vos réseaux sociaux.
Thibault Rocher – Consultant SEO – Le SEO by Tibo

Et l’éthique dans tout ça ?

C’est la question brûlante : comment rendre ses contenus visibles sans se faire aspirer leur valeur par les IA ? Il n’y a pas de réponse unique. Mais en comprenant les mécaniques internes de moteurs comme Perplexity, vous pouvez reprendre le contrôle : adapter votre diffusion, protéger vos contenus sensibles, ou au contraire les rendre visibles sur des plateformes stratégiques.

8. Que retenir de Perplexity et de son L3 ?

Perplexity n’est pas un simple gadget d’IA : c’est un nouvel acteur de la recherche d’information, avec un modèle qui bouleverse les standards du SEO traditionnel. Grâce à son architecture en trois couches (L3), il trie, reclasse et filtre les contenus selon une logique hybride mêlant machine learning, engagement immédiat et signaux sociaux. Ce système redéfinit ce qu’est un contenu pertinent… et ce qu’il faut faire pour émerger.

Ce que vous devez retenir :

🧠 L’intelligence de classement de Perplexity repose sur 59 facteurs, allant du taux de clic instantané à la similarité sémantique, en passant par la fraîcheur ou l’autorité perçue.
🧲 Il privilégie les contenus déjà engageants, déjà partagés, déjà visibles ailleurs (LinkedIn, Reddit, YouTube…).
⚠️ Il scrape sans toujours respecter les robots.txt, et reformule les contenus sans lien vers la source, posant de vraies questions juridiques et éthiques.
📉 Si votre contenu n’est pas déjà attractif, déjà cliqué, déjà reconnu… il n’existe tout simplement pas dans son écosystème.

Nos recommandations pour vous adapter :

Optimisez vos titres comme des questions de recherche, simples, directs, alignés avec les intentions utilisateurs.
Publiez de manière synchronisée sur plusieurs canaux pour envoyer un signal fort : votre contenu mérite l’attention.
Surveillez les tendances via YouTube, Google Trends et Reddit, pour produire au bon moment.
Protégez vos contenus sensibles si vous ne souhaitez pas qu’ils soient absorbés, résumés, puis recyclés par l’IA.

🎯 Le SEO évolue, et Perplexity en est un laboratoire vivant. Vous n’avez pas besoin de tout changer. Mais vous devez comprendre les nouvelles règles du jeu si vous voulez que votre contenu continue à exister, à convaincre, et à convertir. Sinon, rapprochez vous d’un consultant SEO pour vous faire accompagner. C’est dans cette dimension que je peux vous aider à améliorer votre indexation et prendre le nouveau virage de l’information et de la visibilité en ligne.

Thibault Rocher

Mes publications >

Partager l'article :

Articles relatifs

17/04/2025

Trouvez les meilleurs prompts ChatGPT pour votre activité

🧠 Pourquoi les prompts sont devenus les nouveaux outils indispensables du marketing Le marketing digital est en perpétuelle évolution. Depuis...

Thibault Rocher