[🔥] Cloudflare et son Pay Per Crawl: Le "Me Too" de l'IA générative
Le scraping sauvage de contenu à laquelle tous les éditeurs de contenus sont soumis de force depuis la prise d'assault du web par les LLMS, vient de prendre un mur. Il s'appelle le Pay Per Crawl.
Ce mois de juillet, notre communauté était partenaire du RAISE Summit où se tenait LA conférence à ne pas louper, vu l’actualité des semaines passées, sur le positionnement de Cloudflare face à l'intelligence artificielle.
Je n’ai pas de boule de cristal, mais je suis ces histoires d’AI, de Search et de contenu depuis assez longtemps maintenant pour pouvoir affirmer qu’un mur vient de se dresser face au scraping illimité – pour ne pas dire sauvage – des données du web par les bots LLMs. Ce que je ne connais pas c’est la solidité de ce mur.
Cloudflare est devenue la première grande infrastructure du web à faire du blocage des robots IA la norme :
Pour tout nouveau site enregistré sur sa plateforme, la question est désormais posée d'office : autorisez-vous le pillage de votre contenu ?
Ce passage d'un modèle où il fallait se désinscrire ("opt-out") (tu dà un modèle où il faut donner son consentement explicite ("opt-in") est un séisme. J'appelle ça le « Me Too » de l'IA Générative. La fin d'une ère d'impunité, portée par un géant par qui transite 20 % du trafic mondial (quand même).
Le problème : créer du contenu vaut-il encore le coup ?
Le contrat tacite entre les créateurs et les moteurs de recherche était simple :
“tu créés du bon contenu, du contenu qui répond à l’intention de recherhce des utilisateurs de mon moteur de recherche” //
“Je te référence le plus haut possible dans mes pages de résultat de recherche (aka : je fais ce que je dois pour que l’utilisateur clique sur le lien de ton site)” //
“quand il clique, l’utilisateur t’envoie du trafic que tu peux monétiser”.
Sauf qu’en utilisant l’IA Générative pour transformer son moteur de recherche en un moteur de réponse - donc en donnant la réponse directement à l’utilisateur - Google a rompu le contrat.
Les éditeurs de site web sont furieux.
Le débat s'est envenimé lorsque des entreprises comme Perplexity ont été accusées de contourner les protocoles robots.txt
de grands éditeurs, brisant le peu de confiance qui restait dans ce système historique.
Les chiffres sont brutaux :
Des données de Cloudflare montrent qu'OpenAI explore un site 1 700 fois pour générer une seule référence, contre 14 fois pour Google. Un coût énorme pour les éditeurs, pour un bénéfice quasi nul.
Similarweb confirme la tendance : la chute massive du trafic organique n'est absolument pas compensée par les quelques renvois depuis les chatbots.
Une question centrale apparait :
Si réellement créer du contenu ne permet que très rarement d’être visible dans les résultats des LLMs et que les rares fois où ils le sont, presque plus personnes ne cliquent, est-ce que ça vaut toujours le coup de créer du contenu ?
Si la réponse est non, les créateurs de contenu sont fondés à se dire : “finalement, pourquoi laisser les robots IA piller leurs sites ?”
La solution : Le « Pay Per Crawl » de Cloudflare
Face à ce chaos, Cloudflare ne se contente pas de bloquer. L'entreprise propose une troisième voie : la facturation. Elle a lancé une place de marché nommée « Pay Per Crawl » (Payer par page explorée).
Le fonctionnement est clair :
Les éditeurs fixent eux-mêmes leurs tarifs sur la marketplace pour chaque page explorée par un robot IA.
Les entreprises d'IA peuvent accepter ces tarifs et payer pour accéder au contenu, ou refuser et être bloquées.
Ce faisant, Cloudflare se positionne en intermédiaire financier, gérant des transactions.
L'initiative a immédiatement reçu le soutien de poids lourds de l'industrie - évidemment des médias principalement.
Plus d'une douzaine d'acteurs majeurs comme Condé Nast, The Associated Press, Gannett, The Atlantic, mais aussi Reddit, Pinterest et Universal Music Group ont applaudi le modèle.
Pour Roger Lynch, PDG de Condé Nast, c'est « une étape essentielle vers la création d'un juste échange de valeur sur Internet ». Neil Vogel, PDG de Dotdash Meredith, se réjouit de pouvoir désormais « limiter l'accès à notre contenu aux partenaires d'IA disposés à s'engager dans des accords équitables ».
Sur le papier, c'est un gros changement. C’est en tous les cas une avancée notable dans le tourbillon du scraping et le désespoir de tous les éditeurs de contenus qui voient des années d’efforts et d’investissement dans le deal “Contenu => trafic =>€€€” voler en éclats.
Je comprends tant la colère que l’euphorie dans ce dossier.
Pour autant, je suis pas encore en train de danser sur mon bureau je vous avoue.
Les questions qui fâchent
En devenant le péage financier de l'IA, Cloudflare s'octroie un pouvoir immense.
Tranquillement mais surement, on est en train de troquer un monopole contre un autre. Et cela soulève pas mal de problèmes.
Le prix sera-t-il juste ?
Au début, toute somme sera une bénédiction. Mais comment les prix seront-ils fixés à terme ? Comment Cloudflare calculera-t-il sa commission ? Pour tenter de répondre, Cloudflare a annoncé que les robots IA pourront déclarer leur objectif (entraînement, indexation...). Mais qui vérifiera cette déclaration ? Et comment seront tarifés ces différents usages ? On aura des réponses à ces questions sur la durée. Dans l’intervalle, c’est un vrai sujet..
Un web pour les riches ?
Ce système de paiement du scraping ne va t-il pas déboucher sur une autre forme de discrimination : Les AI crawlers qui auront bcp d’argent crawleront tout - ca donnera un web constitué encore plus majoritairement des grands acteurs de l’IA et d’une flopée de média déjà existant - quid des petits créateurs de contenu non “médias officiels” et des nouveaux venus de l’IA (alternative à Open AI & co) qui n’auraient pas les moyens de payer - et seront donc laissés sur le carreau ?
Le chantage à la visibilité.
Et si les robots IA crawlers de contenu refusaient de payer ? Ils se concentreraient sur le contenu gratuit. Ils se déporteront sur d’autre contenus qui eux, seront référencés dans l’IA et les éditeurs payants seraient alors privés de visibilité, piégés dans un dilemme cornélien - et retardant encore d’avantage cette remise en question de leur modèle auquel ils ont été contraint de réfléchir depuis 18 mois.
Et l'utilisateur dans tout ça ?
Le souci principal c’est que Cloudflare propose finalement un nouveau modèle de l’internet ou le contenu qui sera proposé (ou pas) dans ces résultats générés par l’IA se fasse au terme d’un deal exclusif entre seulement 2 acteurs : l’éditeur de contenu et le crawler IA.
Finalement l’utilisateur final (vous et moi) n’aura plus sa voix au chapitre et sera exclut de cette relation ce qui, sur la durée pourra généré l’inverse des résultats recherchés : un web qui sera constitué de contenus qui seront auto déclarés de qualité par les créateurs eux même - sans jamais être confronté à l’intérêt de ces contenu par le lecteur/ consommateur final.
Ce modèle crée une relation exclusive entre l'éditeur et le robot IA, ou nous (vous et moi) sommes exclus de l'équation. Le risque est de créer un web où le contenu mis en avant par l'IA n'est pas le plus pertinent, mais simplement celui dont le créateur a signé le bon deal. Un web rempli de contenus que les créateurs déclarent eux-mêmes comme étant "de qualité", sans que ça ne soit jamais validé par l'intérêt réel de ceux qui les lisent.
Est-ce franchement une bonne solution ? Il est trop tôt pour le dire. Personnellement, j’ai l’impression dans le retour dans le passsé (qui en l’occurrence, ne me rajeunis pas).
Retour à la case départ (aux tous débuts du web…) ?
Cette situation n'est pas sans rappeler les débuts du web.
À l'époque, Yahoo! et CompuServe régnaient en maîtres. Les premiers résultats de recherche n'étaient pas les plus pertinents, mais ceux des annonceurs qui payaient pour être en haut de la page.
Débarque Google.
Google qui fait ses débuts en devenant le moteur de recherche en marque blanche de Yahoo!
Puis qui très rapidement devient incontournable et s’impose comme LE moteur de recherche qui change toute la donne car il introduit un tiers essentiel dans cette relation bipartite : l'utilisateur.
Les résultats des pages de recherche du moteur deviennent classés en fonction de leur qualité et de leur popularité (le fameux PageRank), et non plus du portefeuille de leur créateur.
Certes, c’est comme ça qu’est né Google et son monopole.
Mais c’est aussi comme ça qu’internet, grâce à Google, a démocratisé et rendu quasiment gratuit, l’accès à l’information mondiale à n’importe qui dans le monde, doté d’une simple connexion internet.
C’est aussi comme ça qu'est né le référencement naturel (SEO), un pan de l’industrie du marketing digital qui génère aujourd’hui des miliards de dollars et a créé des millions d’emplois.
Le modèle "Pay Per Crawl", s'il est mal encadré, risque de nous faire faire un bond de 25 ans en arrière.
Si je suis intéressée de voir comment tout cela évolue, en l’état je suis perplexe.
Offerwall de Google : une alternative sérieuse ?
L'outil « Offerwall » de Google permet aux éditeurs de monétiser leur audience directement (via un sondage, une publicité, un micro-paiement).
Elle reste une alternative intéressante même si, comme elle vient de Google à qui tous les créateurs de contenu en veulent, elle ne sera sans doute pas considérée (en tous cas au début).
Je pense personnellement qu’elle se considère sérieusement car elle a au moins le mérite de recentrer le débat sur la relation créateur-audience, là où la valeur se crée vraiment.
Et oui… il s’agirait de ne pas l’oublier : ultimement, c’est à l’utilisateur final d’un contenu que le créateur s’adresse, car c’est lui son client final - pas l’intermédiaire financier Cloudflare.
La structuration du chiffres d’affaires du créateur de contenu (quand il est créateur de contenu à des fins marketing, pas parce que c’est son métier) est un indicateur essentiel de la bonne santé financière de n’importe quelle entreprise : si le chiffres d’affaires généré par la création de contenu provient davantage de la rémunération de Cloudflare que du produit de l’entreprise que le contenu devait aider à faire vendre, l’entreprise a changé de métier… et de client. Son client principal devient … Cloudflare.
En soi, c’est un changement qui peut être financièrement ok, mais l’entrepreneur doit avoir une pleine conscience de ce glissement et de l’impact qu’il aura sur la suite de son business - à commencer par les risques connus qu’il y’a à avoir un chiffre d’affaires structuré majoritairement par un client).
Conclusion : Wait & See
L'initiative de Cloudflare donne un coup de frein brutal au pillage sauvage des contenus et à la prise d’assault du web par les robots LLMs scrapeurs de contenu qui paraissait instopable.
Evidemment, c’est bien. C’est sain.
Mais j’attend quand même de voir ce que tout ca va donner.
Parce que l'histoire de ces 25 premières années du web nous l'a appris : un écosystème sain ne peut exister sans un équilibre entre créateurs, plateformes et, surtout, l'intérêt de l'utilisateur final. L'oublier, c'est prendre le risque de construire un futur de l'information moins riche, moins diversifié et, au fond, moins intelligent.
Admettez qu’à l’ère ou tout n’est qu’intelligence (même artificielle) ça serait balot.