Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

Au revoir, Alexa. Bonjour, Cloudflare Radar Domain Rankings

2022-09-30

Lecture: 6 min.
Cet article est également disponible en English et en Deutsch.

Internet est un organisme vivant. Les changements technologiques, l'évolution des comportements humains, les événements sociaux, les perturbations intentionnelles et d'autres événements modifient l'Internet de manière imprévisible, même pour un œil averti.

Goodbye, Alexa. Hello, Cloudflare Radar Domain Rankings

Cloudflare Radar est depuis longtemps une ressource incontournable, permettant d'accéder à des données et des informations exclusives sur l'utilisation d'Internet par les personnes et les organisations du monde entier, ainsi que sur les changements imprévisibles affectant Internet.

L'une des fonctionnalités les plus appréciées de Radar a toujours été « Most Popular Domains » (les domaines les plus populaires), qui offre des perspectives à la fois mondiales et nationales. Les signaux d'utilisation des domaines fournissent une perception du comportement des utilisateurs dans le temps, et offrent une représentation fiable de ce que font les personnes sur Internet.

Aujourd'hui, nous allons plus loin avec le lancement d'un nouvel ensemble de données appelé Radar Domain Rankings (Beta). Domain Rankings est basé sur les données agrégées du résolveur 1.1.1.1, rendues anonymes conformément à nos engagements en matière de confidentialité. Cet ensemble de données a pour objectif d'identifier les domaines les plus populaires en fonction de l'utilisation d'Internet par les personnes dans le monde entier, sans toutefois suivre l'utilisation d'Internet par les individus.

Il y a plusieurs raisons pour lesquelles nous faisons cela maintenant. La première est évidemment d'améliorer les fonctionnalités de Radar avec de meilleures données et d'incorporer les nouveaux enseignements. Par ailleurs, les listes de classements sont utilisées partout sur Internet, dans toutes sortes de systèmes. Alexa était l'une des sources les plus consultées et fiables de classement des domaines, mais ce service a récemment été rendu obsolète. Nous pensons être en bonne position pour proposer une alternative fiable.

Regardons maintenant comment nous l'avons créée.

Différences entre les noms de domaine

Avant de nous intéresser à la science des données sur laquelle repose Domain Rankings, il est important de comprendre ce que sont un domaine et un DNS. Les noms de domaine Internet sont constitués de lettres, de chiffres et de traits d'union lisibles par l'homme, séparés par des points, et correspondent à une ressource du réseau, telle qu'un serveur ou un site web. Cependant, votre ordinateur et vos applications ne savent pas quoi faire d'un nom de domaine ; ils ont besoin d'adresses IP pour envoyer et recevoir des informations sur le réseau. Le DNS est le système qui convertit, ou résout, un nom de domaine en une adresse IP. Vous pouvez le considérer comme un annuaire Internet des noms de domaine.

Remarque : il s'agit d'une simplification. Une nouvelle norme appelée « Internationalized Domain Names » (ou IDN) permet d'utiliser des chaînes Unicode dans les noms de domaine.

Chaque point définit un nouveau niveau hiérarchique, en lisant de droite à gauche. Les domaines peuvent comporter plusieurs niveaux de profondeur. Le niveau le plus élevé correspond aux domaines de premier niveau, avec un code pays (ccTLD) tel que .uk, .fr ou .pt, ou des domaines de premier niveau génériques (gTLDs) tels que .com, .org, ou .net. Ces domaines sont normalement attribués et gérés par des entités nationales ou des organisations administratives exploitant un registre.

Il existe ensuite les domaines de deuxième niveau, tels que cloudflare.com ou google.com. Ces domaines sont normalement achetés et enregistrés par des particuliers ou des organisations, qui sont ensuite libres de créer et gérer autant de noms d'hôtes et de niveaux hiérarchiques qu'ils le souhaitent.

Malheureusement, toutefois, il existe des exceptions. Par exemple, de nombreux pays utilisent un enregistrement de domaine de deuxième niveau. C'est notamment le cas du Royaume-Uni où, initialement, les domaines commerciaux pouvaient uniquement être enregistrés sous la hiérarchie .co.uk. Ensuite, la politique a changé. Google, par exemple, a initialement enregistré google.co.uk, mais n'a jamais changé pour google.uk. Toutefois, les deux domaines sont enregistrés.

Mais ce n'est pas tout. Certains pays utilisent des enregistrements de domaine de troisième niveau. Un exemple est le Japon, qui propose l'enregistrement de domaines régionaux sous des villes, comme *.aisai.aichi.jp.

Les projets tels que Public Suffix List constituent un bon point de départ pour comprendre les variations impliquées et la manière dont elles affectent les validations et les suppositions dans d'autres systèmes, comme les cookies dans les navigateurs web.

Domain Rankings prend en compte certaines de ces nuances, afin d'informer l'élaboration de notre ensemble de règles actuel :

  • Nous limitons toutes les informations aux domaines de deuxième niveau, tels que cloudflare.com ou google.com.

  • Cependant, si le deuxième niveau est .edu, .com, .org, .gov, .net, .gov, .net, .co ou .mil, nous utilisons les domaines de troisième niveau.

  • Nous ne faisons pas de distinction entre ce que nous pensons être un site web ou un système d'infrastructure. Un domaine représente une ressource accessible sur Internet.

  • À l'avenir, nous allons également semi-automatiser, dresser et tenir à jour une liste de domaines correspondant à des plateformes et des services populaires. Par exemple : fb.audio, fb.com et fb.watch renvoient tous à une plateforme « facebook ».

Définir la popularité

Les définitions sont importantes. Nous avons établi ce que nous considérons comme un domaine, mais que signifie exactement la popularité d'un domaine ? Nos recherches ont démontré que le volume de trafic généré vers un domaine donné ne constitue pas vraiment une représentation de ce que nous considérons comme « populaire ». Domain Rankings s'intéresse plutôt à la taille de la population d'utilisateurs consultant un domaine par unité de temps. Plus le nombre de personnes s'intéressant à un domaine est élevé, plus celui-ci est populaire.

Cela semble assez simple, non ? En réalité, ça ne l'est pas. Nos bases de données ne contiennent pas de cookies, d'adresses IP ou d'autres artefacts de suivi, et nous supprimons intrinsèquement de toutes nos données toute information permettant d'identifier un individu.

La bonne nouvelle, cependant, est que nous identifions très efficacement le trafic automatisé (par exemple, vous pouvez lire sur notre blog des articles consacrés à la gestion des bots et à notre utilisation de l'apprentissage automatique pour détecter les bots dans le trafic HTTP). Nous avons constaté que nous pouvions obtenir une représentation raisonnable de l'indicateur d'utilisateurs uniques sans sacrifier la confidentialité, en utilisant d'autres points de données que nous conservons pour une durée limitée, tels que l'ASN et les informations de géolocalisation de haut niveau de la requête ou du datacenter Cloudflare l'ayant servie.

L'indicateur de popularité de Domain Rankings peut être décrit comme la taille relative estimée de la population d'utilisateurs accédant à un domaine sur une certaine période de temps.

Notre approche

Nous avons annoncé 1.1.1.1, notre résolveur grand public priorisant la confidentialité en 2018 ; au fil des ans, il a évolué pour devenir l'un des principaux services DNS dans le monde. 1.1.1.1 fait également partie d'un accord de recherche avec APNIC, dans le cadre duquel nous collaborons en effectuant des recherches publiques et en générant des connaissances issues des données du DNS.

Les données issues de notre résolveur que nous collectons respectent nos engagements en matière de confidentialité, et sont agrégées et dépouillées de toute information susceptible de mener à l'identification ou au suivi des utilisateurs. Nous avons demandé à l'un des quatre plus grands groupes d'audit financier de réaliser un examen de la confidentialité du résolveur 1.1.1.1, afin de déterminer si ce dernier était effectivement configuré pour respecter nos engagements en matière de confidentialité. Vous pouvez en apprendre davantage à ce sujet dans cet article de blog, et le rapport intégral est disponible publiquement sur notre page consacrée à la conformité.

Même en l'absence de ces informations d'identification personnelle, la collection de données obtenue est vaste et représentative de l'activité sur Internet.

Le service 1.1.1.1 est utilisé de nombreuses façons. Les utilisateurs habituels (humains) d'Internet l'utilisent comme leur résolveur DNS, soit parce qu'eux-mêmes l'ont explicitement configuré sur leurs appareils, soit parce que leur FAI l'a fait, soit parce qu'ils utilisent WARP, soit parce que leur navigateur utilise 1.1.1.1 dans l'envers du décor. Cependant, les serveurs et l'infrastructure du cloud, les appareils IdO, les routeurs domestiques et les bots utilisent eux aussi fréquemment 1.1.1.1, ce qui nous lance de nombreux défis lorsque nous essayons d'identifier le trafic humain.

Nous utilisons les données DNS pour calculer les domaines les plus fréquentés et les plus en vue sur les pages mondiales et nationales de Cloudflare Radar. Nous avons beaucoup appris en essayant d'améliorer ces listes. Nous avons eu recours aux agrégations, aux comptages, aux filtres, au traitement des exceptions, et nous avons essayé de réduire le « bruit » ; néanmoins, elles sont encore loin d'être parfaites. Nous étions persuadés qu'il devait exister une meilleure façon de faire.

Nous avons passé les six derniers mois à élaborer différents modèles d'apprentissage automatique pour nous aider à prédire le rang d'un domaine.

L'élaboration du modèle n'a pas été une mince affaire. Nous avons d'abord réalisé des expériences avec des types de régression multiple, afin de comprendre précisément les effets du modèle, puis avec des algorithmes plus complexes, afin d'obtenir de meilleures performances. Nous avons réalisé des expériences avec différents ensembles de données, modifié les groupes de population, les variables (caractéristiques) et les combinaisons de variables, et nous avons utilisé des données synthétiques.

Après évaluation, l'une de nos premières conclusions a été qu'il serait difficile de construire un modèle capable de produire de bons résultats pour les domaines les mieux classés et la « longue traîne ».

La publication « A Long Way to the Top: Significance, Structure, and Stability of Internet Top Lists » décrit bien ce problème. « Le classement des domaines de la longue traîne devrait reposer sur des chiffres considérablement moindres, et donc moins fiables. » Lorsque nous avons échangé avec notre équipe de recherche, qui a présenté la publication collaborative « Toppling Top Lists: Evaluating the Accuracy of Popular Website Lists » lors du forum IMC 2022, nous sommes parvenus à la même conclusion : les domaines les plus populaires (tels que google.com et facebook.com) ont des valeurs de caractéristique disproportionnellement supérieures à celles des domaines de classement inférieur.

Nous avons donc sélectionné les deux modèles les plus performants. Un modèle a été formé avec la population présentant les valeurs de caractéristiques les plus élevées ; il utilise plus de caractéristiques, et nous l'utilisons pour générer la liste ordonnée des 100 premiers domaines. Un deuxième modèle a été formé avec un groupe plus général de domaines ; il utilise moins de caractéristiques, et nous l'utilisons pour obtenir le million de domaines les plus populaires, que nous divisons ensuite en groupes par classement.

Ces groupes sont classés, mais le contenu de chaque groupe est intentionnellement non ordonné. Par exemple, le deuxième groupe des 10 000 domaines les plus populaires inclut l'ensemble de domaines classés de 10 001 à 20 000, mais ne fournit aucune autre indication sur le classement individuel des domaines dans ce groupe. Compte tenu de la taille de certains de ces groupes et de l'intervalle que nous utilisons pour les remplir, ils sont par ailleurs intrinsèquement exposés à davantage d'instabilité. Nous pensons qu'il s'agit d'un bon compromis entre les incertitudes naturelles décrites dans notre modèle de « longue traîne » et la fourniture d'une représentation raisonnable de la proximité du sommet d'un domaine.

Résultats

Il est important de préciser qu'il n'existe pas de vision globale permettant d'établir un classement parfait et qu'il n'existe aucun mécanisme simple permettant de confirmer si un classement est, en fin de compte, pertinent. Les résultats basés sur des données sont toujours sujets à une mesure de biais et de distorsion liée au contexte des organisations et des systèmes qui les collectent. Parfois, tout ce que nous pouvons faire, c'est faire preuve de transparence quant aux sources potentielles de biais. La répartition géographique des clients et des utilisateurs, les caractéristiques du produit, les caractéristiques de la plateforme et la diversité des comportements jouent un rôle essentiel dans le résultat final. Nous présentons la vision de Cloudflare ; ce que nous, nous voyons.

Cela étant dit, Cloudflare occupe une position privilégiée et traite un volume de trafic Internet important. Nous disposons de nombreux signaux que nous pouvons extraire de nos données agrégées, et nous pensons que cela nous permet de générer des classements de domaines de qualité élevée.

Domain Rankings est disponible dès aujourd'hui. Vous pouvez accéder à la page Domains pour le consulter :

  • Liste ordonnée des 100 domaines les plus populaires dans le monde et par pays, sur la base de notre premier modèle. 24 dernières heures, mise à jour quotidienne.

  • Ensembles de données des domaines les plus populaires du monde, non ordonnés, divisés en groupes des tailles suivantes : 200, 500, 1 000, 2 000, 5 000, 10 000, 20 000, 50 000, 100 000, 200 000, 500 000, 1 000 000. 7 derniers jours, mise à jour hebdomadaire.

Prochaines étapes

Nous continuerons à améliorer Domain Rankings et à surveiller les résultats. Tous peuvent les consulter sur Cloudflare Radar, accéder aux résultats et télécharger les fichiers CSV.

N'hésitez pas à explorer Domain Rankings et à nous faire part de vos commentaires.

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
Birthday Week (FR)Cloudflare Radar (FR)DNS (FR)Nouveautés produitsDomain Rankings

Suivre sur X

Celso Martinho|@celso
Cloudflare|@cloudflare

Publications associées

24 octobre 2024 à 13:00

Durable Objects aren't just durable, they're fast: a 10x speedup for Cloudflare Queues

Learn how we built Cloudflare Queues using our own Developer Platform and how it evolved to a geographically-distributed, horizontally-scalable architecture built on Durable Objects. Our new architecture supports over 10x more throughput and over 3x lower latency compared to the previous version....