Das Internet ist ein lebender Organismus. Technologische Veränderungen, Veränderungen im menschlichen Verhalten, soziale Ereignisse, absichtliche Störungen und andere Ereignisse verändern das Internet auf unvorhersehbare Weise, selbst für das geschulte Auge.
Cloudflare Radar ist seit langem die Anlaufstelle für den Zugriff auf Daten und einzigartige Einblicke in die Art und Weise, wie Menschen und Organisationen das Internet weltweit nutzen, sowie in die unvorhersehbaren Veränderungen des Internets.
Eine der beliebtesten Funktionen auf Radar ist seit jeher die Liste der „beliebtesten Domains“, die sowohl globale als auch länderspezifische Perspektiven bietet. Domain-Nutzungssignale sind ein Indikator für das Verhalten der Nutzer im Laufe der Zeit und geben einen guten Eindruck davon, was die Menschen im Internet machen.
Heute gehen wir noch einen Schritt weiter und stellen einen neuen Datensatz namens Radar Domain Rankings (Beta) vor. Domain Rankings basiert auf aggregierten 1.1.1.1 Resolver-Daten, die gemäß unseren Datenschutzverpflichtungen anonymisiert sind. Der Datensatz zielt darauf ab, die beliebtesten Domains zu identifizieren, die darauf basieren, wie Menschen das Internet weltweit nutzen, ohne die Internetnutzung von Einzelpersonen zu verfolgen.
Es gibt einige Gründe, warum wir dies jetzt tun. Eine davon ist natürlich, unsere Radar-Funktionen mit besseren Daten zu verbessern und neue Erkenntnisse einzubeziehen. Außerdem werden Ranglisten überall im Internet in allen möglichen Systemen verwendet. Eine der meistgenutzten und vertrauenswürdigen Quellen für Domain-Rankings war Alexa, aber dieser Dienst wurde vor kurzem abgeschafft. Wir glauben, dass wir in einer guten Position sind, um eine starke Alternative zu bieten.
Werfen wir einen Blick darauf, wie wir es entwickelt haben.
Unterschiede bei Domain-Namen
Bevor wir uns mit der Data Science hinter Domain Rankings beschäftigen, ist es wichtig zu verstehen, was eine Domain und ein DNS sind. Internet-Domain-Namen sind durch Punkte getrennte Buchstaben, Ziffern und Bindestriche, die einer Netzwerkressource, wie einem Server oder einer Website, entsprechen. Ihr Computer und Ihre Anwendungen wissen jedoch nicht, was sie mit einem Domain-Namen anfangen sollen; sie benötigen IP-Adressen, um Informationen über das Netzwerk zu senden und zu empfangen. DNS ist das System, das einen Domain-Namen in eine IP-Adresse umwandelt bzw. auflöst. Betrachten Sie es als eine Art Internet-Telefonbuch für Domain-Namen.
Hinweis: Dies ist eine Vereinfachung. Ein neuer Standard, „Internationalized Domain Names“ (IDN) genannt, erlaubt die Verwendung von Unicode-Zeichenfolgen in Domain-Namen.
Jeder Punkt definiert eine neue Hierarchiestufe, von rechts nach links. Domains können mehrere Tiefenebenen haben. Die höchste Ebene entspricht den länderspezifischen Top-Level-Domains (ccTLDs) wie .uk, .fr, .de oder .pt, oder generische Top-Level-Domains (gTLDs) wie .com, .org, oder .net. Diese werden in der Regel entweder von ländereigenen Stellen oder von Verwaltungsorganisationen, die ein Register betreiben, zugewiesen und verwaltet.
Dann gibt es noch die Second-Level-Domains wie cloudflare.com oder google.com. Diese werden in der Regel von Einzelpersonen oder Organisationen erworben und registriert, denen es dann freisteht, so viele Hostnamen und Hierarchieebenen zu erstellen und zu verwalten, wie sie wollen.
Leider gibt es aber auch Ausnahmen. Viele Länder verwenden beispielsweise die Registrierung von Domains der zweiten Ebene (Second-Level-Domains). Ein Beispiel hierfür ist das Vereinigte Königreich, wo kommerzielle Domains zunächst nur unter der Hierarchie .co.uk registriert werden konnten. Später wurde diese Richtlinie geändert. Google zum Beispiel registrierte zunächst google.co.uk, änderte dann aber nie zu google.uk. Beide Domains sind jedoch registriert.
Aber das ist noch nicht alles. Einige Länder verwenden Domainregistrierungen der dritten Ebene. Ein Beispiel ist Japan, das die Registrierung regionaler Domains unter Städten wie *.aisai.aichi.jp anbietet.
Projekte wie die Public Suffix List ein guter Ausgangspunkt, um zu verstehen, welche Variationen es gibt und wie sie sich auf Validierungen und Annahmen in anderen Systemen auswirken, z. B. Cookies in Webbrowsern.
Domain Rankings berücksichtigt einige dieser Nuancen bei der Definition unseres aktuellen Regelwerks:
Wir fassen alles auf Second-Level-Domains zusammen, wie cloudflare.com oder google.com.
Ist die zweite Ebene jedoch .edu, .com, .org, .gov, .net, .gov , .co, oder .mil, dann verwenden wir Third-Level-Domains.
Wir unterscheiden nicht zwischen dem, was wir für eine Website oder ein Infrastruktursystem halten. Eine Domain stellt eine im Internet verfügbare Ressource dar.
Wir werden auch eine Liste von Domains, die beliebten Plattformen und Diensten zugeordnet sind, halbautomatisch erstellen und pflegen. Beispiel: fb.audio, fb.com, fb.watch, alle gehören zu einer „Facebook“-Plattform.
Popularität definieren
Definitionen sind wichtig. Wir haben festgelegt, was wir unter einer Domain verstehen, aber was genau bedeutet die Popularität einer Domain? Unsere Untersuchungen haben gezeigt, dass das Volumen des Traffics, das für eine bestimmte Domain generiert wird, nicht wirklich als Maßstab dafür dienen kann, was wir als populär ansehen. Stattdessen betrachtet Domain Rankings die Größe der Population von Nutzern, die eine Domain pro Zeiteinheit aufsuchen. Je mehr Menschen sich für eine Domain interessieren, desto beliebter ist sie.
Klingt ziemlich einfach, oder? Nun, dem ist nicht so. Unsere Datenbanken enthalten keine Cookies, IPs oder andere Tracking-Artefakte, und wir entfernen von vornherein Informationen, die zur Identifizierung einer Person führen, aus allen unseren Daten.
Die gute Nachricht ist jedoch, dass wir sehr gut in der Lage sind, automatisierten Traffic zu identifizieren (Sie können zum Beispiel in unserem Blog über Bot Management lesen und darüber, wie wir maschinelles Lernen einsetzen, um Bots im HTTP-Traffic zu erkennen). Wir haben herausgefunden, dass wir einen angemessenen Maßstab für die Kennzahl der einzigartigen Nutzer entwickeln können, ohne den Datenschutz zu opfern (indem wir andere Datenpunkte verwenden, die wir für einen begrenzten Zeitraum speichern, wie zum Beispiel die ASN und grobe Geolocation-Informationen der Anfrage oder das Cloudflare-Rechenzentrum, das die Anfrage übermittelt hat).
Die Popularitätskennzahl von Domain Rankings lässt sich am besten als die geschätzte relative Größe der Nutzerpopulation beschreiben, die über einen bestimmten Zeitraum auf eine Domain zugreift.
Unser Ansatz
Wir haben 1.1.1.1, unseren datenschutzfreundlichen DNS-Resolver 2018 angekündigt und im Laufe der Jahre ist er zu einem der besten DNS-Dienste der Welt geworden. 1.1.1.1 ist auch Teil einer a Forschungsvereinbarung mit APNIC, in deren Rahmen wir mit ihnen bei öffentlicher Forschung und DNS-Datenerkenntnissen zusammenarbeiten.
Die Daten, die wir damit erheben, entsprechen unseren Datenschutzverpflichtungen und werden zusammengefasst und von allen Informationen befreit, die zur Identifizierung oder Verfolgung von Nutzern führen könnten. Wir haben eine Datenschutzprüfung durch eine Big-Four-Wirtschaftsprüfungsgesellschaft durchgeführt, um festzustellen, ob der 1.1.1.1-Resolver tatsächlich so konfiguriert ist, dass er unsere Datenschutzverpflichtungen erfüllt. Sie können mehr darüber in diesem Blog-Beitrag lesen, und der vollständige Bericht ist öffentlich zugänglich auf unserer Compliance-Seite.
Auch ohne diese personenbezogenen Daten ist die Sammlung sehr umfangreich und repräsentativ für die Aktivitäten im Internet.
Der Dienst 1.1.1.1 wird in vielerlei Hinsicht genutzt. Normale (menschliche) Nutzer verwenden ihn als DNS-Resolver, entweder weil sie ihn ausdrücklich in ihren Geräten konfiguriert haben oder weil ihr ISP dies getan hat, oder weil sie WARP verwenden oder ihr Browser im Hintergrund 1.1.1.1 verwendet. Aber auch Server und Cloud-Infrastrukturen, IoT-Geräte, Heimrouter und Bots nutzen 1.1.1.1 intensiv, was uns bei dem Versuch, menschlichen Traffic zu identifizieren, vor eine Menge Herausforderungen stellt.
Wir haben DNS-Daten verwendet, um die Top- und Trend-Domains zu berechnen, die sowohl auf den globalen als auch auf den länderspezifischen Seiten von Cloudflare Radar zu finden sind. Wir haben bei der Verbesserung dieser Listen eine Menge gelernt. Wir haben Aggregationen, Zählungen, Filter und die Behandlung von Ausnahmen implementiert und versucht, das Rauschen zu reduzieren, aber sie sind noch lange nicht perfekt. Wir hatten das Gefühl, dass es einen besseren Weg geben muss.
Wir haben die letzten sechs Monate damit verbracht, eine Reihe von auf maschinellem Lernen basierende Modelle zu entwickeln, die uns helfen, den Rang einer Domain vorherzusagen.
Die Entwicklung des Modells war keine leichte Aufgabe. Wir haben zunächst mit mehreren Regressionstypen experimentiert, um genau zu wissen, was das Modell macht, und dann mit komplexeren Algorithmen, um eine bessere Performance zu erzielen. Wir haben mit verschiedenen Datensätzen gespielt, die Bevölkerungsgruppen, Variablen (Merkmale) und Kombinationen von Variablen geändert und synthetische Daten verwendet.
Eine unserer ersten Schlussfolgerungen nach der Evaluierung war, dass es schwierig sein würde, ein Modell zu entwickeln, das gute Ergebnisse für die am höchsten gerankten Domains und den Long Tail liefert.
Der Bericht „A Long Way to the Top: Significance, Structure, and Stability of Internet Top Lists“ beschreibt dieses Problem gut. „Das Ranking von Domains im Long Tail sollte auf deutlich kleineren und damit weniger verlässlichen Zahlen beruhen.“ Nach dem Gespräch mit unserem Forschungsteam das die gemeinsame Arbeit „Toppling Top Lists: Evaluating the Accuracy of Popular Website Lists” bei der IMC 2022 einreichten, kamen wir zu demselben Schluss: Die beliebtesten Domains (wie google.com und facebook.com) haben unverhältnismäßig höhere Merkmalswerte als die weiter hinten platzierten Domains.
Daher haben wir die beiden Modelle ausgewählt, die am besten abgeschnitten haben. Ein Modell wurde auf die Grundgesamtheit mit den höchsten Merkmalswerten trainiert, verwendet mehr Merkmale und wird zur Erstellung der Liste der gereihten Top-100-Domains verwendet. Ein zweites Modell wurde auf einer allgemeineren Gruppe von Domains trainiert, verwendet weniger Merkmale und wird verwendet, um die eine Million beliebtesten Domains zu ermitteln, die wir dann in Rankingbereiche einteilen.
Diese Bereiche sind geordnet, aber die Inhalte der einzelnen Bereiche sind absichtlich ungeordnet. Der zweite Bereich der 10.000 beliebtesten Domains umfasst beispielsweise die Domains, die zwischen 10.001 und 20.000 rangieren, gibt aber keine weiteren Hinweise auf den individuellen Rang der Domains in diesem Bereich. In Anbetracht der Größe einiger dieser Bereiche und des Zeitfensters, das wir für ihre Zusammensetzung verwenden, sind sie naturgemäß auch einer größeren Instabilität ausgesetzt. Wir halten dies für einen guten Kompromiss zwischen den beschriebenen natürlichen Unsicherheiten unseres Long-Tail-Modells und einer vernünftigen Vorstellung davon, wie nahe eine Domain an der Spitze liegt.
Ergebnisse
Es ist wichtig zu erwähnen, dass es keine globale Ansicht gibt, die den perfekten Rang festlegen kann, und es gibt keinen einfachen Mechanismus, um zu bestätigen, ob ein Rang letztendlich gut ist. Datengestützte Ergebnisse unterliegen immer einer gewissen Verzerrung, die mit dem Kontext der Organisationen und Systeme zusammenhängt, die sie erheben. Manchmal kann man nur versuchen, mögliche Quellen des Bias transparent zu machen. Die geografische Verteilung der Kunden und Nutzer, die Produkteigenschaften, die Plattformmerkmale und die Verhaltensvielfalt spielen eine wesentliche Rolle für das Endergebnis. Wir präsentieren die Cloudflare-Ansicht, was wir sehen.
Allerdings befindet sich Cloudflare in einer privilegierten Position und wickelt einen großen Teil des Internet-Traffics ab. Wir verfügen über eine Vielzahl von Signalen, die wir aus unseren aggregierten Daten extrahieren können, und sind davon überzeugt, dass dies die Erstellung hochwertiger Domain-Rankings ermöglicht.
Domain Rankings sind ab heute verfügbar. Sie können auf die Domains-Seite gehen und es überprüfen:
Geordnete Liste der 100 beliebtesten Domains weltweit und pro Land, basierend auf unserem ersten Modell. Der letzten 24 Stunden, täglich aktualisiert.
Ungeordnete Datensätze der weltweit beliebtesten Domains, unterteilt in Bereiche folgender Größen: 200, 500, 1.000, 2.000, 5.000, 10.000, 20.000, 50.000, 100.000, 200.000, 500.000, 1.000.000. Letzte 7 Tage, wöchentlich aktualisiert.
Nächste Schritte
Wir werden die Domain Rankings weiter verbessern und die Ergebnisse überwachen. Jeder kann sie auf Cloudflare Radar einsehen, die Ergebnisse lesen und die CSV-Dateien herunterladen.
Werfen Sie doch einen Blick auf unsere Domain Rankings und geben Sie uns Feedback.