De nouveaux outils pour surveiller votre serveur et éviter les temps d'arrêt

Le fait qu’un serveur tombe en panne constitue un problème important. Aujourd'hui, Cloudflare introduit deux nouveaux outils pour vous aider à comprendre les temps d'arrêt de vos serveurs d'origine et à y répondre plus rapidement. Nous introduisons par ailleurs un nouveau service pour éviter automatiquement les temps d'arrêt.

Voici ces nouvelles fonctionnalités :

Des contrôles d’intégrité autonomes (Standalone Health Checks) qui vous avertissent dès que nous détectons des problèmes sur votre serveur d'origine, sans avoir besoin d'un équilibreur de charge Cloudflare.
La surveillance passive des serveurs d'origine (Passive Origin Monitoring), qui vous permet de savoir quand votre serveur d’origine n'est pas accessible, sans qu'aucune configuration ne soit nécessaire.
Le basculement sans aucun temps d’arrêt (Zero-Downtime Failover), qui peut éviter automatiquement les défaillances en réessayant les requêtes adressées au serveur d'origine.

Standalone Health Checks

Notre premier nouvel outil est Standalone Health Checks qui vous avertira dès que nous détectons des problèmes sur votre serveur d’origine, sans avoir besoin d'un équilibreur de charge Cloudflare.

Un Health Check ou contrôle d’intégrité est un service qui fonctionne sur notre réseau périphérique pour surveiller si votre serveur d'origine est en ligne. Les contrôles d’intégrité constituent un élément clé de notre service d'équilibrage de charge car ils nous permettent d'acheminer rapidement et activement le trafic vers les serveurs d'origine qui sont en ligne et prêts à desservir les requêtes. Les contrôles d’intégrité autonomes vous permettent de surveiller la santé de vos serveurs d'origine, même si vous n'en avez qu'un seul, ou si vous n'avez pas encore besoin d'équilibrer le trafic dans votre infrastructure.

Nous vous avons fourni de nombreuses dimensions pour vous permettre d'affiner exactement ce que vous souhaitez vérifier, y compris le code de réponse, le type de protocole et l'intervalle. Vous pouvez spécifier un chemin particulier si votre serveur d’origine dessert plusieurs applications, ou vous pouvez vérifier un sous-ensemble plus important de codes de réponse pour votre environnement de préproduction. Toutes ces options vous permettent de bien cibler votre contrôle d’intégrité, en vous donnant ainsi une image précise de ce qui ne va pas au niveau de votre service origine.

Si l'un de vos serveurs d'origine devient indisponible, vous recevrez une notification vous informant du changement d’intégrité, ainsi que des informations détaillées sur la panne afin que vous puissiez prendre des mesures pour le rétablir.

Enfin, une fois que vous avez configuré vos contrôles d’intégrité sur les différents serveurs d'origine, vous souhaiterez peut-être voir les tendances ou les principaux serveurs d’origine non-intègres. Grâce à Health Check Analytics, vous pourrez visualiser tous les événements de changement pour un contrôle d’intégrité, isoler les serveurs d’origine qui présentent de graves dysfonctionnements ou qui ne fonctionnent pas correctement, et adopter des actions correctives. De plus, dans un avenir proche, nous nous efforçons de vous donner accès à tous les événements bruts des contrôles d’intégrité afin que vous soyez en mesure de comparer les journaux d'événements des contrôles d’intégrité Cloudflare aux journaux internes des serveurs.

Les utilisateurs des offres Pro, Business ou Enterprise auront accès aux contrôles d’intégrité autonomes et à Health Check Analytics pour promouvoir la fiabilité des applications de couche supérieure et leur permettre d’optimiser la confiance dans la marque auprès de leurs clients. Vous pouvez accéder aux contrôles d’intégrité autonomes et à Health Check Analytics par le biais de l'application Traffic dans le tableau de bord.

Surveillance passive des serveurs d'origine

Les contrôles d’intégrité autonomes constituent un moyen très souple de comprendre ce qui se passe au niveau de votre serveur d'origine. Cependant, ils nécessitent d’anticiper avant qu'une panne ne survienne. C'est pourquoi nous sommes heureux de vous présenter la Surveillance passive des serveurs d’origine (Passive Origin Monitoring), qui vous avertira automatiquement lorsqu'un problème survient (aucune configuration n’est requise).

Cloudflare sait quand votre serveur origine est en panne, car c'est nous qui essayons de l'atteindre pour desservir le trafic ! Lorsque nous détectons un temps d'arrêt de plus de quelques minutes, nous vous envoyons un e-mail.

Dès aujourd'hui, vous pouvez configurer les alertes de surveillance des serveurs d'origine pour qu'elles soient envoyées à plusieurs adresses e-mail. Les alertes de surveillance des serveurs d'origine sont disponibles dans le nouveau centre de notification (plus d'informations ci-dessous) du tableau de bord Cloudflare :

La surveillance passive des serveurs d'origine est disponible pour les clients sur toutes les offres Cloudflare.

Failover avec zéro temps d'arrêt

Quoi de mieux que d'être averti des temps d'arrêt ? Faire en sorte de ne jamais avoir de temps d'arrêt ! Avec le failover avec zéro temps d'arrêt, nous pouvons automatiquement réessayer les requêtes vers les serveurs d'origine, avant même que l'équilibrage de charge n'entre en fonction.

Principe de fonctionnement Si une requête vers votre origine échoue, et que Cloudflare a un autre enregistrement pour votre serveur d'origine, nous allons simplement essayer une autre serveur origine dans la même requête HTTP. L'autre enregistrement peut être soit un enregistrement A/AAAA configuré via le DNS Cloudflare, soit un autre serveur d'origine dans le même pool d'équilibrage de charge.

Considérons un site Web, exemple.com, qui a des serveurs Web à deux adresses IP différentes : 203.0.113.1 et 203.0.113.2. Avant le failover avec zéro temps d'arrêt, si 203.0.113.1 devient indisponible, Cloudflare tentera de se connecter, échouera, et finalement transmettra une page d'erreur à l'utilisateur. Avec le failover avec zéro temps d'arrêt, si 203.0.113.1 ne peut être atteint, alors le proxy de Cloudflare tentera de se connecter de manière transparente à 203.0.113.2. Si le second serveur peut répondre, alors Cloudflare peut éviter d’envoyer une erreur à l'utilisateur du site exemple.com.

Depuis que nous avons lancé le failover avec zéro temps d'arrêt il y a quelques semaines, nous avons empêché des dizaines de millions de requêtes par jour d'échouer !

Le failover avec zéro temps d'arrêt fonctionne conjointement avec l'équilibrage de charge (Load Balancing), les contrôles d’intégrité autonomes et la surveillance passive des serveurs d'origine pour maintenir le bon fonctionnement de votre site Web. Les contrôles d’intégrité et l'équilibrage de charge peuvent prévenir l'échec, mais prennent du temps à entrer en fonction. Le failover avec zéro temps d'arrêt fonctionne instantanément, mais ajoute une latence à chaque tentative de connexion. Dans la pratique, le failover avec zéro temps d'arrêt est utile au début d'un événement, lorsqu'il peut se rétablir instantanément après des erreurs ; une fois qu'un contrôle d’intégrité a détecté un problème, un équilibreur de charge peut alors intervenir et réacheminer correctement le trafic. Et si aucun serveur d’origine n'est disponible, nous enverrons une alerte via la surveillance passive des serveurs d'origine.

En guise d'exemple pratique, considérez un incident d'un client récent. Ce dernier a constaté un pic d'erreurs au niveau de son serveur d’origine qui aurait normalement fait chuter la disponibilité (ligne rouge), mais grâce au failover avec zéro temps d'arrêt, sa disponibilité réelle est restée stable (ligne bleue).

Pendant une période de 30 minutes, le failover avec zéro temps d'arrêt a amélioré la disponibilité globale de 99,53 % à 99,98 % et a empêché que 140 000 requêtes HTTP n'aboutissent à une erreur.

Il est important de noter que nous essayons seulement de réessayer les requêtes qui ont échoué pendant la phase de connexion TCP ou TLS, ce qui garantit que les en-têtes HTTP et le payload n’ont pas encore été transmis. Grâce à ce mécanisme de sécurité, nous sommes en mesure de faire du failover avec zéro temps d'arrêt le comportement par défaut de Cloudflare pour les offres Pro, Business et Enterprise. En d'autres termes, le failover avec zéro temps d'arrêt rend les connexions à vos serveurs d’origine plus fiables sans qu'aucune configuration ou action ne soit nécessaire.

Très prochainement : plus de notifications, plus de flexibilité

Nos clients nous demandent toujours plus d'informations sur la santé de leur infrastructure de périphérie critique . Les contrôles d’intégrité et la surveillance passive des serveurs d’origine constituent une étape importante vers l'adoption par Cloudflare d'une approche proactive plutôt que réactive aux informations.

Pour appuyer ce travail, nous annonçons aujourd'hui le Centre de notification comme lieu central de gestion des notifications. Il est dorénavant disponible dans le tableau de bord, accessible depuis la page d'accueil de votre compte.

À partir de cet endroit, vous pouvez créer de nouvelles notifications et visualiser les notifications existantes que vous avez déjà configurées. La publication d'aujourd'hui vous permet de configurer les notifications de surveillance passive des serveurs d'origine et de définir plusieurs destinataires d'e-mails.

Nous sommes enthousiasmés par les lancements d'aujourd'hui qui visent à aider nos clients à éviter les temps d'arrêt. En fonction de vos commentaires, nous avons prévu de nombreuses améliorations qui pourront vous aider à obtenir les informations dont vous avez besoin en temps voulu :

Nouveaux mécanismes de transmission des notifications
Plus d'événements pouvant déclencher des notifications
Des options de configuration avancées pour les contrôles d’intégrité, y compris des protocoles ajoutés, des notifications basées sur des seuils et des changements d'état basés sur des seuils.
Plus de façons de configurer les contrôles d’intégrité passifs, comme la possibilité d'ajouter des seuils et de filtrer des codes de statut spécifiques

Le blog Cloudflare

De nouveaux outils pour surveiller votre serveur et éviter les temps d'arrêt

Standalone Health Checks

Surveillance passive des serveurs d'origine

Failover avec zéro temps d'arrêt

Très prochainement : plus de notifications, plus de flexibilité

R2 Data Catalog: Managed Apache Iceberg tables with zero egress fees

Cloudflare enables native monitoring and forensics with Log Explorer and custom dashboards

Upgraded Turnstile Analytics enable deeper insights, faster investigations, and improved security

Banish bots from your Waiting Room and improve wait times for real users