min read

La gestion des incidents : les 7 étapes clés

Qui n’a pas déjà été interrompu alors qu’il travaillait sur un projet ? Qui n’a pas déjà eu le sentiment d’être désorganisé après avoir été interrompu dans sa tâche ? C’est le quotidien des équipes de gestion d’incidents. Comment faire pour permettre ces interruptions nécessaires tout en limitant leur impact sur la productivité des équipes ? C’est la question à laquelle nous allons tenter de répondre ici, en dessinant un cadre de gestion des incidents.

La gestion des incidents : les 7 étapes clés

Avant de plonger dans les 7 étapes clés de la gestion des incidents, il faut comprendre 1 des coûts à ne pas mettre en place une organisation à la hauteur des enjeux. Ce coût est difficile à calculer mais simple à comprendre.

Il s’agit des interruptions intempestives de travail.

Les interruptions quotidiennes sont coûteuses pour les entreprises. On peut ainsi identifier trois types de coûts liés à ces interruptions. 

Les 3 coûts cachés des interruptions quotidiennes

  1. Le premier de ces coûts - et le plus évident - est le changement de contexte : à chaque fois qu’un collaborateur est interrompu dans son travail, il perd son contexte de travail, prend le temps de répondre à son interlocuteur puis doit se replonger dans ses tâches. Or, une fois que notre état d’extrême concentration et de productivité a été interrompu - également défini sous la notion de Flow -, il nous faut parfois jusqu’à 15 minutes pour se retrouver dans un état similaire.

  2. Par ailleurs, si l’on observe ce phénomène d’interruptions du travail au sein d'une équipe, on remarque que le collaborateur interrompu est souvent le même, “celui qui sait”, quel que soit l’objet de la demande. Le manque de partage de connaissances représente un coût important pour l’entreprise. Outre le fait que cette personne sur sollicitée est dans l’incapacité de faire avancer ses tâches, ce mode de fonctionnement l’enferme dans une position de sachant. Il est le seul à savoir et aucun autre membre de l’équipe ne pourra le remplacer. 

Il s’agit donc de trouver un moyen de briser ce cercle vicieux. Partager la connaissance au sein d’une équipe, améliorer sans cesse la connaissance individuelle et collective est la garantie d’un risque moindre pour l’entreprise et la possibilité donnée à chacun de progresser. En cas de problème, si la connaissance est détenue par plusieurs collaborateurs, l’entreprise sera capable de réagir vite avec des idées claires et originales et d’aboutir à une bonne solution. 

  1. La conséquence immédiate des interruptions permanentes et de la concentration de connaissances, c’est la perte de motivation. Comment est-ce que je peux me réaliser si je ne progresse pas ? Comment est-ce que je peux faire avancer mes projets si je suis sans cesse interrompu dans mon travail ? Jusqu’au jour où ce collaborateur quitte l’entreprise pour mieux s'accomplir ailleurs.

Et c’est pour limiter au maximum ces coûts pour l’entreprise qu’il est essentiel de mettre en place un processus de gestion d’incidents, l’objectif étant de réduire les interruptions intempestives et de permettre aux équipes de rester concentrer sur la réalisation de leurs tâches à valeur ajoutée.

Le graal c’est ensuite de mettre en place un système, soit par des outils ou des pratiques, qui permet de capitaliser sur les incidents passées afin d’accélérer l’analyse des incidents en cours.

Qu’est-ce qu’un incident ?

Un incident est un événement imprévu qui vient dégrader partiellement ou totalement un service ou une organisation donnée (merci ITIL). En d’autres termes, un incident est tout ce qui diminue la qualité d’un service : de la dégradation du Wi-Fi interne à l’indisponibilité de votre logiciel de paie la veille de partir en vacances.

Attention toutefois, à ne pas confondre incident et problème. On parle de problème lorsque l’on ne connaît pas la cause sous-jacente (root cause) d’un comportement considéré comme anormal. Ce comportement est identifiable et caractérisé et n’a pas forcément donné lieu à un incident. Dans la pratique, de manière quasi-systématique, un problème est provoqué par un ou plusieurs incidents ou par un incident récurrent.

Plan de réponse aux incidents: quelle plus-value?  

La gestion d'incidents est le processus de gestion des interruptions des services informatiques conformément aux accords de prestation de service (GTR). Ce processus englobe l'ensemble des étapes allant du signalement d’un problème par le biais d’une alerte de surveillance ou par un utilisateur final jusqu’à la résolution du problème par les équipes identifiées. 

Élément fondamental de l’organisation d’une structure ou même d’un projet, la gestion d’incidents doit faire l’objet d’un plan ou d’un processus afin d’en garantir la maîtrise. Ce plan a pour objectifs de :

  • élaborer une démarche cohérente pour faire face à tout type d’incident,
  • gérer la communication,
  • gérer l’engagement des parties prenantes pendant la résolution de l’incident, 
  • résoudre rapidement et efficacement les incidents, 
  • détenir des statistiques fiables sur les incidents récurrents, 
  • constituer une base de connaissances sur les traitements appliqués aux incidents,
  • renforcer la cohésion des équipes,
  • maintenir le niveau de productivité des équipes tout au long de la résolution de l’incident.

Quelle que soit la taille de l’entreprise, l’élaboration du plan de gestion des incidents doit a minima prévoir d’inclure, en plus des équipes support, l’ensemble de la ligne managériale. En effet, il faut se préparer au pire plutôt que d’improviser au dernier moment lorsque le niveau de stress est à son apogée.

Qui est responsable du service ?
Qui utilise ce service ?
À qui communiquer ?
Comment communiquer ?
A quel moment communiquer ?
Quelles informations communiquer ?

Dans ces moments, la communication est clé pour désamorcer les questions et les frustrations.

Les sept étapes de la gestion des incidents

1. Identification et déclaration de l’incident : le ticket

La première étape du plan de réponse aux incidents consiste à identifier l’incident en le déclarant dans un outil de suivi des incidents, par le biais d’un ticket. Le ticket d’incident contient tout le suivi des actions techniques tout au long de la vie de l’incident.

La fiche de déclaration d’incident doit contenir a minima un titre clair et concis, un niveau de priorité ainsi qu’un descriptif exhaustif des impacts identifiés.

2. Qualification des impacts et priorisation du traitement de l’incident

L’étape suivante consiste à qualifier l’incident. Il s’agit ici de classifier l’incident selon un niveau de priorité pouvant être défini en fonction du niveau d’impact de l’incident, de la population concernée, des risques,...

Pour plus de détails sur cette partie, vous pouvez consulter notre article “De l’incident à la crise : comment éviter l’escalade ?”

3. Communication à l’attention des parties prenantes

Pour la plupart des incidents l’ensemble de l’activité sera suivi dans l’outil de ticketing.

Dans le cadre d’un incident majeur, le dispositif mis en place doit insister sur la communication à l’ensemble des parties prenantes.

La qualité de la communication déterminera le niveau de sérénité des acteurs de l’incident.

Quatre groupes d’acteurs jouent un rôle essentiels :

  • Les gestionnaires d’incidents : C’est le groupe clé qui fera le liant avec les autres acteurs. Ils vont décider d'une ligne de conduite, suivre, relancer et communiquer au bon moment les bonnes informations aux autres acteurs.
  • Le management : le fait d’informer le management, notamment le directeur informatique (DSI, CTO, RSSI), des incidents majeurs en cours contribue à la responsabilisation de l’entreprise. Le management doit être tenu informé de toutes les mesures prises et doit être sollicité aussi souvent que nécessaire pour prendre des décisions.
  • Les équipes support / techniques / opérationnelles : Impliquées depuis la création du ticket, les équipes supports doivent rester concentrées sur la résolution de l’incident. Ils doivent rester dans un état de Flow et n’être dérangé que pour faire avancer les investigations. Leur rôle est crucial.
  • Utilisateurs finaux / clients internes : pour un climat apaisé, les clients internes et/ou les utilisateurs finaux doivent être tenus informés aussi souvent que nécessaire pour éviter “l’effet tunnel”.

En tant que chef d’orchestre, les gestionnaires d’incidents vont gérer l’engagement des parties prenantes tout le long de la procédure de gestion de l’incident. Les acteurs clés doivent être continuellement informés de toutes les actions menées et à mener.

Le plan de communication de gestion d’incidents doit contenir à minima :

  • la liste des canaux de communication 
  • la fréquence des communications 
  • les types d'événements qui doivent générer des notifications ou des alertes à l'attention des différents acteurs

4. Mobilisation d’une équipe dédiée à la résolution de l’incident

Pour garder une qualité de service optimale, il faut savoir résoudre les incidents de manière efficace et pour ça, la bonne pratique est de régulièrement se poser ces 3 questions :

  • A-t-on mobilisé les bonnes équipes techniques ?
  • A-t-on le bon niveau d’expertise ?
  • Doit-on préparer la relève ?

Et agir en conséquence, sans attendre.

Encore une fois, les gestionnaires d’incidents ont un rôle important. Ils sont au centre des débats et au-delà du rythme, ils vont donner le cadre et faire respecter la direction des investigations.

5. Résolution de l'incident

Il s’agit de l’étape de la résolution effective de l’incident pour les utilisateurs finaux, avec potentiellement une solution temporaire.

La priorité des équipes techniques est de rétablir le service dans les meilleurs délais. Point.

Trouver la solution définitive n’est pas prioritaire. Cela peut être fait dans un deuxième temps, après de nouvelles investigations.

6. Bilan post-correction

Le suivi de l’incident après l'application du correctif ne doit pas être négligé. Il s’agit de rédiger un post-mortem qui permettra d’apporter une conclusion à la résolution d’un incident. La rédaction d’un post-mortem est un travail collaboratif qui permet de dresser un bilan exhaustif d’un incident et de sa résolution.

C’est le moment de se poser les bonnes question sur :

  • L’apparition de l’incident (dû à quoi ?)
  • Sa récurrence
  • Sa cause sous-jacente (root cause)
  • Le respect des procédures
  • La réactivité des équipes
  • La fiabilisation avec les actions d’amélioration (procédures, infrastructures, outils, analyse, …)

7. Clôturer l’incident et enrichir votre base de connaissances

Une fois le correctif définitif appliqué, l’incident peut être clôturé. La base de connaissances de l’organisation doit ensuite être enrichie avec les données suivantes : 

  • la cause sous-jacente à la source de l’incident
  • les impacts négatifs de l’incident
  • les traitements appliqués pour résoudre l’incident
  • les personnes et/ou leur profil, ayant travaillé à la résolution de l’incident
  • le délai de résolution, en précisant le temps écoulé entre :
    - la déclaration de l’incident et sa prise en charge
    - la prise en charge de l’incident et sa résolution
    - la résolution et la clôture de l’incident

Ces données constitueront le rapport de gestion d'incidents.

En conclusion, la gestion efficace des incidents est primordiale pour les entreprises. Elle garantit la continuité des services, minimisant les interruptions et optimisant la satisfaction des utilisateurs. Une réponse rapide préserve la réputation de l'entreprise et démontre sa réactivité. Par ailleurs, elle offre une occasion d'amélioration continue, en identifiant et en rectifiant les vulnérabilités du système. Cette gestion aide également à économiser des ressources et à éviter les coûts liés à des défaillances répétées. Pour certaines branches, c'est aussi une nécessité pour se conformer aux normes réglementaires. En somme, elle est essentielle pour la compétitivité et la fiabilité d'une entreprise à l'ère numérique.