Qu’est-ce que k-means ?
Le k-means est un algorithme de regroupement automatique de données. Il divise un ensemble d’éléments en plusieurs groupes appelés « clusters ».
Chaque groupe regroupe des éléments similaires entre eux et différents des autres groupes. Le mot « k » désigne le nombre de groupes à créer.
Cet algorithme est couramment utilisé en intelligence artificielle, en traitement de données et en analyse de marché.
À quoi sert k-means ?
Le k-means permet de trouver des structures cachées dans un grand ensemble de données. Il aide à dévoiler des groupes naturels sans avoir besoin d’être supervisé.
Il est utilisé dans plusieurs domaines, tels que :
- Segmenter des clients selon leurs comportements d’achats.
- Analyser des tendances dans des enquêtes.
- Optimiser des campagnes marketing.
- Détecter des fraudes ou anomalies dans des données financières.
- Organiser automatiquement des documents ou des images en catégories.
Dans les RH, il peut servir à classer des profils candidats selon des critères communs (compétences, parcours, localisation).
Comment fonctionne k-means ?
L’algorithme suit un processus simple et répétitif. Il commence par choisir k centres de groupes au hasard. Ces centres sont appelés « centroids ».
Ensuite, chaque élément du jeu de données est associé au centre le plus proche. Les centres sont ensuite recalculés en fonction des éléments qui leur sont attribués.
Ce processus se répète jusqu’à ce que les groupes deviennent stables. Cela signifie que les éléments ne changent plus de groupe à chaque itération.
Il est dit non supervisé parce qu’il ne nécessite pas de données étiquetées à l’avance. L’algorithme « découvre » les regroupements par lui-même.
Différences avec des notions proches
Le k-means est un algorithme de regroupement. Il ne doit pas être confondu avec une classification supervisée, où chaque élément a déjà une étiquette connue.
Par exemple, un algorithme de classification comme une régression logistique prédit une catégorie précise. Le k-means, lui, ne sait rien des catégories : il les crée à partir des données.
Il est aussi différent du clustering hiérarchique, qui construit une arborescence de groupes imbriqués. Le k-means attribue chaque élément à un groupe unique, sans hiérarchie.
Enfin, k-means suppose que chaque groupe est de forme circulaire et de taille similaire, ce qui ne convient pas à tous les types de données.
Exemples ou cas d’usage concrets
Une entreprise veut adapter ses offres à différents types de clients. Elle collecte les données d’achat de 10 000 utilisateurs. En appliquant le k-means avec k=4, elle trouve quatre segments comportementaux : récurrents, occasionnels, premium, sensibles au prix.
Une application RH souhaite recommander des formations ciblées aux salariés. Elle utilise le k-means pour identifier des profils d’apprentissage. Elle détecte cinq types de trajectoires qui guident ensuite les actions de montée en compétence.
Une société de cybersécurité analyse les connexions sur son réseau. Le k-means révèle des groupes d’activités normales et un groupe anormal : celui-ci attire l’attention comme signal potentiel d'intrusion.
Ces exemples montrent comment cet algorithme peut soutenir des décisions stratégiques fondées sur des données.
.webp)