University @Avira: Predicting error-related user behavior in Avira Antivirus - Benutzerverhalten, comportement de l'utilisateur, comportamento utente

@Avira à l’Université : Prédire le comportement de l’utilisateur dans Avira Antivirus

La meilleure façon d’étudier la science des données est de s’y adonner. C’est dans cette perspective qu’Avira a entamé une collaboration avec l’Université du Liechtenstein et participé au séminaire de « Data Science » organisé dans le cadre du semestre d’hiver 2016/2017 en soumettant un problème de science des données issu du monde réel. Liene Blija, Christian Holder, Jan Plojhar et Martin Lukšík, quatre étudiants courageux, ont relevé le défi de s’attaquer à l’un des problèmes de prédiction du service Customer Insights Research d’Avira. L’équipe travaillait sous la supervision de Manuel Eugster et Michaela Beckenbach.

Le défi

Le défi relevé consistait à prédire le comportement de l’utilisateur confronté à des erreurs dans Avira Antivirus. Plus précisément, les étudiants avaient à disposition un échantillon de jeu de données constitué d’erreurs spécifiques et d’événements de type installation et désinstallation.

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 01

Ils avaient pour but d’identifier des schémas types dans lesquels les codes d’erreur rencontrés menaient à une désinstallation du produit. La figure ci-dessus illustre le concept : une série d’erreurs portant le code d’erreur 5 conduit à une désinstallation du produit et donc à la perte du client. Par ailleurs, les erreurs portant le code d’erreur 1 conduisent à une réinstallation (en l’absence d’erreur initiale portant le code d’erreur 4), alors que les codes d’erreur 2 et 3 n’entraînent aucune action de la part de l’utilisateur. Ceci reste une illustration ultra-simplifiée et nos étudiants auront vite pu réaliser que la réalité de la science des données est quelque peu plus complexe.

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 02

Le projet couvrait l’intégralité du Data Science Lifecycle (cycle de vie de la science des données). La petite équipe a ainsi été confrontée à plusieurs challenges : tout d’abord, les données d’événements ne se prêtent pas aisément à la modélisation prédictive classique et l’ingénierie (sophistiquée) des fonctionnalités joue un rôle déterminant. Ensuite, les données ne sont aucunement équilibrées : seul un petit nombre de cas aboutit réellement à la désinstallation du produit. Enfin, ils se devaient de fournir des solutions entièrement reproductibles et notamment facilement applicables à tout autre échantillon de jeu de données portant sur une période différente.

Résultats

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 03

L’équipe a utilisé diverses méthodes d’analyse des données selon différentes approches. Dans le cadre d’une première analyse exploratoire, ils ont ainsi eu recours à des visualisations statistiques courantes comme des séries chronologiques ou à des techniques plus sophistiquées comme le process mining. Ce dernier leur a permis d’établir l’existence de combinaisons d’événements pouvant aboutir à des schémas identiques (et non forcément à une désinstallation). Sur la base de ces informations et d’une solide connaissance du domaine, ils ont mis au point des fonctionnalités présentant un puissant potentiel. Enfin, l’équipe a testé divers algorithmes linéaires et non linéaires (régression logistique, machine à vecteurs de support, apprentissage par arbre de décision et forêts d’arbres décisionnels) sur un jeu de test afin d’identifier le meilleur modèle prédictif. Selon leurs analyses, la forêt d’arbres décisionnels affichait la meilleure performance, avec une précision d’environ 75 % sur un jeu de données équilibré.

Présentation

Les étudiants ont présenté leurs résultats finaux lors du second forum 4ländereck Data Science Meetup organisé par l’Université du Liechtenstein. Leurs travaux ont été accueillis comme une première démonstration de faisabilité illustrant la détection possible de schémas de codes d’erreurs directement liés aux désinstallations. Ces informations extrêmement précieuses viennent conforter nos perspectives d’amélioration de nos produits, notamment en ce qui concerne la proactivité de notre offre de support.

Nous félicitons les étudiants pour la grande maîtrise dont ils ont fait preuve dans ce projet de science des données !

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 05

Article co-écrit par Manuel Eugster et Michaela Beckenbach.

Cet article est également disponible en: AnglaisAllemandItalien