University @Avira: Predicting error-related user behavior in Avira Antivirus - Benutzerverhalten, comportement de l'utilisateur, comportamento utente

Uni @Avira: Vorhersage von fehlerbezogenem Benutzerverhalten bei Avira Antivirus

Die beste Methode, etwas über Data Science zu lernen, ist es, mit Data Science zu arbeiten. Getreu diesem Motto arbeitete Avira mit der Universität Liechtenstein zusammen und stellte im Rahmen des Seminars „Data Science“ im Wintersemester 2016/2017 ein echtes Data-Science-Problem vor. Liene BlijaChristian HolderJan Plojhar und Martin Lukšík — vier mutige Studenten — wagten die Herausforderung, eines der Vorhersageprobleme in Angriff zu nehmen, dem wir von Customer Insights Research bei unserer Arbeit bei Avira begegnen. Die Studenten wurden von Manuel Eugster und Michaela Beckenbach betreut.

Die Aufgabe

Die Aufgabe, die es zu bewältigen galt, war die Vorhersage von fehlerbezogenem Benutzerverhalten bei Avira Antivirus. Genauer gesagt bekamen die Studenten ein Datensatz-Beispiel für gerätespezifische Fehler-, Installations- und Deinstallationsereignisse.

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 01

Ziel war es, Fehlercodemuster zu finden, die zu einer Deinstallation führen. Die Abbildung oben veranschaulicht die Idee dahinter: Eine Reihe von Fehlerereignissen mit Fehlercode 5 führen zu einer Deinstallation des Produkts und somit zu Ärger beim Benutzer. Fehlerereignisse mit dem Code 1 führen zu einer Neuinstallation (wenn es keinen führenden Fehlercode 4 gibt), während Fehlercodes 2 und 3 zu keiner Benutzeraktion führen. Das ist natürlich eine sehr vereinfachte Darstellung — wie auch die Studenten bald herausfinden sollten — denn die Realität von Data Science ist etwas komplexer…

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 02

Das Projekt deckte den gesamten Data -Science-Lebenszyklus ab und die Studenten mussten sich folgenden Problemen stellen: Erstens waren die Ereignisdaten nicht bereit für die Erstellung klassischer Vorhersagemodelle und (intelligentes) Feature Engineering spielte eine signifikante Rolle. Zweitens waren die Daten sehr unausgeglichen, was bedeutete, dass nur eine kleine Anzahl von Fällen wirklich zu einer Deinstallation führten. Drittens sollten ihre Lösungen vollkommen reproduzierbar und zum Beispiel auf einen neuen Datensatz, der einen anderen zeitlichen Rahmen abdeckt, einfach anwendbar sein.

Ergebnisse

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 03

Das Team nutzte verschiedene Methoden, um die Daten aus verschiedenen Perspektiven zu analysieren. Für eine erste explorative Datenanalyse nutzten sie allgemeine statistische Visualisierungen wie Zeitreihen-Diagramme und die anspruchsvollere Technik des Process Mining. Process-Mining gab ihnen eine erste Vorstellung davon, ob es Kombinationen von Ereignissen gibt, die allgemeine Muster erstellen (und nicht unbedingt zu einer Deinstallation führen). Basierend auf diesen Informationen und zusammen mit einigen Domain-Kenntnissen, wurden potenziell nützliche Features entwickelt. Zur Erstellung eines Vorhersagemodells bewertete das Team dann mehrere lineare und nicht lineare Algorithmen (logistische Regression, Support Vector Machines, Klassifikationsbäume und Random Forests) auf einem Trainingssatz, um den besten zu finden. Ihre Analysen zeigten, dass der Random-Forest-Algorithmus die beste Leistung und auf einem ausbalancierten Datensatz eine Genauigkeit von etwa 75% hatte.

Präsentation

Die Studenten präsentierten ihre endgültigen Ergebnisse auf dem zweiten 4ländereck Data Science Meetup, das von der Universität Liechtenstein ausgerichtet wurde. Die Arbeit der Studenten war der erste Proof of Concept, der uns gezeigt hat, dass es möglich ist, Muster von Fehlercodes mit einer Beziehung zur Deinstallation zu erkennen. Dies ist eine wertvolle Information für uns — sie unterstützt unsere Idee der Verbesserung unserer Produkte, zum Beispiel mit einem proaktiven Support-System.

Wir gratulieren den Studenten, dass sie dieses Data-Science-Projekt so erfolgreich gemeistert haben!

University @Avira: Predicting error-related user behavior in Avira Antivirus - in-post 05

Dieser Artikel wurde von Manuel Eugster und Michaela Beckenbach verfasst.

Dieser Artikel ist auch verfügbar in: EnglischFranzösischItalienisch