Il miglior modo per imparare la scienza dei dati è occuparsene. All’insegna di questo motto Avira ha collaborato con l’ Università del Liechtenstein partecipando al seminario “Data Science” del semestre invernale 2016/2017, incentrato su un problema reale di scienza dei dati. Liene Blija, Christian Holder, Jan Plojhar, e Martin Lukšík sono i quattro coraggiosi studenti che hanno accettato la sfida e affrontato uno dei problemi di previsione con cui noi di Avira che ci occupiamo di Customer Insights Research dobbiamo fare i conti. Gli studenti hanno lavorato sotto la supervisione di Manuel Eugster e Michaela Beckenbach.
La sfida
La sfida era quella di prevedere il comportamento utente dopo un errore di Avira Antivirus. Più precisamente, gli studenti hanno ricevuto un campione di dati relativi a eventi di errore, installazione e disinstallazione specifici di un dispositivo.
L’obiettivo era quello di individuare modelli di codici di errore che inducono l’utente alla disinstallazione. La figura qui sopra chiarisce il concetto: una serie di eventi di errore con il codice 5 causa la disinstallazione del prodotto e uno stato di agitazione dell’utente. Al contrario, gli eventi di errore con il codice 1 causano una reinstallazione (se non è presente un codice di errore 4 principale), mentre i codici di errore 2 e 3 non determinano alcuna azione dell’utente. Ovviamente si tratta di un esempio molto semplificato e, come avrebbero presto scoperto gli studenti, la realtà della scienza dei dati è un po’ più complessa…
Il progetto ha coperto l’intero ciclo di vita della scienza dei dati. Ecco alcune delle sfide affrontate dagli studenti: in primo luogo, i dati relativi agli eventi non sono pronti per la classica modellazione predittiva e la progettazione (intelligente) delle funzionalità ha un ruolo fondamentale. In secondo luogo, i dati non sono equilibrati; in altre parole solo in un piccolo numero di casi si arriva realmente a una disinstallazione. In terzo luogo, le loro soluzioni dovevano essere completamente riproducibili e, per esempio, facilmente applicabili a un nuovo campione di dati riferito a un periodo di tempo diverso.
Students from @uni_li here at @Avira talking and discussing about their data science project. Awesome! pic.twitter.com/f0euEoGdNo
— Manuel J. A. Eugster (@mjaeugster) November 15, 2016
I risultati
Il team ha utilizzato diversi metodi per analizzare i dati da diversi punti di vista. Per una prima analisi esplorativa gli studenti hanno fatto ricorso a comuni visualizzazioni statistiche, come grafici di serie temporali, abbinate alla più sofisticata tecnica del process mining. Attraverso il process mining gli studenti si sono fatti una prima idea dell’eventuale presenza di combinazioni di eventi che generano modelli comuni (che non comportano necessariamente una disinstallazione). Sulla base di queste informazioni e di alcune nozioni settoriali, sono state progettate funzionalità potenzialmente utili. Per mettere a punto un modello predittivo, il team ha poi messo a confronto diversi algoritmi lineari e non lineari (regressione logistica, macchine a vettori di supporto, alberi di classificazione e foreste casuali) di un insieme di addestramento per trovare l’algoritmo migliore. Dalle loro analisi è emerso che l’algoritmo migliore era la foresta casuale, con una precisione pari a circa il 75% in un insieme di dati equilibrato.
Presentazione
Gli studenti hanno presentato i risultati finali in occasione del secondo 4ländereck Data Science Meetup ospitato dall’Università del Liechtenstein. Il lavoro degli studenti ha rappresentato una prima prova del fatto che è possibile individuare modelli di codici di errore correlati a una disinstallazione. Questa informazione è molto preziosa per noi e ci incentiva a migliorare i nostri prodotti, ad esempio con un sistema di supporto proattivo.
Ci congratuliamo con gli studenti per la brillante gestione di questo progetto di scienza dei dati!
Questo articolo è stato scritto da Manuel Eugster e Michaela Beckenbach.