Big Data

Couchdoop und andere Projekte — Big Data bei Avira

Schnelles Denken, intensives Denken

Die Big Data-Herausforderungen:

  1. Daten der Firma verarbeiten, um detaillierte Einblicke in Themen wie Kundenverhalten oder Bedrohungsszenarien zusammenzutragen. Dafür nutzen wir Apache Hadoop. In 5 bis 10 Minuten kann man damit eine Analyse ausführen, ganz gleich, ob der Algorithmus die Daten eines ganzen Jahres oder nur die von ein paar Tagen benötigt.
  2. Entscheidungen in Echtzeit auf Grundlage der vorliegenden Live-Daten treffen, wobei man dafür nur 50 bis 100 Millisekunden Zeit für eine Entscheidung hat. Diese Problematik ist am schwersten zu erfassen, obwohl die technischen Lösungen seit etwa zwei Jahren sich deutlich verbessert haben.

Im E-Commerce liegt der Unterschied zwischen tiefgreifenden und schnellen Erkenntnissen zum Beispiel darin, dass man weiß, dass jemand a) ein aktiver Triathlet ist, aber b) im Moment vielleicht damit beschäftigt ist, Vorbereitungen für den Valentinstag zu treffen.

Beide Herangehensweisen bergen große technische Herausforderungen mit Einschränkungen in Bezug auf die Hardware (z. B. Festplatten und RAM). Innovationen sind daher weitgehend in Open-Source-Software-Projekten zu finden. Eine Vielzahl von Ingenieuren auf der ganzen Welt ist an einer Reihe von Projekten beteiligt, die in den vergangenen paar Jahren aus dem Boden geschossen sind.

In einem algorithmischen Consumer-Business wie bei Avira besteht der Trick darin, ein System zu entwickeln, welches beide Herausforderungen gleichzeitig bewältigt. Zudem muss es in der Lage sein, komplexe Anwendungen wie Malware-Erkennung, Suchmaschinen oder Online-Shopping-Empfehlungen zu unterstützen. Es handelt sich um das Maschinen-Pendant zu Schnelles Denken, langsames Denken (Kahneman, 2012).

Deutsche Technik trifft Silicon Valley

Bei Avira begann die Big Data-Reise, die uns zu Couchdoop führte, bereits Ende 2012. Wir waren auf der Suche nach Bridging-Technologien, die beide Arten der Analyse beinhaltet, und enttäuscht von den verfügbaren Open-Source-Möglichkeiten. HBase war zu zerbrechlich für unsere Echtzeitanwendungen. Es hätte ein eigenes Infrastrukturteam sowie Server-Cluster gebraucht, um eine stabile Nutzung zu gewährleisten, selbst unter Verwendung einiger Frameworks. Sicher eine geeignete Option für große Unternehmen mit Hunderten von Datenanalytikern und -ingenieuren wie Google oder Facebook. Aber zu unhandlich für ein flexibles, (mobiles) Internet-Unternehmen wie das unsere. Wir waren im Wesentlichen ein Start-up mit einer Million Kundenbesuchen pro Stunde. Anderen Technologien fehlte scheinbar die Dynamik in der Engineering-Community.

Nachdem wir uns also einige Monate die Zähne an HBase ausgebissen hatten – und nach einem besonders regnerischen kalifornischen Winter –, kam der Durchbruch während eines Gesprächs mit einem VC-Freund, der den Kontakt zu Bob Wiederhold herstellte, CEO von Couchbase. Couch DB war schon einige Jahre in der Open Source Community bekannt. Getreu ihrem Spitznamen hatten sie sich bereits einen guten Ruf für Schnelligkeit und Zuverlässigkeit erarbeitet.

Bob und sein Team in Mountain View waren bereits dabei, Couch DB mit realen Problemen der Verbraucher in Zusammenhang zu setzen, und daher passten sie perfekt zu Avira. Der Beginn einer deutsch-kalifornischen Zusammenarbeit war geboren.

HUG-Treffen

Morgen, 18 Uhr, richten wir ein Treffen der lokalen Hadoop User Group (HUG) in München aus. Wir stellen einige unserer Big Data-Anwendungsfälle vor. Dazu gehört ein Einblick in Couchdoop, quasi eine von einem Avira Datenbankingenieur hergestellte Leitung, die Daten zwischen den beiden Systemen transportiert. Das Maschinenäquivalent eines Power-Nickerchens mit tiefer REM-Phase.

Mit 300 Millionen Installationen, der zunehmenden Verbreitung von Bedrohungen durch Android sowie unserem E-Commerce-Zweig Avira Offers liegen wohl einige der härtesten Big-Data-Herausforderungen in ganz Europa vor Avira. Uns erwarten spannende Zeiten für Big Data bei Avira.

Dieser Artikel ist auch verfügbar in: Englisch

EVP Online at Avira. Responsible for Avira's consumer businesses and the technology teams and platforms they run on. Non-executive advisor to e-commerce companies. American expat based in Munich. Father, lifelong distance runner and downhill skier.