Die meisten Menschen, die sich mit Daten beschäftigen, haben schon von der Faustregel gehört, dass sich das Datenvolumen etwa alle zwei Jahre verdoppelt. Wir haben es hier also mit exponentiellem Wachstum zu tun, und ähnlich verhält es sich auch mit Informationen rund um Data Science, Algorithmen, Programmiersprachen und Anwendungsfällen. Alles gewinnt an Geschwindigkeit, und die Flut an interessanten und nützlichen Ressourcen kann zu einem Tsunami geraten, in welchem jede Orientierung verloren geht. An dieser Stelle präsentiert euch Marcus jeden Monat sein Best-Of an Ressourcen rund um Data Science. Hierfür durchforstet er Blogs, Feeds, Journalartikel und Podcasts, um euch sowohl näher an den Puls der Community heranzuführen als auch den Einstieg in die Welt der Data Science zu vereinfachen. Die Beiträge sind jeweils thematisch geordnet und enthalten zu jedem der Unterpunkte einige weiterführende Links.

Daten

1. data.world

Wer sich gerne von ungewöhnlichen Datensets überraschen lässt, der abonniere schnellst möglich die Seite data.world. Wöchentlich erhält man so eine kurze Übersicht, welche neuen Sets zur Verfügung stehen. Man kann thematische Präferenzen einstellen und sich dann fröhlich über Tabellen mit Gehältern von Donald Trumps Angestellten hermachen oder Daten zu Fahrradunfällen aus Boston analysieren. https://data.world/

2. Airbnb

Wer die letzten Monate hinter dem Mond gelebt hat, für den dürfte folgende Information noch neu sein: Sharing-Economy Anbieter (sprich AirBnB, Uber und Konsorten) stehen stark in der Kritik aufgrund von Fehlverhalten gegenüber Mitarbeitern und dem Vorwurf, Wohnraum für sozial schwächer gestellte Bürger vom Wohnungsmarkt fern zu halten. Wer sich selbst einen Blick über die Dynamiken verschaffen will, braucht hierfür natürlich Daten. Für AirBnB zum Beispiel von folgender Seite: http://insideairbnb.com/get-the-data.html

Data-Projects

1. Are Pop Lyrics Getting More Repetitive?

Wer sich für Popmusik, Text Mining und Sentiment Analyses interessiert, wird an diesem Projekt von Colin Morris seine Freude haben. Hierbei wurden Songtexte auf Wortfragmente und ihre Wiederholungsrate hin untersucht; das ganze enthält durch den Vergleich mit Werken der früheren Popkultur eine temporale Ebene. Bonus: Herrlich gestaltete Seite mit vielen Infografiken und interaktiven Elementen https://pudding.cool/2017/05/song-repetition/.

2. The power of your passport

Der deutsche Pass ist angeblich der „stärkte“ Pass der Welt. Diese Aussage liest man immer wieder. Was „Stärke“ in diesem Zusammenhang bedeutet, wie sie sich (vermeintlich) messen lässt und eine interessante Art, mehrere Pässe zu vergleichen, bietet das Data Project der South China Morning Post. http://multimedia.scmp.com/culture/article/passportIndex/

Programmiersprachen & Algorithmen

1. Pythons wichtigste Libraries zur Datenanalyse

Es ist kein Geheimnis, dass kaum ein Datenanalyst ständig neue Libraries zur Analyse seiner Daten nutzt, geschweige denn alle Möglichkeiten verschiedener Packages auslotet. Die meisten AnalystInnen beschränken sich für die Brot-und-Butter-Aufgaben auf ein wohl bekanntes Set an Libraries, welche häufig Updates unterzogen werden und welchen eine große Community bei Hilfefragen zur Seite steht. Diese hier müsst ihr kennen: https://activewizards.com/blog/top-15-libraries-for-data-science-in-python/

2. Random Forest in Python

Unter den dutzenden Klassifikationsalgorithmen sticht mir immer wieder der Random-Forest-Ansatz ins Auge, und ich beginne meine Analysen gerne mit ihm. Warum? Er benötigt relativ wenig Parameter-Tuning (z.B. im Vergleich zu SVM) und liefert auch für nichtlineare Zusammenhänge gut zu interpretierende Ergebnisse. Genau das richtige für Projekte mit knappen Deadlines. Dieser Einführungsartikel von „Yhat“ ist sehr verständlich geschrieben und stattet einen sofort mit den passenden Code-Stücken aus, um RF für sein nächstes eigenes Projekt einzuspannen. Ein Must-Learn! http://blog.yhat.com/posts/python-random-forest.html

3. Ich will R lernen, wo soll ich anfangen?

Bei Fragen dieser Art verweise ich gerne auf folgende Seite. Sie liefert eine gute Auflistung verschiedener Tutorials und E-Books (meist kostenfrei) für alle Teilaspekte, die R mit sich bringt. Nicht nur für komplette Anfänger geeignet, sondern auch für Fortgeschrittene, die spezifisch z.B. nach Clustering- oder Text Mining-Möglichkeiten in R suchen. http://www.rdatamining.com/

4. Ich weiß noch gar nicht, welchen ML Algorithmus ich anwenden will

Kein Grund zur Panik, mein Prof würde jetzt sagen: "Jeden, bis das Ergebnis zufriedenstellend ist." Da man dafür aber erst einmal einen Überblick braucht, was überhaupt möglich ist, empfehle ich diese kurze Einführung zu Stärken und Schwächen der einzelnen Ansätze. https://elitedatascience.com/machine-learning-algorithms