Von der Faustregel, dass sich das Datenvolumen etwa alle zwei Jahre verdoppelt, haben die meisten Menschen, die sich mit Daten beschäftigen, vermutlich schon gehört. Wir haben es hier mit exponentiellem Wachstum zu tun. Ganz ähnlich verhält es sich auch mit Informationen rund um Data Science, Algorithmen, Programmiersprachen und ihren Anwendungsfällen. In der alltäglichen Flut an interessanten und nützlichen Ressourcen kann man schonmal die Orientierung verlieren. Aber nicht mit uns! An dieser Stelle präsentiert Marcus Seuser jeden Monat sein Best-Of an Ressourcen rund um Data Science. Für euch durchforstet er Blogs, Feeds, Journalartikel und Podcasts, um mit euch am Puls der Community zu fühlen und euch den Einstieg in die Welt der Data Science zu vereinfachen. Die Beiträge sind thematisch geordnet und enthalten zu jedem der Unterpunkte einige weiterführende Links.

Data-Projects

1. Data for Good: Machine Learning in medicine

Wer verändert schon die Welt? Ich zumindest denke häufig: „Okay, ich mach hübsche Diagramme und baue nette Modell, aber ändere ich damit wirklich das Leben von jemand zum Besseren?“ Und dann muss ich immer an die Macht (oder Ohnmacht) von MedizinerInnen denken. Da ich aber nun ein lausiger Auswendiglerner bin, wird das nichts mehr mit meiner weißen Kittelkarriere. Dafür freue ich mich umso mehr, dass wir als Daten-Analysten trotzdem einen Beitrag leisten können. Diese Zusammenstellung stellt eine gute Einführung in mögliche Berufsfelder in der Medizin dar: https://www.techemergence.com/machine-learning-in-pharma-medicine/

ML -Konzepte & Algorithmen

1. Understanding empirical Bayesian A/B Testing

Teil 2 aus der nicht ganz so konsequenten Reihe „Wer ist eigentlich dieser Bayes und wie hilft mir das weiter?“. Eine weitere klassische Anwendung des Theorems findet sich im A/B Testing. Wer das gerne einmal kennen lernen möchte und nicht sein eigenes Programm schreiben will oder kann, dem sei folgende Seite ans Herz gelegt. Spoiler: A/B Testing ist immer dann wichtig, wenn man sich zwischen verschiedenen Alternativen, z.B. bezüglich der Farbe eines Buttons auf einer Homepage, entscheiden muss und dabei die Klick-Raten der Besucher heranziehen möchte. https://marketing.dynamicyield.com/bayesian-calculator/

Visualisierungen

1. How to histogram

Histogramm, klar, kennst´e, alter Hut, erzähl mir was Neues Marcus. Wirklich? Ich dachte das nämlich auch, bevor ich auf den folgenden Link geklickt habe, denn hinter der richtigen Anwendung von Histogrammen steckt mehr Magie als man üblicherweise denkt. Bonus: Die Seite erklärt die Prinzipien mit schönen Animationen. https://tinlizzie.org/histograms/?imm_mid=0f57e6&cmp=em-data-na-na-newsltr_20170816

2. Übersicht zu Visualisierungen

Und dann dachte ich mir: „Wenn wir schon bei schön sind, können wir doch gleich bei wunderschön weitermachen?“ Können wir. Und von da an gab es kein Zurück mehr vom DataVizProject. Wer sich zu Beginn eines neuen Projektes oder in der Mitte seiner Datenanalystenkarriere einmal inspirativ berieseln lassen möchte, die kann hier durch dutzende Arten von Visualisierungen stöbern und sich Beispielanwendungen anzeigen lassen. Nützlich auch an langen Regentagen! http://datavizproject.com/

Wer ist ein “echter” Data Scientist?

1. Warum Data Science nicht an der Universität gelehrt wird

Ja, dieser Beitrag ist für dich, der jetzt innerlich geschrien hat: „Aber es gibt doch Studiengänge, die „Data Science“ heißen.“ Maciek Wasiak geht in seinem LinkedIn Blog auf die Tücken der realen Welt abseits von Modeldaten an der Universität ein und skizziert, warum er einen enormen „Skill-Gap“ zwischen den Lehrinhalten der Universitäten und den Anforderungen im Berufsleben sieht. Spannend für alle, die aus den Probedatensets von Scikit-Learn alles heraus gekitzelt haben und bereit sind, den Elfenbeinturm zu verlassen. https://www.linkedin.com/pulse/data-science-taught-universities-here-why-maciej-wasiak/

2. Being a non-traditional Data Scientist

Gordon Shotwell ist, ich gesteht es gerne, mit diesem Beitrag so etwas wie mein persönlicher Held geworden. Weil er mich an meiner weichsten Stelle anspricht: Die eigene Angst vor dem nicht perfekt sein, weil man kein studierter Informatiker ist. Ich für meinen Teil bin Geograph und erst über dutzende Umwege mit Data Science in Kontakt gekommen. Shotwell geht darauf ein, warum man sich für Schwächen nicht zu schämen braucht, welche Alternativen er zur klassischen Ausbildung sieht und wo die Stärken nicht-traditioneller Data Scientist liegen. Es lebe die Interdisziplinarität! http://blog.shotwell.ca/2017/08/29/advice-for-non-traditional-data-scientists/