{"id":21627,"date":"2020-02-07T11:33:35","date_gmt":"2020-02-07T10:33:35","guid":{"rendered":"https:\/\/blog.frankfurt-school.de\/?p=21627"},"modified":"2020-02-10T14:36:06","modified_gmt":"2020-02-10T13:36:06","slug":"the-need-for-domain-knowledge-in-data-science-programs","status":"publish","type":"post","link":"https:\/\/blog.frankfurt-school.de\/de\/the-need-for-domain-knowledge-in-data-science-programs\/","title":{"rendered":"Zur Notwendigkeit von Dom\u00e4nenwissen in Data Science Studieng\u00e4ngen"},"content":{"rendered":"<p>Bei Datenanalysen in den Bereichen \u00d6konomie und Business spielt das Verst\u00e4ndnis, die Selektion und die Aufbereitung der Daten eine entscheidende Rolle, um gute und valide Ergebnisse zu erzielen. Die Notwendigkeit f\u00fcr das Verst\u00e4ndnis beginnt dabei nicht erst bei den Daten, sondern bereits bei der zugrundliegenden Problemstellung, auf deren Basis bspw. die Kostenfunktion sowie die Qualit\u00e4tsmetriken bestimmt werden m\u00fcssen. \u00dcblicherweise werden f\u00fcr die Phasen Datenselektion und -aufbereitung 70-80% der Projektzeit aufgewendet, was deren Bedeutung dokumentiert.<\/p>\n<p>Auf die Daten werden schlie\u00dflich Methoden und Algorithmen angewendet, um die Analyse, z.B. in Form der Erstellung eines Prognosemodells, durchzuf\u00fchren. F\u00fcr die jeweiligen Anwendungsbereiche steht dazu heutzutage eine Vielzahl an Methoden zur Verf\u00fcgung, die von einfachen linearen Ans\u00e4tzen, wie z.B. einer statistische OLS-Regression, \u00fcber komplexere nichtlineare Ans\u00e4tze, wie z.B. Random Forest, bis hin zu hochkomplexen Ans\u00e4tzen, wie z.B. Deep Learning, reichen.<\/p>\n<p>Auch wenn die letztgenannten komplexeren Ans\u00e4tze in der j\u00fcngeren Zeit viele Erfolgsgeschichten verbuchen k\u00f6nnen, sind sie dennoch nur von Nutzen, wenn sie mit den &#8222;richtigen&#8220; Daten gef\u00fcttert werden. Im Vergleich dazu leistet die Auswahl des Algorithmus dann oft eher nur einen marginalen Beitrag zum Ergebnis.<\/p>\n<p>Es gilt dabei, dass ein Algorithmus nur das lernen kann, was ihm \u00fcber die Daten zur Verf\u00fcgung gestellt wird. Damit bekommt die Selektion der &#8222;richtigen&#8220; Daten bezogen auf die spezifische Problemstellung eine entscheidende Bedeutung. Ein Data Scientist muss hier zum einen die Problemstellung verstanden haben und zum anderen in der Lage sein, die daf\u00fcr passenden Daten auszuw\u00e4hlen und f\u00fcr die Analyse aufzubereiten.<\/p>\n<p>Die f\u00fcr die Analysen ben\u00f6tigten Informationen sind zudem h\u00e4ufig in den Daten verborgen. Die Annahme, dass die Algorithmen diese selbst\u00e4ndig finden und extrahieren k\u00f6nnen, ist illusorisch. Vielmehr bedarf es eines mitunter aufw\u00e4ndigen sog. Feature Engineering, um den Algorithmen die in den Daten steckenden Informationen sichtbar zu machen. Hierbei handelt es sich zum Teil um vergleichsweise simple Vorg\u00e4nge, wie z.B. die Transformation von Exportvolumina in Exportquoten, um sie zwischen L\u00e4ndern vergleichbar zu machen. Etliche der Vorg\u00e4nge sind aber auch komplexer Natur, wie z.B. das Finden von zyklischen Informationen in zeitbezogenen Daten.<\/p>\n<h2><strong>Wichtigkeit von Dom\u00e4nenwissen<\/strong><\/h2>\n<p>Das daf\u00fcr erforderliche Wissen ist stark vom jeweiligen Anwendungsbereich abh\u00e4ngig und unterscheidet sich nachhaltig z.B. zwischen \u00d6konomie und Medizin. Daher wird es auch als Dom\u00e4nenwissen (Domain Expertise) bezeichnet und gilt als eine der fundamentalen F\u00e4higkeiten eines Data Scientisten (siehe auch nachfolgende Abbildung).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-21628 aligncenter\" src=\"https:\/\/blog.frankfurt-school.de\/wp-content\/uploads\/2020\/02\/p-285x300.png\" alt=\"\" width=\"285\" height=\"300\" srcset=\"https:\/\/blog.frankfurt-school.de\/wp-content\/uploads\/2020\/02\/p-285x300.png 285w, https:\/\/blog.frankfurt-school.de\/wp-content\/uploads\/2020\/02\/p.png 563w\" sizes=\"auto, (max-width: 285px) 100vw, 285px\" \/><\/p>\n<p>Ist das Wissen nicht in ausreichendem Ma\u00dfe vorhanden, f\u00fchrt dies allzu oft dazu, dass Algorithmen mehr oder weniger blind auf das verf\u00fcgbare Datenmaterial angewendet werden. Dazu wird dann den Standard-Qualit\u00e4tsmetriken der verwendeten Softwaretools zur Bewertung der Ergebnisse vertraut, ohne beurteilen zu k\u00f6nnen, ob sie sich f\u00fcr die Problemstellung eignen oder nicht. Solche Analysen k\u00f6nnen in der Praxis fatale Folgen haben.<\/p>\n<p>Ich mache derartige Erfahrungen h\u00e4ufig mit Studierenden, die keine \u00f6konomische Vorbildung haben und stattdessen eine Vorbildung bspw. in Mathematik, Physik oder Informatik mitbringen. Typisch in den Case Studies in den Veranstaltungen ist dann das oben geschilderte Vorgehen und der Glaube an gute Ergebnisse aufgrund der verwendeten Algorithmen und Metriken. Selbst auf Nachfrage ist den Studierenden oft nicht bewusst, dass etwas nicht stimmt bzw. was nicht stimmt.<\/p>\n<h2><strong>Typische Fehler<\/strong><\/h2>\n<p>Ein klassischer Case ist eine Credit Scoring Analyse. Das verf\u00fcgbare Datenmaterial ist in diesem Fall ungleich verteilt, da in der Praxis deutlich mehr Kredite existieren, bei denen der Verlauf positiv war. Dieser Ungleichverteilung muss sowohl bei der Datenaufbereitung als auch in der verwendeten Metrik Rechnung getragen werden, da der Algorithmus das Entscheidungsmodell auf die Erkennung der Klasse &#8222;nicht kreditw\u00fcrdig&#8220; fokussieren soll. Es nutzt einer Bank nichts, wenn sie lediglich die Klasse &#8222;kreditw\u00fcrdig&#8220; zuverl\u00e4ssig erkennt. Genau dies sind aber oft die Ergebnisse, wenn nicht mit dem notwendigen \u00f6konomischen Sachverstand vorgegangen wird.<\/p>\n<p>Besteht das Datenmaterial bspw. zu 90% aus F\u00e4llen mit einem positiven Kreditverlauf und nur zu 10% aus denen mit einem negativen, so h\u00e4tte man hypothetisch eine Trefferh\u00e4ufigkeit (Accuracy) von 90%, wenn man alle positiven F\u00e4lle korrekt \u00fcber das Modell identifiziert und alle negativen falsch. Und tats\u00e4chlich w\u00fcrde sich der Algorithmus auf die Erkennung der gr\u00f6\u00dferen Klasse fokussieren, da hier das gr\u00f6\u00dfere Potential besteht, die Accuracy zu optimieren.<\/p>\n<p>Nun existieren verschiedene Vorgehensweisen, um diese Ungleichverteilung der Klassen zu behandeln. Diese m\u00fcssen gepr\u00fcft werden, um die optimale Variante auszuw\u00e4hlen. Auch dabei kann es zu Kombinationen zwischen Vorgehensweise und Metrik kommen, die nicht die gew\u00fcnschten Ergebnisse bringen. Ein klassischer Fall ist hier die k\u00fcnstliche Herstellung einer Gleichverteilung der Klassen \u00fcber Up- bzw. Downsampling in Verbindung mit der Accuracy als Metrik. Auch hier bedeuten hohe Trefferquoten nicht, dass die Klasse &#8222;nicht kreditw\u00fcrdig&#8220; ausreichend gut erkannt wird. Dies kann man dann z.B. erst \u00fcber einer Betrachtung der sog. Confusion Matrix beurteilen, wof\u00fcr bei fehlendem Dom\u00e4nenwissen aber oft nicht die Notwendigkeit erkannt wird.<\/p>\n<p>Der dargestellte Fall ist noch recht offensichtlich. Dennoch werden diese Fehler immer wieder gemacht, selbst wenn \u00e4hnliche F\u00e4lle bereits vorher in den Veranstaltungen diskutiert wurden. Das Problem ist, dass bereits die Kostenfunktion nicht verstanden wird. Die Kosten einer Fehlklassifikation von &#8222;nicht kreditw\u00fcrdig&#8220; sind f\u00fcr den Kreditgeber um ein Vielfaches h\u00f6her als bei einer Fehlklassifikation von &#8222;kreditw\u00fcrdig&#8220;, was bei der Analyse ber\u00fccksichtigt werden muss.<\/p>\n<p>In dem geschilderten Fall kann die Wahl des Algorithmus keinen Beitrag zur Verbesserung des Ergebnisses leisten, solange der Aufbau der Analyse nicht fallbezogen erfolgt. Insofern ist selbst ein hohes Ma\u00df an technisch-algorithmischem Wissen hier nicht hilfreich bzw. ausreichend.<\/p>\n<p>Und nicht immer sind die F\u00e4lle so offensichtlich. Ohne profundes Dom\u00e4nenwissen im Bereich \u00d6konomie und Business ist ein Data Scientist somit bereits hier zum Scheitern verurteilt.<\/p>\n<p>\u00c4hnliche Erfahrungen habe ich auch vor kurzer Zeit bei einem Hackathon gemacht. In tiefer \u00dcberzeugung haben fast alle Gruppen komplexere Methoden, zumeist Varianten von Neuronalen Netzen, auf das Problem angewendet. Gewonnen hat letztlich die Gruppe, die eine simple Logistische Regression verwendet hat. Sie hatte das Problem richtig verstanden und die Daten entsprechend aufbereitet. Dies deckt sich mit meinen Erkenntnissen aus den verschiedenen Studieng\u00e4ngen. Bei den gleichen Projekten schneiden die Studierenden mit einem \u00f6konomischen Hintergrund nach der Vermittlung des technisch-algorithmischen Wissens zumeist besser ab, als Studierende mit einem Hintergrund aus anderen Disziplinen, die dann zwar im technisch-algorithmischen Bereich besser ausgebildet sind, denen aber nicht das \u00f6konomische Wissen in ausreichendem Ma\u00dfe zur Verf\u00fcgung steht.<\/p>\n<h2><strong>Implikationen f\u00fcr die Gestaltung von Data Science Studieng\u00e4ngen<\/strong><\/h2>\n<p>Aus meiner Sicht, hat dies auch Implikationen f\u00fcr die Gestaltung von Data Science Studieng\u00e4ngen in den Bereichen \u00d6konomie und Business. Eine zu starke Fixierung auf den technisch-algorithmischen Bereich ist aus den oben genannten Gr\u00fcnden nicht zielf\u00fchrend, wenn die Studierenden nicht die notwendige \u00f6konomische Vorbildung haben. Hier muss sich die Ausbildung sehr viel st\u00e4rker auf die Vermittlung des Dom\u00e4nenwissens konzentrieren, um die Studierenden praxistauglich zu machen.<\/p>\n<p>Es ist aber auch ein Irrglaube anzunehmen, dass es ausreichend ist, neben dem technisch-algorithmischen Bereich einfach isoliert das Dom\u00e4nenwissen zu vermitteln in der Annahme, dass die Verbindung zwischen den beiden Bereichen dann automatisch von den Studierenden hergestellt wird. Dies passiert nach meiner Erfahrung in der Mehrzahl der F\u00e4lle nicht. Entsprechend muss die gezielte Verbindung beider Bereiche eine besondere Beachtung im Lehrplan finden. Nach meiner \u00dcberzeugung l\u00e4sst sich dies am besten durch eine Vielzahl an Cases und praktischen Gruppenprojekten realisieren, die sich von Beginn des Studiums an vor allem auch mit dem Setup von Analyseprojekt und Daten befassen, basierend auf \u00f6konomischen Fallbeispielen, die zuvor in den Veranstaltungen diskutiert wurden.<\/p>\n<p>&nbsp;<\/p>","protected":false},"excerpt":{"rendered":"<p>Bei Datenanalysen in den Bereichen \u00d6konomie und Business spielt das Verst\u00e4ndnis, die Selektion und die Aufbereitung der Daten eine entscheidende Rolle, um gute und valide Ergebnisse zu erzielen. Die Notwendigkeit f\u00fcr das Verst\u00e4ndnis beginnt dabei nicht erst bei den Daten, sondern bereits bei der zugrundliegenden Problemstellung, auf deren Basis bspw. die Kostenfunktion sowie die Qualit\u00e4tsmetriken [&hellip;]<\/p>\n","protected":false},"author":481,"featured_media":21633,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1336,54,33,39],"tags":[288,1481,1015,495,91],"class_list":["post-21627","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","category-mads","category-research-and-advisory","category-study","tag-business","tag-data-analytics","tag-data-science","tag-economy","tag-research-2"],"acf":[],"_links":{"self":[{"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/posts\/21627","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/users\/481"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/comments?post=21627"}],"version-history":[{"count":4,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/posts\/21627\/revisions"}],"predecessor-version":[{"id":21636,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/posts\/21627\/revisions\/21636"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/media\/21633"}],"wp:attachment":[{"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/media?parent=21627"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/categories?post=21627"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.frankfurt-school.de\/de\/wp-json\/wp\/v2\/tags?post=21627"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}