Automatisierte Wissenschaft
Die Tage ging ja diese Nature-Publikation rum, in der Tshitoyan et al. über Word-Embeddings latentes Wissen aus der bestehenden Literatur der Materialwissenschaft ziehen und so neue Verbindungen und Materialen vorhersagen, bevor sie publiziert werden. Die Berichterstattung über diese Ergebnisse lief oft nach dem Muster „AI ersetzt Wissenschaftler_innen!“ ab. Obwohl die Arbeit von Tshitoyan et al. extrem spannend und methodisch innovativ ist, hier ein paar Einschränkungen zu diesem Claim aus Sicht eines Kommunikationswissenschaftlers, der ein bisschen mit NLP-Tools gearbeitet hat:
Die Methode des Papers sind Word-Embeddings. Mit dieser Methode kann man – kurz gesagt – einem Computer beibringen, welche Wörter inhaltlich zusammengehören, ohne, dass man ihm dafür beibringen müsste, was die Worte bedeuten. Dafür müssen die zusammenpassenden Wörter nicht mal nebeneinander auftauchen, sondern können einfach nur ähnlich benutzt werden:
„Apfel ist eine Art Obst“ \(\wedge\) „Die Birne ist ein Obst“
\(\supset\) „Apfel“ und „Birne“ gehören in den selben Kontext„Meer“ \(\vdash\) „nass“ \(\leftrightarrow\) „Wüste“ \(\vdash\) „trocken“
Genau darin liegt auch das innovative und spannende an dem Paper! Bisher haben wir nämlich, wenn wir versucht haben Computern das Lesen von wissenschaftlichem Material beizubringen, immer auf von Menschen klassifiziertes Material zurückgreifen müssen. Das heißt, dass hier zum Trainieren der Computer-Modelle menschliche Codierer einen winzigen Teil des gesamten Materials mit Labeln versehen haben. „Das hier ist eine Formel, das hier ist eine chemische Verbindung, das hier ist eine exotherme Reaktion, …“ usw.
Die Methode der Word embeddings funktioniert in diesem Fall so gut, weil die Ergebnisse der Materialwissenschaften gewissen formelhaften Regeln folgen. Ohne die Komplexität der Disziplin herabwürdigen zu wollen, geht es hier letztendlich immer um die neue die Zusammensetzung von Elementen und die Beschreibung ihrer Eigenschaften. Tshitoyan et al. können mit ihren Modellen aus historischen Daten vorhersagen, welche Materiale möglicherweise interessante Eigenschaften haben könnten (z.B. gute Wärmeleitfähigkeit). Ein Beispiel dafür aus dem Paper ist CuGaTe2. Dieses Material gehört heute zu den besten thermo-elektischen Materialen, die es gibt und wurde 2012 erstmals publiziert. Durch die Anwendung ihrer Modelle konnten Tshitoyan et al. die Eigenschaften und Nützlichkeit von CuGaTe2 aus der Literatur vorhersagen, die bis 2008 veröffentlich wurde.
Das ist fraglos eindrucksvoll! Was aber zu beachten ist, um dieses Ergebnis einzuordnen, ist folgendes: Zwischen der ersten Idee, die ein Wissenschaftler_innen-Team hat, den notwendigen Experimenten und der Publikationen der Ergebnisse vergehen nicht selten mehrere Jahre. CuGaTe2 wurde zwar 2012 erstmals publiziert, es ist aber davon auszugehen, dass diese Verbindungen schon Jahre davor auf dem Schreibtisch eines Forschenden lag. Außerdem darf nicht vergessen werden, dass die Arbeit von Materialwissenschaftler_innen mehr ist als das reine identifizieren von interessanten Verbindungen, sondern eben das rigorose, experimentelle Testen der Eigenschaften dieser Verbindungen.
Dazu kommt der übliche Vorbehalt, der bei praktisch jedem selbstlernenden System zutrifft: Über diese Methode können sich per Definition nur orthodoxe Ergebnisse finden, die den üblichen, bestehenden Regel der Forschung folgen. Ein Kuhn’scher Paradigmenwechsel ist so ausgeschlossen.