Big Data ist zu einer großen Herausforderung für Wissenschaftler geworden, die umfangreiche Datensätze von immer leistungsfähigeren Weltraumobservatorien analysieren. Um dieses Problem anzugehen, hat ein Team des Southwest Research Institute (SwRI) ein Hilfsmittel entwickelt, das mit maschinellem Lernen große, komplexe Datensätze effizient benennen kann, um Deep-Learning-Modellen zu erlauben, Ereignisse auf der Sonne zu sichten und potenziell gefährliche Ereignisse zu identifizieren. Das neue Benennungswerkzeug kann angepasst werden, um andere Herausforderungen mit umfangreichen Datensätzen anzugehen.
Weil Weltrauminstrumente zunehmend komplexere Daten in immer größeren Mengen sammeln, wird es für Wissenschaftler immer anspruchsvoller, relevante Trends zu verarbeiten und zu analysieren. Maschinelles Lernen wird zu einem entscheidenden Werkzeug für die Verarbeitung großer, komplexer Datensätze, wobei Algorithmen von existierenden Daten lernen, um Entscheidungen oder Voraussagen zu treffen, die gleichzeitig mehr Informationen berücksichtigen können, als es Menschen möglich wäre. Um sich diese Techniken des maschinellen Lernens zunutze zu machen, muss man die ganzen Daten jedoch zuerst kennzeichnen – oft eine monumentale Aufgabe.
“Die Kennzeichnung von Daten mit aussagekräftigen Beschriftungen ist ein entscheidender Schritt für beaufsichtigtes maschinelles Lernen. Allerdings ist die Beschriftung von Datensätzen mühsam und zeitaufwändig”, sagte Dr. Subhamoy Chatterjee, ein Postdoktorand am SwRI, der auf Sonnenastronomie und -instrumente spezialisiert ist. Er ist der Hauptautor einer Studie über diese Ergebnisse, die im Journal Nature Astronomy veröffentlicht wurde. “Neue Studien zeigen, wie Convolutional Neural Networks (CNNs), die mit grob beschrifteten astronomischen Videos trainiert wurden, genutzt werden können, um die Qualität und den Umfang der Datenkennzeichnung zu verbessern und die Notwendigkeit für menschliche Eingriffe zu reduzieren.”
Deep-Learning-Methoden können die Verarbeitung automatisieren und große Mengen komplexer Daten interpretieren, indem sie komplexe Muster extrahieren und lernen. Das Team nutzte Videos der solaren Magnetfelder, um Gebiete mit starken, komplexen Magnetfeldern auf der Sonnenoberfläche zu identifizieren. Solche Gebiete sind der Hauptvorläufer von Weltraumwetterereignissen.
“Wir trainierten CNNs mit groben Beschriftungen und bestätigten manuell nur unsere Uneinigkeit mit der Maschine”, sagte der Co-Autor Dr. Andrés Muñoz-Jaramillo, ein Sonnenphysiker am SwRI mit Fachwissen im Bereich des maschinellen Lernens. “Dann trainierten wir den Algorithmus erneut mit den korrigierten Daten und wiederholten diesen Prozess, bis wir alle übereinstimmten. Während die Beschriftung von Strömen normalerweise manuell vorgenommen wird, reduziert diese schrittweise Interaktion zwischen dem Menschen und dem Algorithmus die manuelle Verifizierung um 50 Prozent.”
Die iterativen Beschriftungsansätze wie aktives Lernen können deutlich an Zeit einsparen und die Kosten reduzieren, um große Datensätze bereit für das maschinelle Lernen zu machen. Durch die schrittweise Maskierung der Videos und die Suche nach dem Moment, in dem der Algorithmus seine Klassifizierung ändert, konnten die Wissenschaftler außerdem den Algorithmus weiter verbessern, um eine noch reichhaltigere und nützlichere Datenbasis zu bekommen.
“Wir schufen einen Ende-zu-Ende-Ansatz mittels Deep-Learning zur Klassifizierung von Videos der Entwicklung magnetischer Gebiete, ohne die Bilder, Trackingalgorithmen oder andere manuelle Merkmale explizit bereitzustellen”, sagte Dr. Derek Lamb vom SwRI, ein Co-Autor, der sich auf die Entwicklung magnetischer Felder auf der Sonnenoberfläche spezialisiert hat. “Diese Datenbasis wird entscheidend sein für die Entwicklung neuer Methodologien zur Vorhersage der komplexen Regionen, die für Weltraumwettereignisse verantwortlich sind. Das erhöht möglicherweise die Vorlaufzeit, die wir zur Vorbereitung auf Weltraumwetterereignisse haben.”
(THK)
Antworten