Überwachtes vs. unüberwachtes maschinelles lernen: eine auswahlhilfe
31. Oktober 2023
Maschinelles Lernen
- Dienstleistungen
- Anwendungsfälle nach Branche
- Anwendungsfälle
Leiter des KI/ML-Kompetenzzentrums
Überwachtes und unüberwachtes Lernen bestimmen, wie ein ML-System für die Ausführung bestimmter Aufgaben trainiert wird. Der überwachte Lernprozess erfordert gekennzeichnete Trainingsdaten, die einen Kontext für diese Informationen liefern, während das unüberwachte Lernen auf rohen, nicht gekennzeichneten Datensätzen beruht.
Erfahren Sie, wie Experten für maschinelles Lernen die Stärken dieser Ansätze nutzen, um spezifische geschäftliche Herausforderungen besser zu bewältigen und Unternehmen bei der Entwicklung der bestgeeigneten ML-Modelle zu unterstützen.
Wie - beaufsichtigt
- unüberwacht
beaufsichtigt maschinelles lernen funktioniert
- beaufsichtigt
- unüberwacht
Überwachtes Lernen bedeutet, einen Algorithmus für maschinelles Lernen mit Daten zu trainieren, die Beschriftungen enthalten, die den Zielwert für jeden Datenpunkt angeben. Beschriftete Datensätze liefern klare Beispiele für Eingaben und ihre korrekten Ausgaben, so dass der Algorithmus die Beziehung zwischen ihnen verstehen und dieses Wissen auf zukünftige Fälle anwenden kann.
Beispiele für Aufgaben des überwachten Lernens sind Klassifizierung, Regression und Erkennung.
Klassifizierung
Bei Klassifizierungsaufgaben werden Datenpunkte anhand ihrer Merkmale in bestimmte Kategorien eingeteilt.
Beispiel
Klassifizierung eingehender E-Mails in "Spam" und "nicht Spam".
Regression
Die Regression ermöglicht die Vorhersage von Ergebnissen auf der Grundlage historischer Daten durch die Ermittlung von Korrelationen zwischen abhängigen und unabhängigen Variablen.
Beispiel
Vorhersage des Gehaltsschecks eines neuen Kunden auf der Grundlage der Konversionshistorie und des Verhaltens der einzelnen Kunden im Online-Shop.
Erkennung
Erkennungsaufgaben beinhalten die Identifizierung von Objekten in einem Bild oder Video. Die Objekterkennung kann mehrere Objekte innerhalb eines Bildes erkennen.
Beispiel
Erkennung von Fahrzeugen, Straßenschildern oder Personen auf Straßenbildern; Erkennung von betroffenen Bereichen auf Röntgenbildern.
Überwachtes vs. unüberwachtes Lernen: Hauptunterschiede
Neben dem Hauptunterschied zwischen der Verwendung von markierten und nicht markierten Daten weisen die beiden Ansätze noch weitere signifikante Unterschiede auf, wie Martin Keen, Master Inventor bei IBM, betont.
Überwachtes Lernen
Unüberwachtes Lernen
Trainingsdaten
Trainingsdaten
Der Algorithmus wird mit beschrifteten Datensätzen trainiert
Der Algorithmus wird mit nicht beschrifteten Datensätzen trainiert
Rückmeldung
Rückmeldung
Einfache Messung der Systemqualität während des Modelltrainings aufgrund der Verfügbarkeit von Referenzdaten
In den meisten Fällen erhalten Sie das Feedback der Benutzer erst, nachdem das System implementiert wurde.
Menschliches Engagement
Menschliches Engagement
Es erfordert einen direkten Eingriff in die Kennzeichnung der Daten
Erfordert keine manuelle Datenbeschriftung, aber die Modellschulung erfordert immer noch menschliche Aufsicht
Algorithmen
Algorithmen
Zufällige Wälder, Support-Vektor-Maschinen, lineare Regression, NN, usw.
K-Means-Clustering, PCA, Autocodierer, Apriori, NN, usw.
Komplexität
Komplexität
Es ist weniger rechenaufwändig
Sie hat höhere Anforderungen an die Rechenleistung
Genauigkeit
Genauigkeit
Modelle mit überwachtem Lernen sind im Allgemeinen genauer
Unüberwachte Lernmodelle können weniger genau sein
Szenario
Szenario
Sie kennen sowohl die Eingabe als auch die entsprechende Ausgabe
Sie arbeiten mit nicht klassifizierten Daten, und das Ergebnis ist unbekannt
Anwendungsfälle für überwachtes und unbeaufsichtigtes maschinelles Lernen
Die Besonderheiten des überwachten und des unüberwachten Lernens machen sie ideal für verschiedene Anwendungen und Geschäftsszenarien. Hier sind einige Beispiele.
Anwendungsfälle für überwachtes maschinelles Lernen
Sentiment-Analyse
Analyse der Nutzerinteraktionen auf sozialen Medien und Online-Plattformen, um ihre Einstellung zu Themen, Produkten oder Marken zu bewerten und Marketingkampagnen zu verfeinern.
Wettervorhersage
Verarbeitung von Satellitenbildern und Radarmessungen zur Erkennung von Wettermustern und zur Erstellung von Niederschlagskarten mit größerer Genauigkeit als bei statistischen Modellen.
Vorhersage von Aktienkursschwankungen und Marktvolatilität auf der Grundlage von Finanztrends und Unternehmensgewinnen zum Aufbau ausgewogenerer Portfolios bei gleichzeitiger Risikominimierung.
Berechnung des potenziellen Werts einer Immobilie auf der Grundlage ihrer Merkmale und ihres Standorts, um rentablere Investitionen zu gewährleisten.
Nachfrageprognose
Beobachtung der wirtschaftlichen Bedingungen, des saisonalen Kaufverhaltens und anderer Faktoren zur Vorhersage künftiger Verkaufstrends und zur Optimierung der Wiederauffüllung der Lagerbestände.
Gesichtserkennung
Erkennung und Isolierung von Personen in Bildern und Videos auf der Grundlage ihrer biometrischen Daten, um Multimedia-Inhalte zu klassifizieren und die Kennzeichnung zu automatisieren.
Spracherkennung
Verarbeitung von Audio-Eingaben und Interpretation natürlicher Sprache zum Betrieb von Chatbots, Moderation von Online-Inhalten und Ermöglichung von Echtzeit-Transkriptionen oder Übersetzungen.
Sondierung von Röntgenbildern und anderen Quellen, um Tumore, Verletzungen oder andere Erkrankungen zu erkennen und genaue Diagnosen zu stellen.
Anwendungsfälle für unüberwachtes maschinelles Lernen
Identifizierung abnormaler Bedingungen und Merkmale, die zu potenziell schädlichen Szenarien führen können, wie z. B. Betrug, medizinische Probleme und Maschinenausfälle.
Beobachtung von Nutzern in sozialen Medien, um ihre Interessen zu verstehen und sie mit maßgeschneiderten Anzeigen anzusprechen, was die Konversionsrate erhöht und den Umsatz steigert.
Analyse des Kauf- und Surfverhaltens, der Bewertungen und Vorlieben der Nutzer von Online-Plattformen, um ihnen maßgeschneiderte Produkt- oder Inhaltsvorschläge zu unterbreiten und so das Cross-Selling zu erleichtern.
Rauschunterdrückung
Ausschneiden irrelevanter Variablen aus den Daten, um Rauschen aus visuellen Inhalten zu entfernen und die Bild- oder Videoqualität zu verbessern.
Gemischte Nutzung
Die Wahl zwischen überwachtem und unüberwachtem Modell hängt von den für diese Aufgabe verfügbaren Daten ab.
Kundensegmentierung
Gruppierung von Kunden in Buyer Personas für eine effiziente Marktforschung auf der Grundlage ihrer Verhaltensmuster, einschließlich früherer Käufe und Online-Interaktionen.
Nachrichten
Durchsuchen von Nachrichtenartikeln der wichtigsten Online-Medien, um den Inhalt in Unterkategorien zu gruppieren, die auf dem Land, dem Thema und anderen Kriterien basieren.
Spam-Erkennung
Beurteilung, ob es sich bei einer E-Mail um Spam handelt oder nicht, um unerwünschte oder schädliche Inhalte zu filtern und Phishing oder andere Arten von Betrug zu verhindern.
Erstellen Sie Ihre Lösung für maschinelles Lernen mit Itransition
ML-Algorithmen, die in überwachten und unüberwachten Modellen verwendet werden
Datenwissenschaftler und ML-Ingenieure können auf eine große Auswahl an Algorithmen zurückgreifen, um überwachte und unüberwachte Lernaufgaben durchzuführen. Dies sind einige der beliebtesten Algorithmen.
Algorithmen des überwachten Lernens
Entscheidungsbäume
Ein Entscheidungsbaum ist ein Klassifizierungsalgorithmus zur Abbildung der Verzweigungen möglicher Ergebnisse ausgehend von einem Ausgangspunkt. Die Berechnungen führen zu einem Diagramm, das leicht zu verstehen und zu erklären ist, aber an jedem Knotenpunkt der Verzweigung ein gewisses Maß an menschlicher Einsicht und Interpretation erfordert.
Schematitel: Ein Entscheidungsbaum
Datenquelle: devopedia.org - Entscheidungsbäume für maschinelles Lernen
Zufällige Wälder
Ein Random Forest kombiniert mehrere Entscheidungsbäume und bildet einen Mittelwert für die Wahrscheinlichkeit eines Ergebnisses. Er ist weniger einfach zu visualisieren als ein Entscheidungsbaum. Dennoch minimiert er die Überanpassung, wenn das Modell des maschinellen Lernens und die Daten so sehr aufeinander abgestimmt sind, dass das Modell bei anderen Datensätzen nicht mehr richtig funktioniert.
Schematitel: A random forest
Datenquelle: medium.com - Maschinelles Lernen. Entscheidungsbäume und Random-Forest-Klassifikatoren
Support-Vektor-Maschinen (SVM)
Der SVM-Ansatz kann je nach Anzahl der zu klassifizierenden Dateninstanzen als 2D- oder 3D-Graph dargestellt werden. Dann wird eine Grenze, die sogenannte Hyperebene, zwischen den verschiedenen Typen der identifizierten Daten konstruiert. Die Stützvektoren sind die Datenpunkte mit der größten Korrelation zwischen zwei verschiedenen Klassen und definieren diese Grenzen.
Schematitel: Support Vector Machine
Datenquelle: kdnuggets.com - Support Vector Machines: eine einfache Erklärung
Naive Bayes-Klassifikatoren
Ein Naive-Bayes-Klassifikator ist eine effiziente und skalierbare Routine für die Klassifizierung auf der Grundlage des Bayes-Theorems, einer Methode zur Berechnung von Wahrscheinlichkeiten aus historischen Daten. Dieser Algorithmus kann eine geschickte und wirtschaftliche Lösung für zuverlässig beschriftete Datensätze sein, was ihn zu einem guten ersten Ansatz für die Entwicklung einer überwachten Architektur macht.
Schematitel: Ein Naive-Bayes-Klassifikator, dargestellt als Bayes'sches Netzwerk
Datenquelle: Wikipedia - Naive Bayes Klassifikator
Neuronale Netze
Neuronale Netze sind robuste, mehrschichtige Architekturen, die in den meisten Fällen mit der als "Deep Learning" bekannten Untergruppe von ML verwandt sind. Sie können sehr große Datenmengen durchlaufen, um verborgene Zusammenhänge zu erkennen und die Daten erfolgreich zu klassifizieren. Dieser Ansatz ist jedoch zeitaufwändig und kann eine Menge Experimente erfordern.
Titel des Themas: Tiefes neuronales Netzwerk
Datenquelle: ibm.com - Neuronale Netzwerke
Lineare Regression
Die lineare Regression bildet die Korrelationen zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen ab. Ziel ist es, festzustellen, ob es eine maßgebliche Beziehung zwischen diesen beiden Faktoren gibt und ob diese Beziehung algorithmisch ausgedrückt werden kann, um zukünftige Ergebnisse vorherzusagen.
Schematitel: Eine lineare Regression
Datenquelle: scribbr.com - Eine Schritt-für-Schritt-Anleitung zur linearen Regression in R
Logistische Regression
Ähnlich wie bei der linearen Regression werden bei der logistischen Regression Beziehungen zwischen Eingangsdaten und Ausgangsdaten ermittelt. Sie wird jedoch nicht auf kontinuierliche, messbare Variablen angewandt, sondern wenn die Ausgangsvariable binär ist (d. h. sie kann das eine oder das andere sein), wodurch eine kompliziertere Art von Diagramm, das sogenannte Sigmoid, entsteht.
Titel des Schemas: Logistische Regression
Datenquelle: realpython.com - Logistische Regression in Python
Algorithmen für unüberwachtes Lernen
K-Means-Clustering
K-Means ist ein Clustering-Algorithmus, der Datenpunkte "K Gruppen" zuordnet. Der K-Wert ist die Menge der identifizierbaren Cluster in einem Datensatz auf der Grundlage ihrer Ähnlichkeit. Ein höherer K-Wert bedeutet, dass mehr Gruppen identifiziert werden, was zu vielfältigeren Ergebnissen und abgeleiteten Beziehungen zwischen den Datenpunkten führt.
Schematitel: K-Means-Clustering
Datenquelle: realpython.com - K-Means Clustering in Python: A Practical Guide