SVM: Support Vektor Maschinen

Einführung
Viele Data-Mining-Techniken leiden oftmals unter Unter - Fitting oder Über - Fitting der Daten. Unter – Fitting tritt auf, wenn der verwendete Algorithmus nicht die Kapazität hat, um die Variabilität in den Daten anzuzeigen. Über – Fitting ist der umgekehrte Fall, der Algorithmus hat zu viel Kapazität und montiert daher auch Rauschen in den Daten ein. Die Ursache von Unter – und Über – Fitting ist die Komplexität, die das Modell repräsentiert, welche bestimmt, wie viel Variabilität in den Daten das Modell zum Ausdruck bringen wird. Wenn zu viel Komplexität erlaubt ist, wird die Variabilität entsprechend dem Rauschen in den Daten ebenfalls modelliert, was zu einem Modell führt, das Muster in den Daten übermontiert. Ist die Komplexität zu niedrig, werden die Modelle die wahre Variabilität in den Daten nicht berechnen können, und somit die Daten nicht montieren. Man will die Verwendung von Modellen, die die optimale Komplexität bieten, und man möchte in der Lage sein, diese zu kontrollieren, um gute Generalisierungs-Eigenschaften zu erhalten. Gute Generalisierung bedeutet, die Fähigkeit des Modells`, ungesehene Daten basierend auf den bekannten Lern-Datensätzen vorherzusehen.

Dies ist der Schwerpunkt von Maschinenlernen - Algorithmen, die Möglichkeit zur Kontrolle der Genauigkeit und Robustheit der Modelle, die durch die Algorithmen des maschinellen Lernens generiert werden, was die Muster in den Daten darstellt.

Wo klassische Statistik sich mit großen Stichproben-Problemen befasst, ist die statistische Lerntheorie die erste Theorie, die in der Lage ist, auch kleine Stichproben – Probleme anzugehen. Die Komplexität der Modelle, die mit Algorithmen des maschinellen Lernens durch empirische Daten generiert werden, hängt ab von der Stichprobengröße. Durch die Berücksichtigung der Stichprobengröße kann man bessere Ergebnisse erzielen als durch die Anwendung asymptotischer Ergebnisse aus der klassischen Statistik.

Vladimir Vapnik entwickelte Mitte der 80-er Jahre des letzten Jahrunderts die statistische Lerntheorie (SLT), aus der eine neue Lernmaschine, die so genannte Support-Vektor-Machine (SVM) entwickelt und eingeführt wurde.

Die grundlegende Idee von Support-Vektor-Maschinen liegt darin, einen Klassifikator oder eine Regressions – Maschine zu determinieren, was das empirische Risiko minimiert (das heißt, den Training-Set-Error) und das Konfidenzintervall (das mit der Generalisierung oder dem Test-Set Fehler korrespondiert).

Bei den SVMs geht es darum, das empirische Risiko, das mit der Architektur assoziert wird, zu beseitigen, und eine Methode zu nutzen, die Generalisierungs-Fehler minimieren kann. Der primäre Vorteil von SVM als adaptive Modelle für binäre Klassifikation und Regression ist, dass sie einen Klassifikator mit minimaler VC Dimension liefern, was eine geringe Wahrscheinlichkeit von Generalisierungs-  Fehlern bedeutet. SVM kann verwendet werden, um linear trennbare und nicht-lineare trennbare Daten zu klassifizieren. Sie können als nicht-lineare Klassifikatoren und Regressions - Maschinen genutzt werden durch das Mapping des Input-Raums in einen hochdimensionalen Feature – Raum. In diesem hochdimensionalen Feature  - Space  - Raum kann lineare Klassifizierung durchgeführt werden.

Text Klassifizierungs - Techniken
Text- Klassifizierungs-Techniken lassen sich aufteilen in regelbasiert-orientierte Herangehensweisen, Machinenlerntechniken und Techniken, die auf natürliche Sprachverarbeitung basieren. Die erste Gruppe wird nur bei einfachen, gut definierten Fällen funktionieren, aber im allgemeinen besteht die Gefahr, dass sie nicht in der Lage ist, auch Daten im realen Raum gut zu generalisieren. Der letzte Ansatz erfordert sehr detaillierte Kenntnisse über die natürlichen Sprachen, was noch immer ein eigenes Forschungsgebiet darstellt, und detaillierte Input - Kenntnisse für jeden einzelnen Text-Klassifizierungs – Fall erfordert. Machine - Learning-Techniken haben bewiesen, dass sie in der Lage sind, sehr gute Ergebnisse zu erzielen, und in vielen Fällen mindestens gleich gut oder besser als andere Techniken sind. Es ist auch bekannt, dass die Techniken des maschinellen Lernens sehr gut generalisieren in vielen verschiedenen Fällen mit unterschiedlichen Anforderungen. Diese Merkmale treffen in noch größerem Ausmaß auf die Support-Vektor-Maschinen (SVM) zu, die ein Teilsatz von Techniken des maschinellen Lernens sind.

Die Support-Vektor-Maschinen-Algorithmen sind von Vladimir Vapnik im Jahr 1975 entdeckt worden und von 1990-1995 haben sie sich zu einem schnell wachsenden Forschungsgebiet entwickelt. Support-Vektor-Maschinen - Algorithmen konzentrieren sich im Grunde auf deskriptive Probleme wie Klassifizierung, Clustering und Segmentierung und prädiktive Probleme wie Regression. Die Algorithmen arbeiten für multivariate Daten, wie strukturierte Daten, Tabellen in Datenbanken, und auch für die Text-Daten, die in den meisten Fällen für unstrukturiert gehalten werden.

 Die Aufgabe des maschinellen Lernens für Text-Klassifizierung hat eine Reihe von Anforderungen, die sich durch folgende Eigenschaften auszeichnen:
Großer Input Space. Der Input Space besteht aus den Dokumenten und den Wörtern in den Text-Dokumenten, wobei die Text-Daten durch das Vektorraum-Modell repräsentiert werden. Für jedes Dokument wird eine Vektor-Darstellung verwendet, die die Häufigkeitsverteilung der Wörter innerhalb des Dokuments darstellt. Die Dimensionalität der Daten ist dann schnell größer als 30.000 Worte, sogar mit starken Vereinfachungen.
Wenig Trainings- Daten. Für die meisten Lern – Algorithmen entspricht die erforderliche Anzahl der Trainings – Beispiele, um genaue Klassifikations - Skalen zu produzieren, der Dimensionalität des Input Space. Für akkurate Text – Klassifikatoren hat man normalerweise weniger Trainings -Beispiele als Dimensionen in den Feature Spaces, und deshalb ist es wichtig, zu experimentieren, um den optimalen Text -  Klassifikator zu ermitteln unter bestimmten Klassifizierungs - Anforderungen.
Rauschen.  Die meisten Dokumente enthalten Schreibfehler, Worte, die keinen Beitrag zu den in dem Dokument enthaltenen Informationen beitragen. Dies wird durch die Maschinenlern -Algorithmen als Rauschen betrachtet. Es ist daher wichtig, das Signal hinsichtlich der Noise – Ration zu optimieren zur Verbesserung des Signal-Rausch-Verhältnisses der Feature-Vektoren in der Pre-Processing-Phase.
Komplexe Lern – Aufgaben - Klassifikation von Text ist in der Regel basiert auf dem semantischen Verständnis der natürlichen Sprache durch den Menschen, wobei die Interpretation des Textes und des Kontextes der Worte sehr wichtig ist. Text -Klassifikatoren müssen in der Lage sein, solche komplexen Aufgaben zu erreichen, wobei sie präzise und robust sein müssen.
Computational Effizienz - Training Text - Klassifikatoren in einem hochdimensionalen Input Raum können rechnerisch schwierig sein, und für die praktischen Ansätze ist es wichtig, in der Lage zu sein, eine große Anzahl von Funktionen effizient zu handhaben.

Support-Vektor-Maschinen sind derzeit der einzige Ansatz, der recheneffizient ist und für die es eine gut definierte Theorie gibt, die die Mechanismen in Bezug auf Genauigkeit und Robustheit beschreibt.

Text-Klassifikation mit Support-Vektor-Maschinen
 Support - Vektor Maschinen sind eine Methode zur Erstellung von Funktionen aus einer Reihe von gekennzeichneten Trainings -  Daten. Die Funktion kann eine Klassifizierungs - Funktion sein, oder eine allgemeine Regressions - Funktion.

Für die Klassifizierung arbeiten SVMs mit dem Finden einer Hyper - Oberfläche im Raum der möglichen Inputs. Diese Hyper - Oberfläche wird versuchen, die positiven Beispiele von den Negativ-Beispielen zu trennen. Die Trennung wird gewählt, um die größte Entfernung von der Hyper - Oberfläche zum nächstgelegenen der positiven und negativen Beispiele zu haben. Intuitiv bewirkt das die richtige Klassifizierung für die Test - Daten, die den Trainings – Daten ähnlich sind, jedoch nicht identisch mit diesen sind.

Home Kontakt Sitemap Disclaimer