Skip-Gram Modell

Was ist das Skip-Gram Modell?

Das Skip-Gram Modell ist eine effiziente Methode um die Bedeutung von einer großen Anzahl Wörtern zu erlernen. Somit eignen sich Skip-Gram Modelle um präzise syntaktische und semantische Wortbeziehungen von Wörter als Vektordarstellungen zu präsentieren.

Wozu dienen Skip-Gram Modelle?

Mit Skip-Gram Modellen sind verteilte Darstellungen von Wörtern in einem Vektorraum realisierbar. Damit helfen Skip-Gram Modelle als Lernalgorithmen, bessere Ergebnisse in der Verarbeitung natürlicher Sprache zu erzielen indem ähnliche Wörter zueinander gruppiert sind.

Das Skip-Gram Modell und Word2Vec

Wie für Implementationen von Word2Vec üblich, dient auch hier ein one-hotcodierter Vektor (auch 1-of-N-coding), der ein Wort darstellt, als Input für ein neuronales Netzwerk.

One-Hot-Codierung bedeutet in diesem Fall, dass es sich um einen n-dimensionalen Vektor handelt, bei dem jeder Eintrag ein Wort des Wortschatzes repräsentiert. Ein einziges Wort wird also dargestellt durch einen Vektor, bei dem der entsprechende Eintrag auf 1 und alle anderen auf 0 gesetzt sind.

Ziel des Netzwerkes ist es einen ebenso großen Vektor auszugeben. Dieser soll ausdrücken, wie wahrscheinlich es ist, ein bestimmtes Wort zu finden, wenn man ein zufälliges Wort in der Nähe des Eingabeworts wählt. Dazu müssen sich alle Elemente natürlich zu 1 addieren, was mit Softmax-Regression erreicht wird. Dieses Netzwerk wird nun auf Wortpaaren trainiert, welche generierbar sind indem jedes Wort im Text mit allen anderen Wörtern im Umkreis von w Wörtern kombiniert wird.

Continuous Skip-Gram Modelle

Da die Wörter eines Paares nicht unbedingt nebeneinander stehen müssen, so wie es bei n-Grams der Fall ist, nennt sich dieses Modell (Continuous) Skip-Gram. Vereinfacht ausgedrückt ist das Prinzip also, für ein gegebenes Wort einen Kontext zu identifizieren der angibt welche anderen Wörter des Wortschatzes am wahrscheinlichsten in der Nähe dieses analysierten Wortes stehen. Die so ermittelten Wahrscheinlichkeitsvektoren haben die gewünschten Eigenschaften und Ähnlichkeitsverhältnisse die Word2Vec auszeichnen.

Skip-Gram-basierte Vektordarstellungen

Die Qualität solcher Vektordarstellungen lässt sich in einer Wortähnlichkeitsaufgabe messen. Die Ergebnisse sind dann mit den bereits vorliegenden Bewertungen vergleichbar; hierbei kommen bewährte Techniken neuronaler Netzwerke zum Einsatz. Durch eine Vielzahl genutzter Dimensionen sind unterschiedlichste Bedeutungsebenen berücksichtigt. Neben der Qualität der Contentanalyse legt dieses Verfahren besonderen Wert auf  die Performance gelegt. Ein 1,6 Milliarden umfassendes Datenset unterschiedlicher Wörter ist bereits bei geringer Rechenleistung in weniger als einem Tag trainierbar .

Die Wort-Offset-Technik in einem Skip-Gram Modell

Dabei geht der Nutzen der vektorisierten Wortdarstellungen weit über einfache syntaktische Gesetzmäßigkeiten hinaus: Die Anwendung einer Wort-Offset-Technik, bei der einfache algebraische Operationen auf den Wortvektoren ausgeführt werden, ermöglicht beispielsweise, dass der Vektor „König“ minus dem Vektor „Mann“ in einem Vektor resultiert, der deckungsgleich mit dem Vektor „Königin“ ist.

Barbieri et al haben die Skip-Gram basierte Technik bereits erfolgreich zur Emoji Klassifikation genutzt. Vor dem Hintergrund der Klassifizierung von Smileys in der Kontextanalyse lässt sich ein Skip-Gram Modell folglich ebenfalls implementieren. Unterstützend lassen sich die öffentlich frei verfügbaren Word2Vec Vektoren nutzen. Solche Word2Vec Datensammlungen sind bereits auf der Grundlage von 100 Milliarden Wörter von Google News trainiert. So unterstützt Big Data wirksam Ihre Contentanalyse nutzen.

Warum Data-Science & KI-Technologien unverzichtbar sind:

Einer der Hauptgründe dafür, dass Data Science so stark an Bedeutung gewonnen hat, ist die rasante Beschleunigung des Wachstum massiv großer Datensätze. Demzufolge bietet Big Data ein enormes Potenzial um neue Informationen und Wissen aus diesen Daten zu gewinnen.

Das Extrahieren der Informationen ist jedoch nicht einfach. Das Problem liegt in den meisten Fällen im Ursprung der Daten. Vielfach werden Daten in Unternehmen nicht spezifisch für ein bestimmtes Interesse oder in einem strukturierten Gesamtdesign gesammelt, sondern zusammenhanglos erhoben. Damit jedoch bleibt der Großteil wertvoller Informationen verborgen und ungenutzt. Deshalb ist es unerlässlich ein solides Datenkonzept zu erarbeiten und die digitale Wertschöpfungskette darauf aufzubauen.

Wünschen Sie ein rundum erfahrenes Team und durchdachte Lösungen für Ihr Unternehmen und Ihre Kunden? Wir bringen die digitale Transformation in Ihrem Unternehmen zum Erfolg und sparen Ihnen durch unsere Expertise langwieriges und vor allem kostspieliges Experimentieren.

Jetzt unverbindlich anfragen: Unsere Experten unterstützen Sie beim Erfolg Ihres Projekts!

Ähnliche Einträge

Zum Glossar

Neuer Artikel!