Das Stichwort hier heißt „Unsupervised Learning“. Das bedeutet, unsere KI lernt selbstständig – komplett ohne sogenannte Trainingsdaten. Die versteckten Themen in Texten können so ausschließlich anhand des eingegebenen Datensatzes identifiziert werden, vordefinierte Kategorien sind nicht nötig. Auch die optimale Anzahl von identifizierten Themen bestimmt unsere KI selbst und schlägt mögliche Namen für jedes Thema vor. Mithilfe von Deep-Learning-Frameworks kann unsere KI den Kontext verstehen und sogar mit Mehrdeutigkeit umgehen.
Alles ab 1.000 Sätzen ist eine grobe Richtlinie für Textdaten, bei denen die Topic Identification ihr volles Potenzial entfaltet.
Ja, es ist möglich die Anzahl an Themes bis zu einem gewissen Grad einzugrenzen. Es hängt vom Charakter Ihrer Daten und Ihrem Anspruch ab – manchmal kann ein Set von 15 Themen die nötige Klarheit schaffen, während bei anderen Datentypen ein detailliertes Themenspektrum von 80 die wertvollsten Insights gibt.
Keywordanalyse bedeutet einfach gesagt – es werden Wörter gezählt. Unsere Topic Identification ist um einiges intelligenter, denn sie arbeitet semantisch. Das bedeutet, die KI kann den jeweiligen Kontext erkennen und daraus Cluster ableiten. Das ist vergleichbar mit der menschlichen Analysefähigkeit – nur viel schneller und absolut objektiv.
Ganz gleich wie oft – die Ergebnisse sind immer exakt gleich. Im Gegensatz zu uns Menschen sind Algorithmen deterministisch, so kann man sich hier auf ein wirklich objektives Ergebnis verlassen.
Momentan können Topics in englischen, niederländischen und deutschen Texten identifiziert werden. Kommen in einem Datenpaket mehrere Sprachen vor, empfehlen wir alles auf eine Sprache zu übersetzen – in unserem Service ist das schon inklusive. Das verbessert die Analysequalität und macht den Ergebnisbericht präziser.