Data Cleaning

Aus Chaos wird Ordnung – unsere KI befreit Ihre Textdaten in Rekordzeit von Tippfehlern, Nonsens und Redundanzen.

01 – Sanity Check: Die Daten werden auf Sinnhaftigkeit geprüft und Nonsenstexte entsprechend entfernt.

02 – Tippfehler und Orthografie werden korrigiert.

03 – Worte können in ihre lexikalische Grundform zurückgesetzt werden, um Texte vergleichbar zu machen.

04 – Data Matching: Zusätzlich können Texte abgeglichen und wieder schlank zusammengeführt und werden.

5

Sprachen können bereinigt werden

10 – 60 Sek

kurze Analysezeit auch bei große Datenmengen

+ 1.500.000

Sätze wurden bereits von deepsight bereinigt

Fragen und Antworten

Welche Sprachen können bearbeitet werden?

Momentan können Textdaten auf Englisch, Deutsch, Französisch, Spanisch und Niederländisch bereinigt werden. Wir sind aber ständig dabei, die Fähigkeiten der KI zu erweitern und dabei auch offen für Ihre Anfragen.

Welche Texte kann der Sanity-Check erkennen und möglicherweise entfernen?

Der Sanity-Check erkennt zufällige Buchstaben oder Zahlen, Nonsenstexte und nicht relevante Aussagen wie „kein Kommentar“ oder sogar Beleidigungen. Was alles aus Ihren Daten entfernt werden soll, bestimmen Sie vorab.

Kann ich später kontrollieren, was genau entfernt wurde?

Selbstverständlich. Nach dem Data Cleaning bekommen Sie ein Protokoll über alle Bearbeitungen, aufgelistet nach Kategorie.

Was ist mit speziellen Titeln oder Namen? Werden die von der Rechtschreibkorrektur zerschossen?

Unsere Rechtschreibkorrektur funktioniert konservativ: Stark abweichende Schreibweisen und damit oft absichtlich anders geschriebene Worte werden nicht berücksichtigt. Außerdem werden Begriffe, die nicht im Lexikon gefunden wurden, auf geschützte Namen hin überprüft. Das Bewahren von Information wird also in jedem Fall der perfekten Schreibweise vorgezogen.

Projekt im Kopf?

Dr. Alexander Meier

Let’s talk! Co-Founder Alex bespricht mit Ihnen, wie Sie unsere KI für sich nutzen können.