next up previous contents
Next: Spracherkennungssysteme Up: Comint-Ausruestung und Details der Previous: Traffic-Analyse, Schluesselworterkennung   Contents

N-Gram-Analyse == Topicspotting

Reine Schluesselworterkennung ist vielleicht schon jetzt veraltet, stattdessen wird Themenerkennung benutzt.

Das ermoeglicht es, z.B. zu sagen: Finde ein Dokument mit dem Thema ``Waffen an Iran''.

Diese Technologie ist recht neu und evtl. auch noch nicht funktionstuechtig, die Forschung auf diesem Gebiet wird aber von der NSA stark vorangetrieben.

Es gibt eine Methode namens N-gram Analyse, am 23.05.1995 von der NSA patentiert, um Dokumente mit verwandten Themen zu finden.

Diese Methode soll vollkommen sprachunabhaengig funktionieren, und sehr effektiv sein, auch wenn das Dokument eine hohe Anzahl von Fehlern ausweisst.

N-Grams werden benutzt, um Objekte als Vektoren zu beschreiben.

Das macht es moeglich, geometrische, statistische und andere mathematische Techniken darauf anzuwenden, die fuer Vektoren definiert sind, fuer allgemeine Objekte aber nicht.

Def.: A sei ein Alphabet |A| ist die Maechtigkeit des Alphabets und n ist eine positive ganze Zahl. Ein N-Gram ist dann eine Wort der Laenge n.

Wenn man die Frequenz des Vorkommens eines N-Grams in einer Folge von Zeichen des Alphabets bestimmt, erhaelt man einen N-Gram-Frequenz-Vektor der Folge.

A={``and'', ``you'', `` ``}; w=''you and you''

1-Gram==UniGram: and:1, you: 2, `` ``:2

2-Gram==BiGram: ``and ``:1, ``you ``:1, `` and'':1, `` you'':1

Vektor fuer 1-Gram: (1,2,2), fuer 2-Gram: (0,0,1,0,0,1,1,1,0)

Groesse waechst exponentiell, Groesse fuer Vektor ist: |A| hoch n

Eine Vorraussetzung ist also, dass das Objekt als Folge von Zeichen eines Alphabetes beschrieben

In der Regel benutzt man Buchstaben als Alphabet plus ein Trennzeichen, keine Woerter

Vorteile: Geringere Alphabetgroesse, geringer Fehleranfaelligkeit, keine Kenntnis der Sprache noetig

2 Dokumente, Vektoren ermitteln, normieren, Manhattan Distance berechnen: Summe der Differenzen des Betrages der einzelnen Komponenten, oder Euklidische Distanz: Summer der Quadrate der Differenzen des Betrages der einzelnen Komponenten, je naeher Zahl an 1, desto aehnlicher das Thema der Dokumente


next up previous contents
Next: Spracherkennungssysteme Up: Comint-Ausruestung und Details der Previous: Traffic-Analyse, Schluesselworterkennung   Contents
Lee Chuck 2001-05-15