La diffusion geometry o DG es usada mayormente en minería de datos y análisis de textos. Se define a la norma entre puntos del espacio de datos a (1) donde t es un factor de escala y (x,y) son pares de puntos en dicho espacio de N puntos. En si A(,) es una matriz de NxN que es la representación matricial de la norma en dicho espacio. Esta conecta cada par de puntos con una arista ponderada con pesos mayores que cierto umbral.
Se puede normalizar A(,) para obtener una matriz de Markov P(,), la cual representa un paseo aleatorio en el espacio de datos y se la interpreta como la probabilidad de transición entre el punto x e y. En DG P(,) y sus potencias son usadas para explorar la geometría de datos. Un ejemplo concreto es el análisis de textos.
Si se considera una cantidad de k-textos (libros) se puede representar cada texto como un vector vocabulario (2) donde cada componente representa la frecuencia relativa de aparición de una palabra del diccionario de las 10000 palabras más frecuentes de la lengua castellana. Entonces cada vector V_k representa un punto sobre el espacio de libros y sobre estos calculo P(,) ver (3). Entonces se puede usar los autovectores de autovalores dominantes para construir un espacio m-dimensional (menor dimensión) para encajar el espacio de datos (spectral data embeding)(4). El proyector P^l(x,y) (3 superior) no es más que la probabilidad de que por medio de un camino de longitud l; x pase a y esto se lo conoce como distancia de difusión en tiempo l.
Se puede normalizar A(,) para obtener una matriz de Markov P(,), la cual representa un paseo aleatorio en el espacio de datos y se la interpreta como la probabilidad de transición entre el punto x e y. En DG P(,) y sus potencias son usadas para explorar la geometría de datos. Un ejemplo concreto es el análisis de textos.
Si se considera una cantidad de k-textos (libros) se puede representar cada texto como un vector vocabulario (2) donde cada componente representa la frecuencia relativa de aparición de una palabra del diccionario de las 10000 palabras más frecuentes de la lengua castellana. Entonces cada vector V_k representa un punto sobre el espacio de libros y sobre estos calculo P(,) ver (3). Entonces se puede usar los autovectores de autovalores dominantes para construir un espacio m-dimensional (menor dimensión) para encajar el espacio de datos (spectral data embeding)(4). El proyector P^l(x,y) (3 superior) no es más que la probabilidad de que por medio de un camino de longitud l; x pase a y esto se lo conoce como distancia de difusión en tiempo l.
No hay comentarios.:
Publicar un comentario