
Se puede normalizar A(,) para obtener una matriz de Markov P(,), la cual representa un paseo aleatorio en el espacio de datos y se la interpreta como la probabilidad de transición entre el punto x e y. En DG P(,) y sus potencias son usadas para explorar la geometría de datos. Un ejemplo concreto es el análisis de textos.
Si se considera una cantidad de k-textos (libros) se puede representar cada texto como un vector vocabulario (2) donde cada componente representa la frecuencia relativa de aparición de una palabra del diccionario de las 10000 palabras más frecuentes de la lengua castellana. Entonces cada vector V_k representa un punto sobre el espacio de libros y sobre estos calculo P(,) ver (3). Entonces se puede usar los autovectores de autovalores dominantes para construir un espacio m-dimensional (menor dimensión) para encajar el espacio de datos (spectral data embeding)(4). El proyector P^l(x,y) (3 superior) no es más que la probabilidad de que por medio de un camino de longitud l; x pase a y esto se lo conoce como distancia de difusión en tiempo l.
No hay comentarios.:
Publicar un comentario