El modelo de espacio vectorial basado en tópicos (TVSM) [1] (bibliografía: [1]) extiende el modelo de espacio vectorial de recuperación de información al eliminar la restricción de que los términos-vectores sean ortogonales. La suposición de términos ortogonales es incorrecta en lo que respecta a los lenguajes naturales, lo que causa problemas con sinónimos y términos fuertemente relacionados. Esto facilita el uso de listas de palabras vacías, lematización y tesauros en TVSM. A diferencia del modelo de espacio vectorial generalizado, el TVSM no depende de similitudes basadas en la concurrencia entre términos.
La premisa básica de TVSM es la existencia de un espacio R de dimensión d con solo intersecciones positivas en los ejes, es decir, R en R + y d en N + . Cada dimensión de R representa un tema fundamental. Un vector de términos t tiene un peso específico para un cierto R. Para calcular estos pesos se hacen suposiciones teniendo en cuenta el contenido del documento. Idealmente, los términos importantes tendrán un peso alto y las palabras vacías y los términos irrelevantes para el tema tendrán un peso bajo. El modelo de documento TVSM se obtiene como una suma de vectores de términos que representan términos en el documento. La similitud entre dos documentos Di y Dj se define como el producto escalar de los vectores de documento.
La mejora del modelo de espacio vectorial basado en temas mejorado (eTVSM) [2] (bibliografía: [2]) es una propuesta sobre cómo derivar vectores de términos a partir de una ontología . El uso de una ontología de sinónimos creada a partir de WordNet Kuropka muestra buenos resultados para la similitud de documentos. Si se utiliza una ontología trivial, los resultados son similares al modelo de espacio vectorial.