# Comparativa de vectores pre-entrenados de Word2Vec, GloVe y FastText para medir la similaridad semántica entre pares de oraciones (English below)
# Comparativa de vectores pre-entrenados de Word2Vec, GloVe y FastText para medir la similaridad semántica entre pares de oraciones
Parte del Trabajo de Fin de Grado **"Asistentes virtuales: estado del arte y desarrollo de un prototipo"** realizado por D. Pablo Valdunciel Sánchez.
...
...
@@ -124,51 +124,3 @@ pandas==1.0.3
sklearn==0.0
spacy==2.2.4
```
\ No newline at end of file
<hr>
# Comparativa de vectores pre-entrenados de Word2Vec, GloVe y FastText para medir la similaridad semántica entre pares de oraciones
## Repository structure
-**data/**
-**datatsets/**
-**get_datasets.bash**: *script* que permite descargar los conjuntos de datos utilizados en la evaluación y que es una modificación del proporcionado en el toolkit [SentEval](https://github.com/facebookresearch/SentEval).
-**tokenizer.vec**
-**embedding/**
-**fasttext/get_fasttext_embeddings.bash**: script that downloads the set of word vectors computed with the FastText used.
-**gloVe/**
-**2word2vec.py**: transforms the GloVe vector set to Word2Vec format.
-**get_glove_embeddings.bash**: script that downloads the GloVe word embeddings set used.
-**word2vec/get_word2vec_embeddings.bash**: script that downloads the Word2Vec word embeddings set used.
-**frequencies.tsv**
-**.gitignore**
-**LICENSE**
-**SENTEVAL_LICENSE**: license of the [SentEval](https://github.com/facebookresearch/SentEval) toolkit developed by Facebook.
-**evaluation.ipynb**: Jupyter Notebook file in which the evaluation carried out is developed.
-**load.py**: contains a set of functions to load and preprocess the different data sets used. The code is based on what can be found in the [SentEval](https://github.com/facebookresearch/SentEval) toolkit .