Skip to content
Snippets Groups Projects
Commit d6bf47f5 authored by albcalv's avatar albcalv
Browse files

Update README.md

parent ac514173
No related branches found
No related tags found
No related merge requests found
......@@ -4,6 +4,9 @@ Este proyecto está creado para la realización del Trabajo de Fin de Grado del
Los archivos asociados a la construcción del sistema final se encuentran todos dentro de la carpeta ***./project*** y lo correspondiente al seguimiento del proyecto (cuaderno de bitácora y planning) se encuentra en la carpetea *./seguimiento*
## Trabajo realizado
--------------------
Recalcar que todas las pruebas se han realizado en Jupyter Notebook y posteriormente se han convertido en módulos distinguidos en programas Python normales.
Para la primera fase de extracción de los datos se ha utilizado **./project/twitter_scrapper.py** . Se obtiene un conjunto de datos que contiene 15000 tweets en castellano que incluyen la palabra clave ''Covid'' y que se encuentran en *./project/data/es/tweet15k.csv*
......@@ -19,7 +22,18 @@ Se han construido cuatro sistemas de etiquetado cada uno utilizando uno de los l
Durante todo el proceso de etiquetado se ha mantenido la posibilidad de etiquetar un tweet como 'neutro' ante la ausencia de elementos que nos indiquen una cierta polaridad, sin embargo en el sistema final se ha reducido de 15000 a **10573** que son el número de tweets etiquetados como 'positivo' (**6493**) y 'negativo' (**4080**) únicamente.
Todo este proceso se ha realizado con el sistema de etiquetado incluido en **./project/labeling_data.py**
Finalmente trás una extensa tarea de selección de parámetros, tenemos un clasificador final construido como un sistema de votación de mayoría de tres clasificadores individuales:SVM, Random Forest y Regresión Logística. Como sistema de extracción de características se ha utilizado BoW. Todo esto lo encontramos en **./project/main.py**
Finalmente trás una extensa tarea de selección de parámetros, tenemos un clasificador final construido como un sistema de votación de mayoría de tres clasificadores individuales:SVM, Random Forest y Regresión Logística. Como sistema de extracción de características se ha utilizado BoW. Todo esto lo encontramos en **./project/modelado.py**
Todo lo realizado en el trabajo de fin de grado ha sido partiendo del archivo **./project/data/tweets15k.csv** y se han ido generando distintos archivos de datos almacenados en **.project/data/** así como gráficos, modelos y resultados.
## Replicar el trabajo
----------------------
Se deja preparada la estructura de archivos para que el lector pueda disponer de el proyecto para replicar el trabajo desde su fase inicial de extraer datos.
Para ello vale con ejecutar el programa **.project/twitter_scrapper.py** pasándole como argumento el número de tweets que se pretenden extraer. El archivo de datos generado estará situado en la carpeta **./project/datos_nuevos**, donde va a ir todos los archivos generados en este nuevo experimento.
Copyright © 2020 Alberto Calvo
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment