Skip to content

Diapositivas, notebooks y material de charlas, talleres y el grupo de estudio

Notifications You must be signed in to change notification settings

somosnlp/recursos

Repository files navigation

Recursos de PLN en Español

En este repo encontrarás:

  • Datasets open-source: Lista de datasets abiertos de PLN en español (a continuación)
  • Hackathon Somos NLP 2022 y 2023: Diapositivas y notebooks de las charlas y talleres impartidas durante el mayor hackathon open-source de PLN en español
  • Grupo de estudio: Diapositivas y material del grupo de estudio, únete en el canal #grupo-de-estudio de Discord

Tenemos también una sección de la página web dedicada a recursos de PLN: https://somosnlp.org/recursos

Si no encuentras lo que estás buscando te animamos a unirte a Discord y preguntar a la comunidad. Aquí tienes una invitación.

Datasets Open-Source

nombre tareas dominio idioma pais página_web github paper hf_dataset_name hf_contributor_handle
BasCrawl modelado del lenguaje general euskera España https://doi.org/10.5281/zenodo.7313092 nan nan nan nan
Biomedical Spanish CBOW Word Embeddings in Floret modelado del lenguaje,CBOW (Continuous Bag Of Words) clinico español España https://doi.org/10.5281/zenodo.7314041 https://arxiv.org/abs/2109.07765 nan nan nan
CSIC Spanish Corpus modelado del lenguaje academico español España https://doi.org/10.5281/zenodo.7313126 nan nan nan nan
Catalonia Independence Corpus clasificación de sentimientos rrss catalán, español España nan https://github.com/ixa-ehu/catalonia-independence-corpus https://www.aclweb.org/anthology/2020.lrec-1.171/ catalonia_independence lewtun
HEAD-QA preguntas de opción múltiple clinico español España https://aghie.github.io/head-qa/ https://github.com/aghie/head-qa https://www.aclweb.org/anthology/P19-1092/ head_qa mariagrandury
InfoLibros Corpus modelado del lenguaje literatura español Varios https://doi.org/10.5281/zenodo.7313105 nan nan nan nan
Large Spanish Corpus modelado del lenguaje,pre-entrenamiento general español Varios nan https://github.com/josecannete/spanish-corpora nan large_spanish_corpus lewtun
Mucho Cine clasificación de sentimientos general español Varios http://www.lsi.us.es/~fermin/index.php/Datasets nan nan muchocine mapmeld
Spanish Billion Words modelado del lenguaje,pre-entrenamiento general español Varios https://crscardellino.github.io/SBWCE/ nan nan spanish_billion_words mariagrandury
Spanish Biomedical Crawled Corpus modelado del lenguaje clinico español España https://doi.org/10.5281/zenodo.5513237 nan https://arxiv.org/abs/2109.07765 nan nan
Spanish CBOW Word Embeddings in FastText modelado del lenguaje,FastText general español España https://doi.org/10.5281/zenodo.5044988 nan http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405 nan nan
Spanish CBOW Word Embeddings in Floret modelado del lenguaje,CBOW (Continuous Bag Of Words) general español España https://doi.org/10.5281/zenodo.7314098 nan nan nan nan
Spanish Legal Domain Corpora modelado del lenguaje legal español España https://doi.org/10.5281/zenodo.5495529 https://github.com/PlanTL-GOB-ES/lm-legal-es https://arxiv.org/abs/2110.12201 nan nan
Spanish Legal Domain Word & Sub-Word Embeddings modelado del lenguaje legal español España https://doi.org/10.5281/zenodo.5036147 https://github.com/PlanTL-GOB-ES/lm-legal-es https://arxiv.org/abs/2110.12201 nan nan
Spanish Skip-Gram Word Embeddings in FastText modelado del lenguaje,FastText general español España https://doi.org/10.5281/zenodo.5046525 nan http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405 nan nan
TDX Thesis Spanish Corpus modelado del lenguaje academico catalán, español España https://doi.org/10.5281/zenodo.7313149 nan nan nan nan
WikiCorpus modelado del lenguaje,POS (Part of Speech) general catalán, español, inglés Varios https://www.cs.upc.edu/~nlp/wikicorpus/ nan https://www.cs.upc.edu/~nlp/papers/reese10.pdf wikicorpus albertvillanova
eHealth-KD reconocimiento de entidades nombradas (NER) clinico es España https://knowledge-learning.github.io/ehealthkd-2020/ https://github.com/knowledge-learning/ehealthkd-2020 http://ceur-ws.org/Vol-2664/eHealth-KD_overview.pdf ehealth_kd mariagrandury

About

Diapositivas, notebooks y material de charlas, talleres y el grupo de estudio

Resources

Code of conduct

Stars

Watchers

Forks