Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Análise dos dados #2

Open
rodrigoazs opened this issue Apr 14, 2018 · 1 comment
Open

Análise dos dados #2

rodrigoazs opened this issue Apr 14, 2018 · 1 comment

Comments

@rodrigoazs
Copy link
Collaborator

rodrigoazs commented Apr 14, 2018

  • Número de termos, termos mais frequentes e menos frequentes por categoria e geral

  • Gráfico Número de ocorrências x Número máximo de ocorrências de um mesmo termo num documento

  • Obter a média acima (ou seja, a média de um termo aparecer repetidamente num documento, isso nos ajudará a definir um termômetro na binarização)

  • Gráfico Ranking de termos com maior TF-IDF

  • Gráfico Número de ocorrências x Número de termos na documento

Referência:
https://www.kaggle.com/adhok93/initial-analysis-using-tidytext
https://www.kaggle.com/sudalairajkumar/simple-leaky-exploration-notebook-quora

@rafaelscnunes
Copy link
Owner

No notebook de implementação do Bag-of-Words foi inserido um histograma de classes, mostrando a quantidade de observações de cada uma das 6 classes existentes no dataset.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants