Análise dos dados #2

rodrigoazs · 2018-04-14T01:53:43Z

Número de termos, termos mais frequentes e menos frequentes por categoria e geral
Gráfico Número de ocorrências x Número máximo de ocorrências de um mesmo termo num documento
Obter a média acima (ou seja, a média de um termo aparecer repetidamente num documento, isso nos ajudará a definir um termômetro na binarização)
Gráfico Ranking de termos com maior TF-IDF
Gráfico Número de ocorrências x Número de termos na documento

Referência:
https://www.kaggle.com/adhok93/initial-analysis-using-tidytext
https://www.kaggle.com/sudalairajkumar/simple-leaky-exploration-notebook-quora

rafaelscnunes · 2018-04-27T05:40:03Z

No notebook de implementação do Bag-of-Words foi inserido um histograma de classes, mostrando a quantidade de observações de cada uma das 6 classes existentes no dataset.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Análise dos dados #2

Análise dos dados #2

rodrigoazs commented Apr 14, 2018 •

edited

Loading

rafaelscnunes commented Apr 27, 2018

Análise dos dados #2

Análise dos dados #2

Comments

rodrigoazs commented Apr 14, 2018 • edited Loading

rafaelscnunes commented Apr 27, 2018

rodrigoazs commented Apr 14, 2018 •

edited

Loading