Skip to content

datadoc-opovo/fortaleza-296anos

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Cancioneiro das múltiplas Fortalezas: retratos da capital cearense em composições

Este repositório refere-se à análise e apuração realizadas para a reportagem reportagem Cancioneiro das múltiplas Fortalezas, publicada no O POVO+ no dia 12 de abril de 2022 em alusão aos 296 anos da Cidade. A data é comemorada no dia 13 de abril.

Nuvem de palavras

A partir de dados do projeto Fortaleza em Música, da Universidade Federal do Ceará (UFC), a Central de Jornalismo de Dados do O POVO (DATADOC) buscou entender que cidade é retratada pelos artistas nas letras das composições.

Este repositório é uma forma garantir o compromisso com a transparência, integridade e confiabilidade das análises e materiais da DATADOC. Os dados originais pertencem ao Grupo de Imagem, Consumo e Experiência Urbana (ICA/UFC) e foram concedidos apenas para análise da equipe de reportagem.

Por isso, excepcionalmente, a base de dados original não será disponibilizada pela DATADOC e os trechos de código que mostram detalhes das informações concedidas pelos pesquisadores foram suprimidos do notebook reportagem_fortaleza_296_anos. Este repositório contém os códigos utilizados na análise e os arquivos gerados para elaboração de nuvens de palavras e demais gráficos. A análise é feita em Python.


Fonte e coleta de dados:

Metodologia

Para chegarmos às evidências da reportagem Cancioneiro das múltiplas Fortalezas, que revelou os bairros de fortaleza mais citados em canções de artistas locais, foi adotada a técnica computacional “text mining”.

Para esse processo, foi utilizada a biblioteca Natural Language Toolkit (NLTK). Primeiramente consolidamos a amostra de 79 letras musicais em um corpus único. Em seguida , iniciamos a limpeza textual, com a exclusão das stopwords, carácteres especiais e pontuação, e em seguida foi feita tokenização do corpus.

Em seguida, foi construída a nuvem de palavras obtida por meio das 79 letras unificadas em um único corpus de análise , verificando-se que as cinco palavras mais evocadas foram: mar (60), sol (57), tempo (42), dia (41) e vida (37), mostrando que nas composições está presente a referência à paisagem litorânea da Capital.

O corpus geral foi constituído por 79 textos , dos quais emergiram 2812 ocorrências (palavras, formas ou vocábulos) sendo 1197 palavras que se repetem ao longo do texto e 1615 com uma única ocorrência.

Já o corpus referente às falas sobre a inspiração dos artistas era composto por 73 textos, dos quais emergiram 2008 ocorrências. Destas, eram 736 que se repetiam e 1272 de ocorrência única.

Em ambos os casos, buscou-se preservar palavras compostas e nomes de pessoas por meio da definição das funções processingTxt e processingTxtInspiracao. Também foram acrescentados mais termos à lista de stopwords em português disponível na biblioteca NLTK com expressões encontradas no corpus analisado.

Arquivos gerados:

Dataframes

  • df_nuvem_palavras_geral.csv: palavras mais recorrentes nas letras das músicas;
  • df_nuvem_inspiracao.csv: palavras mais recorrentes nas falas dos artistas sobre inspiração para a música;
  • df_musicas_por_bairros.csv: quantidade de músicas referente a cada bairro de Fortaleza
  • 10mais.csv: ranking das métricas de cada vídeo no YouTube

Visualizações


Como utilizar:

Para executar o notebook com a coleta e processamento dos dados, é necessário um ambiente com Python3 e dependências que podem ser instaladas via Pip:

!pip install pandas
!pip install geopandas
!pip install nltk

A central DATADOC

A Central de Jornalismo de Dados do O POVO (DATADOC) alia tecnologia e técnicas diversas de análises de dados para produzir um jornalismo de precisão para que você forme sua opinião com segurança. Nosso objetivo é fazer com que todos tenham acesso aos dados utilizados nas notícias que produzimos.

A DATADOC é composta por uma equipe de três jornalistas (sendo uma infografista), uma desenvolvedora front-end e um cientista da computação que coletam, enriquecem e disponibilizam as bases e códigos de cada reportagem para um jornalismo transparente e baseado em evidências.


🔥📰👩🏻‍💻 Se você gostou do nosso material, apoie assinando o OP+ e acompanhando o nosso trabalho.

📝📨 Para feedback, dúvidas ou sugestões: [email protected]


🗓️🕵🏻 Confira também outras produções recentes da central DATADOC: O especial #CredosDeFortaleza revelou benefícios fiscais indevidos, templos fantasmas e os principais devedores do fisco e está disponível no O POVO+.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published