O objetivo deste projeto de TCC é descobrir quais são as variáveis do DATASUS que têm maior impacto na saúde mental das cidades, com foco principalmente na questão do suicídio nos municípios brasileiros.
O projeto está organizado na seguinte estrutura de diretórios:
- 📁 CSV: Arquivos em formato csv
- 📁 Cadmun: Fonte
- 📄 CADMUN.csv: Cadastro de municípios (contém MUNCOD e Nome do município).
- 📁 Population: Fonte
- 📄 population_08_18.csv: População por município (2008-2018).
- 📁 SatScan
- 📄 case_file.csv: Case file para ser utilizado pelo software SatScan. Contém o número de suicídios por município e por ano.
- 📄 coordinates.csv: Coordinates file para ser utilizado pelo software SatScan. Contém as coordenadas geográficas de cada município.
- 📄 muncod_risk.csv: Municípios de alto risco, determinados pela análise feita com o software SatScan.
- 📄 population.csv: Population file para ser utilizado pelo software SatScan. Contém a população de cada município por ano.
- 📁 Suicide: Fonte
- 📄 suicide_count_08_18.csv: Número de suicídios por município (2008-2018).
- 📄 suicide_rates_08_18.csv: Taxa de suicídios (por 100 mil habitantes) por município (2008 - 2018).
- 📁 TabNet: Fonte
- 📁 Internacoes: Quantidades de ocorrências de cada doença por mês por município (2008-2018).
- 📁 Internacoes_Anual: Quantidades de ocorrências de cada doença por ano por município (2008-2018).
- 📁 Internacoes_Rate: Taxa de ocorrências de cada doença por ano por município (2008-2018).
- 📄 Suicides: Taxa de suicídio por ano por município (2008-2018).
- 📁 Cadmun: Fonte
- 📁 EDA: Primeira análise exploratória de dados baseada nos Dados de óbito (DO) do DATASUS.
- 📁 Models: Modelos realizados com base nos rates de doenças em cada município.
- 📁 Classification: Modelos de classificação de cidades por risco. Cada um dos modelos foi treinado utilizando-se 4 diferentes estratégias de preenchimentos de dados nulos.
- 📁 LogisticRegression: Modelo de classificação utilizando função logística.
- 📁 RandomForest: Modelo de regressão utilizando árvores de decisão.
- 📁 XGBoost: Modelo de ensemble de árvores de decisão.
- 📁 Regression: Modelos de predição de rates de suicídio e de diversas doenças.
- 📄 lasso.ipynb: Modelo de regressão linear com regularização L1 e seleção de variáveis.
- 📄 multiple_linear_regression.ipynb: Modelo de regressão linear simples.
- 📄 random_forest_regression.ipynb: Modelo de árvores de decisão.
- 📄 ridge.ipynb: Modelo de regressão linear com regularização L2.
- 📁 time_series: Modelagem com Time Series dos rates nos anos de 2015-2018 (a completar).
- 📁 LinearModels: Primeiros modelos lineares (deprecated).
- 📁 Classification: Modelos de classificação de cidades por risco. Cada um dos modelos foi treinado utilizando-se 4 diferentes estratégias de preenchimentos de dados nulos.
- 📁 PySal
- 📄 ESDA.ipynb: Análise exploratória espacial (ESDA) usando a biblioteca PySal para calcular Moran's BV I (autocorrelação espacial).
- 📁 SatScan: Análises feitas com o software SatScan
- 📁 Clusters: Output do software SatScan (análise feita no período 2008-2018).
- 📁 Images: Imagens geradas durante a análise dos clusters.
- 📄 satscan.ipynb: Análise dos resultados obtidos pelo SatScan.
- 📄 satscan_data_processing.ipynb: Processamento de dados para serem utilizados pelo software.
- 📁 Spearman: Cálculo de correlação de Spearman entre rates de doenças e rates de suicídio, utiliza dados de Morbidade do DATASUS.
- 📄 spearman_analysis.ipynb: correlação de Spearman (2008-2018).
- 📁 TabNet: Tratamento de dados provenientes da plataforma TabNet do DATASUS
- 📄 suicide_format_data.ipynb: tratamento de dados referentes ao suicídio.
- 📄 diseases_format_data.ipynb: tratamento de dados referentes às doenças.
Este projeto está sendo desenvolvido pelos alunos de Engenharia de Computação Quadrimestral (2020) da Escola Politécnica da USP:
- Leonardo Borges Mafra Machado - 9345213
- Marcos Paulo Pereira Moretti - 9345363
- Paula Yumi Pasqualini - 9345280
O projeto está sendo orientado pelo Professor Dr. Ricardo Luis de Azevedo da Rocha.
Este projeto está sendo realizado em parceria com o C²D e o Itaú Unibanco.