Skip to content

Project on text topics evolution over time analysis

License

Notifications You must be signed in to change notification settings

VladislavNekto/newsviz

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LOGO

Часть инициативы ML4SG от ods.ai

Что здесь происходит

Мы делаем инструмент для исследования развития со временем тем в текстах. Основной целевой набор текстов -- русскоязычные новости, но методика и сам инструмент подходят для произвольного набора текстов.
(Проект переехал отсюда)

Концепт такой:
Preview2

Ответы на все вопросы первым делом искать тут:

https://github.com/newsviz/newsviz/wiki

Тут документация по основному коду https://github.com/newsviz/newsviz/wiki/Инструкция-по-запуску

Структура репозитория

.
├── config/config.ini -- директория для конфигов
├── data/ -- на гитхабе только пустые папки будут, а так датка локально будет здесь во время запуска
│    ├── raw -- сырые данные
│    ├── processed -- токенизировано и лемматизировано
│    ├── classified -- после классификации
│    ├── topic_modelleded -- после ТМ
│    └── ready2viz -- бери и вставляй в визуалайзер
├── newsviz -- собственно основной код
│    ├── run.sh -- one ring to rule them all
│    ├── pipeline.py -- основной скрипт со всеми luigi тасками
│    ├── preprocessing_tools.py -- скрипты препроцессинга
│    ├── topic_model.py -- обёртка для тематической модели
│    └── vizualizer -- здесь будет лежать стандартный визуализатор
│        ├── app.py
│        └── utils.py
├── models -- папка для моделей по умолчанию
│    └── classifier
│        ├── clf.bin
│        └── feature_extractor.bin
├── topic_model
│        ├── model.bin
│        └── dictionary{classname}.txt
└──tests

Requirements

Python 3.6+

Contributing (Как участвовать в проекте)

см. contributing

Чем вы можете помочь

  1. Посмотрите issues -- там должны быть расписаны актуальные задачи
  2. Помогите нам дополнить документацию и помочь другим разобраться в проекте
  3. Если ничего не понятно -- задайте вопросы, это приветствуется

Родственные проекты

Big Data Indicators
Семантические сдвиги в русских новостях

Contributions

В алфавитном порядке

Здесь могло быть ваше имя.

About

Project on text topics evolution over time analysis

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%