Часть инициативы ML4SG от ods.ai
Мы делаем инструмент для исследования развития со временем тем в текстах. Основной целевой набор текстов -- русскоязычные новости, но методика и сам инструмент подходят для произвольного набора текстов.
(Проект переехал отсюда)
https://github.com/newsviz/newsviz/wiki
Тут документация по основному коду https://github.com/newsviz/newsviz/wiki/Инструкция-по-запуску
.
├── config/config.ini -- директория для конфигов
├── data/ -- на гитхабе только пустые папки будут, а так датка локально будет здесь во время запуска
│ ├── raw -- сырые данные
│ ├── processed -- токенизировано и лемматизировано
│ ├── classified -- после классификации
│ ├── topic_modelleded -- после ТМ
│ └── ready2viz -- бери и вставляй в визуалайзер
├── newsviz -- собственно основной код
│ ├── run.sh -- one ring to rule them all
│ ├── pipeline.py -- основной скрипт со всеми luigi тасками
│ ├── preprocessing_tools.py -- скрипты препроцессинга
│ ├── topic_model.py -- обёртка для тематической модели
│ └── vizualizer -- здесь будет лежать стандартный визуализатор
│ ├── app.py
│ └── utils.py
├── models -- папка для моделей по умолчанию
│ └── classifier
│ ├── clf.bin
│ └── feature_extractor.bin
├── topic_model
│ ├── model.bin
│ └── dictionary{classname}.txt
└──tests
Python 3.6+
см. contributing
- Посмотрите issues -- там должны быть расписаны актуальные задачи
- Помогите нам дополнить документацию и помочь другим разобраться в проекте
- Если ничего не понятно -- задайте вопросы, это приветствуется
Big Data Indicators
Семантические сдвиги в русских новостях
В алфавитном порядке
- @Alf162
- @Avenon
- @BoardGamer44
- @Erlemar
- @IlyaGusev
- @iwooloowi
- @LanSaid
- @Midzay
- @Teoretic6
- @andreymalakhov
- @aprotopopov
- @buriy
- @darkzenon
- @iggisv9t
- @m12sl
- @marishadorosh
- @monuvio
- @orech
- @p-kachalov
- @vtrokhymenko
Здесь могло быть ваше имя.