Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Идея: анализ упоминаний и тематик в СМИ #25

Open
dractw opened this issue Dec 2, 2019 · 4 comments
Open
Labels

Comments

@dractw
Copy link

dractw commented Dec 2, 2019

ref to #10

Анализ новостных лент по тегам и ключевым словам, для составления инфографики по текущей и/или исторический активности СМИ по конкретной теме или подтексту, с определением характера упоминаний - положительный, отрицательный, нейтральный.

@KlonD90 KlonD90 added the idea label Dec 2, 2019
@dractw
Copy link
Author

dractw commented Dec 2, 2019

ref to #10
Анализ новостных лент по тегам и ключевым словам, для составления инфографики по текущей и/или исторический активности СМИ по конкретной теме или подтексту, с определением характера упоминаний - положительный, отрицательный, нейтральный.

Действительно нужное приложение, часто бывает нужно оценить охват аудитории после акции чтобы понять результативность и заинтересованность населения,
Обычно это делается в ручную, собирается информация за 7 дней и считаются все просмотры

К этой идее меня больше всего подталкивает возможность определять так называемую информационную травлю или наоборот пропаганду, т.к не редки случаи, когда, нейтральной по своей сути, информации, с помощью неопределённого круга СМИ и в каких либо локальных интересах, предаётся резко негативная окраска, либо наоборот, крайне положительная.

@aurman21
Copy link

aurman21 commented Dec 4, 2019

окей, вопрос, откуда брать сами новостные ленты? ну и чтобы мониторить в режиме реального времени нужен ресурс (в плане денег на сервер, где все это будет хоститься)
типа как вариант - скрейпить те же яндекс новости в реальном времени (+-), потому что большая часть пропагандистских сми все равно там упоминается. потом гнать что-нибудь, что будет выделять негативный сентимент+схожесть тем (наверное тоже в реальном времени? вот тут нужен ресурс. ну или апдейтить раз в день-раз в Н часов), и таким образом выделять вероятные стримы онлайн-травли (условно, таким образом можно зацепить, что много пропагандистских сми разом пишут негатив, допустим, про какого-то оппозиционного политика, то есть видимо организованная травля). небольшая проблема, которую я вижу сразу - определение сентимента (эмоциональной окраски) на русскоязычных текстах (насколько у меня есть опыт) работает так себе, но это +- решаемо (так себе, но работает же :)

@dractw
Copy link
Author

dractw commented Dec 5, 2019

@aurman21

окей, вопрос, откуда брать сами новостные ленты?

Вариантов более чем достаточно, публичные API новостных агрегаторов (в т.ч. ЯН), парсинг RSS-лент, это только то, что пришло в голову.

ну и чтобы мониторить в режиме реального времени нужен ресурс (в плане денег на сервер, где все это будет хоститься)

В реальном времени - имеется в виду следить за обновлением того или иного источника? Можно и так, но мне видится более реальным и менее трудоемким использовать интервалы апдейта. На начальном этапе VDS под это дело будет стоить чуть дороже, чем бесплатно. :)

небольшая проблема, которую я вижу сразу - определение сентимента (эмоциональной окраски) на русскоязычных текстах (насколько у меня есть опыт) работает так себе, но это +- решаемо (так себе, но работает же :)

Тут ничего не могу сказать, никогда ничего подобного не делал, но тропинка уже протоптана и работа проделана, осталось только с ней ознакомиться и применять на практике.
http://www.dialog-21.ru/digests/dialog2013/materials/pdf/AntonovaAJ.pdf
http://www.dialog-21.ru/digests/dialog2011/materials/ru/pdf/50.pdf

@sasha110110
Copy link

уже на самом деле довольно много даже предобученных моделей на хорошо-плохо, так что мне кажется, анализ тональности русского текста работает неплохо. я не очень понимаю идею - это должно выглядеть как гугл трендс? или что перевешивает сейчас по конкретному запросу - плохо или хорошо? включая анализ комментариев под новостями?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants