Skip to content

r-classes/2019_2020_ds4dh_hakathon_june

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 

Repository files navigation

Хакатон курса по dh 2019-2020

  • разбейтесь на команды по 1-6 человек и придумайте ей название
  • пройдите по ссылке, создайте свою команду и начните работать в созданном репозитории
  • предлагаемый тайм-лайн хакатона:
    • 11:00--12:00 разбиение на команды, выбор проекта, обсуждение плана проекта, разделение обязанностей среди участников, создание репозитория проекта
    • 12:00--18:00 активная разработка проекта с перерывом на пиццу
    • 18:00--19:00 команда готовится к презентации результатов проекта
    • 19:00--20:00 все прекращают работать (к этому времени, и презентация, и все рабочие материалы группы должны быть в репозитории) и слушают презентации проектов
    • 20:00 -- комиссия говорит свои замечания, советы, идеи

Не стесняйтесь задавать вопросы менторам, если что-то не получается. Не стесняйтесь перемешивать языки: если что-то не получается в R, сделайте на Python, если так проще.

Ссылка на общий jitsi.

Кураторы по языка программирования:

R Python
В. Поздняков @pozdniakovivan + -
Л. Чечик @tg_chechik + -
Г. Мороз @agricolamz + -
Ю. Мартысенко @yulqui + +
Н. Хорошева @nstsj - +
О. Сериков @oserikov - +
Д. Скоринкин @skorinkin - +

Задача 1 (Куратор: Ваня Поздняков, @pozdniakovivan)

Существует такой жанр текстов, как гороскопы. В данном задании предлагается проанализировать тексты гороскопов из самого популярного телеграм-канала с гороскопами --- @moygoroskop (телеграмм позволяет выкачать любой чат или канал в .html). Создайте датасет с переменными дата -- знак зодиака -- текст и проанализируйте его. Можно ли наблюдать какую-то цикличность в особенностях текстов предсказаний? Существуют ли какие-то особенности текстов предсказаний, связанные с каким-то знаком? Можно подумать и в другую сторону: попробовать сделать генератор предсказаний.

Задача 2 (Куратор: Даня Скоринкин, @skorinkin)

Существует статья "Палитра русской классики" Л. Поповец, проект цветолингвистика О. Стоговой или недавний пост ЦУН Библиотека им. Н.А. Некрасова. Попробуйте проанализировать цвета в собранном нами корпусе фантастики.

Задача 3 (Куратор: Гарик Мороз, @agricolamz)

В какой-то момент на занятиях мы обсуждали разницу энтропии между разными авторами. Посчитайте энтропию в собранном нами корпусе фантастики и проанализируйте, что это мера может нам сказать о произведениях.

Задача 4 (Куратор: Настя Хорошева, @nstsj)

Мы выкачали датасет с ингредиентами из разных рецептов в сайта eda.ru Проанализируйте данные и постройте граф связей ингредиентов. Также можно определить топ частотных рецептов, топ ингредиентов, топ сочетаний ингредиентов, построить дерево разновидностей рецептов по категориям (например, сколько видов салата "Цезарь" существует на сайте) или посмотреть, как кластеризуются рецепты на основе ингредиентов (кластеризация или уменьшение размерностей).

Задача 5 (Куратор: Олег Сериков, @oserikov)

Есть т.н. мемы. И у Вышки и у МГУ есть вконтакте паблики с мемами (мы их обкачали). Там почему-то указано одинаковое контактное лицо, это подозрительно...

  • Возможно, никакие эти паблики не самобытные и там постят одинаковый контент?
  • В какие моменты сообщества общаются друг с другом в комментах?
  • О чем вообще шутят и мемируют в Вышке и МГУ?
  • Есть т.н. мемы. Давайте срочно разбираться с компьютерным зрением! Мемы -- это же часто картинки, на которых что-то написано и что-то нарисовано.

Re: 💻👁️ Во-первых, точно где-то есть какие-то штуки, которые про фото говорят, что на нём за объекты: это api техногигантов (ms, google, amazon, ibm). Вы им отправляете фоточку, они в ответ -- что на фоточке.

Во-вторых, точно есть OCR. teserract для R и питона и + ещё апи e.g. яндекса и ms (в том же компзрении) для русского и английского.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published