- разбейтесь на команды по 1-6 человек и придумайте ей название
- пройдите по ссылке, создайте свою команду и начните работать в созданном репозитории
- предлагаемый тайм-лайн хакатона:
- 11:00--12:00 разбиение на команды, выбор проекта, обсуждение плана проекта, разделение обязанностей среди участников, создание репозитория проекта
- 12:00--18:00 активная разработка проекта с перерывом на пиццу
- 18:00--19:00 команда готовится к презентации результатов проекта
- 19:00--20:00 все прекращают работать (к этому времени, и презентация, и все рабочие материалы группы должны быть в репозитории) и слушают презентации проектов
- 20:00 -- комиссия говорит свои замечания, советы, идеи
Не стесняйтесь задавать вопросы менторам, если что-то не получается. Не стесняйтесь перемешивать языки: если что-то не получается в R, сделайте на Python, если так проще.
Кураторы по языка программирования:
R | Python | ||
---|---|---|---|
В. Поздняков | @pozdniakovivan | + | - |
Л. Чечик | @tg_chechik | + | - |
Г. Мороз | @agricolamz | + | - |
Ю. Мартысенко | @yulqui | + | + |
Н. Хорошева | @nstsj | - | + |
О. Сериков | @oserikov | - | + |
Д. Скоринкин | @skorinkin | - | + |
Существует такой жанр текстов, как гороскопы. В данном задании предлагается проанализировать тексты гороскопов из самого популярного телеграм-канала с гороскопами --- @moygoroskop (телеграмм позволяет выкачать любой чат или канал в .html
). Создайте датасет с переменными дата -- знак зодиака -- текст и проанализируйте его. Можно ли наблюдать какую-то цикличность в особенностях текстов предсказаний? Существуют ли какие-то особенности текстов предсказаний, связанные с каким-то знаком? Можно подумать и в другую сторону: попробовать сделать генератор предсказаний.
Существует статья "Палитра русской классики" Л. Поповец, проект цветолингвистика О. Стоговой или недавний пост ЦУН Библиотека им. Н.А. Некрасова. Попробуйте проанализировать цвета в собранном нами корпусе фантастики.
В какой-то момент на занятиях мы обсуждали разницу энтропии между разными авторами. Посчитайте энтропию в собранном нами корпусе фантастики и проанализируйте, что это мера может нам сказать о произведениях.
Мы выкачали датасет с ингредиентами из разных рецептов в сайта eda.ru Проанализируйте данные и постройте граф связей ингредиентов. Также можно определить топ частотных рецептов, топ ингредиентов, топ сочетаний ингредиентов, построить дерево разновидностей рецептов по категориям (например, сколько видов салата "Цезарь" существует на сайте) или посмотреть, как кластеризуются рецепты на основе ингредиентов (кластеризация или уменьшение размерностей).
Есть т.н. мемы. И у Вышки и у МГУ есть вконтакте паблики с мемами (мы их обкачали). Там почему-то указано одинаковое контактное лицо, это подозрительно...
- Возможно, никакие эти паблики не самобытные и там постят одинаковый контент?
- В какие моменты сообщества общаются друг с другом в комментах?
- О чем вообще шутят и мемируют в Вышке и МГУ?
- Есть т.н. мемы. Давайте срочно разбираться с компьютерным зрением! Мемы -- это же часто картинки, на которых что-то написано и что-то нарисовано.
Re: 💻👁️ Во-первых, точно где-то есть какие-то штуки, которые про фото говорят, что на нём за объекты: это api техногигантов (ms, google, amazon, ibm). Вы им отправляете фоточку, они в ответ -- что на фоточке.
Во-вторых, точно есть OCR. teserract
для R и питона и + ещё апи e.g. яндекса и ms (в том же компзрении) для русского и английского.