Классификация сообщений по типу заявка не заявка.
Выделение сущностей из письма.
Название модели: subm_embs_title_payload_lemmas_minilm.pkl
В папке classification - скрипты для классификации заявка или не заявка.
В extracting_entities ноутбук по извлечению сущностей.
preprocess.py общий файл для предобработки
subm_ensemble_minilm_title_payload_lemmas.csv файл с классификацией
Нужно создать виртуальное окружение, далее пример для windows:
virtualenv — утилита для создания виртуальных окружений.
Для установки виртуального окружения:
pip install virtualenv
Для создания виртуального окружения:
virtualenv <имя виртуального окружения>
В текущем каталоге будет создана новая директория с указанным вами названием, куда будут перенесены python, pip и в дальнейшем установлены другие библиотеки.
Активация виртуального окружения:
<имя виртуального окружения>\Scripts\activate
Для деактивации виртуального окружения:
deactivate
Нужно установить все необходимые библиотеки командой: pip install -r email_handler_module\\requirements.txt
, также нужно скачать дополнительно модель для spacy python -m spacy download ru_core_news_lg
.
Запустить модель в обвязке можно при помощи команды: python email_handler_module\\main.py
. Когда она попросить ввести название файла, есть тестовый файл для проверки, его можно написать вот так traind_data.xlsx