-
Notifications
You must be signed in to change notification settings - Fork 76
ru Annotators
dilyararimovna edited this page May 9, 2023
·
1 revision
Аннотаторы — это компоненты (соединители/службы), которые аннотируют данное высказывание пользователя.
Примером аннотатора является NER: этот аннотатор может возвращать словарь с ключами tokens
tags
:
{"tokens": ["Paris"], "tags": ["I-LOC"]}
Другим примером является аннотатор классификации настроений. Он может вернуть список меток, например:
["neutral", "speech"]
Название | Требования | Описание |
---|---|---|
ASR | 40 MB RAM | вычисляет общую достоверность ASR для данного высказывания и оценивает его как very low, low, medium, or high (для разметки Amazon) |
Badlisted Words | 150 MB RAM | обнаруживает слова и фразы из заданного списка |
Combined Classification | 1.5 GB RAM, 3.5 GB GPU | модель на основе BERT, включая классификацию тем, классификацию диалоговых актов, настроения, токсичность, эмоции, классификацию фактоидов |
COMeT Atomic | 2 GB RAM, 1.1 GB GPU | Модели предсказаний на основе здравого смысла COMeT Atomic |
COMeT ConceptNet | 2 GB RAM, 1.1 GB GPU | Модели предсказаний на основе здравого смысла COMeT ConceptNet |
Convers Evaluator Annotator | 1 GB RAM, 4.5 GB GPU | обучается на данных Alexa Prize о предыдущих конкурсах и предсказывает, будет ли ответ кандидата интересным, понятным, соответствующим теме, привлекательным или ошибочным |
Emotion Classification | 2.5 GB RAM | аннотатор классификации эмоций |
Entity Detection | 1.5 GB RAM, 3.2 GB GPU | извлекает сущности и их типы из высказываний |
Entity Linking | 2.5 GB RAM, 1.3 GB GPU | находит идентификаторы сущностей Викиданных для сущностей, обнаруженных с помощью Entity Detection |
Entity Storer | 220 MB RAM | компонент на основе правил, который сохраняет сущности из высказываний пользователя и социального бота, если выражение мнения обнаружено с помощью паттернов или классификатора MIDAS, и сохраняет их вместе с обнаруженным отношением к состоянию диалога |
Fact Random | 50 MB RAM | возвращает случайные факты для данной сущности (для сущностей из пользовательского высказывания) |
Fact Retrieval | 7.4 GB RAM, 1.2 GB GPU | извлекает факты из Википедии и wikiHow |
Intent Catcher | 1.7 GB RAM, 2.4 GB GPU | классифицирует высказывания пользователя по ряду предопределенных намерений, которые обучаются на наборе фраз и регулярных выражений |
KBQA | 2 GB RAM, 1.4 GB GPU | отвечает на фактические вопросы пользователей на основе Wikidata KB |
MIDAS Classification | 1.1 GB RAM, 4.5 GB GPU | модель на основе BERT, обученная на подмножестве семантических классов набора данных MIDAS |
MIDAS Predictor | 30 MB RAM | модель на основе BERT, обученная на подмножестве семантических классов набора данных MIDAS |
NER | 2.2 GB RAM, 5 GB GPU | извлекает имена людей, названия мест, организаций из текста без регистра |
News API Annotator | 80 MB RAM | извлекает последние новости о сущностях или темах с помощью GNews API. Развертывания DeepPavlov Dream используют наш собственный ключ API. |
Personality Catcher | 30 MB RAM | навык состоит в том, чтобы изменить описание личности системы через интерфейс чата, он работает как системная команда, ответом является системное сообщение |
Prompt Selector | 50 MB RAM | Аннотатор использует Sentence Ranker для ранжирования подсказок и выбирает N_SENTENCES_TO_RETURN наиболее подходящие подсказки (на основе вопросов, заданных в подсказках) |
Property Extraction | 6.3 GiB RAM | извлекает пользовательские атрибуты из высказываний |
Rake Keywords | 40 MB RAM | извлекает ключевые слова из высказываний с помощью алгоритма RAKE |
Relative Persona Extractor | 50 MB RAM | Аннотатор использует Sentence Ranker для ранжирования предложений персонажей и выбирает N_SENTENCES_TO_RETURN наиболее релевантные предложения |
Sentrewrite | 200 MB RAM | переписывает высказывания пользователя, заменяя местоимения конкретными именами, которые предоставляют более полезную информацию нижестоящим компонентам |
Sentseg | 1 GB RAM | позволяет нам обрабатывать длинные и сложные высказывания пользователя, разбивая их на предложения и восстанавливая пунктуацию |
Spacy Nounphrases | 180 MB RAM | извлекает существительные с помощью Spacy и отфильтровывает общие |
Speech Function Classifier | 1.1 GB RAM, 4.5 GB GPU | иерархический алгоритм, основанный на нескольких линейных моделях и основанном на правилах подходе к предсказанию речевых функций, описанном Эггинсом и Слэйдом |
Speech Function Predictor | 1.1 GB RAM, 4.5 GB GPU | дает вероятности речевых функций, которые могут следовать речевой функции, предсказанной классификатором речевых функций |
Spelling Preprocessing | 50 MB RAM | компонент на основе шаблонов для преобразования различных разговорных выражений в более формальный стиль разговора |
Topic Recommendation | 40 MB RAM | предлагает тему для дальнейшего разговора, используя информацию об обсуждаемых темах и предпочтениях пользователя. Текущая версия основана на личностях Reddit (см. Dream Report для Alexa Prize 4). |
Toxic Classification | 3.5 GB RAM, 3 GB GPU | Модель классификации токсичных веществ от Transformers указана как PRETRAINED_MODEL_NAME_OR_PATH
|
User Persona Extractor | 40 MB RAM | определяет, к какой возрастной категории относится пользователь, по некоторым ключевым словам |
Wiki Parser | 100 MB RAM | извлекает триплеты Викиданных для сущностей, обнаруженных с помощью Entity Linking |
Wiki Facts | 1.7 GB RAM | модель, извлекающая связанные факты со страниц Википедии и WikiHow |
Название | Требования | Описание |
---|---|---|
Badlisted Words | 50 MB RAM | обнаруживает нецензурные русские слова из заданных списков |
Entity Detection | 5.5 GB RAM | извлекает сущности и их типы из высказываний |
Entity Linking | 400 MB RAM | находит идентификаторы сущностей Викиданных для сущностей, обнаруженных с помощью Entity Detection |
Fact Retrieval | 6.5 GiB RAM, 1 GiB GPU | Аннотатор извлечения параграфов Википедии, релевантных истории диалога. |
Intent Catcher | 900 MB RAM | классифицирует высказывания пользователя по ряду предопределенных намерений, которые обучаются на наборе фраз и регулярных выражений |
NER | 1.7 GB RAM, 4.9 GB GPU | извлекает имена людей, названия мест, организаций из текста без регистра, используя модель на основе ruBert (pyTorch) |
Sentseg | 2.4 GB RAM, 4.9 GB GPU | восстанавливает пунктуацию с помощью модели на основе ruBert (pyTorch) и разбивает на предложения |
Spacy Annotator | 250 MB RAM | аннотации на основе токенов от Spacy |
Spelling Preprocessing | 8 GB RAM | Русская модель коррекции Левенштейна |
Toxic Classification | 3.5 GB RAM, 3 GB GPU | Модель классификации токсичных веществ от Transformers указана как PRETRAINED_MODEL_NAME_OR_PATH |
Wiki Parser | 100 MB RAM | извлекает триплеты Викиданных для сущностей, обнаруженных с помощью Entity Linking |
DialogRPT | 3.8 GB RAM, 2 GB GPU | Модель DialogRPT, основанная на русском DialoGPT от DeepPavlov и точно настроенная на русских последовательностях комментариев Pikabu |
TBD
- Annotators @ ReadTheDocs