Семинар «Дистрибутивные модели для решения задач классификации текстов и предсказания гиперонимов для слов»
19 марта с 16:00 до 17:00 по московскому времени
В докладе рассмотрены две задачи из области обработки текстовых данных:
Автоматическая классификация текстовых документов. Для обработки большого количества документов, содержащих знания и результаты интеллектуальной деятельности, таких как патенты, требуется автоматическая классификация. В докладе рассматривается задача классификации патентных документов на основе расширенного именными группами модели векторного представления текстовых документов. Процесс классификации начинается с извлечения ключевых слов и словосочетаний из документа с помощью автоматической обработки текста, затем выявляются значимые ключевые слова и словосочетания на основе статистической меры, далее оценивается тематическая близость документов в рамках векторно-пространственной модели. Оценки тематической близости документов используются в качестве данных для обучения классификатора. Эксперименты проведены на патентах на русском и английском языках на следующих уровнях международной патентной классификации: подклассы, группы и подгруппы.
Предсказание гиперонима для слова (открытая задача автоматического построения таксономии для русского языка в рамках конференции ДИАЛОГ-2020). Данная задача заключается в следующем: входным неизвестным словам нужно сопоставить гиперонимы из существующей таксономии. В докладе показано, каких результатов можно достичь, используя предобученные дистрибутивные модели без дополнительного обучения.
Докладчик
Ядринцев Василий, аспирант 4-ого курса кафедры информационных технологий, РУДН.