[Work in Progress] Макс Меленченко, Маша Криволап: Предсказание шугнанского рода с помощью методов машинного обучения
Published on 25.01.2025 22:38

Доклад посвящён исследованию влияния различных факторов на приписывание рода (gender assignment) в шугнанском языке с помощью методов машинного обучения. Мы обучили несколько моделей предсказанию рода (женский/мужской) на датасете в 2390 существительных из шугнанско-русского словаря. В качестве «предсказателей» для обучения использовались как семантические признаки (семантические классы и векторизованные русские словарные толкования), так и формальные (финали слов и последняя гласная основы). Результаты исследования показывают, что семантика играет главную роль в приписывании рода в шугнанском языке, так как выделенные нами семантические признаки правильно предсказывают род для ≈80% слов в нашей выборке. Формальные признаки менее значимы и правильно предсказывают род только для ≈70% существительных. Между этими типами признаков обнаруживается высокая корреляция (особенно для женского рода), поэтому их комбинация не приводит к значительному улучшению качества предсказаний.

Макс Меленченко — студент магистратуры «Лингвистическая теория и описание языка» НИУ ВШЭ, стажёр-исследователь Международной лаборатории языковой конвергенции.
Маша Криволап — студентка бакалавриата «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ.
Доклад пройдет в смешанном режиме: в Zoom и по адресу Москва, Старая Басманная 21/4, стр. 3, каб. Л-210 (здание НИУ ВШЭ). Чтобы быть в курсе всех событий, рекомендуем также подписаться на специальную рассылку с анонсами иранистических мероприятий.
Event details
Дата и время
28.01.2025 18:00 (Time zone: Europe/Moscow)
Location
Москва, Старая Басманная 21/4, стр. 3, каб. Л-210 (здание НИУ ВШЭ)
Тип
семинар