Доклад посвящён исследованию влияния различных факторов на приписывание рода (gender assignment) в шугнанском языке с помощью методов машинного обучения. Мы обучили несколько моделей предсказанию рода (женский/мужской) на датасете в 2390 существительных из шугнанско-русского словаря. В качестве «предсказателей» для обучения использовались как семантические признаки (семантические классы и векторизованные русские словарные толкования), так и формальные (финали слов и последняя гласная основы). Результаты исследования показывают, что семантика играет главную роль в приписывании рода в шугнанском языке, так как выделенные нами семантические признаки правильно предсказывают род для ≈80% слов в нашей выборке. Формальные признаки менее значимы и правильно предсказывают род только для ≈70% существительных. Между этими типами признаков обнаруживается высокая корреляция (особенно для женского рода), поэтому их комбинация не приводит к значительному улучшению качества предсказаний.
Макс Меленченко — студент магистратуры «Лингвистическая теория и описание языка» НИУ ВШЭ, стажёр-исследователь Международной лаборатории языковой конвергенции.Маша Криволап — студентка бакалавриата «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ.