[Work in Progress] Макс Меленченко, Маша Криволап: Предсказание шугнанского рода с помощью методов машинного обучения
Published on 25.01.2025 10:38 PM
research seminar on Iranian languages

Доклад посвящён исследованию влияния различных факторов на приписывание рода (gender assignment) в шугнанском языке с помощью методов машинного обучения. Мы обучили несколько моделей предсказанию рода (женский/мужской) на датасете в 2390 существительных из шугнанско-русского словаря. В качестве «предсказателей» для обучения использовались как семантические признаки (семантические классы и векторизованные русские словарные толкования), так и формальные (финали слов и последняя гласная основы). Результаты исследования показывают, что семантика играет главную роль в приписывании рода в шугнанском языке, так как выделенные нами семантические признаки правильно предсказывают род для ≈80% слов в нашей выборке. Формальные признаки менее значимы и правильно предсказывают род только для ≈70% существительных. Между этими типами признаков обнаруживается высокая корреляция (особенно для женского рода), поэтому их комбинация не приводит к значительному улучшению качества предсказаний.

Макс Меленченко — студент магистратуры «Лингвистическая теория и описание языка» НИУ ВШЭ, стажёр-исследователь Международной лаборатории языковой конвергенции.
Маша Криволап — студентка бакалавриата «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ.
Доклад пройдет в смешанном режиме: в Zoom и по адресу Москва, Старая Басманная 21/4, стр. 3, каб. Л-210 (здание НИУ ВШЭ). Чтобы быть в курсе всех событий, рекомендуем также подписаться на специальную рассылку с анонсами иранистических мероприятий.
Event details
Date and time
28.01.2025 06:00 PM
Location
https://us02web.zoom.us/j/89456987865?pwd=bGExcGNvME1CY3l0aDFCaldGdDZrUT09
Type
seminar