Морфологический анализатор

Вопросы и ответы

Морфологический анализатор делит шугнанский текст на морфемы и выводит все возможные разборы (глоссирования) для каждого токена в тексте.

Подробнее о принципах устройства анализатора можно прочитать в этой работе.

При создании анализатора, помимо внутренних материалов шугнанского проекта, использовались следующие источники:

  • Карамшоев, Додхудо. Шугнанско‑русский словарь в трёх томах. М.: Наука, 1988.
  • Эдельман, Джой. Шугнанский язык // Н. Рогова (ред.). Иранские языки. III. Восточноиранские языки. Языки мира. М.: Индрик, 1999. С. 225—241.
  • Edelman Joy, Dodykhudoeva Leyla. Shughni Language // Gernot Windfuhr (eds.). The Iranian Languages. Oxon: Routledge, 2009. P. 787—825.
  • Пользователь может настраивать работу анализатора, для этого нужно выбрать подходящие опции в поле настроек в правой части страницы «Анализатор».

    • Если включена настройка «Конвертация орфографии», текст будет предварительно переведён в принятую проектом орфографию с помощью конвертера, а уже затем проанализирован. В таком случае в конвертер будут подаваться настройки по умолчанию; все символы будут распознаваться автоматически. Если вам необходимо настроить конвертацию, сначала перейдите в конвертер, измените настройки и сконвертируйте текст там. После окончания перед вами появится кнопка «Анализировать». Нажмите на неё, и сконвертированный текст автоматически перенесётся в анализатор.
    • Если включена настройка «Игнорировать диакритики», анализатор будет воспринимать некоторые группы символов как одинаковые, чтобы включить больше разборов. Это нужно, чтобы компенсировать возможные ошибки в распознавании словаря, а также учесть вариативность произношения. Так, при включении этой функции анализатор не будет различать символы ā и a; e, ê, i и ī; u, ū и ů, k и q, x и , ɣ и ɣ̌, z и ӡ. Например, если в словаре есть вхождение qāwǰ, а пользователь вводит kawǰ, то анализатор поймёт его правильно.
    • Если включена настройка «Игнорировать дефисы», анализатор будет перед анализом удалять все знаки, разделяющие морфемы – дефисы, точки и знаки «равно» – внутри токенов. Это может увеличить количество разборов, если в некоторых токенах текста такие разделители стоят неправильно.
    По умолчанию все настройки включены.