Вестник ВГУ Серия Системный анализ и информационные технологии, issue 1, pages 166-177

Разработка метода обработки несловарных слов для повышения точности морфологического анализа текстов на русском языке

Александр Николаевич Рыкунов

Екатерина Валерьевна Полицына

Сергей Александрович Полицын

Александр Сергеевич Поречный

Publication type: Journal Article

Publication date: 2024-05-28

Voronezh State University

Journal: Вестник ВГУ Серия Системный анализ и информационные технологии

SJR: —

CiteScore: —

Impact factor: —

ISSN: 19955499

DOI: 10.17308/sait/1995-5499/2024/1/166-177

Copy DOI

Abstract

Необходимость автоматической обработки текстовой информации из-за постоянного увеличения ее количества привела к появлению программных продуктов для автоматизации обработки текста на естественном языке. Сложность естественного языка обусловила разделение процесса анализа текста на несколько последовательных этапов — графематического, морфологического, синтаксического и семантического. Точность обработки на каждом из этапов влияет на последующие этапы анализа текста. На морфологическом этапе анализа текста происходит определение для каждого слова морфологических характеристик. Одним из способов проведения морфологического анализа является метод с использованием словаря словоформ. Его преимуществом является высокая точность из-за хранения лексем целиком, что позволяет учитывать исключения, встречающиеся в естественном языке. Однако, сложность постоянной поддержки словаря в актуальном состоянии из-за развития языка, а также встречающиеся в текстах опечатки показывают необходимость наличия в морфологических анализаторах возможности проведения морфологического анализа несловарных слов. В рамках статьи проведен обзор существующих методов морфологического анализа несловарных слов, а также предложен собственный метод обработки неизвестных слов, учитывающий особенности словообразования в русском языке и реализованный в одном из постоянное развивающийся инструмента морфологического анализа JMorfSdk.

Are you a researcher?

Create a profile to get free access to personal recommendations for colleagues and new articles.

Metrics

Cite this

GOST | RIS | BibTex

Found error?

Publisher

Voronezh State University

Journal

Вестник ВГУ Серия Системный анализ и информационные технологии

SJR

—

CiteScore

—

Impact factor

—

ISSN

19955499 (Print)