Стемминг

Термином «стемминг» называют инструмент поискового алгоритма, необходимый для отбора из словоформ основного слова.

Пользуясь стеммингом, поисковики способны повысить релевантность выдачи. Сам термин берет свое начало из английского языка, и переводится на русский как ствол. Только стемминг поможет показать человеку все виды документов, содержащих в себе не только прямую форму основного запроса, но и его словоформы.

Стемминг текстового контента на русском языке основывается на определении у словоформы его основы. Такой процесс делается с помощью отсечения из основы всех окончаний и суффиксов. После завершения обработки в поисковик смогут попасть все виды документов, в которых содержится ключевой запрос, а не лишь те, где встречается вводимое слово.

Остальную ценность найденного документа для человека смогут определить иные способы, к примеру, лемматизация и латентно-сематическое индексирование. При помощи стемминга в результаты поиска способны попасть страницы из сети, в содержании которых может и не содержаться введенного пользователем запроса, но вероятно интересные этому человеку. Как известно, стемминг применяют не всегда исключительно поисковые системы.

Очень часто им пользуются программисты, которые выполняют такое действие, как поиск по определенному ресурсу. Стемминг текстового контента производится при помощи специализированного набора программ. Современные программы, которые делают стемминг, принято называть стеммерами и их огромное количество. В сети можно найти платные и совершенно бесплатные версии программ-стеммеров.

Похожие записи