Лингвистическое обеспечение информационно-поисковых систем
Лингвистическое обеспечение информационно-поисковых систем - разработка специальных информационно-поисковых языков и информационно-поисковых тезаурусов, а также других специализированных лексикографических ресурсов для обеспечения информационного поиска. В современных поисковых системах, в которых тематически значимые элементы (ключевые слова или понятия) выделяются статистическими методами, в задачи лингвистического обеспечения входит разработка лингвистических методов оптимизации выделения тематически значимых единиц в тексте.
Одной из прикладных задач обработки текста является информационный поиск. Основные методы информационного поиска разрабатываются в рамках одноименной научной дисциплины. Однако большинство таких систем включают лингвистический компонент. По мере развития технологий информационного поиска состав и задачи лингвистического компонента менялись.
В информационно-поисковых системах (ИПС) для поиска документов используется метод индексирования - составление "информационного" портрета документа на основе ключевых слов, т.е. выделение множества признаков, в простом случае ключевых слов (тематических элементов, терминов, термов, а также иногда связей между ними), которые отражают основную тематику текста.
В ранних системах такой портрет составлялся вручную на специальном информационно-поисковом языке. Они в основном использовались для библиотечного поиска. В них использовалась процедура индексации документа: процедура приписывания документу формального описания на специальном информационно-поисковом языке (ср. процедуру приписывания единице хранения в библиотеке одного или нескольких ключевых слов - предметных рубрик). Достаточно широко в системах ИПС использовались дескрипторные информационно-поисковые языки. В качестве дескрипторов выступают слова и словосочетания, представляющие собой термины, обозначающие понятия предметной области. В задачи лингвистического обеспечения системы информационного поиска входило создание и унификация словарей некоторой предметной области, предполагающее установление соответствия между терминами, используемыми в области, и дескрипторами (элементами формального информационно-поискового языка - нормативного языкового выражения для обозначения некоторого понятия). Одни и те же понятия могут иметь разное языковое выражение (ср., например, “поваренная соль” и “хлорид натрия”). Информация о дескрипторах и возможных их языковых коррелятах (например, синонимах) отражается в специальных информационно-поисковых тезаурусах.
В настоящее время выделение ключевых слов (словосочетаний) происходит автоматически на основе статистических процедур. Фактически все слова текста являются ключевыми, наиболее значимые отбираются с использованием специальной статистической процедуры - приписывания ключевому слову или выражению тематического веса. Документу при таком подходе ставится в соответствие числовой вектор, отражающий важность использования термина в каждом документе. Аналогичный вектор ставится в соответствие запросу. Релевантность некоторого документа запросу определяется расстоянием между соответствующими векторами: чем вектора ближе, тем более соответствует документ запросу пользователя. Такой метод, основываясь на частотности конкретного слова игнорирует тот факт, что в тексте присутствуют обычно синонимические и анафорические замены.
Для улучшения поиска документов помимо чисто квантитативного подхода применяются дополнительные лингвистически-ориентированные технологии.
Таким образом, при обоих подходах используются специальные лексикографические источники - информационно-поисковые тезаурусы (подробнее см. лингвистическое обеспечение информационных систем).
Выходные данные:
- Просмотров: 3236
- Комментариев: 0
- Опубликовано: 08.11.2011
- Версий: 9 , текущая: 9
- Статус: экспертная
- Рейтинг: 100.0
Автор:
Толдова Светлана Юрьевна
- старший научный сотрудник; кандидат филологических наук
Ссылки отсюда
Детализирующие понятия:
Ссылки сюда
Категории: