Зарегистрироваться

Лингвистическое обеспечение информационно-поисковых систем

Категории Прикладная лингвистика | Под редакцией сообщества: Филология

Лингвистическое обеспечение информационно-поисковых систем - разработка специальных информационно-поисковых языков и информационно-поисковых тезаурусов, а также других специализированных лексикографических ресурсов для обеспечения информационного поиска. В современных поисковых системах, в которых тематически значимые элементы (ключевые слова или понятия) выделяются статистическими методами, в задачи лингвистического обеспечения входит разработка лингвистических методов оптимизации выделения тематически значимых единиц в тексте.

Одной из прикладных задач обработки текста является информационный поиск. Основные методы информационного поиска разрабатываются в рамках одноименной научной дисциплины. Однако большинство таких систем включают лингвистический компонент. По мере развития технологий информационного поиска состав и задачи лингвистического компонента менялись.

В информационно-поисковых системах (ИПС) для поиска документов используется метод индексирования - составление "информационного" портрета документа на основе ключевых слов, т.е. выделение множества признаков, в простом случае ключевых слов (тематических элементов, терминов, термов, а также иногда связей между ними), которые отражают основную тематику текста.

В ранних системах такой портрет составлялся вручную на специальном информационно-поисковом языке. Они в основном использовались для библиотечного поиска. В них использовалась процедура индексации документа: процедура приписывания документу формального описания на специальном информационно-поисковом языке (ср. процедуру приписывания единице хранения в библиотеке одного или нескольких ключевых слов - предметных рубрик). Достаточно широко в системах ИПС использовались дескрипторные информационно-поисковые языки. В качестве дескрипторов выступают слова и словосочетания, представляющие собой термины, обозначающие понятия предметной области. В задачи лингвистического обеспечения системы информационного поиска входило создание и унификация словарей некоторой предметной области, предполагающее установление соответствия между терминами, используемыми в области, и дескрипторами (элементами формального информационно-поискового языка - нормативного языкового выражения для обозначения некоторого понятия). Одни и те же понятия могут иметь разное языковое выражение (ср., например, “поваренная соль” и “хлорид натрия”). Информация о дескрипторах и возможных их языковых коррелятах (например, синонимах) отражается в специальных информационно-поисковых тезаурусах.

В настоящее время выделение ключевых слов (словосочетаний) происходит автоматически на основе статистических процедур. Фактически все слова текста являются ключевыми, наиболее значимые отбираются с использованием специальной статистической процедуры - приписывания ключевому слову или выражению тематического веса. Документу при таком подходе ставится в соответствие числовой вектор, отражающий важность использования термина в каждом документе. Аналогичный вектор ставится в соответствие запросу. Релевантность некоторого документа запросу определяется расстоянием между соответствующими векторами: чем вектора ближе, тем более соответствует документ запросу пользователя. Такой метод, основываясь на частотности конкретного слова игнорирует тот факт, что в тексте присутствуют обычно синонимические и анафорические замены.

Для улучшения поиска документов помимо чисто квантитативного подхода применяются дополнительные лингвистически-ориентированные технологии.

Таким образом, при обоих подходах используются специальные лексикографические источники - информационно-поисковые тезаурусы (подробнее см. лингвистическое обеспечение информационных систем).

Эта статья еще не написана, но вы можете сделать это.