Зарегистрироваться

Разметка (лингвистическая)

Категории Корпусная лингвистика | Под редакцией сообщества: Филология

(Лингвистическая) разметка (англ. tagging, annotation) – это процесс или результат приписывания текстам и их компонентам специальных меток.

Лингвистическая разметка – одно из основных понятий корпусной лингвистики. Разметка даёт возможность идентифицировать тексты по различным параметрам, позволяя осуществлять осмысленный поиск по корпусу.

Разметка должна удовлетворять ряду требований, семи максимам Д. Лича[1] (Leech’s seven maxims of annotation). Разметка должна быть независима от текста: должна быть возможность убрать разметку и просмотреть текст без неё и, наоборот, вычленить только разметку. Принципы разметки и их разработчики должны быть известны конечному пользователю. Пользователь должен быть поставлен в известность о том, что разметка не является безошибочной, а представляет собой лишь потенциально полезный инструмент. В основу разметки должны быть положены общепринятые и, по возможности, теоретически нейтральные лингвистические принципы. И, наконец, ни одна разметка не может априорно считаться стандартом.

Существует несколько видов разметки.

Экстралингвистическая, или метаразметка, сообщает сведения о данных. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика). Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка нужна для исследования условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка. Большое внимание уделяется стандартизации метаразметок:

  • проект TEI (Text Encoding Initiative),
  • рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards),
  • стандарт CES (Corpus Encoding Standard),
  • стандарт XCES (Corpus Encoding Standard for XML),
  • проект ISLE (International Standards for Language Engineering),
  • стандарт CDIF (Corpus Document Interchange Format, BNC).

 

Собственно лингвистическая разметка делится на:

  • морфологическую (выделение аффиксов, сложных слов и т.п.),
  • лемматизацию (указание для каждой словоформы из текста ее исходной формы),
  • морфо-синтаксическую, или частеречную (part-of-speech-tagging) (выделение основ, определение части речи и признаков грамматических категорий),
  • синтаксическую (характер синтаксической связи, тип предложения, член предложения и т.п.),
  • семантическую (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.),
  • дискурсивную (реплики, коммуникативные акты и т.п.).

Обычно корпус аннотирован сразу по нескольким или по всем видам разметки.

Ссылки

  1. Geoffrey Leech. 1993. Corpus annotation schemes. Literary and Linguistic Computing, 8(4):275–281.  ↑ 1

 

Редактор статьи Архипов Александр Владимирович, кандидат филологических наук, доцент филологического факультета МГУ.

Эта статья еще не написана, но вы можете сделать это.