Репрезентативность
Репрезентативность (по отношению к проблемной области) - требование, предъявляемое к составу и объему корпуса и важнейшее его свойство. "Под репрезентативностью понимается способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области"[1].
Для того, чтобы статистические обобщения, сделанные на материале корпуса обобщения были корректны, необходимо, чтобы частота исследуемого явления, которую мы наблюдаем в корпусе, соответствовала его частоте в проблемной области. Так, например, при составлении частотного словаря языка, необходимо, чтобы относительная частота слова в корпусе, соответствовала частоте употребления данного слова в реальных текстах. Несоблюдение такого требования влечет за собой искажение представления о частотности языковых единиц. В задачах составления частотных списков слов это ведет к так называемому «эффекту хоббита». Если, например, в корпус объемом миллион словоупотреблений войдут все произведения Дж. Р. Р. Толкиена, то слово «хоббит» окажется одним из самых частотных слов русского языка. Аналогично, если мы хотим выяснить среднюю длину предложения в словах в русском языке, то преобладание в корпусе произведений Л. Н. Толстого, скорее всего, приведет к тому, что наши данные будут искажены в сторону необъективного увеличения длины предложения.
Имеются разные подходы к определению репрезентативности, можно сказать, что применительно к общеязыковому (национальному) корпусу это понятие невозможно рассчитать и описать строго математически, однако к этому можно и нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.
При создании национального корпуса, на основе которого строятся суждения о функционировании языка вообще, под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п.
Ссылки
- Баранов А.Н. Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., 2003. С. 118. ↑ 1
Редактор статьи Архипов Александр Владимирович, кандидат филологических наук, доцент филологического факультета МГУ.
Выходные данные:
- Просмотров: 2170
- Комментариев: 0
- Опубликовано: 08.11.2011
- Версий: 13 , текущая: 13
- Статус: экспертная
- Рейтинг: 100.0
Автор:
Толдова Светлана Юрьевна
- старший научный сотрудник; кандидат филологических наук
Соавторы:
Ссылки отсюда
Персоны: