Зарегистрироваться

Репрезентативность

Категории Корпусная лингвистика | Под редакцией сообщества: Филология

Репрезентативность (по отношению к проблемной области) - требование, предъявляемое к составу и объему корпуса и важнейшее его свойство. "Под репрезентативностью понимается способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области"[1].

Для того, чтобы статистические обобщения, сделанные на материале корпуса обобщения были корректны, необходимо, чтобы частота исследуемого явления, которую мы наблюдаем в корпусе, соответствовала его частоте в проблемной области. Так, например, при составлении частотного словаря языка, необходимо, чтобы относительная частота слова в корпусе, соответствовала частоте употребления данного слова в реальных текстах. Несоблюдение такого требования влечет за собой искажение представления о частотности языковых единиц. В задачах составления частотных списков слов это ведет к так называемому «эффекту хоббита». Если, например, в корпус объемом миллион словоупотреблений войдут все произведения Дж. Р. Р. Толкиена, то слово «хоббит» окажется одним из самых частотных слов русского языка. Аналогично, если мы хотим выяснить среднюю длину предложения в словах в русском языке, то преобладание в корпусе произведений Л. Н. Толстого, скорее всего, приведет к тому, что наши данные будут искажены в сторону необъективного увеличения длины предложения.

Имеются разные подходы к определению репрезентативности, можно сказать, что применительно к общеязыковому (национальному) корпусу это понятие невозможно рассчитать и описать строго математически, однако к этому можно и нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

При создании национального корпуса, на основе которого строятся суждения о функционировании языка вообще, под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п.

Ссылки

  1. Баранов А.Н. Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., 2003. С. 118.  ↑ 1

Редактор статьи Архипов Александр Владимирович, кандидат филологических наук, доцент филологического факультета МГУ.

Эта статья еще не написана, но вы можете сделать это.