Брюхоногие моллюски, эндоскопия и Пушкин: как сделать языковой корпус репрезентативным
Языковой корпус в современном понимании — это сообрание текстов в электронном виде, которое позволяет исследовать язык или группу текстов с помощью поиска и статистического анализа. https://sysblok.ru/linguistics/brjuhonogie-molljuski-gastrit-i-redkie-familii-kak-sdelat-jazykovoj-korpus-reprezentativnym/?utm_source=telegram, что важно учитывать при создании такого корпуса и как в заголовок проникли моллюски и эндоскопия.
Как собирают корпус?
Корпусы бывают очень разные по своему размеру, содержанию, целям существования и инструментарию, https://catalog.ldc.upenn.edu/LDC96S36 до https://ruscorpora.ru/corpus/birchbark. При этом вне зависимости от целей и инструментария корпуса важно, чтобы он был репрезентативным, так что важно изначально отобрать оптимальные тексты в оптимальном объеме.
Допустим, мы хотим добавить в корпус естественнонаучные тексты. Интуитивно кажется, что надо просто собрать полные тексты всех подходящих по тематике публикаций, но всё не так просто. Представим, что в выборке нам попадается монография о брюхоногих моллюсках. В этой монографии сотни раз встречается название одного из них — букцинум. И вот частотность этого слова в нашем корпусе уже взлетает в разы относительно «реальной» частотности букцинумов в языке. Поэтому принято брать из каждого конкретного текста какое-то абсолютное число слов: например, при создании Британского национального корпуса брали по 40 000 слов из каждой книги.
Значит, надо равняться на Британский национальный корпус?
Почти… при его составлении «проблема моллюсков» всё равно настигла лексикографов. Для периодических изданий, в отличие от книг, они не стали ставить ограничение объема в 40 000 слов, посчитав, что журналы состоят из неоднородных текстов и в них не так много повторяющейся лексики. Одним из выбранных для включения в корпус стал научный «Журнал гастроэнтерологии и гепатологии»… 713 000 слов из журнала составили 0,7% корпуса и обеспечили словам пептид и эндоскопия места в топе-3000 по частотности в английском языке. Решение, впрочем, было несложным: их удалили из рассмотрения вручную.
Каким же должен быть корпус?
В общем случае в корпусе должно быть много разных жанров и стилей. Корпус должен учитывать особенности разных модальностей использования языка и существование разных групп говорящих и представлять самую широкую возможную картину. Для этого нужно определить интересующие нас типы текстов, распределить их по категориям и отобрать в каждую нужное количество данных. Внутри этих категорий должен быть баланс между связностью выбранных фрагментов, их максимальным разнообразием и минимальным объемом.
Подробнее о том, какие корпуса существуют, как они разрабатывались и почему, однажды встретив Пушкина в тексте, вы вероятнее всего встретите его снова (помните, вы уже виделись с ним в заголовке?), узнаете из https://sysblok.ru/linguistics/brjuhonogie-molljuski-gastrit-i-redkie-familii-kak-sdelat-jazykovoj-korpus-reprezentativnym/?utm_source=telegram.
Время чтения: 11 минут
🤖 «Системный Блокъ»
https://t.me/sysblok