Корпусная лингвистика что это
Введение в корпусную лингвистику: Учебное пособие для студентов филологических и лингвистических специальностей университетов
Учебное пособие для студентов филологических и лингвистических специальностей университетов Пособие содержит основные сведения о корпусной лингвистике – одном из самых популярных разделов современного языкознания, целью которого является создание и использование языковых корпусов в лингвистических исследованиях. В учебнике на доступном уровне рассматриваются основы данной предметной области, перечисляются основные корпуса разных языков, показываются возможности использования методов корпусной лингвистики, а также описан вклад корпусной лингвистики в лингвистическую теорию. Учебник предназначен для студентов филологических и лингвистических факультетов высших учебных заведений. Может быть использовано аспирантами и преподавателями смежных дисциплин. Автор благодарит The Pygos Group. A HIT Entertainment company за разрешение использовать изображение Пингу и интернет-проект «ПостНаука» за разрешение использовать видеолекцию В. А. Плунгяна.
Оглавление
Приведённый ознакомительный фрагмент книги Введение в корпусную лингвистику: Учебное пособие для студентов филологических и лингвистических специальностей университетов предоставлен нашим книжным партнёром — компанией ЛитРес.
Глава 1. Что такое корпус?
Латинское слово corpus значит «тело, туловище, единое целое». Несколько лет назад я участвовал в конференции по корпусной лингвистике, которая проходила в помещении бывшего анатомического театра. Первый же докладчик, вспомнив картину Рембрандта «Урок анатомии доктора Тульпа», отметил символичность места: корпусной лингвист тоже работает с корпусом, препарируя его с помощью специальных инструментов. Добавлю, что традиция открытого для широкой публики доступа к корпусу исчезла из медицинской науки, но, как мы увидим, возродилась в лингвистике в виде общедоступного корпуса, позволяющего проверять и перепроверять утверждения лингвистов о языке.
Что же такое корпус в лингвистическом смысле? Ниже я привожу два определения, первое — из старого, но хорошего учебника, второе — из Википедии.
(1) Корпус в современной лингвистике в отличие от любого набора текстов может быть более точно определен как ограниченный по объему набор электронных текстов, собранных с целью максимально точно представлять исследуемый вариант языка (McEnery & Wilson 1996: 24).
(2) Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов) (Википедия, статья «Корпусная лингвистика», 2013).
Эти определения отличаются в частностях, которые связаны с развитием корпусной лингвистики за последние десятилетия — от коллекции текстов к аннотированному комплексу. В то же время обе формулировки позволяют определить минимальные требования к корпусу.
1. Тексты, входящие в корпус, должны быть собраны по определенным принципам, чтобы представлять определенный пласт языка или весь язык в определенный период времени. Это параметр называется репрезентативность (англ. representativeness).
Репрезентативность — свойство корпуса, заключающееся в статистически достоверном представлении языка или его части и достигаемое за счет необходимого объема и жанрового разнообразия текстов.
Если сохранять латинскую этимологию, то языковой корпус — это тоже «тело», единое целое языка или подъязыка. В идеале таковыми являются все тексты, и такая ситуация вполне возможна, если мы изучаем язык конкретного автора и создаем, например, корпус произведений М. В. Ломоносова ( www.lomonosov.pro ), в который включены все произведения из всех одиннадцати томов полного собрания его сочинений. Этот корпус текстов уже не удастся существенно расширить, так что мы можем считать его хорошим примером полного корпуса. Но что делать, если речь идет о языке XVIII века в целом? Или о языке современного русского чата?
К счастью, лингвисты выяснили, что если тексты хорошо подобраны, то они могут представлять весь язык или его определенную часть. Для этого достаточно взять большой объем текстов, который будет представлять весь язык. Конечно, ключевой вопрос здесь — что значит «достаточно большой».
Приведу пример. Если я, зайдя в аудиторию в восемь утра, начну спрашивать «Как дела?», — ответы, вероятнее всего, будут однотипными (и не очень позитивными). Если задавать тот же вопрос разным людям в разное время суток, то позитивные ответы все-таки появятся. Мы в какой-то момент заметим, что новых вариантов больше не слышно, а частотность каждого варианта ответа не меняется. С этого момента — условно говоря, после двух тысяч ответивших — мы можем прекратить опрос. Конечно, всегда есть вероятность получить оригинальный ответ от две тысячи первого человека, но обычно ученым для дальнейших исследований достаточно составить представление об общем распределении единиц.
Примерно так же поступают и корпусные лингвисты, которые собирают не все тексты всех носителей языка, а так называемую представительную, или репрезентативную, выборку (англ. representative sampling) — такой объем материала, увеличение которого уже почти никак не повлияет на распределение единиц. Невозможно раз и навсегда определить, какой объем достаточен. Во многих случаях, особенно для лексикографической работы, корпуса объемом в 100 миллионов слов недостаточно. C другой стороны, для решения множества задач (например, морфологических) достаточно текста объемом всего в 5 тысяч слов (три главы этого учебника), и дальнейшее увеличение объем не изменит лингвистический результат.
2. Второй важной характеристикой корпуса является его сбалансированность (англ. balance); этот параметр определяет, насколько равномерно представлены тексты разных типов.
Согласно данным Частотного словаря русского языка, изданного в 1977 году, в сотню самых частых слов входят существительное «товарищ» и прилагательное «советский». Объем корпуса, на основе которого был создан словарь, достаточно большой даже по современным меркам — 1 млн слов. Но появление этих слов «на передовых рубежах» лексического состава языка того периода объясняется тем, что использовался несбалансированный корпус: он включал в себя только письменные тексты советского периода. Если бы корпус состоял только из разговорных текстов, то в список самых частотных, вероятно, вошли бы совсем другие слова.
Надо сказать, что сбалансированность является ахиллесовой пятой многих существующих корпусов. Очевидно, что в реальной языковой практике объем произнесенного существенно превышает объем написанного (Подумайте сами, сколько слов вы сегодня написали, а сколько произнесли.). Но для создания корпуса оказывается удобнее и проще взять существующие письменные тексты, а не собирать устные записи. Эта проблема несбалансированности хоть и медленно, но решается.
Итак, репрезентативность и сбалансированность — свойства корпуса, позволяющие адекватно представлять всё разнообразие текстов в равных или неравных, но мотивированных реальным употреблением пропорциях. Не будем при этом идеализировать ситуацию: каким бы большим ни был корпус, он всего лишь отражение языковой стихии: в реальной живой речи всегда найдутся единицы, не вошедшие в корпус.
3. В зависимости от имеющихся задач корпус может состоять из нескольких тысяч или нескольких миллионов текстоформ, но в любом случае объем корпуса должен быть известен (англ. finite-sized). Информация и об общем объеме корпуса, и о количестве извлеченных из текста примеров должна быть доступна пользователю, чтобы он мог использовать «сырые» цифры или применять более сложные формулы лингвистической статистики. В главе 16 мы еще поговорим об этом, сейчас же — один пример.
Местоимение «аз» в корпусе XVIII века встретилось 355 раз, в корпусе XIX века — 603 раза, а в корпусе XX века — 887 раз. Значит ли это, что «аз» постепенно становится все более употребительным (см. график слева)? Совсем нет. Знание объема корпусов позволяет перевести сырые данные в относительные цифры и выяснить, что доля «аз» в корпусе XX века составляет всего 0,0007 процента (то есть слово очень редкое), а в корпусе XVIII века — 0,009 процента (в 10 раз чаще). Все встает на свои места (см. график справа).
4. В настоящее время корпуса существуют в электронной форме. Еще несколько лет назад значительная часть времени у многих студентов и исследователей уходила на то, чтобы собрать материал: найти и просмотреть бумажные издания, выписать примеры на карточки, все вручную пересчитать… Часто тот или иной диплом защищался с формулировкой «собран значительный языковой материал». Сейчас эта формулировка сохранилась, например, в полевой лингвистике или в тех областях, в которых еще не созданы корпуса. Электронная форма хранения корпуса обеспечивает быстрый поиск и извлечение материала, превращая исследовательскую работу в быструю проверку множества рабочих гипотез без утомительного этапа механического поиска примеров.
Важно понимать, что возможность поиска в современном корпусе ограничена поиском по буквам и другим знакам и сводится к точному составлению запросов в виде набора символов той или иной степени сложности. Даже когда мы ставим галочки и выбираем параметры из меню, мы по сути указываем, какие уже включенные в корпус символы или их комбинации нас интересуют (о некоторых исключениях я расскажу ниже).
Например, поиск мужских или женских ролей в мультимедийном корпусе МУРКO ( www.ruscorpora.ru/search-murco.html ) возможен только потому, что корпус уже содержит заранее введенную информацию о том или ином актере. Поиск реплик актера по его изображению или тембру голоса невозможен и вряд ли необходим.
5. Из требования электронного формата следует возможность развития корпуса как в «ширину» (увеличение объема), так и в «глубину» (дополнительная информация о единицах корпуса). Последнее определяет требование к корпусу, которое сегодня все чаще становится обязательным. Я говорю о наличии специальной разметки, или аннотации. Именно она позволяет искать не только по текстоформам, но и по другим параметрам. Говоря по-простому, разметка представляет собой лингвистический разбор всех языковых единиц на выбранном языковом уровне, или, если говорить более формально:
разметка (аннотация, англ. annotation) — это введенная автоматически или вручную лингвистическая или метатекстовая информация обо всех выбранных единицах корпуса: тексте, предложении, текстоформе, морфеме, звуке и т. д.
Этой важнейшей составляющей современного корпуса будет посвящено несколько глав учебника.
1. Atkins S., Clear J., Ostler N. Corpus design criteria // Literary and linguistic computing. 1992. Vol. 7. № 1. P. 1–16.
2. Biber D. Representativeness in corpus design // Literary and linguistic computing. 1993. Vol. 8. № 4. P 243–257.
3. Integrum: точные методы и гуманитарные науки. М., 2006.
4. McEnery T., Wilson A. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.
5. O’Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. Routledge, 2010. (Раздел 2: “Building and designing a corpus: what are the key considerations?”).
7. Инструментарий русистики: корпусные подходы. Хельсинки, 2008.
8. Национальный корпус русского языка. 2003–2005: результаты и перспективы. М., 2003.
9. Национальный корпус русского языка. 2006–2008: новые результаты и перспективы. СПб., 2009.
10. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 16 (2). С. 7–20.
12. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. СПб.: Осипов. 2005. С. 130–139. Доступно по адресу: korpus.juls.savba.sk
а) Какое определение дает В. А. Плунгян термину «корпус»?
б) Чем лингвист похож на ребенка?
в) Какую часть лингвистической работы сократили языковые корпуса?
г) Что такое Машинный фонд русского языка?
д) Подсчитайте, сколько раз В. А. Плунгян использует формы «корпуснóй / кóрпусный» и «корпусá / кóрпусы».
2. На сайте конференции «Диалог» ( http://www.dialog-21.ru/ ) найдите программу последней конференции. Сколько раз в названиях докладов встречается слово «корпус» и его производные?
3*. Проведите описанный в главе эксперимент, задав окружающим вопрос «Как дела?». Какого количества опрошенных оказалось достаточно, чтобы ответы стали повторяться?
Корпусная лингвистика
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Целесообразность создания текстовых корпусов объясняется:
Содержание
История
Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.
Современное состояние
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 300 млн словоупотреблений. [2]
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).
Проблемы
Проблема представительности
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.
Проблема разметки
К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:
Проблема представления результатов
В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.
Веб как корпус
Использование поисковых машин
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.
Использование веб-страниц
Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета. [4]
Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов. [5]
Проект Татоэба
Открытый корпус русского языка
Интерес представляет проект открытого корпуса русского языка, который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма краудсорсинга стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки. [7] Корпус постоянно пополняется, все тексты и программное обеспечение, связанные с ним доступны под лицензиями GNU GPL v2 и CC-BY-SA.
См. также
Примечания
Ссылки
Полезное
Смотреть что такое «Корпусная лингвистика» в других словарях:
КОРПУСНАЯ ЛИНГВИСТИКА — КОРПУСНАЯ ЛИНГВИСТИКА. Лингвистические исследования, построенные на основе анализа аутентичных корпусов (баз данных) текстов. Корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике.… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)
ЛИНГВИСТИКА КОРПУСНАЯ — См. корпусная лингвистика … Новый словарь методических терминов и понятий (теория и практика обучения языкам)
Компьютерная лингвистика — Лингвистика … Википедия
Прикладная лингвистика — Лингвистика … Википедия
Квантитативная лингвистика — (англ. quantitative linguistics) это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также… … Википедия
Герд, Александр Сергеевич — В Википедии есть статьи о других людях с такой фамилией, см. Герд. Александр Сергеевич Герд Дата рождения: 23 июня 1936(1936 06 23) (76 лет) Научная сфера … Википедия
Кафедра математической лингвистики Санкт-Петербургского университета — Эта статья предлагается к удалению. Пояснение причин и соответствующее обсуждение вы можете найти на странице Википедия:К удалению/7 октября 2012. Пока процесс обсуждения не завершён, статью можно … Википедия
Кафедра математической лингвистики — факультета филологии и искусств Санкт Петербургского университета (создана в 1962 году) выпускающая кафедра для студентов отделения прикладной лингвистики СПбГУ, старейшего отделения такого профиля в России. Содержание 1 История 2 Персоналии 2.1 … Википедия
Кафедра математической лингвистики (Санкт-Петербургский госуниверситет) — Кафедра математической лингвистики факультета филологии и искусств Санкт Петербургского университета (создана в 1962 году) выпускающая кафедра для студентов отделения прикладной лингвистики СПбГУ, старейшего отделения такого профиля в России.… … Википедия
Нина Леонтьева — Нина Николаевна Леонтьева русский лингвист, специалист по структурной и прикладной лингвистике (ПЛ), преподаватель. Содержание 1 Биография 1.1 Основные труды 1.1.1 1958 1.1.2 1959 1.1.3 1961 … Википедия
Корпусная лингвистика
Категории Корпусная лингвистика | Под редакцией сообщества: Филология
Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов).
Одним из основных источников языкового материала, необходимого для проведения лингвистических и филологических исследований является текст, письменный или устный. На основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической конструкции, использования выразительных средств в языке и т.п. Развитие вычислительной техники способствовало тому, что большое количество текстов стало доступно в электронном виде. Для того, чтобы можно было работать с такими объемами текстов, извлекая из них нужную информацию, во всем мире стали создаваться лингвистические корпусы, т.е. коллекции текстов, специально отобранных, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Увеличение объема материала исследования потребовало применения новых методов анализа лингвистических данных, включая их статистическую обработку.
Это относительно молодое и активно развивающееся направление, тесно связанное с компьютерной лингвистикой и широко применяющее квантитативные методы.
Содержание
↑Цели, задачи и основные направления корпусной лингвистики
Возможность пользоваться обширными электронными ресурсами значительно облегчила процесс сбора материала в лингвистических исследованиях. Однако такая доступность языковых данных радикально изменила требования к доказательной базе лингвистических исследований: в наше время мало привести несколько экзотических примеров в подтверждение выдвигаемой концепции, необходимо представить достаточно полную выборку данных того или иного языка. Однако работать с мегабайтами «сырых» текстов не менее трудно, чем искать примеры вручную.
Необходимость и возможность обработки большого массива текстов для извлечения из них лингвистических, литературоведческих и др. данных обусловили бурный рост электронных ресурсов, включая лингвистически аннотированные корпуса текстов.
Корпусная лингвистика призвана ответить на следующие вопросы:
Использование корпусов текстов дает возможность наблюдать поведение интересующих исследователя языковых единиц (слов, словосочетаний, грамматических категорий, синтаксических конструкций и т.д.) в естественной языковой среде, т.е. в реально существующих, а не искусственно сконструированных контекстах.
Кроме того, корпусные исследования позволяют, используя статистические методы, сформулировать, подтвердить или опровергнуть некоторую гипотезу о том или ином языковом явлении на большом объеме материала.
При этом если исследователь пользуется уже существующим корпусом, он полностью минует долгий и трудоемкий этап сбора материала (опрос информантов, работа со словарными картотеками или письменными текстами и т.д.).
Для некоторых целей оказывается достаточным использование в качестве корпуса уже существующих электронных коллекций текстов, таких как виртуальные библиотеки, архивы электронных версий периодических изданий или новостных лент. Гигантским собранием текстов является весь Интернет. Существует даже такое направление исследований – Интернет как корпус. Однако поскольку тексты в сети не систематизированы и не имеют лингвистической аннотации (разметка корпуса) – что относится и к прочим виртуальным коллекциям текстов,— дать точную статистическую оценку всего множества или некоторого подмножества текстов затруднительно, поэтому и возникает потребность в структурированных и аннотированных лингвистических корпусах.
Практически все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов (ср., например, словари издательства Collins, создаваемые на базе электронного языкового корпуса Bank of English, насчитывающего более 2,5 миллиарда слов).
Создание и лингвистическое аннотирование (лингвистическая разметка) корпусов играет основополагающую роль в развитии современных технологий автоматической обработки текстов на естественном языке. Такие корпуса служат большой экспериментальной базой для разработки различных модулей автоматического лингвистического анализа. С одной стороны, наличие экспертной лингвистической разметки в корпусе позволяет оценить качество работы того или иного лингвистического модуля. Например, используя корпус с морфологической разметкой, где каждому слову из текста приписана его исходная форма и грамматические характеристики, можно проверить, насколько точно работает система автоматического морфологического анализа. С другой стороны, в современных системах автоматического анализа текстов (морфологических и синтаксических анализаторах и др.) используются различные методы машинного обучения. Для того чтобы это стало возможным, необходим большой обучающий корпус, содержащий «эталонную» разметку.
Одним из приоритетных направлений корпусной лингвистики является создание и расширение универсальных национальных корпусов (корпусов того или иного естественного языка), представительных по отношению ко всему языку, которые могут служить для исследования самых разнообразных явлений этого языка. Большинство языков мира уже имеют свои национальные корпуса. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC). Среди корпусов славянских языков выделяется Чешский национальный корпус [1], созданный в Карловом университете Праги. Национальные корпуса существуют также для немецкого, китайского, финского и др. языков. Для русского языка таким представительным корпусом является Национальный корпус русского языка (НКРЯ)[2].
По мере создания все большего количества корпусов и развития различных технологий обработки текстовой информации вырабатывались некоторые универсальные принципы и языки разметки лингвистической информации в корпусе, создавались специальные инструменты для работы с корпусом на любом языке так называемые корпусные менеджеры. Выработка универсальных стандартов и технологий сделало возможным создавать большие представительные корпуса за очень короткий срок.
Таким образом, предметом корпусной лингвистики являются «теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей»[3].
↑История и современность
Можно сказать, что первые корпуса и корпусные методы появились задолго до возникновения корпусной лингвистики как научного направления. По сути, любое лингвистическое исследование, основанное на сопоставлении и анализе контекстов, является корпусным.
Первые корпуса в строгом смысле этого слова появились в 60-х гг. ХХ в. Прообразом для них послужили словарные картотеки – собрания фрагментов текстов, обычно в виде карточек, содержащих то или иное слово, и систематизированные относительно описываемого слова (в основном, по алфавиту).
В 1963 г. в Брауновском университете (США) для создания частотного словаря американского варианта английского языка был создан большой корпус на цифровом носителе (Brown Corpus), включающий 1 млн. слов. При оценке частоты некоторого слова в языке возникает проблема «сбалансированности» выборки. В языке частотность многих слов обусловлена тематикой текстов. Так, например, слово переменная будет чрезвычайно частотно в математических текстах. Вероятность же встретить данное слово в художественной литературе очень мала. Для обеспечения корректности данных относительно частоты употребления слов создатели корпуса (У. Френсис и Г. Кучера) разработали строгую процедуру отбора текстов: в корпус вошли 500 фрагментов прозаических текстов, относящихся к 15 наиболее массовым жанрам и напечатанных в 1961г.
Возникновение корпусных методов связано с бурным развитием компьютерных технологий во второй половине ХХ в. Возможность сканирования и распознавания текста (перевод в текстовый формат), появление баз данных и систем управления базами данных сделали возможным сбор, хранение и обработку огромных массивов текстовых данных. Не последнюю роль в развитии корпусной лингвистики сыграла популяризация мировой сети Интернет, т.к. корпуса стали доступны широкому кругу пользователей, значительно расширились возможности их наполнения.
С тех пор накоплен значительный опыт разработки и применения корпусов. Ежегодно публикуется множество работ по данной тематике. Обсуждению проблем корпусной лингвистики посвящена специализированная электронная рассылка Corpora List и периодические издания International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal.
Теоретические и практические проблемы корпусной лингвистики обсуждаются на специализированных семинарах и в рамках научных конференций по прикладной и компьютерной лингвистике: ежегодная международная конференция по компьютерной лингвистике «Диалог», конференция Мегалинг, конференция «Корпусная лингвистика» при кафедре математической лингвистики СПбГУ. Компьютерной лингвистике посвящен раздел форума на сайте конференции «Диалог».
Важной вехой в развитии отечественной корпусной лингвистики явилось создание Национального корпуса русского языка. Работы по созданию Корпуса были начаты в 2001 году группой лингвистов из Москвы, Петербурга, Воронежа и других городов. В рамках развития проекта ведется работа по созданию новых ресурсов на базе корпуса.
↑Основные понятия корпусной лингвистики
Центральное понятие корпусной лингвистики – лингвистический корпус. Тексты в корпус выбираются не случайным образом, а в соответствии с проблемной областью, т.е. областью реализаций интересующих исследователя языковых явлений. Проблемная область имеет два аспекта: языковой и речевой. Языковой аспект – это само изучаемое явление, а речевой – это множество контекстов, в которых это явление представлено. Проблемная область может быть как очень широкой (все произведения Достоевского Ф.М.), так и достаточно узкой (случаи согласования сказуемого с количественной группой по числу).
Одним из принципиальных вопросов является вопрос о том, какие тексты и в каком объеме необходимо отобрать в корпус. С одной стороны, хотелось бы, чтобы исследуемое явление, как бы оно ни было редко в языке, нашло отражение в корпусе. Одним из требований, предъявляемым к составу и структуре корпуса является требование полноты.
С точки зрения отбора текстов в корпус различают сбалансированные корпусы (см. также репрезентативность) и мониторные корпуса. В сбалансированных корпусах в корпус включаются тексты, представляющие разные модусы дискурса (включая как письменные, так и устные тексты), разнообразные по жанрам, стилям и тематике. При разработке корпуса устанавливаются пропорции, в которых должны быть представлены тексты разных жанров, стилей и т.п. Такие корпусы имеют фиксированный объем. Пополнение таких корпусов происходит только после тщательной процедуры отбора новых текстов. Мониторные корпусы постоянно пополняются новыми текстами на данном языке, при этом баланс текстов разных модусов, стилей и жанров не соблюдается. Создатели мониторных корпусов считают, что «статистическая» обоснованность данных, полученных из корпуса, будет достигнута за счёт объема корпуса, исчисляемого в миллиардах слов.
Важным параметром корпуса является его объем. Если первые корпусы достигали миллиона слов (точнее, словоупотреблений или текстоформ), то объем современных корпусов исчисляется сотнями миллионов (например, объем Национальный Корпус Русского языка на данный момент составляет около 140 млн. слов) или миллиардами (например, объем корпуса английского языка Bank of English превышает 2,5 миллиарда слов).
↑Компьютерная поддержка корпусов
Большинство современных корпусных менеджеров позволяют осуществлять поиск различного рода информации: поиск конкретных словоформ; поиск словоформ по лемме (поиск всех форм одной и той же лексемы, встретившихся в тексте); поиск неразрывных и разрывных словосочетаний. При наличии соответствующей разметки осуществляется поиск по набору морфологических признаков (например, поиск всех словосочетаний вида ‘предлог по + существительное в предложном падеже’) и др. информацию, соответствующую уровням лингвистической разметки, представленных в корпусе. Благодаря наличию метаразметки пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т.п. Результат выдачи представляет собой конкорданс (множество контекстов, в котором встретилось запрашиваемое языковое выражение). Каждый из примеров снабжается информацией об источнике, откуда взят пример. В ряде корпусов возможно также получить статистическую информацию о запрашиваемом языковом выражении: его относительную частоту по всему корпусу, распределение по жанрам или временным срезам, информацию о частоте его сочетаемости.
Корпусы, как правило, предназначены для многократного использования многими пользователями. Для унификации работы с разными корпусами, для обеспечения «независимости» корпусных данных от конкретной программной реализации интерфейса работы с корпусом разрабатываются стандарты разметки текстовых корпусов. В настоящее время выработались стандарты представления метаданных, базирующиеся на описание текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве языка разметки используются универсальные языки разметки данных, такие как, например, SGML и XML.
↑Корпусная линвистика как альтернатива традиционной лингвистике
Несмотря на огромную популярность корпусной лингвистики, она находит и своих противников. Авторитетный американский лингвист Н. Хомский высказал следующее мнение: «Corpus linguistics doesn’t mean anything. It’s like saying suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is [to] take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this» [4].
Сторонники данного радикального подхода признают правомерными методами изучения языка только лингвистический эксперимент (или, как его частный случай, эксперимент над самим собой, т.е. интроспекцию). Однако, существуют области, где интроспекция и эксперимент в принципе невозможны (например, история языка).
По сути, в корне этого спора извечный вопрос: «Что изучает лингвистика – язык или речь?». Неприятие корпусных методов основывается на убеждении, что лингвист изучает язык как систему, а не его конкретные проявления в речи, а корпус – не что иное, как собрание конкретных употреблений. Соответственно, сторонники изучения речи широко используют корпуса в своих исследованиях. Компромиссная точка зрения состоит в том, что задача лингвистики – изучение языка, но это невозможно без анализа его реализации в речи. Так и корпусные методы позволяют сделать выводы о феноменах языка, основываясь на конкретном речевом материале. Таким образом, корпусная лингвистика не является альтернативой традиционной лингвистике, а напротив, дополняет и обогащает ее.
↑Рекомендуемая литература
Баранов А.Н. Корпусная лингвистика// Баранов А.Н. Введение в прикладную лингвистику. М., 2003. С. 112–137.
Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. – 48 с. Доступно для скачивания по адресу: http://vp-zakharov.narod.ru/publications.htm
Михайлов М.Н. Компьютерное обеспечение корпуса текстов (взгляд пользователя) // Русистика сегодня. 1998. № 1-2. С. 192-201
Френсис У.Н. Проблемы формирования и машинного представления большого корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV. Проблемы и методы лексикографии. М., 1983. С. 334-353
Рахилина Е. В. Корпус как творческий проект // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, с.7-26.
Плунгян В. А., Сичинава Д. В. Национальный корпус русского языка: опыт создания корпусов текстов современного русского языка // Л. Н. Беляева и др. (ред.). Труды Межд. конференции «Корпусная лингвистика-2004». СПб: СПбГУ, 2004, 216-238.
McEnery, T. and Wilson, A. Corpus Linguistics. (2nd Ed.) 2001. Edinburgh: Edinburgh University Press
↑Источники
Ссылки
Редактор статьи Архипов Александр Владимирович, кандидат филологических наук, доцент филологического факультета МГУ.
Эта статья еще не написана, но вы можете сделать это.