Лингвистический материал это что

Лингвистический материал

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что

Усвоению подлежат следующие разделы:

фонетика. Особенности английской артикуляции по сравнению с артикуляцией других языков. Понятие артикуляционного уклада. Понятие о нормативном литературном произношении. Система гласных и согласных звуков. Долгие и краткие гласные звуки. Словесное ударение (ударные гласные полнозначных слов и редукция гласных звуков). Одноударные и двуударные слова. Ритмика (ударные и неударные слова в потоке речи). Транскрипция ударных звуков как средство выражения ритмики. Интонация стилистически нейтральной речи (повествование, вопрос);

грамматика. Множественное число существительных. Притяжательный падеж существительных. Артикль (основные правила употребления). Местоимения (личные, притяжательные, указательные, неопределенные). Числительные количественные, порядковые, дробные. Степени сравнения прилагательных и наречий. Оборот there is/are. Система времен английского глагола: Present, Past, Future (Simple, Continuous, Perfect, Perfect Continuous). Неправильные глаголы. Согласование времен. Пассивный залог. Модальные глаголы: can, may, must, have to, should. Аффиксация. Продуктивные суффиксы имен прилагательных, глаголов, наречий. Фразовые глаголы. Употребление инфинитива для выражения цели. Структура простого предложения. Структура безличного предложения. Отрицание. Образование вопросов. Придаточные предложения времени и условия. Прямая и косвенная речь;

-лексика и фразеология. Стилистически нейтральная наиболее употребительная лексика, относящаяся к общему языку и отражающая раннюю специализацию (базовая терминологическая лексика специальности).

Сочетаемость слов. «Неидиоматическая» (логическая) сочетаемость слов. Устойчивые выражения: наиболее распространенные разговорные формулы-клише (обращение, приветствие, благодарность, извинение и т. п.).

Основные двуязычные словари (организация материала в двуязычном словаре, структура словарной статьи). Многозначность слова. Синонимические ряды. Прямое и переносное значение слов. Слово в свободных и фразеологических сочетаниях.

Источник

Что изучает лингвистика?

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что

Лингвистика как отдельная наука

Слово «лингвистика» можно перевести на русский язык как «языкознание». В корне латинского слова есть lingua, то есть язык. Этот термин в схожем звучании есть во многих других языках. Например, английском (Linguistics), испанском (Linguistica), французском (Linguistique) и означает то же самое.

Лингвистика это наука о языке в целом как об основном средстве коммуникации между людьми. Задача лингвиста не только выучить язык, но, главное, объяснить принципы его устройства, выявить как его особенности: произношение, грамматика, алфавит влияют на людей и общество, которые на нем говорят.

В языкознании используются несколько методов исследования :

Внутренняя структура лингвистики

Лингвистика довольно сложная наука. Она включает в себя несколько направлений. Мы приведем самую распространенную классификацию лингвистики :

Эта отрасль предполагает выявление и изучение закономерностей, которые характеризуют язык. Например, путем наблюдения или статистики лингвист выясняет, что в русском языке в слове «договор» ударение нужно ставить на третью гласную «о». На основе этой простой закономерности лингвист формулирует правило: во множественном числе нужно писать «договоры», потому что смещение ударения на последнюю гласную в слове «договора» может нарушать законы языка.

Специфика прикладной лингвистики состоит в адаптации теоретических концепций к действительности. Например, в Исландии языковая политика крайне консервативна: для того чтобы в повседневной жизни использовать новые имена, необходимо их утверждение специальной комиссией. Также в Исландии существуют специальные учреждения, которые находят ближайшие соответствия иностранным терминам в исландском языке для того, чтобы в повседневной речи жители страны использовали именно слова национального происхождения.

Этот вид лингвистики проверяет «совместимость» теоретических концепций и гипотез с социальной действительностью посредством экспериментов. Таким образом, доказывается или опровергается их «совместимость». Например, недавно российские языковеды выяснили, что слово «кофе» можно употреблять не только в мужском, но и в среднем роде. Ряд специалистов объясняют данный факт так: современному обозначению напитка предшествовало название «кофие» среднего рода. Новая норма рассматривается как отсылка к историческому прошлому.

Изучает конкретные языки, которые объединены в родственные группы: романские, славянские, германские и т.д.

Многие по‑прежнему думают, что современные лингвисты это то ли составители учебников, то ли полиглоты и переводчики. Однако на самом деле это совсем не так. Современная лингвистика расширяет границы своих интересов всё больше и больше, сливается с другими науками и проникает почти во все сферы нашей жизни — хотя бы потому, что объект её изучения находится повсюду.

Рассмотрим направления современной лингвистики:

Когнитивная лингвистика. Когнитивная лингвистика — это направление, находящееся на стыке языкознания и психологии и занимающееся изучением связи между языком и сознанием человека.

Компьютерная лингвистика. Компьютерная лингвистика занимается автоматическим анализом естественного языка. Проще говоря, «окей, гугл», и поиск по новостям Вконтакте, и словарь Т9 — это всё плоды работы компьютерной лингвистики.

Социолингвистика. Социолингвистика изучает взаимосвязь языка и социума.

Таким образом, лингвистика является важной и быстро развивающейся наукой, которая не только выявляет закономерности развития языка, но и делает наше пребывание в компьютерной среде более комфортным.

Источник

Материал лингвистического исследования

Важнейшим методологическим вопросом для науки в целом и для каждого частного исследования является проблема материала, его добывания и способов обработки. Кажется, что все очевидно: материал лингвистики – конкретные языки. Однако на вопрос, к а к и е име н н о я зык и и к а к и е фо рмы с уще с т в о в а н и я я зык а д о с т о й ны быт ь ма т е р и а л ом языковедческих штудий, ученые в разное время отвечали по-разному.

В лингвистике изначально материалом служили литературные тексты, нередко сакральные («Веды» в древнеиндийской грамматической традиции, «Коран» в средневековой арабской грамматической традиции). При этом античные и средневековые грамматики были ориентированы на письменные тексты (отсюда этимология слов «грамматика» и «литературный», которые восходят к греческому и латинскому названию буквы: γραμμα и litera) и на классические «правильные» языки, тогда как живые европейские языки долгое время считались «неправильными» (они и действительно долго оставались менее развитыми, нежели латынь) и начали изучаться и описываться только с середины XVII в.

Сравнительно-историческое языкознание, с которого традиционно начинается отсчет истории лингвистики, имело дело с письменными памятниками и мертвыми языками, что хорошо согласовывалось с целями компаративизма, но явно сужало материал языкознания. Более того, лингвистика XIX в. долгое время оставалась по материалу и преимущественно европейской, поскольку все началось с изучения индоевропейской семьи языков. Языки других семей, особенно бесписьменные, по-настоящему начали изучать лишь в XX в.

Так, характеристика китайского языка как корневого – типичная проекция знаний о европейских языках с развитой флективностью и аффиксацией на язык совершенно другого типа, в котором нет других морфем, кроме корня. Но можно ли называть корнем специфическую единицу китайского языка цзынь, которая одновременно есть и слог, и слово, и иероглиф и которая может присоединять к себе только такие же подобные единицы, образуя сложные слова,? Не случайно более принятым в современной науке является термин «изолирующий язык».

В. Гумбольдт подчеркивал необходимость изучения любых, даже самых экзотических языков, поскольку они могли располагать необычными для европейского сознания фактами и давать богатую пишу для размышлений.

Достаточно вспомнить, что философия языка Гумбольдта, с которой началось теоретическое языкознание, была результатом размышлений над различным строением человеческих языков, а толчком к ним послужило изучение «экзотического» языка кави.

Однако изучение у с т ных монологических и диалогических форм языка стало по-настоящему возможным лишь в середине ХХ века, когда появились технические возможности непосредственной (без ступени транскрипции) фиксации устной речи. С расширением материала произошло существенное расширение языка как предмета науки: им стала не только языковая система, извлеченная из текстов, но и речевая деятельность в полном объеме.

Современные ученые, особенно работающие в больших научных коллективах, располагают машинным фондом, охватывающим большой массив русских текстов. Основную часть его составляет Лексикографическая база и Генеральный словник Машинного фонда русского языка, создаваемый в Петербургском отделении ИРС РАН – в Словарном секторе. Только в Институте русского языка РАН созданы и функционируют массивы русской разговорной речи и многомиллионный корпус русской прозы, БД по последней редакции словаря Ожегова-Шведовой, корпусы ассоциативного тезауруса, русской идиоматики, корпус политических текстов, серии конкордансов к произведениям русских поэтов, конкордансы текстов Достоевского [по данным редакционной статьи Ю.Н. Караулова в № 1 за 1995 ж. «Русистика сегодня»].

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что

Кстати, с этим связан и современный лексикографический бум.

В то же время совершенно справедливо звучит предупреждение Ю.Н.

Караулова, что лингвисты – независимо от их воли и желания – могут потерять свой привычный текстовый источник материала для описания современных языков, поскольку основная масса информации в технически развитых странах будет находиться в компьютерной форме и большая ее часть никогда не увидит бумаги.

С эмпирическим характером лингвистики, что сближает ее с науками естественного цикла, связан постоянно дискутировавшийся в языковедении (вспомним хотя бы Г.Пауля, И.А. Бодуэна де Куртенэ) вопрос о с о о т н оше н и и и н д у к ц и и и д е д у к ц и и в исследовании. Завершая параграф, посвященный материалу лингвистики, приведем слова Г. Гийома:

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источник

Лингвистика

Лингвистика

Лингвистика
Теоретическая лингвистика
Фонетика
Фонология
Морфология
Синтаксис
Семантика
Лексическая семантика
Прагматика
Прикладная лингвистика
Усвоение языка
Психолингвистика
Социолингвистика
Письменность
Дешифровка
Типология
Эволюционная лингвистика
Сравнительно-историческое
языкознание
Этимология
Стилистика
История лингвистики
Список лингвистов
Языки мира
Нерешённые проблемы

Лингви́стика (языкозна́ние, языкове́дение) — наука, изучающая языки. Это наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. В широком смысле является частью семиотики как науки о знаках.

Лингвистикой профессионально занимаются учёные-лингвисты.

Содержание

Предмет лингвистики

Лингвистика в гносеологическом аспекте

Субъект и объект лингвистики

Разделы лингвистики

Лингвистика в широком смысле слова (познание языка и передача результатов этого познания другим людям) подразделяется:

Теоретическая лингвистика

Теоретическая лингвистика исследует языковые законы и формулирует их как теории. Она бывает:

Можно говорить не только о «языках», но и о «Языке» вообще, поскольку языки мира имеют много общего. Поэтому выделяют:

Прикладная лингвистика

Прикладная лингвистика решает множество социальных задач: политических, экономических, образовательных, религиозных, инженерных, военных, медицинских, культурных.

Практическая лингвистика

Кибернетические модели языка проверяются тем, насколько похоже они имитируют человеческую речь; адекватность описаний мёртвых языков проверяется в ходе раскопок, когда археологи обнаруживают новые тексты на древних языках.

Эмпирическая лингвистика

Эмпирическая лингвистика добывает языковые данные тремя путями:

Описание может быть ориентировано на письменную и на устную речь; оно может либо ограничиваться только «правильным» языком (см.: языковая норма), либо учитывать также разнообразные отступления от него (см.: просторечие); может описывать либо лишь систему закономерностей, действующих во всех разновидностях языка, либо включать в себя также правила выбора между вариантами в зависимости от внеязыковых факторов.

Одноязычная и сравнительная лингвистика

Сравнительно-историческое языкознание занимается изучением истории языков и выявлением их генеалогических связей (см.: генетическая классификация языков). Этот раздел лингвистики может описывать хронологический срез языка в определённую историческую эпоху, при жизни одного поколения (синхроническая лингвистика изучает язык как систему, ставит перед собой задачи установить принципы, лежащие в основе любой систем, взятой в данный момент), иногда также называется «синхронной»), или изучать сам процесс изменения языка при его передаче от поколения к поколению (историческая лингвистика, иногда также называемая «диахронной» или «диахронической»).

Внешняя и внутренняя лингвистика

Лингвистика языка и лингвистика речи

Статическая и динамическая лингвистика

Общая лингвистика

В составе лингвистики выделяют разделы в соответствии с разными сторонами её предмета.

Соответствующие дисциплины отличаются друг от друга ориентацией на изучение единиц разных уровней языка:

Лингвистика и смежные области знания

На стыке лингвистики со смежными областями знания возник ряд пограничных дисциплин. К таким дисциплинам относятся следующие:

Лингвистическая экзотика

Многие лингвистические вопросы вызывают обострённый интерес со стороны не-лингвистов. Примеры таких тем приведены в статье Лингвистическая экзотика.

Лингвистическая терминология

Язык, изучаемый лингвистом, — это язык-объект; а язык, на котором формулируется теория (описание языка, напр., грамматика или словарь в соответствующих значениях) — это метаязык. Метаязык лингвистики имеет свою специфику: в него входят лингвистические термины, имена языков и языковых группировок, системы специального письма (транскрипции и транслитерации) и др. На метаязыке создаются метатексты (то есть тексты о языке); это грамматики, словари, лингвистические атласы, карты географического распространения языков, учебники языков, разговорники и т. п.

История лингвистики

В древности наука о языке («грамматика») изучала лишь родной язык ученого, но не чужие языки; только престижные языки духовной культуры, а живой разговорный язык народа (и уж тем более неграмотных бесписьменных народностей) не изучался. До XIX века наука о языке была предписывающей (нормативной), стремясь не описать живой язык, на котором говорят, а дать правила, по которым «следует» говорить (и писать).

Источник

Языковой материал в лингвистическом исследовании

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных. Чем больше материал, тем выше достоверность выводов, тем шире сфера дейсвия наблюден­ных закономерностей. В традиционном языкознании сбору материала всегда придавалось особое значение. Более того, во многих областях лингвистики сбор новых языковых фактов может считаться основной задачей лингвистического описания — ср. исследование неописанных и плохо описанных языков, выявление фонетических и морфологических различий в диалектах, изучение функционирования жаргонов, определе­ние изменений в функционировании языка и множество других задач, которые невозможно даже перечислить.

Имеются и другие проблемы. При традиционной технологии сбора и обработки языковых данных обновление собранного материала предста­вляет собой отнюдь не тривиальную задачу. Текущая обработка картотеки, поиск нужных единиц и пр. — все эти абсолютно необходимые операции отнимают значительное время. Кроме того, традиционная технология делает практически невозможным доступ к языковым данным на рас­стоянии. Некоторые типы данных — корпусы текстов — существовали

21) Целый ряд методов полевого исследования языка обсуждается в [Кибрик 1972].

в весьма ограниченном по объему виде (например, в виде хрестоматий, сборников текстов).

Новые информационные технологии и технические средства (ком­пьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных. Так, поскольку компьютерные тех­нологии широко используются в печатном деле и в средствах массовой информации, то существенно упростился процесс получения материала: большинство крупных газет имеют электронные версии, функциониру­ющие в информационных сетях, в частности, в Интернете. Имеются довольно продуктивные устройства сканирования текста (сканеры) и эф­фективные программы расшифровки графической информации («кар­тинки» текста) в собственно текстовый формат (текст как совокупность графем). Налицо колоссальный технологический рывок вперед. Многие издательства используют для составления словарей специально подго­товленные корпусы текстов — ср., например, Бирмингемский корпус английского языка и соответствующую базу данных, созданные как ис­точники для подготовки англоязычных словарей издательства «Коллинз» (см., например, [Collins COBUILD English language dictionary 1987]).

Этот технологический рывок создал, однако, другие — не менее серьезные — проблемы, существенно осложняющие использование язы­кового материала как для чисто научных, так и научно-практических целей (например, для составления словарей). Дело в том, что чрезмерный объем изучаемых данных может и затруднить описание исследуемого феномена. Такой эффект возникает в двух случаях: во-первых, когда информации слишком много22), и, во-вторых, когда выбранный язы­ковой материал искажает реальную картину функционирования языка относительно описываемого феномена. При наложении первой и вто­рой ситуации — и материал слишком велик и он не отражает реальный узус — результаты исследования практически не поддаются никакой разумной оценке. Заметим, что перечисленные проблемные ситуации не исключение, а рутинная практика современной лингвистики. В этом смысле остроумная метафора У. Фрэнсиса, сравнившего процесс форми­рования корпуса с попыткой вычерпывания ведром океана, не кажется значительным преувеличением [Фрэнсис 1983, с. 337].

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это что

Встает задача разработки общих принципов построения лингвисти­ческих корпусов данных с использованием современных компьютерных технологий. Рассмотрим здесь две важнейших темы корпусной лингви­стики, связанные с конструированием корпусов текстов:

22 )Например, изучение функционирования выражения по крайней мере в художествен­ных произведениях Ф. М.Достоевского требует анализа более чем 500 употреблений этого грамматического фразеологизма. Между тем представление о реальной картине употребле­ния появляется после просмотра первых 70-80 контекстов. Остальной материал не дает практически ничего нового. См. по этому поводу [Баранов 1996].

· формулировка общих требований к корпусу данных с точки зрения пользователя;

· обсуждение опыта создания корпусов данных для различных иссле­довательских проектов.

Ниже речь пойдет о корпусах текстов, однако многие обсуждаемые здесь проблемы вполне переносимы и на корпусы данных других типов.

Исходные понятия корпусной лингвистики

В имеющейся литературе по корпусной лингвистике часто использу­ются понятия, которые никак не определяются, но составляют исходный категориальный аппарат этой дисциплины. Рассмотрим их в самом пер­вом приближении, не претендуя на точные, исчерпывающие дефиниции (см. также [Баранов 1998 а]).

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. Существенно иметь в виду, что в идеале проблемная область имеет два измерения — языковое и речевое. Рече­вое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций. Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных — реализаций языковой системы. Это совершенно естественно, поскольку вряд ли возможно зафиксировать, собрать «потенцию», «воз­можность». Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области сразу «вылезает» при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку его следует реконструировать в результате анализа.

С чисто практической точки зрения проблемная область чаще всего предстает перед разработчиком корпуса как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из про­блемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструк­ции языка как системы. Наоборот — это одна из главных задач лингви­стического исследования корпуса. Перед нами одно из глобальных про­тиворечий, свойственное любому продукту языковой системы — от звука до текста. Лингвисту приходится по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Единица хранения корпуса данных. Поскольку корпус данных — это некоторая выборка из проблемной области, сформированная по опре­деленным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хра­нения — это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса. У. Фрэнсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, слово­сочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [Фрэнсис 1983, с. 344 и далее].

На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе. Например, еди­ница хранения корпуса рекламных слоганов, созданного в Отделе экспе­риментальной лексикографии Института русского языка РАН, включает следующие характеристики:

слоган: Для мужчин, которые любят женщин, которые любят мужчин

предмет: туалетная вода Azzaro pour Homme

область: косметика и парфюмерия

вид слогана: перевод с французского

оригинал: Pour les hommes qui aiment les femmes qui aiment les hommes

источник: Стае, Космополитен

Выражение естественного языка Для мужчин, которые любят женщин, которые любят мужчин и сопоставленные ему характеристики вместе образуют единицу хранения, которая может вводиться в базу данных или включаться в обычный файл текстового формата.

Единица хранения корпуса названий газетных статей должна бы­ла бы включать само название и совокупность дескрипций, содержащих информацию о том, из какой газеты название получено, в какой рубрике находится статья, когда вышла газета и другую необходимую инфор­мацию. Совокупность описаний единиц хранения образует некоторое множество, по которому можно судить о представительности выборки — какие газеты представлены, как формировалась выборка по временному параметру (все газеты какого-то периода vs. газеты через определен­ные промежутки времени vs. все газеты выбранных временных отрезков и т.д.); статьи каких рубрик представлены и пр.

Корпус текстов. Корпус текстов — это вид корпуса данных, единица­ми которого являются тексты или их достаточно значительные фрагмен­ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Несколько соображений о типах корпусов данных.

Лингвистический материал это что. Смотреть фото Лингвистический материал это что. Смотреть картинку Лингвистический материал это что. Картинка про Лингвистический материал это что. Фото Лингвистический материал это чтоИсследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения стати­стики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсив­ным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бир­мингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов. Для научных и практических це­лей (в частности, для преподавания иностранных языков) формируются

23) Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. §4 главы 5.

корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных. Наибольший инте­рес представляют те способы, которые опираются на современные ком­пьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления — неструктурированным текстовым форматом хранения (запись графем текста в ASCI-кодах) и структурированным форматом хра­нения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения. Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональ­ном» сужении, являющемся, по-видимому, простейшим случаем реализа­ции принципа репрезентативности (см. ниже), некоторые части проблем­ной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе дан­ных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпу­се данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональ­ном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональ­ном сужении будем называть порогом отображения. Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных.

Параметризация проблемной области. Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых ха­рактеристик текстов проблемной области, которые релевантны для пред­полагаемого исследования. Совокупность этих характеристик (их возмож­ные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров про­блемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе плани­рования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параме­тризации проблемной сферы и структуру корпуса [Фрэнсис 1983, с. 344 и далее].

Обратимся теперь к тем требованиям, которые обычно предъявляют пользователи к корпусу текстов (в дальнейшем именно корпус текстов будет основным предметом обсуждения), имея в виду, разумеется, идеаль­ную ситуацию.

Требования к корпусу текстов с точки зрения пользователя

Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требо­вания. Поскольку последовательное соблюдение любого из требований приводит к разрушению корпуса как такового, необходимо соблюдение баланса между ними. То, как создатель корпуса старается совместить различные требования, формирует стратегию построения корпуса.

Репрезентативность. Важнейшее свойство корпуса текстов — его репрезентативность по отношению к проблемной области. Под репрезен­тативностью понимается способность корпуса текстов отражать все свой­ства проблемной области, релевантные для данного типа лингвистичес­кого исследования, в определенной пропорции, определяемой частотой явления в проблемной области. Другими словами, частота явления в кор­пусе должна быть близка частоте в проблемной области. Это требование ориентирует «сборщика» корпуса текстов на специализацию разрабатыва­емого продукта по уровневой тематике: фонетические, морфологические, синтаксические, лексические, текстовые и пр. корпуса.

Например, текстовые корпуса должны содержать в соответствующей пропорции тексты с базовыми, наиболее типичными макроструктура­ми, имеющимися в данной проблемной области. С другой стороны, лексические корпуса должны включать выбранные исследователем поля лексических единиц.

Стремление к репрезентативности налагает определенные ограниче­ния на единицы хранения корпуса: если для морфологии это могут быть максимум словосочетания и отдельные предложения (для языков с раз­витой морфологией), то для собственно текстовых корпусов единицами хранения должны быть целые тексты и фрагменты их макроструктур.

Репрезентативность, конечно, не исчерпывается перечисленными параметрами. Так, в каждом конкретном случае может оказаться необхо­димым учесть стилистическую, временную, авторскую и другие составля­ющие текстового массива проблемной области.

Требование репрезентативности в самом простом варианте отража­ется в пропорциональном сужении проблемной области. В этом случае можно говорить о «пропорциональной стратегии» организации корпуса текстов. Требование адекватного отображения статистики может быть нарушено, если цель исследования заключается не столько в оценке ча­стотности того или иного явления, сколько в изучении множества уже выделенных языковых структур. Для таких задач более разумно и эконо­мично использовать иллюстративные корпусы текстов.

Полнота. Репрезентативность корпуса указывает на то, что единицы проблемной области отражаются пропорционально в корпусе данных, но при определенном пороге некоторые релевантные явления пропадут, исчезнут из корпуса. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Требова­ние полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса приблизительно знает, что ему искать. В такой си­туации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса.

Экономичность. Корпус текстов должен экономить усилия иссле­дователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему. В общем случае чем более «экономичен» корпус, тем выше порог отображения. В то же время для исследовательских корпусов экономия не может прово­диться в ущерб репрезентативности: статистические пропорции должны быть адекватно отображены, если это не оговорено специально.

Структуризация материала. Определение единиц хранения корпуса не должно быть непосильной задачей для пользователя. Желательно сопоставить корпусу опись данных, в которой единицы хранения харак­теризуются по тем параметрам, которые могут оказаться важными для пользователя.

В ряде случаев на состав единиц хранения налагаются существен­ные ограничения. Если единицей хранения оказывается фрагмент тек­ста (предложение или группа связанных между собой предложений), то важно, чтобы он был самодостаточным. Последнее означает, что он не должен содержать неоднозначности любых типов, в частности, ме­стоимений, для которых невозможно восстановить антецедент и пр. В тех случаях, когда единицы хранения включают случаи языковой игры, связанной с неоднозначностью, рамки контекста должны быть таковы, чтобы пользователь мог легко определить, что речь идет о языковой игре, а не об ошибке в вычленении единицы хранения. Разумеется, это не очень существенно для таких корпусов, которые ориентирова­ны, например, на морфологическую или фонетическую инвентаризацию

Компьютерная поддержка. Желательна поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматиче­ской словарной обработки (составление полных и частичных словников по различным основаниям — по частоте, по алфавиту и пр.), лемматиза-ции. Как минимум, корпус должен быть «прозрачен» для компьютерной обработки (отсутствие переносов, лишних пробелов и пр. 24)

24) Ср. формальные требования к представлению текстов в Машинном фонде русского языка в [Андрюшенко 1987].

25) Распространяется организацией Zentram ffir Umfragen, Methoden und Analysen — ZUMA (г. Мангейм, Германия).

26) Подробный сравнительный анализ некоторых программных пакетов обработки кор­пусов см. в [Miiller 1993].

Особого программного обеспечения требуют корпусы параллельных текста. Программа MULTICONCORD позволяет строить конкордансы и устанавливать соответствия между фрагментами оригинального текста и его переводами на другие языки [GroB, MiBler, Wolff 1996]. В настоя­щее время MULTICONCORD работает с корпусом из шести языков — английский, немецкий, французский, греческий, итальянский и датский (текст на источниковом языке и пять текстов на целевых языках). Для разньк текстов целевые языки и языки-источники варьируются. Корпус паралвльных текстов полностью интегрирован в программу. Он включа­ет разнообразные литературные тексты — романы, драмы, короткие рассказы, а также публицистику, информационные тексты, анекдоты. Программа дает возможность производить поиск по разным языкам, разньщ словам, словоформам и словосочетаниям. Ср. фрагмент поиска на английский глагол look в оригинальном тексте «Alice in Wonderland» и его лексические эквиваленты в переводе на немецкий язык:

First, she tried to look down and make outvhat she was coming to, but it was too dark to see anything; It was as much as she could do, lying down on one side, to look through into the garden with one eye;Als erstens spahte sie in die Tiefe hinab, urn zu erkennen, was ihr dort bevorstand, aber es war so dunkel, daB man nichts sehen konnte; Wenn sie sich seitlich hinlegte, konnte sie mit einem Auge gerade noch in den Garten hinausblicken, aber mehr auch nicht, und dorthin zu gelangen war aussichtsloser denn je

Результаты поиска могут сортироваться по объему, алфавиту, по про­изведениям, авторам и т.д. Предполагается использовать MULTICON­CORD на занятиях по изучению иностранных языков, литературы и в сфе­ре конграстивной лингвистики.

Основная проблема в построении корпусов параллельных текстов и разработке пакетов программ для их обработки заключается в установле­нии соответствий между оригинальными текстами и переводами. Понят­но, что тривиальное соответствие по словам или предложениям здесь не­возможно. Теоретически обоснованным было бы использование техноло­гий систем машинного перевода с языком-посредником или универсаль­ным языком, однако в настоящее время такой подход вряд ли возможен. Насколько можно судить, создатели программы MULTICONCORD в про­стых случаях устанавливали лексические соответствия, а в случае свобод­ного перевода индексировали целые фрагменты предложений или текстов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *