Разумное. Доброе. Вечное.

AAA
Обычный Черный

Рекомендованное

Опрос

Навигация

Стих дня

Всякая поэзия есть выражение душевного состояния.
© Бергсон А.

17 ноября

Про колбасу

а это кто бредет во мраке
лохматый страшный и босой
так это ж петр на кухню за кол
басой

Новости культуры от Яндекса

ГлавнаяКорпусная лингвистикаЛингвистические исследования на базе корпусов


Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)


Лингвистические исследования на базе корпусов

Лингвистические корпусы составляют, чтобы предоставить основу для более точного и адекватного описания структурных и функциональных параметров языка. Сегодня мы поговорим о результатах некоторых корпусных исследований и опишем как вообще использование корпусов может помочь лингвистике.

Описания лексики

Конечно, чаще всего корпусные описания лексики применяются в лексикографии. Практически все современные словари английского языка построены на базе корпусов. Корпусы помогают достоверно определить набор словоформ (types) в языке, показывают появление новых словоформ, используются для уточнения разных значений одного слова и их относительных частот. Самый известный пример — словари издательства Collins, построенные на базе корпуса Cobuild Project.

Корпусы могут давать очень интересные лексикографические сведения о языке. Так, даже в относительно небольшом London-Lund Corpus слово good встречается 800 раз. Оно выступает в 20 значениях как прилагательное, а кроме того, может являться междометием в различных функциях. У всех этих значений разная частота употребления. Кроме того, корпусы показывают появление неологизмов. Так, в 1994 году в английских газетах появились следующие интересные слова: complainy, dial-a-video, bespokesman, cleavage-wielding, eventdriven, fruitcakeland, infotainers, over-housed, unbusy, anarchitecture, bimboisation, bonkable, crashworthiness.

Статистические исследования лексики на материале корпусов начались ещё в докомпьютерную эпоху. Основным их результатом стал известный закон Ципфа (30-е годы). Напомним, что суть его в том, что в любом массиве текстов небольшое число словоформ (1) (types) образует большую часть реальных словоупотреблений (2) (tokens). Соответственно, например, 90-95 процентов словоупотреблений в английских текстах составлено из 2-5 тысяч наиболее употребительных словоформ. Более того, около половины текста — это словоупотребления 50-100 самых актуальных словоформ (хотя конкретный их набор может быть разным для разных стилей и подъязыков). Это открытие имело большое значение для преподавания английского языка, поскольку позволило сосредоточиться на предъявлении учащимся самой частотной лексики.

Существуют исследования, которые описывают, какая лексика специфична для определённых типов текстов и вряд ли появится в других. Так, для научных текстов одним из таких слов является глагол to measure, а для художественных — to kiss.

Появление электронных корпусов дало возможность уточнить частотные параметры лексики. Вот, например, список 50 наиболее частых словоформ в Birmingham Corpus.

  1. 1) the
  2. 2) of
  3. 3) and
  4. 4) to
  5. 5) a
  6. 6) in
  7. 7) that
  8. 8) I
  9. 9) it
  10. 10) was
  11. 11) is
  12. 12) he
  13. 13) for
  1. 14) you
  2. 15) on
  3. 16) with
  4. 17) as
  5. 18) be
  6. 19) had
  7. 20) but
  8. 21) they
  9. 22) at
  10. 23) his
  11. 24) have
  12. 25) not
  13. 26) this
  1. 27) are
  2. 28) or
  3. 29) by
  4. 30) we
  5. 31) she
  6. 32) from
  7. 33) one
  8. 34) all
  9. 35) there
  10. 36) her
  11. 37) were
  12. 38) which
  13. 39) an
  1. 40) so
  2. 41) what
  3. 42) their
  4. 43) if
  5. 44) would
  6. 45) about
  7. 46) no
  8. 47) said
  9. 48) up
  10. 49) when
  11. 50) been

С другой стороны, многие слова встречаются в данном корпусе только один раз. Такие слова называют hapax legomena (от греческого - «нечто, сказанное один раз»). В коротком тексте из 200 слов около 150 слов обычно являются hapax legomena. И даже в больших корпусах с 5 миллионами словоупотреблений почти 40% слов встречаются лишь однажды.

Другое применение корпусов в лексических исследованиях — описание сочетаемости слов (collocation). Есть два подхода — подход Скиннера, который рассматривал предложения как словесные цепи, в которых вероятность следующего слова определяется предыдущими, и подход генеративной грамматики (Хомский), которая утверждает, что язык всегда порождает новые неожиданные словосочетания по определённым синтаксическим правилам. «Идиоматический принцип» и «принцип открытого выбора», как назвал их Дж. Синклер. Корпус может помочь найти лексикализованные словосочетания, образованные по первому принципу (типа at least). Выяснилось, что, например, около 70% слов в корпусе LLC входят в повторяющиеся словосочетания. Впрочем, иногда случаются парадоксальные вещи. Так, некоторые словосочетания появляются в корпусе LOB лишь один раз, но носители языка однозначно воспринимают их как повторяющиеся и устойчивые: at a first glance, at his mercy

Электронные корпусы позволяют исследовать проблему сочетаемости более объективно. Например, мы можем посчитать статистическую значимость разницы между тем, как фактически сочетаются слова в корпусе и тем, как они теоретически должны были бы сочетаться, если исходить из их индивидуальных частот. Например, слово Christmas часто сочетается с такими редкими словами, как day, eve, tree, cards и present.

Дальнейшие разработки в анализе корпусов открывают огромное поле для исследований в области описания языка. И тут корпусная лингвистика может помочь определить, наконец, грань между лексикой и грамматикой.

Исследования частей речи

Здесь можно говорить о работах, посвящённых различным аспектам использования глагольных форм, предлогов, союзов, наречий и т.п. Особое место занимают исследования глагольных форм, поскольку уже по результатам изучения Брауновского корпуса и корпуса LOB был сделан вывод о том, что глаголы составляют почти 20% всех слов корпуса, причём 23 наиболее часто употребляемых глагола составляют 95% всех глагольных словоупотреблений.

Существуют работы, связанные с распределением различных временных форм глагола. Так, известно, что в устном английском всегда преобладает время simple present (в частности, глагол to be). В письменном языке (особенно в нарративах) учащается использование simple past, но и настоящее время продолжает оставаться частотным.

Также изучаются модальные глаголы. Эти исследования показывают, как распределение их грамматических шаблонов и семантических ролей зависит от жанра и на какие формы следует обратить внимание при преподавании языка. Например, выяснилось, что в письменном английском самый употребительный модальный глагол — would, а вот в устной речи это will.

Корпусные лингвисты обращают внимание и на залог глагола. Так, Svartvik показал, что пассив гораздо чаще употребляется в информативной прозе, чем в художественной. Например, в научных текстах пассивный залог встречается почти в 8 раз чаще, чем в рекламных объявлениях.

Другие интересные корпусные исследования, связанные с частями речи:

  • ● Постглагольные частицы. Самые частотные — up и out, за ними идут off, back, down, on и in.
  • ● Предлоги. Каждое восьмое слово (12%) в любом английском тексте является предлогом, причём of составляет 30% всех предложных словоформ. Выяснился интересный факт — данный предлог (несмотря на его огромную частотность) функционирует не совсем так, как остальные предлоги. Большая часть предлогов входит в коллокации с последующими словами (at least, for a while), в то время как of тяготеет к сочетанию с предшествующими (descriptions of, the basis of). После выявления различий в сочетаемости предлогов, зародились обоснованные сомнения в том, можно ли вообще объединять эти слова в один класс — ведь они даже сочетаются с разными частями речи.
  • ● Союзы. Исследовались различия в употреблении и многочисленных значениях since, when и once, а так же more и less. Кстати, было показано что очень большое количество слов тем или иным образом отражают количественные отношения (являются квантификаторами). Причём большая их часть выражает неточное количество — few, substantial и т.д. Это открытие имеет большое значение для лингводидактики.

Исследования синтаксических процессов на уровне предложения

Изучать синтактику в корпусе сложнее, чем лексику. Основная причина — сложность автоматического синтаксического анализа языка (парсинга).

Тем не менее, при переходе от уровня слов на уровень фраз и предложений, корпусные методы не теряют своей значимости. Корпусная лингвистика убедительно показала ложность бытующего мнения, что синтаксические конструкции сочетаются и варьируются абсолютно свободно. Напротив — они так же зависят от жанра, как лексика. Так, ещё в 70-х годах была доказана зависимость средней длины предложения от жанра текста: в информативной прозе предложения длиннее, чем в художественной (так называемый «флэш-тест»). Причём в основном это происходит не за счёт увеличения количества предикатных групп, а за счёт увеличения количества слов в этих группах. Например, средняя длина предложения в американских новостных текстах составляет 23,7 слова (от 3 до 70 слов).

Распространённые темы синтаксических корпусных исследований включают в себя:

  • ● Типы придаточных предложений, в частности, лексикализованные сущности, типа that's right или wait a minute.
  • ● Noun Phrases, например, изучение присоединённых конструкций (apposition) с выходом на их зависимость от того, разделяют ли продуцент и реципиент текста одну и ту же картину мира.
  • ● Отношения условия (conditionality). Эти исследования, например, показали частые ошибки в тактике преподавания английской условности. Выяснилось, что наиболее частым способом передачи условности в английском языке является фактуальный, через simple present + simple present (If you don't return, I die). Между тем, во многих курсах грамматики этот тип условности вообще не рассматривается, зато большое внимание уделяется конструкциям с would и т.д., которые вовсе не так частотны.
  • ● Сослагательное наклонение. Выяснилось, что американский английский тяготеет к конструкциям типа It is important that he visits the lecture, а британский — We insist that he should visit it.
  • ● Отношения причинности (causation). Чаще всего выражаются словами because, so и for. Однако, последнее слово релевантно только для письменного языка — в устном оно фактически не встречается в значении причинности (также, как since, thus и therefore). Кстати, корпусная лингвистика позволяет существенно расширить представления о способах выражения причинности в английском. Даже лучшие учебники грамматики (Quirk) дают около 40 таких способов, в то время, как корпусные лингвисты Fang и Kennedy идентифицировали на основе корпуса LOB более 130.
  • ● Отрицание (negation). Tottie показала, что в устной речи отрицание употребляется в два раза чаще, чем в письменной, а так же, что формы no и not далеко не всегда являются взаимозаменяемыми (no point, there is not lot of money available).
  • ● Усиление (clefting). It was him who did it. Эта конструкция более частотна в письменных текстах, конкретно — в информативных.

Исследования прагматики и устной речи

Развитие корпусной лингвистики в 60-х совпало с возросшим интересом к социальным и прагматическим функциям устной речи. Одно и то же высказывание может иметь разное значение в зависимости от обстоятельств. Интерес представляет и сегментирование устной речи. Ведь письменный текст достаточно легко членится на слова, фразы и предложения, а устный дискурс обычно делят на интонационные сегменты, что значительно труднее.

До середины 90х все корпусные исследования устной речи были основаны на корпусе London-Lund (LLC), который единственный имел полную разметку. Соответственно, его изучение можно было автоматизировать. Как пример исследования, можно привести изучение слова well в работах Svartvik. Он показал, что дискурсивная частица well используется в устной речи в значении идентификатора тематического сдвига. Но в письменной речи в таком значении это слово не используется практически никогда. Интересно также употребление так называемых hedge words типа sort of, kind of и т.д. Исследовались усилительные наречия (absolutely, completely; very, terribly). В устной речи используются лишь немногие из них, но очень интенсивно (например, quite).

Исследования вариаций языка

Мы уже упоминали, что результаты многих корпусных исследований показывали различия между вариациями английского языка. Остановимся на этом подробнее.

Огромные различия прослеживаются между письменным и устным английским. Их можно проследить на основе устного и письменного корпуса. Например, в письменном корпусе LOB слово pretty в 44% случаев играет роль прилагательного, в устном корпусе LLC эта цифра составляет лишь 4%. В устном английском это слово чаще употребляется как усилитель. Различны и частоты употребления таких слов, как really, right и just.

Открытия различий в частоте и функциях лексики и грамматики для разных текстов могут привести к масштабным изменениям в классификации жанров и типов текстов (см., например, D. Biber, «Variations across Speech and Writing»). Часто устный и письменный тексты могут быть ближе друг к другу, чем два письменных текста разных типов. Другие лингвисты считают, что устная речь всё же кардинально отличается от письменной, поскольку является не продуктом, а процессом.

Много работ посвящено сравнению региональных разновидностей английского языка (в частности, на материале корпуса ICE). В основном различия проявляются на уровне лексики: хотя в целом 50 наиболее частотных слов совпадают (за исключением so, которое частотно в британском английском, и more, которое частотно в американском). Грамматически языки скорее совпадают, разве что в американском варианте больше номинативных конструкций.

Корпусные исследования могут помочь разрешить сложные грамматические коллизии по поводу нормы. Так после слова different могут идти слова than, to или from. Неясно, какое из них более правильное. Исследования на материале Брауновского корпуса и LLC показали, что different from используется гораздо чаще остальных, а different than скорее характерно для американского английского.

Проводились исследования и других вариантов английского языка. Например, Collins показал, что в австралийском английском глагол must гораздо чаще употребляется в значении «You must be joking», чем в прямом. Фильм англичане и новозеландцы назовут film, а американцы и австралийцы — movie.

Естественно, что существует обширная литература по стилистическим различиям в языке (жанры и регистры). Вероятность употребления слова или грамматического явления зависит от регистра. В то же время, регистры могут «перетекать» друг в друга даже в пределах одного текста.

На основе диахронических корпусов (например Хельсинкского) проводились исследования изменений языка. Например, выяснилось, что начиная со средних веков, в английском увеличивается частота употребления глагольной формы progressive (be + ing).

Для переводчиков большой интерес представляют исследования бинарной оппозиции «оригинальный текст — переводной текст». Имеется в виду выяснение, существуют ли объективные отличия переводных (вторичных) текстов от текстов первичных. Здесь можно назвать имена M. Baker и M. Olohan.

Итак, мы увидели, что описания таких аспектов языка, как лексика, морфология, синтактика и устная речь, на базе анализа корпусов дали нам очень много новых знаний о языке. Корпусная лингвистика пока не осуществила системное описание всех аспектов английского языка (тем более, русского), но сделано уже достаточно, чтобы предположить, что корпусные описания языка будут давать всё больше информации об относительных частотах явлений языка в разных его вариациях. В свою очередь, это повлияет на преподавание иностранных языков на всех уровнях системы образования.


1. Словоформа есть единица речи, повторяющаяся одинаковая последовательность звуков или букв [Щерба , Гируцкий]

2. Словоупотребление есть единица речевой деятельности, любая цепочка букв или звуков между двумя пробелами [Щерба, Гируцкий]


Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported

1304
07.06.2016 г.

Яндекс.Метрика
Рейтинг@Mail.ru


Индекс цитирования

Уважаемые посетители! С болью в сердце сообщаем вам, что этот сайт собирает метаданные пользователя (cookie, данные об IP-адресе и местоположении). И как ни прискорбно это признавать, но это необходимо для функционирования сайта и поддержания его жизнедеятельности.

Если вы никак, ни под каким предлогом и ни за какие коврижки не хотите предоставлять эти данные для обработки, - пожалуйста, покиньте сайт и забудьте о нём, как о кошмарном сне. Всем остальным - добра и печенек. С неизменной заботой, администрация сайта.