Разумное. Доброе. Вечное.

AAA
Обычный Черный

Рекомендованное

Опрос

Навигация

Стих дня

Всякая поэзия есть выражение душевного состояния.
© Бергсон А.

15 августа

О флагах

когда петр понял что он тряпка
прилип к зухре он как к древку
и этим вот семейным флагом
теперь по жызни машет он

Новости культуры от Яндекса

ГлавнаяКорпусная лингвистикаПонятие лингвистического корпуса


Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)


Понятие лингвистического корпуса

Прежде, чем говорить о корпусной лингвистике, необходимо определить само понятие лингвистического корпуса. По-английски это будет linguistic corpus или text corpus, множественное число linguistic corpora (corpuses употребляется реже). Существует довольно много определений, которые сходятся в одном: корпус есть «некоторый филологический объект».

Вот несколько дефиниций:

● корпус — это организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов;

● корпус – это набор лингвистических данных из определённого языка в форме записанных высказываний или письменных текстов, доступный для анализа;

● корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится в электронном виде и позволяет организовать компьютеризированный поиск;

● пожалуй, наиболее полное определение: корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник данных для лингвистических исследований. (John Sinclair)

Вот примеры корпусов:

● тексты конкретного писателя или писателей;

● тексты за конкретное десятилетие или столетие;

● современные тексты определённой тематики;

● современные тексты, адекватно представляющие язык или общество.

 В одном из определений было сказано, что корпус может быть как устным, так и письменным. Вообще, существует мнение, что лингвистические корпусы не являются ни устными, ни письменными, ни печатными, а представляют собой четвёртую фактуру речи — тексты на машинном носителе — тот самый digital text. Впрочем, с этим взглядом можно спорить.

Понятно, что корпус — это набор текстов, с которыми можно что-то делать. Но что же может делать корпус? Ответ может показаться неожиданным: сам корпус не может делать ничего. Но мы можем использовать специальное программное обеспечение, чтобы искать в корпусе что-либо и производить некоторые вычисления. Что же мы можем искать? В первую очередь, это слова и фразы, которые имеют культурную или лингвистическую значимость.

Кроме того, предметом поиска могут являться какие-либо пометки, которые вы добавили к корпусу, например, пометка «существительное».

А вот примеры того, что может нам выдать поиск по корпусу:

 ● все употребления выбранного слова в непосредственном контексте;

● вариации и последовательность в использовании лексики;

● слова, которые чаще всего стоят рядом с выбранным словом;

● наиболее важные различия между двумя наборами текстов;

● как тот или иной писатель использует слова и фразы;

● интертекстуальность: значение слова как сумма его употреблений;

● скрытые (потенциальные) модели использования лексики;

● развитие концептов во времени;

● сравнение языков.

В частности, нам, как переводчикам, наиболее актуальны возможности поиска контекстов слов, имеющих несколько переводных эквивалентов, а также подбор эквивалентов терминологических и фразеологических словосочетаний в параллельных корпусах, о которых мы будем говорить в следующих лекциях.

Важнейшее свойство корпуса – репрезентативность, то есть, способность отражать все свойства проблемной области. Репрезентативность определяется фонетическими, морфологическими, синтаксическими и стилевыми параметрами корпуса. Именно репрезентативность отличает корпус от простого набора текстов. Не в последнюю очередь репрезентативность зависит от размера корпуса.

Эмпирический подход в сравнении с хомскианской лингвистикой

Некоторые русскоязычные источники указывают, что впервые идея о том, что достоверные лингвистические данные могут быть получены лишь из большого массива текстов, была высказана Р.Г. Пиотровским в 60-х годах. На самом деле, осмысленные исследования в области корпусов начались ещё в сороковые годы (Блумфилд, Фрайс и Бонджерс). Но в 50-60-е годы возобладала концепция Ноама Хомского (1) (хомскианская лингвистика, chomskyan linguistics). Она заключалась в том, что нужно изучать лишь competence (языковое знание, «язык» по Соссюру), а не performance (языковое употребление, «речь» по Соссюру). Ведь число высказываний естественного языка бесконечно, поэтому исследовать их бессмысленно. С другой стороны, количество языковых правил, которые и составляют competence, конечно. Поэтому их можно исследовать. Таким образом, произошёл уход от эмпирики в сторону рационализма и интроспекции (использования интуиции носителей языка). Тем не менее, некоторые учёные продолжали использовать корпусные методики и в период безраздельного господства генеративной лингвистики.

Причина повышения интереса к корпусным исследованиям в последнее время — появление компьютеров, которые сделали возможной обработку огромных массивов текстов. Кроме того, всё больше учёных склоняется к тому, что интроспекция как метод изучения языка не всегда адекватна, и более научно опираться на естественные данные. Известные корпусные лингвисты Тони Мак-Эннери и Эндрю Уилсон пишут, что нужно использовать и эмпирику, и интроспекцию, и искусственные данные, и естественные. Корпусная лингвистика ни в коем случае не отрицает ценности и необходимости речевых данных, не представленных в корпусной форме. Кроме того, из корпуса текстов невозможно извлечь все возможные лингвистические выводы, то есть, корпус текстов не является самодостаточным (2 ).

Так, Чейф считает, что корпусный лингвист должен не только описывать явления языка, но и стараться объяснить их. Вообще, в центре внимания корпусной лингвистики оказалась языковая личность, то есть, её речевая деятельность, массовая коммуникация, проблема её описания.

Корпусная лингвистика

Традиционная лингвистика

Основное внимание – изучение речи Основное внимание – изучение языка
Цель – описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов Цель – описание и объяснение языка
В своих исследованиях опирается на данные корпуса текста В своих исследованиях идёт от теории к её объяснению и подтверждению в фактах речи
Предпочитает квантитативные (количественные) методы Предпочитает квалитативные (качественные) методы
Видит себя частью традиций, базирующихся на эмпирических методах Видит себя частью традиций, базирующихся на рационалистических методах
Текст рассматривается как некоторая физическая сущность Текст рассматривается как некоторая абстракция
Составление грамматики конкретных языков Изучает языковые универсалии
Основное внимание уделяется форме Основное внимание – не только форме, но и содержанию
Рассматривает тексты в глобальной перспективе Рассматривает тексты в локальной перспективе
Фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами Анализирует некоторую конкретную, искусственно ограниченную, проблемную область
В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований
Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала Предпочитает логические рассуждения
Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте Предпочитаются искусственные примеры, из изолированных от текста словоупотреблений
Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода Предпочитает дедуктивные методы обработки эмпирического словесного материала
Верит в научные открытия, основанные на обработке эмпирических данных Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д.


1 Основатель генеративной лингвистики

2 Например, корпус в принципе не может дать ответ на вопрос, какие конструкции в данном языке

Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported

633
06.06.2016 г.

Яндекс.Метрика
Рейтинг@Mail.ru


Уважаемые посетители! С болью в сердце сообщаем вам, что этот сайт собирает метаданные пользователя (cookie, данные об IP-адресе и местоположении). И как не прискорбно это признавать, но это необходимо для функционирования сайта и поддержания его жизнедеятельности.

Если вы никак, ни под каким предлогом и ни за какие коврижки не хотите предоставлять эти данные для обработки, - пожалуйста, покиньте сайт и забудьте о нём, как о кошмарном сне. Всем остальным - добра и печенек. С неизменной заботой, администрация сайта.