Разумное. Доброе. Вечное.

AAA
Обычный Черный

Рекомендованное

Опрос

Навигация

Стих дня

Всякая поэзия есть выражение душевного состояния.
© Бергсон А.

17 ноября

Про колбасу

а это кто бредет во мраке
лохматый страшный и босой
так это ж петр на кухню за кол
басой

Новости культуры от Яндекса

ГлавнаяКорпусная лингвистикаКорпусы: устные и письменные, одноязычные и многоязычные


Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)


Корпусы: устные и письменные, одноязычные и многоязычные

Если бы нам пришла в голову идея исследовать корпус текстов по корпусной лингвистике (например, книг и научных статей) методами самой корпусной лингвистики, то оказалось бы, что чаще всего к слову «корпус» примыкает глагол «составлять» (1) . Какими же бывают корпусы по методу составления?

Устные – письменные

Большая часть корпусов 1 поколения были исключительно письменными. Письменные тексты гораздо легче собирать. Существуют три метода ввода письменных текстов в компьютер:

  • ● заново набирать тексты (это лучше, чем пробивать перфокарты, как было с Брауновским корпусом);
  • ● использовать тексты, которые уже существуют в электронной форме;
  • ● сканировать напечатанные тексты (но при этом нужно исправлять много ошибок).

Большие современные корпусы обычно комбинированные, с преобладанием письменных текстов. Даже в BNC лишь 10% текстов устные. Выделяется ICE, в котором 60% текстов устные.

Между тем, язык в основном существует именно в устной форме, письменная его форма вторична. Поэтому так важны устные корпусы, либо смешанные.

Среди специфически устных корпусов нужно назвать London Lund Corpus (LLC, 1975 г.) и Lancaster/IBM Spoken English Corpus (1992), сокращённо SEC. Этот последний состоит из 52600 словоупотреблений. Он поставляется на CD-ROMе вместе с аудиозаписями, полностью размечен на предмет ударений, интонации, пауз и т.п. Однако, он не содержит информации о социальном статусе и образовании респондентов, что ограничивает его использование в социолингвистике.

Corpus of Spoken American English (1991), миллион словоупотреблений, 80 часов звучания.

Map Task Corpus (1991, университет Глазго, Шотландия), 147 тысяч словоупотреблений, 16 часов звучания.

Устные корпусы включают меньше словоупотреблений, чем письменные, не только из- за трудоёмкости сбора данных, но и потому, что для просодических исследований обычно достаточно меньшего количества слов. Так, для изучения интонации достаточно корпуса в сто тысяч словоупотреблений.

Устные корпусы могут включать как монологическую, так и диалогическую речь. Для сбора материала используются записи с радио и телевидения или опрос по выборочным методикам социологии и социолингвистики. Отметим, что скрытая запись сейчас считается неэтичной (в отличие от 70-х годов).

Обычно собирают довольно подробную информацию о респондентах:

  • ● место записи
  • ● что респондент делает
  • ● время
  • ● дата
  • ● количество участников
  • ● степень спонтанности беседы
  • ● тема
  • ● пол участников
  • ● возраст участников
  • ● этническая принадлежность участников
  • ● основной язык участников
  • ● профессия
  • ● образование
  • ● социальный статус
  • ● отношение к записывающему
  • ● диалект

Самая трудоёмкая стадия — transcription. Орфографическая транскрипция одного часа записи с минимальной интонационной разметкой может занять около 10 часов. Если же размечать текст по всем правилам TEI (Text Encoding Initiative), то на это может уйти 25 часов и более. А без разметки корпус устных текстов не имеет смысла — как минимум, должна быть указана продолжительность пауз, размечена одновременная речь, ударение, интонация. Иногда включают контекстные комментарии типа «ест печенье». Именно благодаря подробной разметке корпус LLC стал стандартном для корпусов устной речи.

Статические – динамические

Первые корпусы были статичными снимками языка. Наиболее значимый современный корпус (BNC) тоже статичен. Но начали появляться и динамические мониторинговые корпуса, которые пополняются постоянно. Пример — Cobuild Project. Такие корпусы ещё называются «открытые». Их проблема в том, что они часто не совсем адекватно представляют язык, поскольку не подчиняются чётким критериям отбора, тексты не сбалансированы.

Одноязычные — многоязычные

Корпусных лингвистов (особенно связанных с переводом) всегда интересовала задача составления корпусов на нескольких языках. Уже в первом поколении начали появляться двуязычные корпусы для таких языков, как английский, финский, французский, немецкий, греческий, норвежский, испанский, шведский, валлийский. Такие корпусы ещё называются bitexts.

Естественно, нет никаких технических препятствий к тому, чтобы делать корпусы не дву- а трёх-, четырёх- и более язычными. Вообще говоря, само появление многоязычных корпусов спровоцировало всплеск научных исследований, поскольку для их анализа требуются другие инструменты и даже другие концепции, нежели чем для анализа корпусов одноязычных. Вполне естественно, что можно представить себе два типа двуязычных корпусов:

  • • корпус, в котором тексты являются переводами друг друга
  • • корпус, в котором просто присутствуют тексты на разных языках (возможно, одной и той же тематики).

Корпусы второго типа иногда называют «переводными» (translation corpora) и используются для изучения различий в выражении схожих мыслей на разных языках. Корпусы первого типа называют «параллельными» (parallel corpora) и используются для исследования различных аспектов собственно перевода. Например, существует параллельный корпус текстов заседаний канадского парламента (английский/французский).

Параллельные корпусы также могут быть двух типов — выровненные (aligned) и не выровненные (not aligned). «Выровненность» означает, что в корпусе существует чёткая связь между единицами перевода, которые соответствуют друг другу. То есть, мы можем быстро найти, как то или иное слово или предложение переводилось на другой язык. Обычно такими единицами перевода служат всё-таки предложения, поскольку часто сложно выровнять слова (ведь обычно переводят не дословно). Такой корпус наиболее полезен для переводчика, поскольку представляет собой ту самую «память переводов» (translation memory) — бесценный ресурс, позволяющий использовать предыдущие переводы. Невыровненные корпусы ещё называют «сравнительными».

«Выровнять текст с его переводом на другой язык означает показать какие части текста переведены какими частями второго текста» (Kay & Röscheisen 1993: 121)

Выравнивание (alignment) можно делать автоматически, а можно вручную. Первый способ быстрее, но чреват ошибками. Например, если при переводе произошло членение или объединение предложений, то не всегда можно легко определить, какое из предложений перевода соответствует какому предложению оригинала.

Одним из примеров выровненного многоязычного корпуса может послужить база данных Acquis Communautaire Европейского Союза (DGT-TM). Это память переводов европейского законодательства на 22 языка (2) , которую выложили в открытый доступ в ноябре 2007 года. Всего в ней около миллиарда слов, она выровнена по предложениям (sentencealigned). Вот пример предложения из этой базы данных:

  • EN: Articles 5 to 7 of this Directive do not apply to containers for gases which are compressed, liquefied or dissolved under pressure.
  • BG: Членове 5 - 7 на настоящата директива не се отнасят за контейнери с газове, които са сгъстени, втечнени или разтворени под налягане.
  • CS: Články 5 až 7 této směrnice se nevztahují na kontejnery pro plyny, které jsou stlačené, zkapalněné nebo rozpuštěné pod tlakem.
  • DA: Artiklerne 5-7 i dette direktiv finder ikke anvendelse på beholdere , der indeholder komprimerede , flydende eller under tryk opløste gasser.
  • DE: Die Artikel 5 bis 7 gelten nicht für Behälter , in denen sich verdichtete , verflüssigte und unter Druck gelöste Gase befinden.
  • EL: Τα άρθρα 5 έως 7 της παρούσης οδηγίας δεν έχουν εφαρμογή επί δοχείων που περιέχουν αέρια συμπιεσμένα , υγροποιημένα ή διαλελυμένα υπό πίεση.
  • ES: Los artículos 5 a 7 de la presente Directiva no se aplicarán a los recipientes que contengan gases comprimidos, licuados y disueltos a presión.
  • ET: Käesoleva direktiivi artikleid 5-7 ei kohaldata mahutitele, mis on täidetud suru-, vedel- või rõhu all lahustatud gaasiga.
  • FI: Tämän direktiivin 5-7 artiklaa ei sovelleta säiliöihin, jotka sisältävät puristettua, nesteytettyä tai paineen alla liuotettua kaasua
  • FR: Les articles 5 à 7 de la présente directive ne sont pas applicables aux récipients qui contiennent des gaz comprimés, liquéfiés et dissous sous pression.
  • HU: Ezen irányelv 5-7. cikke nem alkalmazható sűrített, cseppfolyósított vagy nyomás alatt oldott gázok tárolóira.
  • IT: Gli articoli 5, 6 e 7 della presente direttiva non sono applicabili ai recipienti contenenti gas compressi liquidi e disciolti sotto pressione.
  • LT: Šios direktyvos 5-7 straipsniai netaikomi suslėgtų, suskystintų ar aukštame slėgyje ištirpintų dujų konteineriams.
  • LV: Šīs direktīvas 5. līdz 7. pantu nepiemēro tvertnēm saspiestai, sašķidrinātai vai zem spiediena izšķīdinātai gāzei.
  • MT: L-Artikoli 5 sa 7 ta'din id-Direttiva ma japplikawx għall-kontenituri għal gassijiet li huma kompressati, likwifikati jew maħlula taħt pressa.
  • NL: De artikelen 5 tot en met 7 zijn niet van toepassing op houders die samengeperste, vloeibaar gemaakte en onder druk opgeloste gassen bevatten.
  • PL: Artykuł 5-7 niniejszej dyrektywy nie stosuje się do zbiorników lub pojemników zawierających gazy sprężone, skroplone lub rozpuszczone pod ciśnieniem.
  • PT: Os artigos 5º., 6º. e 7º. da presente directiva não são aplicáveis aos recipientes que contêm gases comprimidos, liquefeitos e dissolvidos sob pressão.
  • RO: Articolele 5 - 7 din prezenta directivă nu se aplică recipientelor care con in gaze comprimate, lichefiate sau ț dizolvate sub presiune.
  • SK: Články 5 až 7 tejto smernice neplatia pre nádrže na plyn, ktorý je stlačený, skvapalnený alebo rozpustený pod tlakom.
  • SL: Člena 5 in 7 te direktive se ne uporabljata za posode za plin, ki je stisnjen, utekočinjen ali raztopljen pod pritiskom.
  • SV: Artikel 5 7 i detta direktiv gäller inte behållare för gas som är komprimerad eller kondenserad eller löst under tryck.

Ценность параллельного корпуса, как и других корпусов, возрастает с его размером и количеством языков. В этой связи трудно переоценить важность Acquis Communautaire, который является самым большим параллельным корпусом в мире. Ещё два его преимущества — бесплатность и наличие редких пар языков, типа «мальтийский-эстонский», «словенский-финский». Сам корпус представлен в стандартном открытом формате памяти переводов TMX, про который я ещё расскажу на лекции по компьютерным технологиям в переводе.

Этот и подобные корпусы можно использовать для многих целей. Например:

  • ● выявление типичных переводческих приёмов и трансформаций
  • ● обучение статистических систем автоматического перевода
  • ● создание одноязычных и многоязычных словарей
  • ● обучение и тестирование программ извлечения информации
  • ● автоматическая проверка правильности перевода
  • ● и конечно, облегчение труда переводчика через подбор возможных эквивалентов

Двуязычные корпусы — ещё одно благодатное поле для студентов-лингвистов, которые могут использовать их для выполнения своих квалификационных работ. Корпус в данном случае может пониматься не как самостоятельная цель, а как инструмент для получения некоторых языковых данных. Соответственно, здесь возможны либо исследования процесса и результата перевода (берём оригинал и перевод), либо контрастивные исследования (берём схожие тексты на языке 1 и языке 2).


1. Хотя вообще-то лингвистические корпусы предназначены для того, чтобы быть основой для анализа и описания языков.

2. Поскольку все новые члены ЕС обязаны принимать все его законодательные акты, ЕС вынужден переводить весь Acquis на все языки


Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported

942
07.06.2016 г.

Яндекс.Метрика
Рейтинг@Mail.ru


Индекс цитирования

Уважаемые посетители! С болью в сердце сообщаем вам, что этот сайт собирает метаданные пользователя (cookie, данные об IP-адресе и местоположении). И как ни прискорбно это признавать, но это необходимо для функционирования сайта и поддержания его жизнедеятельности.

Если вы никак, ни под каким предлогом и ни за какие коврижки не хотите предоставлять эти данные для обработки, - пожалуйста, покиньте сайт и забудьте о нём, как о кошмарном сне. Всем остальным - добра и печенек. С неизменной заботой, администрация сайта.