Разумное. Доброе. Вечное.

AAA
Обычный Черный

Рекомендованное

Котики

Опрос

Навигация

Стих дня

Всякая поэзия есть выражение душевного состояния.
© Бергсон А.

17 ноября

Про колбасу

а это кто бредет во мраке
лохматый страшный и босой
так это ж петр на кухню за кол
басой

Новости культуры от Яндекса

ГлавнаяКорпусная лингвистикаКорпусы: аннотированные и неаннотированные. Лингвистическая аннотация (разметка) и метаданные


Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)


Корпусы: аннотированные и неаннотированные. Лингвистическая аннотация (разметка) и метаданные

В соответствии с классификацией по признаку наличия какой-либо индексации, корпусы бывают raw и annotated, или, говоря по-русски, простые и аннотированные. Вообще, для широко известных современных корпусов эта классификация уже утратила актуальность, поскольку все они являются аннотированными. Что, впрочем, не исключает возможности сделать какой-то небольшой корпус безо всякой аннотации.

Итак, чем же корпусных лингвистов так привлекают аннотированные корпусы?

Что такое разметка?

Знаки пунктуации — это разметка.

Маргиналии на полях средневековых манускриптов — это разметка.

Под лингвистической аннотацией или разметкой корпуса (по-английски linguistic markup) подразумевается наличие в корпусе неких данных, не являющихся частью текста, но несущих какую-то информацию о нём (так называемые метаданные). Простейший пример таких данных — отметки частей речи. Выглядеть это может так:

I will use Google before asking dumb questions.

Размечаем:

I (pronoun)will (verb) use (verb) Google (noun) before (preposition) asking (verb) dumb (adjective) questions (noun) .

В основном это нужно для облегчения автоматического анализа корпуса. Один раз отметив в тексте все части речи, затем можно производить любые исследования, связанные с ними без необходимости заново выявлять, например, все прилагательные в корпусе. Понятно, что если такой разметки нет, то, к примеру, поиск по слову «will» выдавал бы все случаи его появления в корпусе, вне зависимости от того, существительное это или вспомогательный глагол. Но ведь обычно исследователя интересует лишь какой-то один из этих случаев! И это далеко не единственный тип разметки, который бывает нужен корпусному лингвисту.

История систем разметки

В 80-х годах был принят стандарт разметки электронных текстов под названием SGML (1) (Standard Generalized Markup Language).Он был разработан внутри типографской индустрии, но быстро распространился на другие отрасли. Смысл SGML был в том, чтобы документы, набранные в разных текстовых процессорах, можно было редактировать, анализировать и изменять в любом из них.

Тэги как лингвистический инструмент

SGML ввёл концепцию тэгов. Тэги (англ. tags) — это служебные пометки в тексте, содержащие информацию о самом тексте. Для каждого случая можно определять собственные тэги и таким образом создавать диалекты языка SGML.

Традиционно тэги заключаются в угловые скобки и бывают парными: открывающими и закрывающими. Например, <a> - это открывающий тэг, а </a> - закрывающий. Закрывающий тэг сигнализирует, что то, о чём сообщал открывающий тэг, закончилось. Приведём пример тэга (выделение важного в тексте, emphasis): 

Это относится <em>в первую очередь</em> к вам!

В данном случае слова «в первую очередь» помечены как важные. Тэги могут быть вложенными друг в друга:

<ds>Это относится <em>в первую очередь</em> к вам!</ds> - сказал он.

Текст «это относится в первую очередь к вам» заключён в тэги <ds>, означающие прямую речь (direct speech), а внутри него слова «в первую очередь» дополнительно заключены
в тэги <em>. Количество уровней вложенности не ограничено.

Тэги могут быть и не парными, то есть, не иметь «открывающей» и «закрывающей» части. Например, при разметке устных корпусов употребляется тэг <pause>, означающий, что в этом месте произошла задержка речи. Он одиночный.

Сами тэги в обычных обстоятельствах пользователю не показываются. Программа, отображающая размеченный текст, интерпретирует тэги в соответствии с заложенными в неё правилами и показывает пользователю текст, оформленный согласно им.

Текст с разных сторон: alternative views

Одно из наиболее значительных преимуществ разметок семейства SGML — возможность нескольких представлений текста (alternative views). Это означает, что один и тот же размеченный текст легко представить в нескольких видах, в зависимости от нашей текущей задачи. Например, мы хотим выделить из корпуса только текст, не являющийся прямой речью. Тогда та программа, в которой мы просматриваем текст, просто скроет все символы, заключённые в тэги <ds> и наш пример будет выглядеть уже так:

- сказал он.

Или мы можем указать, чтобы текст, помеченный, как важный, был зелёного цвета, а прямая речь выделялась полужирным шрифтом:

Это относится в первую очередь к вам! - сказал он.

Можно представить и гораздо более сложные alternative views. Например, тэгами можно разметить слова, которые произносят разные персонажи пьесы, а затем представлять их диалог либо в виде последовательных строчек (слова одного персонажа под словами другого), либо дать каждому персонажу отдельную колонку — так, чтобы, высказывания и ответы на них находились на одной строке (2).

Потомки SGML

Язык разметки SGML — это как бы «конструктор» языков. Сам по себе, в своём первозданном виде, он очень сложен и используется довольно редко. Но на его базе были созданы такие широко известные языки разметки, как HTML и XML.

Язык HTML (Hyper-Text Markup Language), на котором написано подавляющее большинство страничек интернет-сайтов, создали из SGML путём выделения чётко определённого ограниченного набора тэгов, в основном относящихся к оформлению, а не к содержанию документа. В результате мы получили WWW (Всемирную Паутину).

Второе широко известное подмножество SGML — расширяемый язык разметки XML (eXtensible Markup Language), который применяется для хранения любых структурированных данных — в том числе и текстов в корпусах. Фактически, это свод синтаксических правил для описания структуры данных. Например, формат офисных документов Open Document построен именно на XML.

Специально для разметки текстовых данных (корпусов) несколько университетов (3) разработали систему, описывающую, какие именно параметры текстов нужно размечать. Эта система использует XML и называется Text Encoding Initiative Guidelines (TEI Guidelines). Это список различных особенностей текстов, которые вообще можно кодировать, размечать и индексировать. Например, система перечисляет различные типы исправлений в тексте, помарок, цитат, иностранных слов и т.д. и т.п. В настоящее время практически все проекты по созданию корпусов (в том числе British National Corpus) стараются в той или иной мере следовать рекомендациям TEI. Подробнее почитать о них можно на http://www.teic.org/Guidelines/index.xml.

Естественно, каждый, кто создаёт корпус, может сам выбирать, что именно ему размечать и насколько подробно. Но считается, что в письменном корпусе нужно размечать части речи, границы высказываний, цитаты, списки, заголовки, аббревиатуры, имена собственные, инициалы и акронимы, главы книг. В устных текстах важно разметить обмен репликами, прерывания, перекрывающуюся речь, диалектные формы, паузы и неразличимую речь.

В приложении к этой лекции приведён пример текста, размеченного в соответствии с рекомендациями TEI.

Автоматическая разметка текстов

Понятно, что размечать большие корпусы вручную — занятие очень долгое и дорогое. Поэтому уже в 70-х годах появляются первые проекты по поручению этой задачи компьютеру. Тогда программа TAGGIT смогла корректно назначить тэги частей речи 77% слов в Брауновском корпусе. Остальные пришлось размечать вручную в течение 10 лет. Но прогресс не стоял на месте. В 80-е годы система CLAWS (Constituent Likelihood Automatic Word-tagging System) правильно разметила уже около 95% Брауновского корпуса. В ней использовался вероятностный подход. В настоящее время для основных европейских языков уже реализованы как автоматическая разметка частей речи (морфологический анализ, word-class tagging), так и автоматическая разметка членов предложения (синтаксический анализ, parsing). Эти достижения используются, в том числе, и в системах автоматического перевода и интернет- поиска.

В этой связи нужно отметить немалый вклад рабочей группы учёных под названием «Автоматическая обработка текста» (сайт http://www.aot.ru). В основном они занимаются русским языком. Выросла эта группа из факультета лингвистики РГГУ и занимается приложением теоретической лингвистики к современным компьютерным технологиям. Они разработали модули графематического (определение границ слов), морфологического (определение частей речи), синтаксического (определение членов предложения) и семантического (выявление семантических связей между словами) анализа текстов на русском, немецком и английском языках.

Что ещё почитать про разметку?

  1. 1) James H. Coombs, Allen H. Renear, Steven J. DeRose. Markup Systems and the Future of Scholarly Text Processing, 1987
  2. 2) Darrel R. Raymond, Frank Wm. Tompa, Derick Wood. Markup Reconsidered, 1992
  3. 3) Stuart A. Yeates. Text Augmentation: Inserting mark-up into natural language text with PPM Models, 2006

Все эти статьи легко найти в Интернете.

Приложение

Пример текста, размеченного в соответствии с рекомендациями TEI, из работы Cetin Sert «Keywords of Protagonists in Shakespeare’s Tragedies». Это пьеса Шекспира «Венецианский купец». Вначале идёт заголовок корпуса со сведениями о нём, а затем сам текст:

2 <!-
3
4 TENKA SOLUTIONS
ETEXT ARCHIVE
6 SHAKESPEARE MARLOWE CORPUS PROJECT
7
8 FOR EXAMPLE PURPOSES ONLY
9 SUBJECT TO FURTHER CHANGE
11
12 GLOSSARY OF TEMPORARY SYMBOLS & NOTATIONS
13
14 ... missing section:
will be added later after thoroughly
16 studying TEI guidelines
17
18 xxx TEI public release version number:
19 probably P5 will be used
21
22 2006-06-26
23 CETIN SERT
24
26 -->
27 <TEI.XXX>
28 <teiHeader>
29 <fileDesc>
<titleStmt>
31 <title>The Merchant of Venice (1623 First Folio Edition)</title>
32 <author>Shakespeare, William, 1564-1616</author>
33 <respStmt>
34 <resp>Retagged by</resp>
<name>Cetin Sert</name>
36 </respStmt>
37 </titleStmt>
38 <sourceDesc>
39 <bibl>
The first folio of Shakespeare, prepared by Charlton Hinman
41 (The Norton Facsimile, 1968)
42 </bibl>
43 <!-- ... -->
44 </sourceDesc>
</fileDesc>
46 <encodingDesc>
47 <projectDesc>
48 <p>Prepared for use in the production of a series of old-spelling
49 concordances for the corpus linguistics term-paper of Cetin Sert</p>
</projectDesc>
51 <editorialDecl>
52 <correction>
53 <p>Line numbers are omitted</p>
54 <p>Line number pattern: "^[0-9]+: ?"</p>
</correction>
56 </editorialDecl>
57 </encodingDesc>
58 </teiHeader>
59 <text>
60 <body>
61 <div1 type="Act" n="1" part="N">
62 <l><head rend="italic">Actus primus</head></l>
63 <div2 type="Scene" n="1" part="N">
64 <l><stage rend="italic">
<move type="enter" who="Antonio; Salario; Solanio">[ Enter Anthonio, Salarino, and
Salanio.]</move></stage></l>
66 <l />
67 <l />
68 <sp who="Antonio">
69 <l><speaker>Anthonio.</speaker></l>
<l />
71 <l>In sooth I know not why I am so sad,</l>
72 <l>It wearies me: you say it wearies you;</l>
73 <l>But how I caught it, found it, or came by it,</l>
74 <l>What stuffe 'tis made of, whereof it is borne,</l>
<l>I am to learne: and such a Want-wit sadnesse makes of</l>
76 <l>mee,</l>
77 <l>That I haue much ado to know my selfe.</l>
78 </sp>
79 <l />


1. Стандарт ISO 8879:1986

2. Пример Graeme Kennedy

3. Оксфордский, Брауновский, университет Вирджинии и некоторые другие


Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported

1066
07.06.2016 г.

Яндекс.Метрика
Рейтинг@Mail.ru


Индекс цитирования

Уважаемые посетители! С болью в сердце сообщаем вам, что этот сайт собирает метаданные пользователя (cookie, данные об IP-адресе и местоположении). И как ни прискорбно это признавать, но это необходимо для функционирования сайта и поддержания его жизнедеятельности.

Если вы никак, ни под каким предлогом и ни за какие коврижки не хотите предоставлять эти данные для обработки, - пожалуйста, покиньте сайт и забудьте о нём, как о кошмарном сне. Всем остальным - добра и печенек. С неизменной заботой, администрация сайта.