МЕТОДИКА МНОГОУРОВНЕВОГО АННОТИРОВАНИЯ
Подготовленный подкорпус проаннотирован на фонетическом, лексическом, морфологическом и синтаксическом уровнях.
1. Аннотирование на ФОНЕТИЧЕСКОМ УРОВНЕ заключалось в следующем:
• получена фонемная транскрипция текстов, реализованная по принципам Санкт-Петербургской фонологической школы,
• выполнена фонетическая (аллофонная) транскрипция текстов,
• определена длительность сегментных единиц разного уровня (фраз, слов, аллофонов),
• проведен подсчет темпа речи для каждой реплики,
• проаннотированы все редуцированные формы и некоторые хезитативные элементы,
• получены данные об акустических характеристиках речевых единиц (частоте основного тона, первой и второй форманте).
Для автоматизации процесса обработки звукозаписей на фонетическом уровне в рамках реализации проекта, специалистами ООО "Центр речевых технологий" было разработано уникальное программное обеспечение для автоматической сегментации речевого сигнала по имеющейся расшифровке (транскрипту) звукового файла, представленной в формате ELAN.
Фрагмент аннотирования речевого сигнала в программе ELAN
с результатами сегментации на слова и аллофоны
2. В рамках аннотирования и автоматической обработки данных на ЛЕКСИЧЕСКОМ УРОВНЕ было сделано следующее:
• проведено аннотирование стилистически окрашенной, профессиональной, жаргонной лексики, неологизмов и некоторых словообразовательных форм;
• выделены прагматически маркированные дискурсивные единицы и прагматемы, проведено их тегирование по функциональному типу;
• получены данные об индексе разнообразия (богатства словаря) для разных социальных групп говорящих;
• построены частотные словари каждой социальной группы и на их материале определена сравнительная функциональная активность лексических единиц.
ПОМЕТЫ ЛЕКСИЧЕСКОГО АННОТИРОВАНИЯ:
1. Хронологические пометы:
OLD – устаревшие слова
NEO – неологизмы
2. Фразеологические пометы:
IDIOM – устойчивые выражения
3. Функциональные пометы :
SPESH – специальная лексика
4. Стилистические (в том числе эмоционально-экспрессивные) пометы:
OFST – официальный
NOF - неофициальный
SRV – стилистически сниженная лексика
EUPH – эвфемизм
BRAN – бранное
5. Прагматические пометы:
ETI – этикетные формы
6. Словообразовательные пометы:
DIM – диминутивы
AUG – аугментативы
SING – сингулятивы
NA – nomina agentis
NF – nomina feminina
3. Работы по МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ включали следующее:
• выполнена автоматическая частеречная разметка текстов расшифровок и ее ручная коррекция;
• автоматически получены и вручную проверены данные о словоизменительных характеристиках словоформ;
• размечены «редкие» и «сложные» грамматические формы (причастия, деепричастия);
• выделены «прагматически маркированные» формы;
• проаннотированы аграмматичные, окказиональные и «ненормативные» формы.
ПОМЕТЫ МОРФОЛОГИЧЕСКОГО АННОТИРОВАНИЯ:
Части речи
V (глагол)
S (существительное)
S-PRO (местоимение-существительное)
PART (частица)
CONJ (союз)
PR (предлог)
ADV-PRO (местоимение-наречие)
ADV (наречие)
A-PRO (местоимение-прилагательное)
A (прилагательное)
PRAEDIC (предикатив)
INTJ (междометие)
NUM (числительное)
PARENTH (вводное слово)
ANUM (числительное-прилагательное)
PRAEDIC-PRO (местоимение-предикатив)
Время (глагола)
наст – praes
будущее – fut
Падеж
nom – именительный
gen – родительный
gen2 – второй родительный
dat – дательный
acc – винительный
acc2 – второй винительный
ins – творительный
loc – предложный
loc2 – второй предложный
voc – звательная форма
Число
sg – единственное число
pl – множественное число
Репрезентация и наклонение глагола
ger – деепричастие
inf – инфинитив
partcp – причастие
indic – изъявительное наклонение
imper – повелительное наклонение
Форма прилагательных
brev – краткая форма
plen – полная форма
Степень сравнения
comp – сравнительная
Лицо
1p – 1-е лицо
2p – 2-е лицо
3p – 3-е лицо
Род
f – мужской род
m – женский род
n – средний род
Вид
pf – несовершенный
ipf – совершенный
Залог
act – действительный залог
pass – страдательный залог
med – медиальный залог
Одушевленность
an – одушевленное
inan – неодушевленное
Переходность
tran – переходный глагол
intr – непереходный глагол
4. Аннотация на СИНТАКСИЧЕСКОМ УРОВНЕ заключалась в следующем:
• выделены и проаннотированы глагольные группы (линейный порядок);
• произведен подсчет левых и правых зависимых членов глагольной группы;
• тегированы все непроективные синтаксические конструкции;
• проаннотированы именные группы (линейный порядок слов); выявлены и проаннотированы все случаи парцелляции, эллипсиса, обрывов, самокоррекции.
ПОМЕТЫ АННОТИРОВАНИЯ СИНТАКСИЧЕСКИХ ГРУПП
Аннотирование глагольных групп
V – Глагол-сказуемое (центр куста)
S – Подлежащее
INF – Инфинитив
O1 – Прямое дополнение
O2 – Косвенное дополнение
O3 – Дополнение с предлогом
B – Обстоятельство
D – дискурсивное слово: + частицы-паразиты (вот и пр., заполнение хезитаций и т.д.), (ведь, же, то, конечно)
{D} – дискурсивные группы, например, мягко выражаясь, вот этот вот
H – отрицательная частица не
Q – вопросительные слова
F – устойчивые сочетания, фразеологизмы
CONJ1 – cочинительный союз
CONJ2 – Подчинительный союз
CONJ3 – Союзное слово
PRED – Сказуемое, выраженное не глаголом
AUX – Глагол-связка
Z – Частица
INTR – Вводные слова и выражения
[] – Вставочная конструкция
Y – Согласие (да, конечно, угу)
N – Отрицание (нет, не (не / на самом деле жутковато //))
M – Обращение
SHA – Краткое прилагательное (short adjective)
PART – Причастие
Аннотирование именных групп
S – Существительное
A – Атрибут (определение)
C – Зависимое существительное
{C} – Группа зависимого существительного
x – Предлог
APP – Приложение
Результаты всех аннотаций были сведены в единую базу данных и объединены с социолингвистической информацией о говорящих (пол, возрастная группа, профессиональная группа, социальный статус).