МЕТОДИКА МНОГОУРОВНЕВОГО АННОТИРОВАНИЯ

Подготовленный подкорпус проаннотирован на фонетическом, лексическом, морфологическом и синтаксическом уровнях.

1. Аннотирование на ФОНЕТИЧЕСКОМ УРОВНЕ заключалось в следующем:
      получена фонемная транскрипция текстов, реализованная по принципам Санкт-Петербургской фонологической школы,
      выполнена фонетическая (аллофонная) транскрипция текстов,
      определена длительность сегментных единиц разного уровня (фраз, слов, аллофонов),
      проведен подсчет темпа речи для каждой реплики,
      проаннотированы все редуцированные формы и некоторые хезитативные элементы,
      получены данные об акустических характеристиках речевых единиц (частоте основного тона, первой и второй форманте).

Для автоматизации процесса обработки звукозаписей на фонетическом уровне в рамках реализации проекта, специалистами ООО "Центр речевых технологий" было разработано уникальное программное обеспечение для автоматической сегментации речевого сигнала по имеющейся расшифровке (транскрипту) звукового файла, представленной в формате ELAN.

Фрагмент аннотирования речевого сигнала в программе ELAN
с результатами сегментации на слова и аллофоны

2. В рамках аннотирования и автоматической обработки данных на ЛЕКСИЧЕСКОМ УРОВНЕ было сделано следующее:
      проведено аннотирование стилистически окрашенной, профессиональной, жаргонной лексики, неологизмов и некоторых словообразовательных форм;
      выделены прагматически маркированные дискурсивные единицы и прагматемы, проведено их тегирование по функциональному типу;
      получены данные об индексе разнообразия (богатства словаря) для разных социальных групп говорящих;
      построены частотные словари каждой социальной группы и на их материале определена сравнительная функциональная активность лексических единиц.

ПОМЕТЫ ЛЕКСИЧЕСКОГО АННОТИРОВАНИЯ:

1. Хронологические пометы:
     OLD – устаревшие слова
     NEO – неологизмы

2. Фразеологические пометы:
     IDIOM – устойчивые выражения

3. Функциональные пометы :
     SPESH – специальная лексика

4. Стилистические (в том числе эмоционально-экспрессивные) пометы:
     OFST – официальный
     NOF - неофициальный
     SRV – стилистически сниженная лексика
     EUPH – эвфемизм
     BRAN – бранное

5. Прагматические пометы:
     ETI – этикетные формы

6. Словообразовательные пометы:
     DIM – диминутивы
     AUG – аугментативы
     SING – сингулятивы
     NA – nomina agentis
     NF – nomina feminina

3. Работы по МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ включали следующее:
      выполнена автоматическая частеречная разметка текстов расшифровок и ее ручная коррекция;
      автоматически получены и вручную проверены данные о словоизменительных характеристиках словоформ;
      размечены «редкие» и «сложные» грамматические формы (причастия, деепричастия);
      выделены «прагматически маркированные» формы;
      проаннотированы аграмматичные, окказиональные и «ненормативные» формы.

ПОМЕТЫ МОРФОЛОГИЧЕСКОГО АННОТИРОВАНИЯ:

Части речи

     V (глагол)
     S (существительное)
     S-PRO (местоимение-существительное)
     PART (частица)
     CONJ (союз)
     PR (предлог)
     ADV-PRO (местоимение-наречие)
     ADV (наречие)
     A-PRO (местоимение-прилагательное)
     A (прилагательное)
     PRAEDIC (предикатив)
     INTJ (междометие)
     NUM (числительное)
     PARENTH (вводное слово)
     ANUM (числительное-прилагательное)
     PRAEDIC-PRO (местоимение-предикатив)

Время (глагола)
     наст – praes
     будущее – fut

Падеж
     nom – именительный
     gen – родительный
     gen2 – второй родительный
     dat – дательный
     acc – винительный
     acc2 – второй винительный
     ins – творительный
     loc – предложный
     loc2 – второй предложный
     voc – звательная форма

Число
     sg – единственное число      pl – множественное число

Репрезентация и наклонение глагола
     ger – деепричастие
     inf – инфинитив
     partcp – причастие
     indic – изъявительное наклонение
     imper – повелительное наклонение

Форма прилагательных
     brev – краткая форма
     plen – полная форма

Степень сравнения
     comp – сравнительная

Лицо
     1p – 1-е лицо
     2p – 2-е лицо
     3p – 3-е лицо

Род
     f – мужской род
     m – женский род
     n – средний род

Вид
     pf – несовершенный
     ipf – совершенный

Залог
     act – действительный залог
     pass – страдательный залог
     med – медиальный залог

Одушевленность
     an – одушевленное
     inan – неодушевленное

Переходность
     tran – переходный глагол
     intr – непереходный глагол

4. Аннотация на СИНТАКСИЧЕСКОМ УРОВНЕ заключалась в следующем:
      выделены и проаннотированы глагольные группы (линейный порядок);
      произведен подсчет левых и правых зависимых членов глагольной группы;
      тегированы все непроективные синтаксические конструкции;
      проаннотированы именные группы (линейный порядок слов); выявлены и проаннотированы все случаи парцелляции, эллипсиса, обрывов, самокоррекции.

ПОМЕТЫ АННОТИРОВАНИЯ СИНТАКСИЧЕСКИХ ГРУПП

Аннотирование глагольных групп
     V – Глагол-сказуемое (центр куста)
     S – Подлежащее
     INF – Инфинитив
     O1 – Прямое дополнение
     O2 – Косвенное дополнение
     O3 – Дополнение с предлогом
     B – Обстоятельство
     D – дискурсивное слово: + частицы-паразиты (вот и пр., заполнение хезитаций и т.д.), (ведь, же, то, конечно)
     {D} – дискурсивные группы, например, мягко выражаясь, вот этот вот
     H – отрицательная частица не
     Q – вопросительные слова
     F – устойчивые сочетания, фразеологизмы
     CONJ1 – cочинительный союз
     CONJ2 – Подчинительный союз
     CONJ3 – Союзное слово
     PRED – Сказуемое, выраженное не глаголом
     AUX – Глагол-связка
     Z – Частица
     INTR – Вводные слова и выражения
      [] – Вставочная конструкция
     Y – Согласие (да, конечно, угу)
     N – Отрицание (нет, не (не / на самом деле жутковато //))
     M – Обращение
     SHA – Краткое прилагательное (short adjective)
     PART – Причастие

Аннотирование именных групп
     S – Существительное
     A – Атрибут (определение)
     C – Зависимое существительное
     {C} – Группа зависимого существительного
     x – Предлог
     APP – Приложение

Результаты всех аннотаций были сведены в единую базу данных и объединены с социолингвистической информацией о говорящих (пол, возрастная группа, профессиональная группа, социальный статус).