БАЗА ДАННЫХ

Для поддержки основных задач проекта разработана информационная база данных SocialStudies в формате MS Access 2007. В базе данных представлены как новые записи, выполненные в процессе реализации проекта, так и записи из корпуса ОРД, сделанные до начала проекта. I группа отражает социологические характеристики информантов и звукозаписи, заимствованные для проведения данного исследования из корпуса ОРД (записи 2007-2012) для 40 основных информантов. Названия таблиц первой группы имеют префикс ORD. II группа данных отражает социологические характеристики информантов и звукозаписи, выполненные в рамках данного проекта (запись 2014-2016 г.). Названия этих таблиц имеют префикс SOC и в них уже представлены данные по 88 информантам:
     • SOC- Monitoring — мониторинг процесса звукозаписи,
     • SOC-Informants — социологическая информация об информантах,
     • SOC-Communicants — социологическая информация о коммуникантах,
     • SOC- Episodes — макроэпизоды речевой коммуникации.

Таблица SOC-Monitoring создана для ведения мониторинга процесса звукозаписи. В ней представлены следующие поля описания:
     • SCode: код информанта (записи 2014 г. имеют коды S60-S125),
     • SName: псевдоним информанта (все записи выполняются как анонимные),
     • SGender: пол информанта,
     • SAge: возраст информанта на момент записи,
     • SProf: профессия или род деятельности информанта,
     • Date: дата записи,
     • Instructor: инструктор, ответственный за запись информанта,
     • TTime: общее количество часов, записанных информантом,
     • SProf: профессия или род деятельности информанта,
     • Comm: комментарий по проведению записи, а также другая вспомогательная информация.

Таблица SOC-Informants (Информанты) представляет собой данные, полученные из социологической анкеты информантов:
     • SCode: код информанта,
     • Gender: пол информанта,
     • Age: возраст информанта на момент записи,
     • PBirth: место рождения,
     • Gender: пол информанта,
     • MLang: родной язык (на данном этапе исследования записывались исключительно информанты, для которых русский язык является родным),
     • Langs: другие языки, которыми владеет информант (информация, полезная для анализа влияния фактора интерференции),
     • Nat: национальность родителей (по желанию),
     • SClass: социальное происхождение (заполнялось в свободной форме — напр., рабочие, служащие, военные, музыканты и т.д.),
     • Edu: уровень образования (среднее специальное, высшее и т.п.),
     • Diploma: квалификация (специальность) информанта по диплому,
     • PProf: прошлые профессии или опыт работы,
     • Prof: профессия или род деятельности в настоящее время,
     • Regions: места длительного проживания,
     • Comments: комментарии.

Для оптимизации компьютерной обработки данных для некоторых параметров введены дополнительные поля, содержащие нормализованные коды:
     • AgeGroup: возрастная группа,
     • PBirthN: место рождения нормализованное,
     • EduN: уровень образования нормализованный,
     • ProfGroup: доминантная профессиональная группа (род деятельности),
     • Status: социальное положение,
     • ProfGroupExt: профессиональная группа (расширенная). Поскольку выяснилось, что определенный процент информантов в настоящее время работает не по той специальности, по которой они получали образование, а также многие информанты в настоящий могут быть отнесены к нескольким профессиональным группам (напр., преподаватель истории в вузе относится одновременно и к группе работников образования и группе представителей гуманитарных наук), в данном столбце в базе данных представлены все релевантные коды.

Таблица SOC-Communicants (коммуниканты) также представляет собой данные, полученные из социологической анкеты, заполняемой в процессе звукозаписи. Поля описания в основном совпадают с параметрами описания информантов, но содержат 2 дополнительных поля:
• SCode: код основного информанта обязательно указывается в дополнение к уникальному коду коммуниканта (CCode),
• CSRole: социальная роль коммуниканта по отношению к информанту.

Таблица SOC-Episodes (макроэпизоды речевой коммуникации) состоит из следующих полей описания:
     • SCode: код говорящего;
     • SFName: имя звукового файла;
     • NComType: нормализованный тип коммуникативного эпизода;
     • NSRole: социальная роль информанта в данном эпизоде (нормализованный код);
     • NPlace: локус (место) коммуникации (нормализованный код);
     • SFileOrig: имя исходного (архивного) файла;
     • Start: начальная точка эпизода относительно начала исходного файла;
     • End: конечная точка эпизода относительно начала исходного файла;
     • EPlace: место коммуникации (текстовое описание);
     • EAction: основное действие, сопутствующее разговору, или прагматическая задача;
     • EWho: основные коммуниканты информанта в данном эпизоде;
     • Duration: длительность эпизода (мин.);
     • FonQuality: фонетическое качество в кодовом представлении (1 - максимальное);
     • Priority: приоритет в расшифровке (ранговые пометы);
     • SceneName: содержание эпизода и комментарии;
     • ELAN: наличие транскрипта звукозаписи (логическое поле);
     • DivSpeak: разведение расшифрованного файла по говорящим (логическое поле);
     • Comments: комментарий.

Для проведения социолингвистического исследования обе группы данных ORD и SOC объединены в таблицу Speaker_Socilogy. Результаты всех аннотаций по разным уровням сведены в единую базы данных и объединены с социологической информацией о говорящих (пол, возрастная группа, профессиональная группа, социальный статус). Получена статистическая информация о реализации каждого из проаннотированных параметров (дескриптивные статистики для числовых данных, доли/проценты для номинальных данных) в целом по подкорпусу и для каждой из анализируемых 20 социальных групп: 2-х гендерных, 3-х возрастных (молодежная группа (18-30 лет), средняя группа (31-54), старшая группа (55 лет и старше), 10-ти профессиональных групп (рабочие, инженеры, военнослужащие, представители естественных наук, представители гуманитарных наук, работники образования, представители сферы обслуживания, IT-специалисты, офисные служащие, творческая интеллигенция) и 5-ти статусных групп (студенты и учащиеся, наемные работники и специалисты, руководящие работники, бизнесмены и частные предприниматели, неработающие и пенсионеры). Осуществлена статистическая проверка значимости полученных результатов с помощью стандартных статистических критериев (критерий Стьюдента, критерий хи-квадрат, критерий проверки значимости коэффициента корреляции Спирмена и др.), проверены выдвинутые статистические гипотезы о существенности различий языка повседневного общения разных социальных групп по анализируемым параметрам, показавшим видимые отличия.

Структура данных для многоуровневого социолингвистического исследования