БАЗА ДАННЫХ
Для поддержки основных задач проекта разработана информационная база данных SocialStudies в формате MS Access 2007. В базе данных представлены как новые записи, выполненные в процессе реализации проекта, так и записи из корпуса ОРД, сделанные до начала проекта. I группа отражает социологические характеристики информантов и звукозаписи, заимствованные для проведения данного исследования из корпуса ОРД (записи 2007-2012) для 40 основных информантов. Названия таблиц первой группы имеют префикс ORD. II группа данных отражает социологические характеристики информантов и звукозаписи, выполненные в рамках данного проекта (запись 2014-2016 г.). Названия этих таблиц имеют префикс SOC и в них уже представлены данные по 88 информантам:
• SOC- Monitoring — мониторинг процесса звукозаписи,
• SOC-Informants — социологическая информация об информантах,
• SOC-Communicants — социологическая информация о коммуникантах,
• SOC- Episodes — макроэпизоды речевой коммуникации.
Таблица SOC-Monitoring создана для ведения мониторинга процесса звукозаписи. В ней представлены следующие поля описания:
• SCode: код информанта (записи 2014 г. имеют коды S60-S125),
• SName: псевдоним информанта (все записи выполняются как анонимные),
• SGender: пол информанта,
• SAge: возраст информанта на момент записи,
• SProf: профессия или род деятельности информанта,
• Date: дата записи,
• Instructor: инструктор, ответственный за запись информанта,
• TTime: общее количество часов, записанных информантом,
• SProf: профессия или род деятельности информанта,
• Comm: комментарий по проведению записи, а также другая вспомогательная информация.
Таблица SOC-Informants (Информанты) представляет собой данные, полученные из социологической анкеты информантов:
• SCode: код информанта,
• Gender: пол информанта,
• Age: возраст информанта на момент записи,
• PBirth: место рождения,
• Gender: пол информанта,
• MLang: родной язык (на данном этапе исследования записывались исключительно информанты, для которых русский язык является родным),
• Langs: другие языки, которыми владеет информант (информация, полезная для анализа влияния фактора интерференции),
• Nat: национальность родителей (по желанию),
• SClass: социальное происхождение (заполнялось в свободной форме — напр., рабочие, служащие, военные, музыканты и т.д.),
• Edu: уровень образования (среднее специальное, высшее и т.п.),
• Diploma: квалификация (специальность) информанта по диплому,
• PProf: прошлые профессии или опыт работы,
• Prof: профессия или род деятельности в настоящее время,
• Regions: места длительного проживания,
• Comments: комментарии.
Для оптимизации компьютерной обработки данных для некоторых параметров введены дополнительные поля, содержащие нормализованные коды:
• AgeGroup: возрастная группа,
• PBirthN: место рождения нормализованное,
• EduN: уровень образования нормализованный,
• ProfGroup: доминантная профессиональная группа (род деятельности),
• Status: социальное положение,
• ProfGroupExt: профессиональная группа (расширенная). Поскольку выяснилось, что определенный процент информантов в настоящее время работает не по той специальности, по которой они получали образование, а также многие информанты в настоящий могут быть отнесены к нескольким профессиональным группам (напр., преподаватель истории в вузе относится одновременно и к группе работников образования и группе представителей гуманитарных наук), в данном столбце в базе данных представлены все релевантные коды.
Таблица SOC-Communicants (коммуниканты) также представляет собой данные, полученные из социологической анкеты, заполняемой в процессе звукозаписи. Поля описания в основном совпадают с параметрами описания информантов, но содержат 2 дополнительных поля:
• SCode: код основного информанта обязательно указывается в дополнение к уникальному коду коммуниканта (CCode),
• CSRole: социальная роль коммуниканта по отношению к информанту.
Таблица SOC-Episodes (макроэпизоды речевой коммуникации) состоит из следующих полей описания:
• SCode: код говорящего;
• SFName: имя звукового файла;
• NComType: нормализованный тип коммуникативного эпизода;
• NSRole: социальная роль информанта в данном эпизоде (нормализованный код);
• NPlace: локус (место) коммуникации (нормализованный код);
• SFileOrig: имя исходного (архивного) файла;
• Start: начальная точка эпизода относительно начала исходного файла;
• End: конечная точка эпизода относительно начала исходного файла;
• EPlace: место коммуникации (текстовое описание);
• EAction: основное действие, сопутствующее разговору, или прагматическая задача;
• EWho: основные коммуниканты информанта в данном эпизоде;
• Duration: длительность эпизода (мин.);
• FonQuality: фонетическое качество в кодовом представлении (1 - максимальное);
• Priority: приоритет в расшифровке (ранговые пометы);
• SceneName: содержание эпизода и комментарии;
• ELAN: наличие транскрипта звукозаписи (логическое поле);
• DivSpeak: разведение расшифрованного файла по говорящим (логическое поле);
• Comments: комментарий.
Для проведения социолингвистического исследования обе группы данных ORD и SOC объединены в таблицу Speaker_Socilogy. Результаты всех аннотаций по разным уровням сведены в единую базы данных и объединены с социологической информацией о говорящих (пол, возрастная группа, профессиональная группа, социальный статус). Получена статистическая информация о реализации каждого из проаннотированных параметров (дескриптивные статистики для числовых данных, доли/проценты для номинальных данных) в целом по подкорпусу и для каждой из анализируемых 20 социальных групп: 2-х гендерных, 3-х возрастных (молодежная группа (18-30 лет), средняя группа (31-54), старшая группа (55 лет и старше), 10-ти профессиональных групп (рабочие, инженеры, военнослужащие, представители естественных наук, представители гуманитарных наук, работники образования, представители сферы обслуживания, IT-специалисты, офисные служащие, творческая интеллигенция) и 5-ти статусных групп (студенты и учащиеся, наемные работники и специалисты, руководящие работники, бизнесмены и частные предприниматели, неработающие и пенсионеры). Осуществлена статистическая проверка значимости полученных результатов с помощью стандартных статистических критериев (критерий Стьюдента, критерий хи-квадрат, критерий проверки значимости коэффициента корреляции Спирмена и др.), проверены выдвинутые статистические гипотезы о существенности различий языка повседневного общения разных социальных групп по анализируемым параметрам, показавшим видимые отличия.
Структура данных для многоуровневого социолингвистического исследования