ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1. Подготовлен уникальный представительный корпус звукозаписей повседневной речевой коммуникации для сбалансированной выборки из 128 информантов – представителей разных социальных групп.
2. Объем текстовых расшифровок звукозаписей повседневной речи превысил 1 млн.  словоупотреблений.
3. Подготовлен и проаннотирован исследовательский подкорпус в объеме 125000 словоупотреблений, представляющий образцы речи исследуемых социальных групп.
4. Основным результатом проекта стало научное описание особенностей русского языка повседневного общения больших социальных групп современного российского города на фонетическом, лексическом, лексико-дискурсивном, морфологическом и синтаксическом уровнях, выполненное на материале исследовательского подкорпуса.
5. По результатам проекта опубликованы 48 научных статей и коллективная монография (см. Публикации).

1. В рамках проекта подготовлен уникальный представительный корпус звукозаписей повседневной речевой коммуникации для сбалансированной выборки из 128 информантов – представителей разных социальных групп (гендерных, возрастных, профессиональных и статусных), общей длительностью звучания 1250 часов, отсегментированный на 2800 коммуникативных макроэпизодов. Объем текстовых расшифровок корпуса превышает 1 млн. словоупотреблений.

К моменту начала проекта в 2014 г. корпус ОРД насчитывал около 400 часов звукозаписи, полученных от 40 основных информантов, сбалансированных по гендерному признаку (20 мужчин и 20 женщин).

За время реализации проекта в 2014–2016 гг. в ходе расширения корпуса осуществлен поиск и отбор 88 информантов-добровольцев для получения новых записей. В 2014 г. записано 66 человек (30 женщин и 36 мужчин), в 2015 г. — 20 человек (8 мужчин, 12 женщин), в 2016 г. — 2 человека (мужчины). Общая продолжительность звучания новых звукозаписей: 2014 г. — 653 часа, 2015 г. — 207 часов, 2016 г. — 8 часов.

2. За период выполнения проекта произведено существенное наращивание объемов текстовой расшифровки звукозаписей. Получены текстовые расшифровки новых звукозаписей в объеме 686851 словоформы (203571 — в 2014 г., 453280 — в 2015 г., 30000 — в 2016 г.). Текстовые расшифровки осуществлялись в среде мультимедийного аннотатора ELAN. Осуществлено первичное аннотирование звукового материала по семи стандартным уровням, принятым в корпусе ОРД (реплика с указанием синтагматического членения, код говорящего, коммуникативный микроэпизод — обязательные уровни; невербальные аудиособытия, качество голоса, фонетический комментарий, общий комментарий — факультативные параметры).
В итоге общий объем текстовых расшифровок корпуса составил 1030000 словоупотреблений.

3. Подготовлен и проаннотирован исследовательский подкорпус.
Для отработки методики исследования и проведения пилотного анализа в 2015 г. был сформирован пилотный подкорпус (объемом в 16000 токенов, 10259 словоупотреблений, 41850 аллофонов, 12 коммуникативных эпизодов, 1 час 46 мин. звучания). На материале этого подкорпуса было выполнено лингвистическое аннотирование и анализ речевого материала, полученного от разных социальных групп. Материал был подобран таким образом, чтобы представлять образцы речи всех анализируемых групп говорящих. В результате обработки пилотного речевого материала были получены развернутые статистические данные для отдельных социолектов на фонетическом, лексическом, морфологическом и синтаксическом уровнях. По результатам анализа выявленных отличий между социолектами получен предварительный список лингвистических параметров, которые можно считать диагностическими.

В 2016 г. был подготовлен расширенный исследовательский подкорпус: из общего объема транскриптов корпуса ОРД в объёме 1 млн. словоупотреблений было отобрано 100 макроэпизодов для 100 информантов, сбалансированно отражающих повседневную речь анализируемых социальных групп. Кроме речи основных 100 информантов в подкорпус была включена речь 154 коммуникантов. Объём исследовательского подкорпуса в словах составил 125437 словоупотреблений.

В исследовательский подкорпус включены материалы речи представителей 20-ти анализируемых социальных групп:
a) 2-х гендерных (мужчины и женщины),
b) 3-х возрастных (молодежная, средняя и старшая),
c) 10-ти профессиональных (рабочие, инженеры, военнослужащие, представители естественных наук, представители гуманитарных наук, работники образования, представители сферы обслуживания, IT-специалисты, офисные служащие, творческая интеллигенция),
d) 5-ти статусных (студенты и учащиеся; наемные работники и специалисты; руководящие работники; бизнесмены и частные предприниматели; неработающие и пенсионеры).

Осуществлено многоуровневое лингвистическое аннотирование исследовательского подкорпуса на фонетическом, лексическом, морфологическом и синтаксическом уровнях.
На фонетическом уровне учитывалась: 1) дистрибуция фонем; 2) дистрибуция аллофонов; 3) темп речи; 4) интонационные характеристики (динамика частоты основного тона); 5) реализация редуцированных форм.
На лексическом уровне были размечены: 1) функциональная активность лексических единиц на материале частотных словарей; 2) стилистически окрашенная, профессиональная, жаргонная лексика, неологизмы, отдельные словообразовательные формы и др.; 3) индекс разнообразия (богатства словаря); 4) прагматически маркированные дискурсивные единицы и прагматемы.
На морфологическом уровне размечались: 1) дистрибуция частей речи; 2) аграмматичные и ненормативные формы, явления языковой игры; 3) редкие грамматические формы; 4) "сложные" и прагматически маркированные формы.
На синтаксическом уровне выделены: 1) линейные структуры глагольных групп; 2) количество левых и правых зависимых членов глагольной группы; 3) непроективные синтаксические конструкции; 4) линейные структуры именных групп; 5) случаи парцелляции, эллипсиса, обрывов и самокоррекции.    Объем проаннотированного речевого материала составил: 125000 словоформ на лексическом и морфологическом уровнях, 13200 структур на синтаксическом уровне и 172000 аллофонов на фонетическом уровне.

4. Основным результатом проекта стало научное описание особенностей русского языка повседневного общения больших социальных групп современного российского города на фонетическом, лексическом, лексико-дискурсивном, морфологическом и синтаксическом уровнях, выполненное на материале исследовательского подкорпуса.
Для каждого социолекта получено описание и выявлены их диагностические признаки.

Выяснилось, что с точки зрения социолингвистической вариативности все проанализированные параметры можно разделить на три группы:
1. Диагностические параметры, по которым наблюдаются статистически значимые различия между определенными социальными группами (употребление неологизмов; использование бранной лексики; использование специальной лексики и др.).
2. Лингвистические параметры, в отношении которых все социолекты ведут себя примерно одинаково. Эти параметры отражают некоторые постоянные, универсальные, свойства языка повседневного общения в целом (например, дистрибуция аллофонов и фонем, дистрибуция частей речи, наиболее частотные синтаксические структуры).
3. Потенциально диагностические параметры, которые показали на проанализированном речевом материале некоторые количественные различия между рассматриваемыми группами, однако степень этого различия не позволяет на настоящий момент считать их статистически достоверными (использование редуцированных форм, прагматических маркеров/прагматем, лексические особенности профессиональных и статусных групп, доля грамматических ошибок).

На фонетическом уровне статистически значимое различие найдено между темпом речи разных возрастных групп (имеет место тенденция к замедлению темпа речи с возрастом говорящего) и между средней частотой основного тона речи мужчин и женщин.
На лексическом уровне списки самых употребительных лексических единиц повседневной речи с небольшими вариациями повторяются в частотных списках всех исследованных социальных групп. С точки зрения индекса лексического богатства, наблюдается прямая корреляция с возрастом (постепенное возрастание), у мужчин этот показатель несколько выше, чем у женщин, по профессиональным и статусным группам существенных различий в этом отношении выявить не удалось.
Наиболее отличительной лексической чертой мужской речи по сравнению с женской является появление в верхней зоне частотного словаря бранной лексики, непечатных слов и их субститутов. Обратно коррелирует с возрастом говорящего распределение неологизмов: их количество максимально в речи молодежи, несколько меньше у информантов среднего возраста и крайне низко у старших информантов.
На морфологическом уровне на основании анализа частотных списков, учитывающих встречаемость слов различных частеречных классов, установлено, что речь представителей различных возрастных, гендерных, профессиональных и статусных групп по этому параметру статистически значимых отличий не имеет.
На синтаксическом уровне наиболее частотными в речи всех социальных групп являются одноэлементные структуры. Статистический анализ левосторонних и правосторонних зависимостей глагольных групп показал, что русский язык в его устной повседневной разновидности существенно левосторонний для всех социолектов.
В результате обобщения полученных данных для разных языковых уровней, подготовлены описания речевых портретов анализируемых социальных групп.

5. В ходе выполнения проекта опубликовано 48 научных статей, 8 из которых – в изданиях, индексируемых в Scopus/Web-of-Science, а 35 – в РИНЦ; подготовлена и опубликована коллективная монография под названием "Русский язык повседневного общения: особенности функционирования в разных социальных группах" (см. Публикации).