РУССКИЙ МУЛЬТИКАНАЛЬНЫЙ ДИСКУРС

Мультиканальный (мультимодальный) корпус — это сочетание двух компонентов. Во-первых, это совокупность медиафайлов, фиксирующих коммуникацию между людьми. Во-вторых, это аннотация коммуникативных событий, содержащихся в медифайлах. Мультиканальные корпуса различаются по ряду параметров, включая степень естественности материала (от экспериментальных материалов до ничем не ограниченной коммуникации), количество собеседников (два, три и больше) и характер среды (от специально созданной до произвольной). Создаваемый нашей группой корпус «Рассказы и разговоры о грушах» по этим параметрам может быть охарактеризован следующим образом: отчасти структурированный материал с фиксированными ролями коммуникантов, но довольно свободным характером коммуникации; четыре собеседника; специально подготовленная среда.

Корпус состоит из отдельных коммуникативных эпизодов (так называемых записей), в каждом из которых участвует четыре человека — Рассказчик (Narrator), Комментатор (Commentator), Пересказчик (Reteller) и Слушатель (Listener). Название корпуса обусловлено тем, что двое из участников вначале смотрят известный в лингвистике стимульный материал — шестиминутный фильм, так называемый «Фильм о грушах», см. подробнее вкладку Pear Film.

Фильм просматривается участниками коммуникации, которые в дальнейшем выполняют роли Рассказчика и Комментатора. На рисунке можно видеть общий дизайн ситуации, в которой происходит коммуникация.

Общий дизайн коммуникативной ситуации

Рассказчик рассказывает Пересказчику содержание фильма в режиме монолога. Затем наступает интерактивный этап, в течение которого Комментатор дополняет или уточняет рассказ, а Пересказчик задает вопросы обоим собеседникам, видевшим фильм. После этого появляется Слушатель, и Пересказчик пересказывает ему фильм, опять в режиме монолога. В конце Слушатель должен письменно записать еще один, вторичный, пересказ фильма (см. пример). Два последних этапа необходимы для того, чтобы мотивировать всех участников к полноценной и осмысленной коммуникации.

Корпус «Рассказы и разговоры о грушах» состоит из двух частей. Первая часть была собрана летом 2015 г.; она включает 24 записи общей длительностью около 9 часов, средней длительностью одной записи 23 минуты с разбросом от 12 до 38 минут и объемом около 100 тыс. словоупотреблений; в записях в общей сложности приняли участие 96 человек от 18 до 36 лет, включая 34 мужчины и 62 женщины. Вторая часть корпуса была собрана летом 2017 г.; она включает 16 записей общей длительностью около 6 часов, средней длительностью одной записи 21 минута с разбросом от 8 до 41 минут и объемом около 60 тыс. словоупотреблений; в записях в общей сложности приняли участие 64 человека от 18 до 36 лет, включая 16 мужчин и 48 женщин. Перед началом записей все участники подписывали согласие на участие в исследовании, а также заполняли анкету участника и опросник, определяющий ведущую руку.

В демонстрационных целях на сайте представлены медиафайлы и аннотации для трех записей 2015 года: №04, №22 и №23. В состав каждой записи входит 18 медиафайлов, в том числе:

4 аудиофайла в формате wav c параметрами записи 48kHz / 16bit:
- с микрофона Рассказчика (моно)
- с микрофона Комментатора (моно)
- с микрофона Пересказчика (моно)
- с общего микрофона, установленного в середине помещения (стерео)
4 видеофайла в формате mjpeg (контейнер avi):
- индивидуальное видео Рассказчика (разрешение 1024×736, частота 100 к/с)
- индивидуальное видео Комментатора (разрешение 1024×736, частота 100 к/с)
- индивидуальное видео Пересказчика (разрешение 1024×736, частота 100 к/с)
- видео общего плана (разрешение 1024×576, частота 50 к/с).
3 файла, записанные при помощи айтрекеров (формат avi, разрешение 1024×576, частота 25 к/с):
- видео с айтрекера Рассказчика, записанное при просмотре стимульного фильма (суффикс f в названии файла)
- видео с айтрекера Рассказчика, записанное в ходе коммуникации
- видео с айтрекера Пересказчика, записанное в ходе коммуникации.

В комплект также входят облегченные (суффикс -lite в названии файла) версии тех же файлов в формате avi (кодек H.264), которые удобно использовать для предварительного ознакомления с корпусом.

В названии каждого файла указывается номер записи, код участника — N (Рассказчик), C (Комментатор), R (Пересказчик) или W (общий файл), а также тип файла — au (аудиофайл), vi (видеофайл) или ey (файл, записанный при помощи айтрекера).

В число аннотационных файлов для записи входят:

индивидуальные вокальные аннотации (суффикс -voc в названии файлов), которые включают сегментную аннотацию, выполненную в программ Praat (формат textgrid), и транскрипты с указанием временно́й динамики вербальных элементов (суффикс -verb, формат doc);
партитурный вокальный транскрипт, в котором совместно учитывается вокальный вклад всех трех основных участников записи (суффикс -voc-scores, формат xls);
референциальная аннотация, выполненная в программе ELAN (формат eaf) и представляющая собой надстройку над вокальной разметкой, в которой содержится информация о свойствах языковых выражений с конкретной референцией (суффикс -ref); для всех аннотаций, выполненных в программе ELAN, также представлен вспомогательный файл в формате pfsx;
кинетическая аннотация, выполненная в программе ELAN (формат eaf), включающая аннотацию жестов рук (суффикс -manu) и жестов головы (суффикс -ceph); для всех аннотаций, выполненных в программе ELAN, также представлен вспомогательный файл в формате pfsx;
окуломоторная аннотация (суффикс -ocul), выполненная в двух форматах — в программе Excel (формат xls) и программе ELAN (формат eaf). Экспорт данных айтрекинга на видеосцену, отображаемый в виде видеофайла с наложенной точкой, служит в первую очередь для иллюстративных целей, поэтому представленные в нем данные не всегда совпадают с точными данными временной развертки, которые зафиксированы в аннотационных файлах.

Принципы аннотации описаны здесь.

Подкорпус

Запись 04 Запись 04 (10.12.2018)

	Аудиофайлы	Видеофайлы	Файлы с айтрекеров	Аннотации
Рассказчик	Pears04N-au.wav (137.40 MB)	Pears04N-vi.avi (6.99 GB)	Pears04N-ey.avi (1.41 GB)	pears04N-voc.TextGrid (566.85 KB)
		pears04N-vi-lite.avi (112.00 MB)	Pears04N-eyf.avi (300.16 MB)	pears04N-voc-verb.doc (632.00 KB)
				pears04N-ref.eaf (1.36 MB)
				pears04N-ref.pfsx (6.10 KB)
				pears04N-manu.eaf (2.09 MB)
				pears04N-manu.pfsx (14.43 KB)
				pears04N-ocul.xls (240.00 KB)
				pears04N-ocul.eaf (1.68 MB)
				pears04N-ocul.pfsx (4.79 KB)
Комментатор	Pears04C-au.wav (137.40 MB)	Pears04C-vi.avi (7.02 GB)		pears04C-voc.TextGrid (423.31 KB)
		pears04C-vi-lite.avi (88.89 MB)		pears04C-voc-verb.doc (487.50 KB)
				pears04C-ref.eaf (882.81 KB)
				pears04C-ref.pfsx (4.99 KB)
				pears04C-manu.eaf (938.06 KB)
				pears04C-manu.pfsx (15.74 KB)
Пересказчик	Pears04R-au.wav (137.40 MB)	Pears04R-vi.avi (5.08 GB)	Pears04R-ey.avi (1.41 GB)	pears04R-voc.TextGrid (833.06 KB)
		pears04R-vi-lite.avi (79.23 MB)		pears04R-voc-verb.doc (988.00 KB)
				pears04R-ref.eaf (1.90 MB)
				pears04R-ref.pfsx (4.91 KB)
				pears04R-manu.eaf (2.52 MB)
				pears04R-manu.pfsx (13.10 KB)
				pears04R-ocul.xls (228.00 KB)
				pears04R-ocul.eaf (1.56 MB)
				pears04R-ocul.pfsx (3.98 KB)
Общий	Pears04W-au.wav (274.80 MB)	Pears04W-vi.avi (3.59 GB)		pears04W-voc-scores.xlsx (342.59 KB)
Общий		pears04W-vi-lite.avi (68.66 MB)

Запись 22 Запись 22 (10.12.2018)

	Аудиофайлы	Видеофайлы	Файлы с айтрекеров	Аннотации
Рассказчик	Pears22N-au.wav (101.43 MB)	Pears22N-vi.avi (6.81 GB)	Pears22N-ey.avi (920.79 MB)	pears22N-voc.TextGrid (543.56 KB)
		pears22N-vi-lite.avi (89.74 MB)	Pears22N-eyf.avi (365.68 MB)	pears22N-voc-verb.doc (596.00 KB)
				pears22N-ref.eaf (1.20 MB)
				pears22N-ref.pfsx (5.12 KB)
				pears22N-manu.eaf (1.28 MB)
				pears22N-manu.pfsx (15.59 KB)
				pears22N-ocul.xls (150.00 KB)
				pears22N-ocul.eaf (908.81 KB)
				pears22N-ocul.pfsx (4.30 KB)
Комментатор	Pears22C-au.wav (101.43 MB)	Pears22C-vi.avi (5.89 GB)		pears22C-voc.TextGrid (486.46 KB)
		pears22C-vi-lite.avi (83.15 MB)		pears22C-voc-verb.doc (429.00 KB)
				pears22C-ref.eaf (1.12 MB)
				pears22C-ref.pfsx (9.86 KB)
				pears22C-manu.eaf (1.02 MB)
				pears22C-manu.pfsx (15.64 KB)
Пересказчик	Pears22R-au.wav (101.43 MB)	Pears22R-vi.avi (11.70 GB)	Pears22R-ey.avi (1023.93 MB)	pears22R-voc.TextGrid (492.57 KB)
		pears22R-vi-lite.avi (168.08 MB)		pears22R-voc-verb.doc (542.50 KB)
				pears22R-ref.eaf (1.04 MB)
				pears22R-ref.pfsx (5.72 KB)
				pears22R-manu.eaf (1.12 MB)
				pears22R-manu.pfsx (16.74 KB)
				pears22R-ocul.xls (210.00 KB)
				pears22R-ocul.eaf (1.44 MB)
				pears22R-ocul.pfsx (4.80 KB)
Общий	Pears22W-au.wav (202.85 MB)	Pears22W-vi.avi (2.65 GB)		pears22W-voc-scores.xlsx (310.81 KB)
Общий		pears22W-vi-lite.avi (51.38 MB)

Запись 23 Запись 23 (10.12.2018)

	Аудиофайлы	Видеофайлы	Файлы с айтрекеров	Аннотации
Рассказчик	Pears23N-au.wav (93.21 MB)	Pears23N-vi.avi (5.23 GB)	Pears23N-ey.avi (994.50 MB)	pears23N-voc.TextGrid (642.97 KB)
		pears23N-vi-lite.avi (81.01 MB)	Pears23N-eyf.avi (462.13 MB)	pears23N-voc-verb.doc (630.50 KB)
				pears23N-ref.eaf (1.27 MB)
				pears23N-ref.pfsx (5.02 KB)
				pears23N-manu.eaf (1.62 MB)
				pears23N-manu.pfsx (13.07 KB)
				pears23N-ocul.xls (198.00 KB)
				pears23N-ocul.eaf (1.33 MB)
				pears23N-ocul.pfsx (3.73 KB)
Комментатор	Pears23C-au.wav (93.21 MB)	Pears23C-vi.avi (7.99 GB)		pears23C-voc.TextGrid (392.87 KB)
		pears23C-vi-lite.avi (138.24 MB)		pears23C-voc-verb.doc (422.50 KB)
				pears23C-ref.eaf (834.02 KB)
				pears23C-ref.pfsx (5.18 KB)
				pears23C-manu.eaf (840.40 KB)
				pears23C-manu.pfsx (15.46 KB)
Пересказчик	Pears23R-au.wav (93.21 MB)	Pears23R-vi.avi (9.00 GB)	Pears23R-ey.avi (982.79 MB)	pears23R-voc.TextGrid (539.24 KB)
		pears23R-vi-lite.avi (153.60 MB)		pears23R-voc-verb.doc (593.00 KB)
				pears23R-ref.eaf (1.18 MB)
				pears23R-ref.pfsx (5.00 KB)
				pears23R-manu.eaf (1.54 MB)
				pears23R-manu.pfsx (15.49 KB)
				pears23R-ocul.xls (180.50 KB)
				pears23R-ocul.eaf (1.21 MB)
				pears23R-ocul.pfsx (3.73 KB)
Общий	Pears23W-au.wav (186.42 MB)	Pears23W-vi.avi (2.64 GB)		pears23W-voc-scores.xlsx (334.07 KB)
Общий		pears23W-vi-lite.avi (60.99 MB)