Корпус текстов о мезенских «робинзонах» – это большой корпус русских письменных текстов различных жанров с XVIII века до нашего времени.
Корпус – это собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая тексты. В нашем случае – это общий сюжет о выживании мезенцев на Шпицбергене в 1743-1749 гг.
Вначале мы определились с предназначением нашего корпуса, что мы хотим исследовать: мы исследовали структуру сюжета. Нам интересны сюжетные подробности художественных текстов XIX-XXI веков, созданных на основе книги Ле Руа, написанных русскими и зарубежными авторами. Таким образом, мы определили тематику текстов, а также время и место их размещения. В таком контексте проводимое исследование носит диахронический характер.
На материале подобранных текстов можно установить «элементарный сюжет», выяснить, какими подробностями обрастает история в каждом конкретном примере, в ходе сравнительно-сопоставительного анализа определить, какими лексическими средствами и поэтическими приемами пользуются авторы для описания одних и тех же событий (например, меняется ли лексический состав в передаче сюжетной ситуации «путь на остров», «схватка с белыми медведями», «починка избы», «изготовление светильни», «захоронение Федора Веригина» и т.п.; меняется ли набор выразительных инструментов – тропы, синтаксис и т.д.).
Для отбора тексты были категоризированы. Мы выбирали сюжет по таким параметрам, как: источник текста, тип издания (журнал, книга, интернет-публикация), время публикации, жанр, объем, язык.
Собранные тексты принадлежат к разным жанровым категориям: пересказ («Сын Отечества»), перевод из одного старинного немецкого журнала («Северная пчела»), очерк (А. Зубковский), быль (О. Беломорский), повесть (К.С. Бадигин, С.Б. Радзиевская), исторический роман (З. Давыдов), перевод (М. В. Архангельская), рецензия (В. Попов).
Произведения написаны в разное время, при чем отмечается их хронологическая сосредоточенность: эпоха жизни Ле Руа (множество переводов) – 1760-е годы на Западе, журнальные издания в России – 1822, 1846, 1864-69, в составе сборников – 1899, 1900, отдельные книжные издания, где сюжет получает авторскую обработку, – 1933 (З. Давыдов), 1955 (Ле Руа и К. Бадигин), 2016, 2021 (С. Радзиевская), 2020 (О. Щербатов) и др.; 2000-е годы – публикации на форумах, в блогах, в пдф-версиях в электронных библиотеках, в журналах.
В журнальных версиях XIX века текст имеет разные заголовки – Приключения, Путешествие, Похождения, Бедствия российских матросов, что представляет интерес для научного обсуждения.
Язык, на котором написано произведение: конечно, в большинстве своем мы ориентировались на русскоязычные версии. Однако сам факт того, что сюжет изначально появился на немецком языке, потом был переведен на разные языки мира, в том числе на русский, дает повод, обратиться к версиям на иностранных языках, а также к произведениям зарубежных авторов (например, к роману Теодора Гризингера, 1864).
Принципиальным было решение об устном или письменном наполнении корпуса. В состав нашего корпуса вошли оцифрованные и переведенные в ворд документы, а также аудиозаписи, собранные от жителей г. Мезени. Смысл сбора аудиозаписей: 1) выяснить, насколько сохранен сюжет о мезенских промысловиках в культурной памяти наших современников, 2) какие элементы сюжета воспроизводят люди в своих устных нарративах (например, женщины воспроизводят эпизод о том, как жена А. Химкова, увидев мужа живым и невредимым, потеряла сознание и упала в воду; мужчины настаивают на том, что команда матросов была непрофессиональной, – это «непутевые люди, которые брали в долг, устроились на корабль и отправились в Арктику, чтобы долги отработать»). Часть респондентов перенесли историю мезенцев на свой личный морской опыт (А. Коткин, А. Увакин, В. Окулов).
Важное значение имеет размер корпуса. Мы собрали корпус более чем на 200 тысяч словоупотреблений.
При наборе текстов в корпус учитывались такие экстралингвистические факторы, как авторы текстов (их пол, возраст, профессия, национальность), носитель текста, место действия, тематика, дата публикации, возраст и размер предполагаемой аудитории и т.д.
В качестве источников текстов для корпуса использовались как цифровые, так и не цифровые носители. В последнем случае мы трудились над тем, как ввести текст в компьютер: заново набирали тексты, сканировали и распознавали с последующим редактированием. Например, в нашем случае с журналами XIX века, газетно-журнальными публикациями XX-XXI веков у нас не было электронных версий текстов, поэтому нам пришлось приложить усилия для их оцифровки (приведения в computer-readable вид).
Один из очевидных источников уже оцифрованных текстов – Интернет, который сам по себе является титаническим текстовым корпусом. В первую очередь, это веб- страницы, другие интернет-каналы, по которым циркулируют огромные объемы текстов: социальные сети, чаты, IRC и т.п.
Проще было работать с интернет-публикациями, которые уже имеют электронный вид, поэтому мы их копировали и переводили в ворд, для того, чтобы потом подгрузить в корпус.
Первоначально тексты для корпуса мы сохраняли в формате типа MS Word. Далее переносили эти тексты в базу данных на платформе WordPress.
Эта работа вдохновлена предыдущими исследованиями на основе корпусов, построенных на предпосылке, что сбор и анализ большого количества образцов дискурса является эффективным инструментом для понимания того, как развивается русский язык (см.: корпус текстов Псковской деловой письменности – проект ПГПУ; корпус рассказов о сновидениях – проект РГГУ; СКАТ – Санкт-петербургский корпус агиографических текстов; Прожито: Личные истории в электронном корпусе дневников и воспоминаний – проект Европейского университета; набоковский корпус – проект СПбГУ; параллельный корпус Набокова – проект ВШЭ; корпус фейковых сообщений о Covid-19 – проект МГИМО; Стенограмма: Политика и литература. Цифровой архив литературных организаций 1920-1930 гг. – проект ИМЛИ). По аналогии мы собрали корпус, назначение которого, понять, как развивается в синхронии и диахронии определенный сюжет, проанализировать специфику восприятия исторического факта на разных этапах становления русского историко-литературного процесса, выделить структурные элементы и уяснить смысловые оттенки сюжета, характерные для определенного исторического периода, определенной картины мира.
Тексты, собранные в мультимедийный корпус о мезенских робинзонах, предназначены для того, чтобы их читать (среди них достаточно много таких, которые не переиздавались) и для того, чтобы их изучать. Предстоящая задача особым образом обработать эти тексты – внести необходимую информацию – разметку, аннотацию; спроектировать поисковый интерфейс.
После того, как корпус будет обработан, в нем можно искать любую необходимую нам информацию (дата написания текста, место написания текста, его объем, авторство, употребление того или иного слова или грамматической конструкции). Для обработки информации используются специальные программы – конкордансеры. Они осуществляют поиск по тексту подобно тому, как поисковая система ищет информацию в Сети, и формируют конкорданс, то есть перечень всех контекстов, в которых какое-либо слово или словосочетание встречается в исследуемом тексте.
Конкордансер, с которым работаем мы, позволяет выделить ключевые слова и построить их рейтинг.
В корпус встроена программа Voyant Tools (https://voyant-tools.org/), которая позволяет автоматически выстраивать конкорданс любого текста в форматах HTML, XML, PDF, RTF и DOC.
При работе со специализированными корпусами, предназначенными для определенного типа текста, жанра или предметной области, словарный запас, отсортированный по частоте, может дать наглядную информацию. Наша исследовательская модель основана на предположении, что анализ сюжета с узкой тематической направленностью может помочь в выявлении некоторых закономерностей в становлении историко-литературного процесса.
Концепция корпуса, принципы отбора материала, система аннотации и технология подготовки базы данных разработаны рабочей группой в составе Т.В. Швецовой, В.Е. Шаховой, С.А. Дуловой, Т.А. Кузнецовой. Координация работ и редактирование разметки мультимедийного корпуса осуществлялась Т.В. Швецовой и В.Е. Шаховой. В подготовке текстовых и мультимедийных материалов участвовали все члены группы.
В настоящее время пользователю предоставлена возможность работать не только с фрагментами текстов (как во многих других подкорпусах, материалами для которых послужили тексты художественной литературы или СМИ), но и с цельными текстами.
Для создания корпуса собраны материалы о сюжете «плавание мезенских робинзонов» (в художественной литературе, в учебной литературе (по географии, истории, краеведению), в научных публикациях из разных областей, в источниках СМИ и медиакоммуникации).
Содержание мультимедийного корпуса
Подобранные тексты объединены в модули согласно типам дискурсов: художественные тексты, документальные тексты – газетно-журнальная публицистика и научные публикации, медиатексты, народно-бытовая речь.
Электронный мультимедийный ресурс содержит видео-, аудио- (звуковые файлы), фото и текстовую информацию. Планируется реализация таких опций, как полнотекстовый поиск, обращение к аудиофайлам (звучащая речь жителей Мезени), наличие изображений (детали поморского судна, детали одежды мезенских промышленников, детали ландшафта и рельефа острова), гиперссылки и т.д.
Корпус позволяет пользователю по его запросу получить информацию о культуре и быте поморов, об устройстве поморского судна, о маршрутах мезенских промышленников в XVIII веке, о мезенском говоре, о возможностях выживания человека в экстремальных условиях Арктики.
Создаваемый мультимедийный ресурс планируется как надежный инструмент для изучения истории литературы, литературного краеведения, литературной географии в условиях тотального «кризиса чтения».
В процессе создания корпуса текстов о мезенских «робинзонах» решен ряд подзадач:
1.Создание подкорпуса художественных текстов на русском языке (ответственные – Т.В. Швецова, В.Е. Шахова).
Корпус художественных текстов – корпус русских письменных прозаических и стихотворных произведений, созданных в период с 1762 по 2022 гг. Тексты представлены на русском языке в современной орфографии. Этот корпус включает в себя в определенных пропорциях различные жанры (очерк, быль, повести, романы, переводы на русский язык).
Корпус можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (начало XX — начало XXI века) и ранние тексты (середина XVIII — конец XIX века). Формально граница между этими массивами нигде не проведена, и по умолчанию поиск по ним ведётся одновременно.
Корпус художественных текстов с контекстуальной разметкой составляет ядро основного корпуса. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:
- художественная проза разных жанров и направлений,
- мемуарно-биографическая литература,
- журнальная публицистика,
- газетная публицистика,
- учебные тексты.
Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются электронные версии.
Тексты середины XVIII—конца XIX вв. в Корпусе представляют различные жанры прозы (художественная литература, публицистика, архивный документ).
Для этого периода (до конца XIX в.) допускается включение в основной корпус переводных текстов.
Тексты, написанные и/или опубликованные изначально в старой орфографии (до 1918 г.), чаще даются в послереформенной орфографии. Велико число текстов, включаемых в корпус по оригинальным изданиям без сохранения орфографии. Объём коллекции текстов в дореформенной орфографии на 2022 г. составляет более 200 тысяч словоупотреблений (780 страниц печатного текста формата A4).
2. Создание подкорпуса газетных текстов (ответственная – С.А. Дулова).
Газетный корпус охватывает статьи из средств массовой информации начиная с 1876 г. (газета «Друг народа») до 2022 г.
В корпус газетных текстов включены тексты печатных газет и журналов, а также газет, которые переведены в цифровую форму («Архангельские губернские ведомости», «Правда Севера» в отделе «Русский Север» https://aonb.ru/departments/12-kraevedenie.html). Представлены публикации из таких изданий: «Друг народа», «Маяк коммунизма», «Север», «Правда Севера», «Архангельск», «Поморская столица», «Русский вестник Шпицбергена» и др.
Планируется продолжение ежегодного пополнения корпуса.
3. Создание подкорпуса научно-публицистических текстов (ответственные – Т.В. Швецова, В.Е. Шахова).
Подкорпус представлен научными статьями из научных журналов по вопросам, связанным с анализом генезиса, поэтики, функционирования художественных произведений, загруженных в корпус. Это журналы в традиционном формате, электронные научные издания, монографии, сборники научных статей и материалов конференций, научные публикации в частных блогах.
В поле внимания находятся следующие вопросы:
- биографии участников плавания на Шпицберген в 1743-1749 гг. и лиц, с ним связанных: кормщик Алексей Химков, Хрисанф Химков. Федор Шарапов, Степан Веригин, Амос Корнилов, М.В. Ломоносов, П.-Л. Ле Руа, Соломон Вернизобер, Евреиновы, П.И. Шувалов и др.
- биографии авторов публикаций,
- история создания конкретного произведения,
- история зверобойного и китоловного промысла на Русском Севере,
- археологические раскопки на Шпицбергене,
- история освоения Шпицбергена,
- изучение истории путешествий и плаваний на Шпицберген ученых и исследователей различных стран,
- история полярных экспедиций,
- изучение стоянок поморов на Шпицбергене,
- снаряжение секретной экспедиции Чичагова,
- изучение Атласа Архангельской губернии.
4. Создание подкорпуса интернет-публикаций (ответственный – В.Е. Шахова).
Подкорпус представляет собой собрание интернет-публикаций из сетевого журнала (блога) LiveJournal, из интернет-изданий (сетевое издание «Комсомольская правда»), на официальных WEB-страницах различных организаций, учреждений и электронных библиотек, посты в социальных сетях, заметки на форумах. По предварительным подсчетам их около 40. Хронология публикаций – 2007-2022.
5. Создание устного подкорпуса (ответственный – С.А. Дулова).
Подкорпус устных текстов предполагает включение звучащих текстов на русском языке, записанных на территории исконного проживания мезенских «робинзонов» (Мезенский район Архангельской области). Сейчас в корпусе 16 треков.
Планируется, что текст будет предоставляться пользователю в том виде, в котором он был первоначально записан, в том числе в фонетической транскрипции с сохранением ударений.
6. Разработка принципов метатекстовой разметки и отбора текстов
Общие принципы метатекстовой разметки и отбора текстов были разработаны Т.В. Швецовой и В.Е. Шаховой.
Все тексты, входящие в корпус текстов, должны пройти процедуру метаразметки. Метаразметка корпуса включает сведения о названии текста, дате его создания, имени, годе рождения и поле автора (если это известно), месте и дате публикации, источнике, по которому дается текст, жанре и типе текста.
7. Разработка программного обеспечения и разметка корпусов (ответственный – Т.А. Кузнецова).
В данный момент в Корпусе настроен контекстный поиск информации. В перспективе планируется тагирование текстов для осуществления тематического поиска слов определенной лексико-тематической группы («одежда», «явления природы», «питание», «орудия» и т.п.)