Журнал для профессионалов. Новые технологии. Традиции. Опыт. Подписной индекс в каталоге Роспечати 81774. В каталоге почта России 63482.
Планы мероприятий
Документы
Дайджест
Архив журналов - № 7 (43)'06 - Что сохраняем, то и имеем
Сохраниили потеряешь! Долгосрочное архивирование электронных публикаций.
Людгер Сире, референт по истории, руководитель технического отдела Баденской земельной библиотеки в Карлсруэ, один из составителей Земельной библиографии Баден-Вюртемберга


Стремительное распространение Интернета в прошедшие полтора десятилетия вызвало появление абсолютно новых форм публикаций. Все больше книг и журналов, которые раньше издавались печатным способом, теперь выходят только online. Многие издательства и, возможно, в еще большей степени авторы так называемой «серой литературы» выбирают сегодня Интернет как альтернативную издательскую базу, потому что это быстрее и дешевле, чем печать. Опубликованные в Интернете произведения в Германии называют, как правило, «сетевыми публикациями».

Preserve it or loose it*
Интернетом как средством коммуникации и издательской основой все больше пользуется и наука. В качестве примера можно назвать публикации высших школ, в частности, диссертации. Там, где университеты изменили порядок защиты научных работ, студенты могут сдавать свои диссертации в электронной форме. Затем они архивируются как «онлайн-диссертации» на серверах университетских библиотек и таким образом становятся доступны всем желающим по всему миру и в любое время.
Несомненно, интернет-публикации являются частью нашего культурного наследия. ЮНЕСКО признала этот факт и на своей 32-й Генеральной конференции (17 октября 2003 г.) приняла «Хартию о сохранении цифрового культурного наследия», полный текст которой выложен на сайте ЮНЕСКО www.unesco.org.
Под цифровым наследием ЮНЕСКО понимает «информационные источники из областей культуры, образования, науки и управления, а также технические, правовые, медицинские и другие виды информации, представленные в цифровой форме или переведенные в цифровую форму с существующих аналогичных информационных носителей [...]. Цифровые материалы включают в себя тексты, базы данных, фотографии и фильмы, аудиозаписи, графики, компьютерные программы и интернет-сайты во все увеличивающемся разнообразии форматов [...]. Многие из этих источников имеют длительную ценность и длительную значимость и поэтому составляют наследие, которое надо защитить и сохранить для современников и будущих поколений.
Это постоянно пополняющееся наследие существует во всех языках, во всех частях света, во всех областях человеческого знания и человеческой деятельности».
В своем документе ЮНЕСКО предупреждает об угрозе потери электронного наследия и призывает защитить и сохранить его. ЮНЕСКО признает, что такая задача влечет за собой огромные трудности, которые можно одолеть лишь в том случае, если правительства, авторы, издатели, отрасли индустрии и организации — все, кто имеет отношение к культурному наследию, — объединят усилия, и если все государства в рамках международного сотрудничества возьмутся за сохранение их электронной памяти. 
Этой проблемой занялись и на европей-
ском уровне. 25 июня 2002 г. Совет Европы принял резолюцию о сохранении памяти будущего — «Сохранение электронной информации для будущих поколений». В нем содержится предостережение об угрозе потери «созданных в цифровой форме и в цифровой же форме доступных культурных и духовных ресурсов нашего общества». Одновременно с этим, чтобы сохранить материалы и сделать их доступными на длительный срок, Совет Европы потребовал активных мер. Главная роль при этом отведена тем учреждениям, которые особенно активно заботятся о сохранении памяти: архивам, библиотекам и музеям.

К вопросу о понятиях
Германские научные библиотеки, да и архивы тоже, едины во мнении, что они должны взять на себя новую задачу. Но что же на деле означает «долгосрочное архивирование электронных материалов»? Определение могло бы звучать так: цель долгосрочного архивирования — это обеспечение долгосрочной доступности и готовности к использованию электронных ресурсов при условии сохранности их целостности и аутентичности. Доступными останутся эти ресурсы в том случае, если цифровыми материалами можно будет пользоваться с помощью соответствующих компьютерных программ и компьютерной техники в будущем. Готовыми к использованию эти ресурсы останутся в случае, если цифровые материалы можно будет найти в Сети, даже если в какой-то момент место их физического хранения или их адрес в Интернете изменились. Прилагательное «долгосрочный» относится не к определенному или произвольно выбранному количеству лет; долго-срочное архивирование в гораздо большей степени нацелено на развитие стратегий, которые аналогично с техническим про-
грессом постоянно корректируются и совершенствуются.
Под «целостностью» подразумевается, что цифровые материалы архивируются без ошибок и исправлений. «Аутентичность» означает, что речь действительно идет о том самом документе, права на который были получены автором или издателем, либо о стопроцентно надежной копии его оригинальной версии. Выполнение этого требования может быть гарантировано охраной и сертификацией сервера или самого электронного документа. Оба условия важны для создания так называемых «надежных электронных архивов».
При выработке технических стратегий долгосрочного архивирования надо, во-первых, учитывать физический износ информационных носителей. Этот аспект затрагивает продолжительность жизни, к примеру, жестких дисков, но с помощью регулярного копирования на новое запоминающее устройство проблема довольно легко разрешима. Настоящая проблема заключается в быстром старении компьютерных программ и компьютерной техники, которые необходимы для расшифровки и прочтения логической плоскости цифровых материалов. Для преодоления этой трудности в настоящее время отдается предпочтение двум методам: миграции и эмуляции.
Миграция означает периодическую трансформацию цифрового объекта из одной компьютерной программы в другую или из одного компьютера в другой при условии сохранения его целостности и аутентичности. Этот процесс должен происходить без потерь, по крайней мере, основные свойства объекта должны сохраняться. При эмуляции вместе с электронным документом архивируется также и применяемая к нему программа и технические характеристики компьютера с тем, чтобы воспроизвести их в новом системном обеспечении. Метод гарантирует аутентичность документа. Однако считается, что из-за необходимости создания специальной программы эмуляции он потребует больших затрат.

Обязательный е-экземпляр
Не вызывает сомнений, что долгосрочное архивирование электронных публикаций, которые представлены не на физическом носителе информации (дискета, CD-ROM, DVD и т. п.), а распространяются исключительно через Интернет, задача крайне сложная. Она превышает возможности отдельных библиотек и разрешима лишь совместными усилиями библиотек в масштабах страны, а может быть, даже на международном уровне. Однако, прежде всего, надо выяснить, какие учреждения страны должны отвечать за долгосрочное архивирование и кем оно должно оплачиваться. Понятно, что новая задача не может быть выполнена никакой организацией, если не будут предоставлены дополнительные бюджетные средства на персонал и компьютерное обеспечение, включая специальные программы.
Основную роль, разумеется, в любом случае будут играть те библиотеки, задача которых — полностью собрать все публикации, выходящие в стране, и сохранить их для потомков, т. е. библиотеки обязательного экземпляра. В Германии комплектование, каталогизация, архивирование и использование обязательных экземпляров осуществляется как на национальном уровне — Германской библиотекой, так и на региональном уровне — земельными библиотеками. Это деление на два уровня — результат деления Германии на федеральные земли (их 16), которые делят между собой ответственность за сферу культуры.
С момента воссоединения Германии в 1990 г. Германская библиотека выполняет функции Национальной библиотеки. Оба ее филиала — в Лейпциге и Франкфурте-на-Майне — с 1913 г. собирают и архивируют выходящие в Германии и о Германии публикации, каталогизируют их и публикуют в Немецкой национальной библиографии. В качестве третьего филиала действует Германский музыкальный архив в Берлине, который архивирует ноты и звуковые носители. Законодательно оформленные направления комплектования Германской библиотеки включают почти все формы публикаций и все виды информационных носителей, за исключением интернет-публикаций: на момент принятия соответствующего закона в 1969 г. их просто еще не существовало. Поэтому, чтобы расширить задачи комплектования, Германская библиотека добивается пересмотра закона. Новый «Закон о Герман-
ской национальной библиотеке», предположительно, должен быть принят парламентом страны, Германским бундестагом, до конца в 2006 г. В нем говорится о материалах, подлежащих обязательным поставкам, уже не как о «печатных произведениях», а как об «информационных носителях», то есть это — «произведения в печатной, изобразительной и звуковой формах, распространяемые на материальных носителях или доступных в нематериальной форме». Закон, таким образом, различает произведения в материальной форме — это публикации на бумаге, электронных и других видах носителей информации, и произведения в нематериальной форме — это публикации в общедоступных интернет-сетях.
Того же добиваются и библиотеки федеральных земель, так как до сих пор элек-
тронные публикации не принимались во внимание в законах федеральных земель об обязательном экземпляре. Земельные библиотеки решили придерживаться формулировок Германской библиотеки, которая, в свою очередь, воспользовалась терминологией нового закона об авторском праве. Проект нового закона об обязательном экземпляре на уровне федеральных земель также определяет произведения в нематериальной форме как «публикации в общедоступных интернет-сетях» и требует их предоставления библиотекам «владельцами прав на распространение или прав на доступ и использование». Здесь имеются в виду все те, кто размещает в Интернете документ, какого бы рода он ни был.
Важно, что те, кто по закону обязан поставлять интернет-публикации или предоставлять доступ к ним, должны это делать в течение месяца, за свой счет и безвозмездно для библиотеки. Публикации должны предоставляться библиотеке для архивирования на длительный срок, в полном виде, в безупречном состоянии, без ограничений по срокам пользования. Обобщенная формулировка проекта закона может, правда, поставить библиотеки федеральных земель перед серьезной проблемой количества. Поэтому закон должен быть дополнен основными направлениями комплектования, где детально оговаривается специфика обязательных экземпляров документов, потому как далеко не все, что размещено в Интернете, соответствует первичным задачам комплектования библиотек.
Можно было бы возразить, что электронные средства информации обладают удобным свойством быть независимыми от места хранения, и потому нет необходимости архивировать документ в нескольких местах. Однако в контексте долгосрочного архивирования многократное сохранение электронных документов желательно в интересах их целостности и аутентичности: одно неверное решение при последующей миграции или эмуляции может сделать непригодным к использованию весь информационный фонд. Потому и необходимы копии — для подстраховки.

Создание электронных архивов
Даже если до сих пор в Германии ни на уровне федерации, ни на уровне земель нет законодательной основы для поставок обязательных экземпляров интернет-публикаций, то это вовсе не означает, что библиотеки бездействуют. Уже сейчас каждый день оказываются бесследно потерянными для потомков бесчисленные интернет-публикации из-за того, что они не были свое-
временно сохранены. В настоящее время библиотеки по собственной инициативе занимаются сбором и архивированием интернет-публикаций, с одной стороны, чтобы спасти важные электронные документы, с другой стороны, чтобы набраться опыта практической работы с новым и трудным в обращении средством информации.
Германская библиотека. Германская библиотека в 1992 г. начала собирать «обрабатываемые компьютером носители информации». С 1998 г. она комплектует также электронные научные работы и диссертации и в настоящее время располагает самым большим в Европе собранием такого рода (25 000 единиц). Для вузовских научных работ, которые с технической точки зрения являются относительно простыми объектами, была создана структура, в которой на базе метаинформационной схемы Dublin Core (Дублинского ядра) специфические для вузовских научных работ характеристики могут фиксироваться и использоваться для обмена между университетскими библиотеками и Германской библиотекой.
Кроме того, в 2002 г. Германская библиотека и Биржевой союз германской книготорговли заключили «Рамочное соглашение о добровольной поставке интернет-публикаций в целях включения их в библиографические перечни и архивирования». Это со-
глашение регулирует вопросы о том, что именно должны предоставлять издатели, как могут быть приняты на хранение интернет-публикации и кому библиотека должна разрешать доступ к архивированным документам. Только на основе практических моделей можно разработать процедуру поставки, которая требовала бы, по возможности, наименьших затрат с обеих сторон, годилась бы для возможно большего числа различных форм публикаций с их соответствующими техническими характеристиками и была бы наиболее безопасна при передаче информации. Естественно, речь идет о том, чтобы избавить издателей от страха перед злоупо-
треблением их публикациями и убедить их в перспективности долгосрочного архивирования.
Библиотеки федеральных земель. В 2002 г. три крупные земельные библиотеки при поддержке библиотечных Центров по правам и услугам начали собирать интернет-публикации, каталогизировать их и архивировать на специальных серверах. В качестве примера можно привести online-архив земли Баден-Вюртемберг (BOA), который находится в стадии пробных испытаний и уже может поделиться ценным практическим опытом. Помимо прочего, стоит вопрос о том, чтобы найти критерии отбора для подлежащих архивированию интернет-публикаций; само собой разумеется, все электронные материалы хранить невозможно.
В библиотеках федеральных земель подбираются и комплектуются документы, которые публикуются в Интернете вне системы книготорговли и имеют формальное или тематическое отношение к конкретной федеральной земле. При этом нужно различать два типа документов: те, которые имеют аналогию в области печати, это, к примеру, документы в формате PDF, легко подлежащие архивированию, и те, которые обнаруживают структуру гипертекста, то есть интернет-сайты. Интернет-сайты комплектуются с помощью специальной поисковой программы после того, как на основе интеллектуальной экспертизы они признаются достойными архивирования. Сплошной массовый сбор интернет-публикаций не предусмотрен. Это не смогла бы выполнить даже такая большая организация, как Германская библиотека. Не подлежащими сбору и архивированию считаются, в силу их технической структуры, базы данных.
Все электронные документы проходят полный процесс библиотечной обработки, это означает, что формальная и предметная каталогизация обычных носителей информации здесь вполне применима. Разумеется, при каталогизации следует учитывать некоторые правила, разработанные специально для электронных документов.
Если онлайн-публикации где-либо цитируются, обычно указывается место в Сети, где их можно найти. Как правило, это URL (Uniform Resource Locator). Но поскольку интернет-адреса часто меняются, а публикации, которые еще вчера находились в Сети, уже сегодня могут исчезнуть, нужна четкая система идентификации документа, сходная с ISBN у книг. Здесь предлагаются различные системы: URN (Uniform Resource Name, DOI (Digital Object Identifier) и другие. В библиотечном деле применяется URN в качестве так называемого «постоянного идентификатора» (Persistant Identifier). Он дает каждому документу однозначное и постоянное имя, благодаря которому документ всегда можно найти. Германская библиотека установила специальный компьютер, контролирующий систему URN.
URN относятся к метаданным, то есть «данным о данных», которые необходимы для долгосрочного архивирования цифровых материалов. Для управления цифровыми материалами требуются, помимо уже упомянутых библиографических (описательных), дополнительные технические, структурные и административные метаданные, с тем чтобы документом можно было пользоваться долго. Метаданные являются частью архивной системы. Если происходит обмен документами, к примеру, между Национальной библиотекой и земельными библиотеками, должны передаваться и метаданные. В идеале метаданные предоставляются уже самими производителями цифровых документов.

Научные проекты
Долгосрочное архивирование электронных публикаций является предметом многих исследовательских проектов, частично финансируемых германским федеральным правительством и имеющих различные цели. Одни разрабатывают стратегии и концепции долгосрочного архивирования и планируют создание сети по долгосрочному архивированию. Другие пытаются найти технические решения и опробовать рабочие процессы, например, автоматизированный обмен документами и метаданными. Третьи занимаются детальными вопросами, например, разработкой постоянных идентификаторов или составлением наборов метаданных. Ниже представлены два важных проекта.
Чтобы проблема архивирования цифровых документов решалась эффективнее, чем до сих пор, в 2003 г. была создана «NESTOR — Авторитетная сеть по долгосрочному архивированию и длительной доступности цифровых ресурсов». Проект был задуман как «альянс по сохранению цифровой памяти Германии»; он был призван объединить всех тех, кто в Германии занимается проблемой длительного хранения электронных документов, и создать информационную и коммуникационную платформу по всем вопросам, связанным с долгосрочным архивированием. Руководство проектом осуществляет Германская библиотека, партнеры по проекту — несколько крупных библиотек и архивов.
NESTOR не оперативный проект. Он должен пробудить понимание и осознание важности проблемы у представителей библиотечной сферы, у людей, ответственных за политические и финансовые вопросы, у общественности. Эта цель достигается благодаря специальным мероприятиям и публикациям. Вот некоторые их темы: «Архивирование электронных журналов», «Долгосрочное хранение мультимедийных объектов», «Долгосрочное архивирование научных необработанных данных (из области научных исследований)».
Дополняет проект NESTOR в области техники, разработки компьютерных программ и рабочих процессов стартовавший в июле 2004 г. проект «KOPAL — Создание сводного архива длительного хранения электронных информационных данных». В рамках проекта KOPAL цифровые материалы любого рода переводятся массовым образом в архив длительного пользования двумя партнерскими библиотеками (Германской библиотекой и Нижнесаксонской государственной и университетской библиотекой в Гёттингене). При создании архива они ориентируются на базовую модель OAIS (Open Archival Information System), которая была создана в ходе международных консультаций библиотек, архивов и информационных центров и с 2003 г. признана в качестве стандарта ISO. Конкретной основой служит выработанная совместно фирмой IBM и Национальной библиотекой Нидерландов в Гааге система DIAS (Digital Information and Archiving System).
Для проекта KOPAL, таким образом, важно разработать инновационное техническое решение в виде архива длительного хранения и последующего использования для электронных данных и при этом придерживаться международных стандартов в области долгосрочного архивирования и метаданных. Предполагается, что будущими пользователями системы будут не только библиотеки, но и наука, экономика и административные структуры.
NESTOR издал «Рекомендации по выработке стратегических направлений долго-
срочного архивирования электронного культурного и научного наследия Германии». KOPAL хочет продемонстрировать, как в условиях разделения труда можно создать надежный электронный архив, который сохраняет целостность и аутентичность и, прежде всего, длительную доступность цифровых документов. Тем самым предприняты первые меры по решению проблемы. До успешного прорыва еще далеко. Однако, как гласит китайская пословица, даже самый длинный путь начинается с первого шага.

* Сохрани или потеряешь.
Перевод Галины Исаевой

Ил. к заголовку: Замок Карлсруэ с севера (в 1770). Слева — здание библиотеки. http://www.blb-karlsruhe.de
Тема номера

№ 5 (455)'24
Рубрики:
Рубрики:

Анонсы
Актуальные темы