Журнал для профессионалов. Новые технологии. Традиции. Опыт. Подписной индекс в каталоге Роспечати 81774. В каталоге почта России 63482.
Планы мероприятий
Документы
Дайджест
Архив журналов - № 7 (7)'03 - ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Виртуальный поиск - вопросы и решения
Владимир Вуль, доцент Северо-Западного института печати, руководитель лаборатории "Электронных изданий", кандидат технических наук

Традиционные авторский
и тематический каталоги совмещены в электронном каталоге на основе единой базы данных и снабжены поисковой системой. Пользователю
не нужно запоминать набор ключевых слов и проверять каждую карточку на их
наличие — это сделает за него компьютер. Электронный каталог может обеспечить новые, гораздо более эффективные технологии поиска литературы
по тематическому признаку.

Известно, что для работников библиотеки каталог — средство упорядочения книг, журналов и других материалов (единиц хранения). Упорядочение может проводиться по алфавитному или же по тематическому признакам. Процесс составления алфавитных каталогов и пользования ими обычно не встречает особых трудностей. Процесс создания тематических каталогов значительно сложнее, он требует определить, каким тематическим рубрикатором следует воспользоваться для упорядочения каталожных записей.
Долгое время у нас преимущественно использовался универсальный десятичный классификатор (УДК), который и сейчас применяется при тематической классификации научной, научно-технической и учебной литературы.
Абсолютное большинство книг, издаваемых в последние годы в нашей стране, снабжаются рубрикаторами УДК и ББК (библиографический библиотечный классификатор). Но существуют и другие классификаторы. Так, в процессе оформления заявки на получение гранта Министерства образования РФ можно столкнуться с необходимостью пользоваться кодами ГРНТИ (государственный рубрикатор научно-технической информации). Принцип его работы подобен УДК, но значения кодов для той же тематики существенно отличаются по величине.
Главный недостаток всех рубрикаторов — невозможность вместить все разнообразие научно-технической литературы в формальные рамки. Множество работ находятся на стыке двух или нескольких научных направлений, что весьма затрудняет их точную классификацию. Кроме того, большинство специалистов не склонны запоминать цифровые тематические коды, да и едва ли их можно запомнить на длительные сроки. Опыт пользователей свидетельствует, что, работая с традиционным тематическим каталогом, они зачастую испытывают трудности при попытке извлечения полезной информации узкого тематического диапазона. И далеко не всегда даже библиографы высокой классификации могут помочь в таких поисках.
Гораздо более эффективным представляется сопоставление каждому первоисточнику определенного набора ключевых слов и выражений. Совокупность этих данных можно математически представить в виде вектора в многомерном пространстве. Различные книги представляются векторами, положение которых в пространстве существенно отличается друг от друга. Чем выше мерность пространства (количество ключевых слов) и чем больше их общее разнообразие (размер списка), тем большее количество научных работ можно разместить в этом пространстве, причем положение их векторов будут существенно различны. При поиске из общего списка ключевых слов выбираются те, которые соответствуют требуемому научному направлению.
Конечно, немыслимо вручную просматривать карточки каталога и сверять ключевые слова в них с теми, которые нам требуются. Да и формирование набора ключевых слов, соответствующих каждому библиотечному изданию, задача отнюдь не простая. Однако современные информационные технологии позволяют автоматизировать как процесс извлечения ключевых слов из любой книги или журнала и их последующее занесение в записи электронного каталога, так и процесс поиска книги, которой в каталоге сопоставлены все или часть ключевых слов, содержащихся в поисковом выражении.
В электронном каталоге традиционные авторский и тематический каталоги совмещены на основе единой базы данных с некоторым поисковым интерфейсом. В ней в форме отдельных записей хранится совокупная информация о конкретном первоисточнике. Пользователю не нужно запоминать набор ключевых слов и проверять каждую карточку на наличие определенных ключевых слов. Это сделает за него компьютер, оснащенный необходимым программным обеспечением. Требуется лишь задать список ключевых слов и связей между ними в форме логических операторов. Чаще всего используют оператор И, реже — ИЛИ и НЕ.
Таким образом, электронный каталог обеспечивает новые, гораздо более эффективные технологии поиска литературы по тематическому признаку. Виртуальный электронный каталог, т. е. каталог с удаленным сетевым доступом, еще более расширяет диапазон возможностей потенциального клиента библиотеки. Пользователь может, находясь на работе или дома, найти нужную литературу в электронном сетевом каталоге библиотеки, расположенной в любом городе, и заказать ее. Значительная часть литературных источников предлагается в электронном виде. Их можно получить по сети в виде одного или нескольких файлов, прикрепленных к сообщению электронной почты, и далее работать на своем компьютере с полученной информацией.
Существуют два обязательных требования, при выполнении которых тематический поиск по ключевым словам и выражениям будет действительно эффективным.
Первое из них состоит в том, что каждое из выбранных ключевых слов должно точно соответствовать источнику, из которого оно взято, точно отражать основное тематическое содержание такой работы, т. е. быть наиболее репрезентативным, иметь более высокий ранг по сравнению с другими возможными ключевыми словами.
Второе требование накладывает точно те же ограничения на набор ключевых слов и выражений, которые определяют тематику поиска.
Вопрос о том, как обеспечить выполнение этих двух взаимосвязанных требований и добиться эффективной работы пользователей в электронном тематическом каталоге, требует детального рассмотрения, которому целесообразно посвятить отдельную статью.
Российские библиотеки несколько отстали от зарубежных в создании электронных каталогов. Но последнее время этот процесс заметно ускорился. Надо отметить, что в России существует множество частных (или общественных) некоммерческих электронных библиотек. Собственно библиотеками их можно назвать условно, хотя их роль в бесплатном предоставлении населению электронных версий книг и журналов достаточно велика. Естественно, что в таких библиотеках нет каталога в полном смысле этого слова, хотя простые средства поиска книг в большинстве из них предусмотрены. Сегодня же мы остановимся на электронных каталогах профессиональных российских библиотек.
Одним из первых в нашей стране был создан электронный каталог Государственной публичной научно-технической библиотеки (ГПНТБ): www.gpntb.ru. Он преимущественно отражает литературу естественно-научной и технической тематики (его электронный интерфейс представлен на рис. 1). Сюда вошли описания отечественных и зарубежных книг и журналов, изданных в последние годы, а также диссертационных работ и отчетов по научным исследованиям. Общее число каталогизированных документов превышает 300 тысяч. На сервере ГПНТБ представлен также Сводный каталог научно-технической литературы, содержащий более 550 тысяч записей. Его интерфейс и поисковая система абсолютно идентичны электронному каталогу самой библиотеки.
Для организации поиска литературных источников в поисковой системе создан «Словарь», в котором посетитель может просмотреть список всех авторов и, главное, список всех ключевых слов и выражений. Найденные термины можно извлечь из списка и использовать в качестве элементов поискового выражения. Именно такой интерфейс признан оптимальным и применяется в большинстве поисковых систем баз данных, используемых в последние годы для хранения материалов различных конференций и научных симпозиумов.
Дополнительно здесь имеется возможность уточнения местоположения ключевых слов и выражений в исходном материале: в заглавии, в аннотации, в основном тексте издания. Во встроенных функциях меню предусмотрено использование логических операций И и ИЛИ при построении поискового выражения, поиск фраз целиком при определенном порядке слов или, наоборот, усечения окончаний отдельных слов (задание их основы, корня). Наряду с применением поискового выражения, состоящего из ключевых слов, связанных логическими операторами, организован поиск и по отдельным атрибутам, таким, как автор, название работы, индексы ISBN или ISSN, можно задать конкретный год издания или ограничить диапазон лет.
Результаты выполнения запроса могут быть представлены в виде списка как в краткой форме (автор, название, издательство, год издания), так и в виде полного библиографического описания литературного источника. Можно выбирать из списка результатов поиска нужные записи и формировать из них свой собственный файл, сохранив его на время работы или же переслав по электронной почте.
Объединенный электронный каталог Российской государственной библиотеки — www.psl.ru (рис. 2) — содержат обращения к пяти отдельным базам данных, отличающимся по видам изданий. В частности, это книги, изданные в России в определенные периоды, иностранные книги, авторефераты и диссертации. На Web-странице объединенного электронного каталога все эти подкаталоги перечислены списком. Возможен поиск по всем полям, включая индивидуального и коллективного автора, заглавие (в том числе и название серии для серийных изданий), издательство, ключевые слова и индекс ББК.
Допускаются усечение атрибутов с помощью символов «*», объединение полей с помощью логических операторов И/ИЛИ и ограничение поиска в соответствии с датой издания книги. Система выдачи результатов позволяет последовательно просматривать выданные в результате обработки запроса записи, но не дает возможности делать выборку из общего перечня и сохранять отобранные записи. По нашему мнению, это определенные недостатки каталога РГБ по сравнению с каталогом ГПНТБ.
Специальная Web-страница сайта каталогов РГБ посвящена каталогизации перед публикацией (Cataloguing-In-Publication — CIP). Она содержит приглашение издателям принять участие в создании в России единой системы CIP, уже ряд лет функционирующей за рубежом. Ее цель — формирование стандартных электронных библиографических записей всех подготавливаемых к изданию и выходящих в свет публикациях. Для этого в крупных российских библиотеках создаются специальные агентства CIP, которые бесплатно подготовят для издательств библиографические описания в формате RUSMARC, определят индексы УДК и ББК, проверят правильность оформления титульного листа издания, включая перечень выходных общебиблиографических его данных.
Электронные каталоги Российской национальной библиотеки (РНБ) размещены на сайте www.nlr.ru (рис. 3). Они состоят из нескольких частей, наиболее емкой из которых является база данных книг на русском языке, поступивших в библиотеку в качестве обязательного экземпляра и в виде даров с января 1989 г. В настоящее время база насчитывает порядка 340 тысяч записей и является одним из самых авторитетных источников сведений о российских изданиях за последние годы. Всего в каталогах содержатся обращения к двенадцати отдельным базам данных, отличающимся по видам изданий.
Применяемое программное обеспечение OPAC-Global позволяет работать с данными максимально комфортно. Имеется три формы запроса, выделенных в зависимости от квалификации клиента: «базовая», «расширенная», «профессиональная». Оптимальным является запрос с «расширенным» интерфейсом, обеспечивающий поиск по автору, заглавию и предметным рубрикам с возможностью сочетания полей и ограничения годом публикации и языком издания.
Помимо параметров поиска пользователь может задать форму вывода данных и количество ссылок на выходной странице. Последняя величина имеет в данном случае особое значение, поскольку модуль выдачи результатов позволяет делать выборку релевантных записей только на одной странице. При переходе к следующей порции записей сведения о выведенных ранее записях сбрасываются. Вместо самостоятельного ввода терминов пользователем в нужные поля поисковой формы допускается обращение к словарям или спискам, которые сформированы для всех поисковых полей. Система обеспечивает возможность маркирования релевантных записей, просмотр полных описаний и формирование собственного списка из общего перечня, полученного в результате выполнения запроса на поиск.
Одним из наиболее объемных в России является каталог Центральной научной сельскохозяйственной библиотеки — www.cnshb.ru /cnshb/catalog.htm (рис. 4). Он содержит более миллиона записей, в числе которых отечественные и зарубежные книги, а также статьи из советских, российских и иностранных периодических изданий по сельскому хозяйству, депонированные рукописи и авторефераты диссертаций. В каталоге используется мощная поисковая система «Артефакт», позволяющая составить запрос максимально точно. Допускается произвольное сочетание терминов из разных полей, усечение ключевых слов, ограничение по дате издания. «Сложный поиск» предполагает составление запроса с применением логических операторов. Система предоставляет также возможность работать с результатами, используя для формирования и сохранения записей функцию «Портфель».
Электронными каталогами располагают крупные центральные библиотеки — БАН в Петербурге, Центральная патентная в Москве и др., научные и учебные библиотеки ряда вузов. На рис. 5 представлен каталог научной библиотеки Санкт-Петербургского государственного университета — www.lib.pu.ru. На его лицевой странице пользователю предоставляется возможность выбора одного из трех вариантов поиска научной литературы: по основным атрибутам (автор, заглавие), управляемый поиск с использованием меню и логических операторов для построения запроса, а также расширенный поиск на основе ключевых слов и выражений. Отдельно, по факультетам организован поиск учебной литературы, где в качестве основных атрибутов используется название предмета и курс, на котором студент учится. На сайте предусмотрен и самоучитель работы с электронным каталогом.
В заключение необходимо остановиться на использовании интеграционных сетевых методов в Российской библиотечной практике. На сайте ЛИБНЕТ — Общероссийской информационно-библиотечной компьютерной сети — содержатся ссылки на регистр полнотекстовых и библиографических сетевых ресурсов библиотек России (см. «Библиотечное Дело № 1, с. 11—13). Перечень электронных сетевых библиотечных ресурсов представлен и на одной из страниц сайта РГБ. Наконец, ссылки на некоторые обычные и виртуальные библиотеки содержатся в так называемой Русской справочной библиотеке, призванной помочь работникам отечественных библиотек успешно ориентироваться в многочисленных информационных ресурсах интернет. На Web-странице Русской справочной библиотеки — www.openweb.ru содержатся ссылки на электронные каталоги Российских и зарубежных библиотек, поисковые системы и справочники сетевых ресурсов, библиографические базы данных и даже электронные каталоги издательств и книготорговых организаций.
В дальнейшем нам представляется целесообразным подробнее остановиться на специальной технологии автоматизированного извлечения и ранжирования ключевых слов и выражений из любых текстов — книг, статей, диссертаций и пр. Полный список таких ключевых слов и выражений, содержащийся в электронном каталоге библиотеки, может служит основой для построения пользовательского запроса на поиск требуемых первоисточников. Но чтобы такой способ тематического поиска стал эффективным, потребуется обучить пользователей выбирать из списка ключевых слов и выражений именно те, что в наибольшей степени характеризуют требуемую пользователю тематическую область.
Эти задачи пока еще находятся в стадии решения. Успешное внедрение полученных результатов в современные методики и технологии использования электронных каталогов существенно облегчит научным работникам, специалистам и учащимся высшей школы поиск первоисточников в тематических каталогах.
Тема номера

№ 5 (455)'24
Рубрики:
Рубрики:

Анонсы
Актуальные темы