Журнал для профессионалов. Новые технологии. Традиции. Опыт. Подписной индекс в каталоге Роспечати 81774. В каталоге почта России 63482.
Планы мероприятий
Документы
Дайджест
Архив журналов - № 4 (4)'03 - ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Анализ предметного поля объекта
Галина Гордукалова, заведующая кафедрой гуманитарной информации СПбУКИ, доктор педагогических наук

Мы научились работать со словом, библиографический указатель читаем, как детектив. Теперь нужно освоить анализ предметного поля и научиться интерпретировать изменения в нем.

В предыдущем практикуме мы предложили характеристику понятия «предметное поле объекта». Это каким-либо образом упорядоченное множество терминов и словосочетаний, используемых для описания объекта в данный момент времени. Условимся называть его кратко «ПП-объекта» и осознаем профессиональную незаменимость, повсеместность этого явления в библиотечно-библиографической работе.
В библиотеке мы ежедневно производим процедуры анализа ПП — когда уточняем запрос, определяем отношение документа к классификационной рубрике, формулируем предметную рубрику для какой-либо группы документов, характеризуем профиль комплектования конкретной части фонда и т. п., включая прямые процессы предметизации литературы, корректировку предметных рубрик, выбор ключевых слов для интернет-поиска.
Даже простой перечень, объединяющий все сходные процессы, способен убедить нас в том, что это одно из базовых направлений в нашем профессиональном знании: классификация, типизация, предметизация, систематизация, дескрипторизация, фасетизация. В каждом из них одна общая черта: мы сравниваем либо рубрику с документами, либо документы с рубрикой, либо рубрику с рубрикой. Дополним этот перечень менее знакомыми, но более перспективными сегодня понятиями — кластеризация, фреймизация, таксономизация, картографирование и др.
Мы работаем со словом, и лингвистическое обеспечение остается пока базовым для нашей профессиии (кстати, весьма убедительные доводы, собирающие воедино лингвистические средства профессиональной деятельности, можно найти в автореферате докторской диссертации Н. И. Гендиной). Нужно отметить, что поиск по ключевым словам в полнотекстовых базах и глобальной сети не снял наших проблем, а показал дальние горизонты информационного анализа и оценки качества документов.
Что же отличает анализ ПП-объекта в информационном анализе от привычных нам процессов? Назовем главное: мы собираем множество ключевых слов об одном объекте, сравниваем их, оцениваем распространенность терминов (например, через частоту их употребления в определенном массиве текстов), а главное — соотносим в итоге изменения ПП с развитием самого объекта или знания о нем.
Схожие процедуры (за исключением последней) мы выполняли в 1960—70-е годы при создании дескрипторных словарей — тезаурусов. Но тогда в качестве объекта выступала целая отрасль хозяйственной деятельности, науки — например, угольная промышленность, электротехника и др.
Появление частотных словарей специалисты связывают со словарем немецкого языка Кединга (1898). Сейчас создание частотного словаря об объекте — дело нескольких часов, но его качество вновь будет зависеть лишь от точности подбора текстов библиографом: перечни предметных и классификационных рубрик, стандарты, справочники об объекте, тексты обзорных документов, массив рекламных объявлений.
Можно ли идущему остановиться на половине пройденного пути? Мы научились работать со словом, библиографический указатель читаем как детектив. Умеем найти и отобрать информацию об объекте. Остались сложные, но важные для любого процесса профессиональной работы шаги: освоить анализ предметного поля и интерпретировать изменения в нем. Учиться этому можно на локальных, но приятных библиотечным сердцам объектах. Например, в 2003 г. будут защищаться дипломные работы на основе информационного анализа текстов С. Довлатова (автор Н. Трофимова), дипломатической части писем Ф. Тютчева (Е. Яковлев) для проверки весьма интересных гипотез.
А первые подобные работы мы выполняли в 1970-х годах под влиянием появившихся карт (атласов) науки, которые могут строиться на основе факторного и кластерного анализа связей между терминами (авторами, журналами). Что же тогда нас поразило? Директор Института научной информации США (Филадельфия) Ю. Гарфильд, поставивший и решивший эту масштабную задачу, не раскрывал технологий института, но в своих выступлениях в Академии наук в Санкт-Петербурге наглядно показал, что фронты исследований в науке изменяются каждый час, с каждой новой порцией библиографических ссылок, анализ которых способен диагностировать происходящие изменения. Попробуем?

Информационная диагностика перспективных направлений в развитии объекта

Шаг 1. Возьмите три-четыре номера из какой-либо серии текущих библиографических указателей с предметными ключами. Например, что-нибудь любимое из указателей ИНИОН, ГПНТБ СО РАН, можно РЖ ВИНИТИ, собственный краеведческий (если составителю в нем удалось не «закабалить» предметные рубрики, подталкивая под них новые проблемы).
Шаг 2. Составьте таблицу частотного анализа для 50 терминов на любую букву алфавита. Термины следует брать подряд с начального на эту букву слова. Подсчитать количество ссылок в предметном ключе для каждого из 50 терминов. В следующем году какие-то термины могут отсутствовать, но появятся новые.
Шаг 3. Нужно подсчитать общую продуктивность (частоту встречаемости) каждого термина, выделить цветом высокочастотные — например, более 5. Лучше найти границу высокочастотных слов по методике Бредфорда-Ципфа: треть частот от общей их суммы в ранжированном ряду. Вы автоматически получите три зоны: А — зона ядра терминов, В — зона средних частот, С — зона низкочастотных терминов.
Шаг 4. В заключительном столбце попробуйте отобразить графически тенденцию «поведения» каждого термина — изменение частоты его употребления с течением времени (убывающая, нарастающая, стабильная, изменчивая, неопределенная). Это ускорит интерпретацию данных.
Шаг 5. По общей продуктивности терминов и найденной тенденции их использования выделить в мониторинговой справке:
• общую тенденцию развития предметного поля объекта (темы) во времени (равномерное-неравномерное расширение ПП, темпы и тематическая направленность изменений ПП);
• базовые проблемы (круг высокопродуктивных терминов со стабильной частотой их употребления во времени);
• затухающие проблемы (термины со снижающейся частотой использования);
• актуальные темы (нарастающая во времени частота использования);
• новые вопросы (термины единичной продуктивности, появившиеся лишь в последний период времени).
Шаг 6. Представить словник зоны А в виде дерева связей, кластера с указанием частоты использования (или совместной встречаемости слов в массиве).
Шаг 7. На основе дерева связей выделить главные тематические направления в разработке проблемы, для них назвать основных авторов (имеющих обобщающую работу, несколько работ).
Шаг 8. Выделить новые, зарождающиеся, возможные перспективные направления в изучении темы или развития объекта (термины единичной продуктивности зоны С последних временных точек наблюдения).
Ответы по каждому пункту можно оформить как мониторинговую справку с указанием основной темы, источника информации и периода наблюдения. В ней желательно дать рекомендации заказчику (на что обратить внимание, какие направления могут стать перспективными в жизни объекта) или собственной библиотеке (подписка на журналы, целевое докомплектование справочно-поискового фонда и др.).
Можно выполнить анализ отдельного раздела указателя, самостоятельно выделяя ключевые слова из библиографических описаний, аннотаций, рефератов.
На основе ретроспективного библиографического указателя с хронологическим охватом литературы более семи лет можно провести ретроанализ проблемы. Для этого следует анализировать библиографические описания отраженных в нем публикаций, фиксируя:
а) развитие предметного поля проблемы через появление новых ключевых слов в заглавиях в хронологическом ряду;
б) развитие научного сообщества, разрабатывающего проблему, через увеличение списка авторов в хронологии;
в) долю соавторских работ в разделе в целом, ее изменение в отдельные периоды исследования проблемы;
г) изменение круга научных организаций, участвующих в изучении проблемы;
д) авторов обобщающих работ по теме.
На основе хронолингвистической шкалы четко видны основные события в жизни объекта или в разработке проблемы — появление новых аспектов, авторов, соавторских коллективов, журналов, обобщающих работ. При учете ежегодного числа публикаций выделяются основные этапы разработки проблемы. По каждому заданию можно дать аналитическую рекомендацию начинающему исследователю проблемы.
Если есть машиночитаемые тексты, то эту задачу можно легко решить через набор функций — автоматическое выделение ключевых слов, бегущая строка, создание частотного словаря, формирование счетных баз данных, переход в пакет программ STATISTIKA, экспорт счетной базы, факторный анализ данных, вывод матрицы факторных нагрузок в графической форме.
Выделение критических значений факторных нагрузок на графике позволит их интерпретировать с формулировкой выводов и рекомендаций, которые должны быть сверены с библиографической базой данных. Эта часть практикума — для «быстро идущих»!
Тема номера

№ 6 (456)'24
Рубрики:
Рубрики:

Анонсы
Актуальные темы