Журнал для профессионалов. Новые технологии. Традиции. Опыт. Подписной индекс в каталоге Роспечати 81774. В каталоге почта России 63482.
Планы мероприятий
Документы
Дайджест
Мебель и предметы интерьера из массива мебель из массива.
Архив журналов - № 9 (9)'03 - Информационный анализ
Информационная диагностика объекта
Галина Гордукалова, заведующая кафедрой гуманитарной информации СПбГУКИ, доетор педагогических наук

Библиометрические измерения — второй этап «обогащенной» схемы информационно-аналитической деятельности — необходимы для анализа научных, технических, реже экономических объектов.
Ее третьим этапом
является статистическая обработка данных.

Сначала — о предыстории библиометрии, ее месте в библиографии и информационном анализе. Уже в первых библиографических трудах составители осознавали их отражающие и диагностические начала, теоретически предсказывалась возможность анализа «книжного рынка» и «истории литературы». В. Г. Анастасевич, В. С. Сопиков, Г. Л. Х. Бакмейстер прямо говорили о том, что библиографическое изучение изменяющейся совокупности книг позволит судить о «недостатках» и «дальнейшем развитии науки».
Подобные исследования начались задолго до появления термина «библиометрия» — в XVIII—ХIХ веках. Как правило, они проводились книгоиздателями, библиографами. Одним из первых К. Х. Фремихен провел количественный анализ книготорговых каталогов ярмарки в городе Лейпциге. В России А. Шторх и Ф. Аделунг в 1810 г. статистически анализируют собственный указатель отечественной литературы «Систематическое обозрение литературы в России: 1801—1806 гг.», полагая «усмотреть из оного состояние каждой особенной науки», «сравнивать один период с другими и через сравнение это видеть приращение или ущерб литературы»!
В своем исследовании они по удивительно многоаспектной методике показали «сколько сочинений напечатано в каждом роде» — по наукам, видам изданий, жанрам, а также с каких языков сделаны переводы. Измерен даже авторский коллектив: 366 писателей 19 сословий, из которых «10 князьев, 6 графов, 3 министра». Авторы были рассмотрены по ученому званию, сословию (10 студентов, …1 вольный крестьянин), полу и национальности — «5 женщин, из них одна немка». Показано распределение статей по названиям журналов и даже сделана попытка рекомендаций и «претензий».
Практические опыты П. И. Кеппена (1825), В. И. Межова (1860), К. Беккера (1868—1869), Л. И. Павленкова (1887—1896), и, особенно, Н. М. Лисовского (1895—1905) показывают, как в библиографии зарождалось стремление дать объективную основу суждениям о «дальнейшем развитии науки», разработать методику сбора и обработки данных.1, 2
Как правило, в этих работах были представлены статистические показатели частоты встречаемости документов определенного признака — тематики, жанра, места опубликования, тиража, стоимости, даже формата издания.
Заложенные в анализ признаки были разнообразны, но опыт сравнения, обобщения и интерпретации полученных данных еще не был накоплен. Библиографы лишь предлагали статистический материал для оценочных решений.
Характеризуя эти опыты, А. М. Ловягин называл их «специальной библиолого-статистической точкой зрения» и предлагал создавать картограммы, по существу, опережая идею картографирования науки, реализованную в ИНИ США Ю. Гарфильдом через 70 лет. В этот период времени были предвосхищены отечественными специалистами и другие мировые открытия: академик Н. Я. Марр с сотрудниками библиографирует поток цитированной литературы по востоковедению, к чему придут через 60 лет в США. Н. А. Рубакин вводит понятие «книжный поток», предлагает изучать его «приливы» и «отливы», рассматривать поток книг как «литературное зеркало жизни».
За рубежом изучение документального потока в 1920—60-е гг. ведется в нескольких направлениях. Библиограф Лондонской научной библиотеки С. К. Бредфорд открывает закономерность рассеяния профильных публикаций в периодических изданиях. Осуществляется первый анализ ссылок, успешно проводятся лингвостатистические исследования, анализируется видовой состав документального потока. В 1956 г. Дирек Прайс предложил концепцию экспоненциального роста документального потока, а Р. Бартон и Р. Кеблер в 1960 г. вводят показатель «период полужизни» (half-life) для измерения темпов старения научно-технической литературы.
Начинается эпоха бурных количественных исследований документального потока, что приводит к выделению «статистической библиографии», «интеллектуальной библиографии», а затем — к активному развитию библиометрии и наукометрии вплоть до создания специализированных журналов по этим направлениям.
В 1960—70-е гг. выходят первые монографии по количественному исследованию науки, документальных потоков. Обсуждается проблема «информационного взрыва—информационного кризиса». Осуществлены опыты «пробельного анализа», сленгового и частотного контент-анализа текстов. Статистические методы стали использоваться для автоматизированной обработки результатов библиометрических исследований, накоплен опыт картографирования науки на основе потока цитированной литературы. Постепенно складываются несколько направлений-школ в исследовании документального потока, обозначенных как «наукометрия», «библиометрия», «информетрия». И в отечественной, и в зарубежной литературе до сих пор ведутся споры о соотношении этих понятий, а соответственно, и стоящих за ними исследований. Подробный историографический и сравнительный анализ этих понятий приведен в работах О. Воверене,3 A. Pritchard, F. Lara, L. Egghe.
Предлагается разграничивать их по предмету и цели исследования. Однако, вопрос о границах библиометрии не простой. В эти годы проведены сотни масштабных эмпирических исследований с разными целями, разной методикой, в разных сферах научно-профессиональной деятельности. Их объединяют три черты: они осуществляются на основе количественных (частотных) измерений известной информации об объекте с целью оценки его состояния. При этом невозможно кардинально разграничить метрические исследования по признакам специфики объектов, методов и базы исследований. В 1970—80-е гг. активнее стали развиваться метрические направления в разных отраслях знания — социометрия, эконометрия, технометрия, биометрия, математическая лингвистика и др. В них закладывались основы измерения данных об объекте с целью прогноза развития знания или самого объекта.
В настоящее время формируется новое направление информационной диагностики — сетеметрия (вебометрия, сайтометрия, киберметрия), вобравшая в себя опыт библиометрических исследований и осуществляющая их в сетевом режиме.
Таким образом, коротко «пробежав» основные события за два бурных столетия, мы видим одно из базовых начал информационного анализа и долговременные аналитические устремления библиографии. Сейчас мы их вложим в общую технологическую цепочку — как на уровне количественного изучения микропотока документов, так и анализа конкретных текстов, баз данных.

Этап II. Библиометрические измерения
Библиометрические измерения осуществляются в обязательном порядке для анализа научных, технических, реже — экономических объектов, так как сразу же дают представление о распространенности и новизне конкретных характеристик объекта, точках их возникновения.
Шаг 10. Селективные процедуры. Отобрать те признаки объекта, для которых важна частотная характеристика. Это могут быть экономически или научно значимые индикаторы объекта. Например, туристической фирме важно знать частотность (повторяемость) конкретных туров, предлагаемых жителям города в рекламных сообщениях, или — своевременно увидеть новые маршруты своих конкурентов.
Для диагностики научного направления важно видеть частоту, время и место появления публикаций каждого автора для выделения ведущих коллективов, фиксации новых участников в разработке проблемы и др. В нашем примере по обмену квартиры от неожиданных ошибок может предостеречь частотный ряд предложений по признаку микрорайона и признаку частоты предложений от нового агентства недвижимости.
Шаг 11. Измерительные процедуры. Измерения производятся как фиксация появления объекта с конкретным признаком по избранному кругу библиометрических индикаторов.
В ручной, весьма трудоемкой технологии, важно отдельной графой «неопределено» фиксировать каждую неидентифицированную ситуацию. В ней учитывать частоту появления объекта, когда признак отсутствует в исходном сообщении или он однозначно не опознается. Например, заменяется конкретный количественный индикатор словами «большой», цена «по договоренности» и др. Это позволит оценить долю релевантных сообщений, а главное — на этапе осмысления результатов анализа увидеть «тайную» картину, получить новое знание об объекте. Иногда, анализ этой группы объектов становится самым интересным и результативным.
При машинном режиме процедуры частотного измерения занимают секунды, но мы лишаемся именно группы «неопределено». Лишь специальные программы позволяют выделить хотя бы «не сосчитанные» по конкретному признаку элементы.
Результаты измерений удобнее всего сразу представлять в ранжированном ряду объектов с убывающей частотой встречаемости конкретного признака. В нашем примере обмена, когда требуется кухня более 8 кв. метров:
Площадь кухни Частота встречаемости
(кв. м.) в рекламных
сообщениях (кол-во)
9 12
9,2 9
8,5 7
10 4
12,4 1
17,2 1
23 1
Неопределено 5

Этап III. Статистическая обработка данных
Процедуры удобно разделить на простую (первичную) и сложную (вторичную) статистическую обработку данных, так как они совмещаются во времени только при наличии специализированного программного обеспечения.
Шаг 12. Статистические процедуры: первичная обработка данных. Выполняем привычные процедуры: выражение индикаторов в относительных цифрах (процент, доля) для объектов, подсчет средних значений показателей за учетный период времени, подсчет отклонений индикаторов от средних значений, контроль общего объема анализируемой выборки по каждому признаку. Можно использовать прием суммирования отдельных признаков объекта с их ранжированием по комплексному индикатору.
Особая процедура — установление контрольных (фоновых) значений индикаторов. Это можно сделать, оценивая размах значений каждого индикатора для данного периода времени в сравнении с предыдущим периодом развития объекта и получая среднефоновое значение индикатора.
Полученные таблицы и показатели уже могут служить материалом для содержательной интерпретации, но рациональнее сегодня осваивать более сложные методы математической статистики.
Шаг 13. Статистические процедуры: вторичная обработка данных. Начинаются, как правило, с оценки параметров распределения величин, на основе которой делается вывод о законе распределения. В соответствие с видом распределения и выбираются подходы к сложной обработке данных — корреляционный анализ, факторный, кластерный, метод главных компонент, детерминантный анализ и т. д.
Особую сложность представляет ранговая статистика, столь характерная для библиометрических данных. Быстро идущие могут увидеть проблемы ранговых распределений в книгах А. И. Яблонского4 и С. Д. Хайтуна5, либо в соответствующем разделе учебников по математической статистике. Но и после их освоения может быть рекомендован лишь переход к вероятностным величинам, поскольку наиболее убедительные результаты были нами получены на основе факторного анализа, который позволяет увидеть и устойчивые, и зарождающиеся тенденции в развитии объекта.
Шаг 14. Визуализация данных. Визуализация данных — представление результатов информационного моделирования объекта и статистических процедур в наглядной, графической и иной зрительно воспринимаемой форме. Может производиться на любом из предшествующих этапов работы, но наиболее эффективна в процессе статистической обработки данных.
Чаще всего выполняется в виде кривых роста индикаторов, диаграмм, графического отображения матриц факторных нагрузок. Благодаря известным пакетам статистической обработки («Статграф», «Статистика» и др.), можно отображать данные в виде более сложных поверхностей, показывающих динамику изменений параметров объекта.
Приведем два приема визуализации данных, уже зарекомендовавших себя на разных этапах в наших исследованиях:
• простой прием звуко-цветового сигнала при вводе в базу данных аномальных значений индикатора (выходящего за пределы максимальных и минимальных его показателей). Этот сигнал — знак аналитику либо об ошибке ввода, либо о резкой перемене в жизни объекта;
• «информационная воронка» (мы ее так условно назвали, а позднее нашли аналог в виде близкой по сути методики «линз»), которая легко строится по процентным соотношениям относительно однородных объектов, отсекаемых по разным признакам (см. рис.).
В нашем примере — отображение «разбраковки» 209 предложений по обмену квартиры по индикаторам: дом — не кирпичный (блочный, панельный — 93 объявления), кухня — менее 8 кв. м. — 72 сообщения, с доплатой — 38 предложений. В результате — лишь 6 объявлений удовлетворяют всем нашим индикаторам. Наиболее эффективен этот прием при использовании большего числа слабоформализованных индикаторов оценки, каждый из которых в некоторой мере присутствует в каждом из дифференцируемых объектов.
Интересный прием визуализации финансовых показателей (по данным Н. Бенгина) используют члены кредитных комиссий при решении о выделении кредита в зависимости от состояния баланса коммерческого банка. Индикаторы фиксируются в виде кораблика, что облегчает одновременное восприятие показателей, а главное — их соотношений (см. пример на с. 21).

1 Гордукалова Г. Ф. Документальный поток социальной тематики как объект библиографической деятельности. — Л.: ЛГИК, 1990. — 106 с.
2 Зусьман О. М. Библиографические исследования науки. — СПб., 2000. — С. 23—35.
3 Воверене О. Библиометрия — часть методологии информатики // НТИ. Сер. 2. — 1985. — № 7. — С. 1—5.
4 Яблонский А. И. Математические модели в исследовании модели науки. — М.: Наука, 1986. — С. 22—51.
5 Хайтун С. Д. Проблемы количественного анализа науки. — М.: Наука, 1989. — 280 с.
Тема номера

№ 6 (456)'24
Рубрики:
Рубрики:

Анонсы
Актуальные темы