Журнал для профессионалов. Новые технологии. Традиции. Опыт. Подписной индекс в каталоге Роспечати 81774. В каталоге почта России 63482.
Планы мероприятий
Документы
Дайджест
Архив журналов - № 06 (96)'09 - Библиотека высшей школы
Осмысленная обработка текстов: по технологиям египетских фараонов или

Сергей Юрьевич Модестов, кандидат педагогических наук, доцент, Санкт-Петербургский Государственный Университет сервиса и экономики

Павел Эдвардович Фадеев, директор ОДО «Интеллектуальный партнёр», г. Минск, Белоруссия

Известно, что Читателя в библиотеке всё больше интересует доступ непосредственно
к документу, а в самом документе — то, что отвечает на его конкретный запрос.

Читателю, строго говоря, не нужны издания — ему нужны мысли, знания, решения, которые содержатся в текстах. Однако на подобную обработку информации, структурирование текстов у библиотеки чаще всего не хватает ни кадров, ни времени. Почему? Многие замечали, что с течением времени «концентрация мыслей» на килограмм бумаги или килобайт текста существенно падает, а количество источников растёт.
Казалось бы, с развитием компьютерных технологий, появлением Интернета качество информационного поиска должно было возрасти. Однако бóльшая часть работы с информацией и знаниями выполняется так же, как она выполнялась жрецами во времена египетских фараонов. Старший жрец посылает юного помощника в хранилище рукописей за необходимыми папирусами, изучает содержимое и при необходимости конспектирует. За многие тысячелетия процедура работы со знаниями осталась почти без изменений, только сейчас «на посылках» у ищущего информацию — Интернет. Работа непосредственно с содержанием, со смыслом информационного источника ведётся так же, как во «времена египетские». Поисковые системы Интернета не способны заменить «ручной интеллектуальный труд», работу со смыслом материала. В оптике есть телескоп, а в информатике есть поисковые системы, Интернет. И те, и другие позволяют обозревать необозримые без них просторы, макромир. Однако в оптике есть ещё и микроскоп, который позволяет увидеть микромир. Хорошо бы, чтобы в информатике был свой «микроскоп»…
Нужен был следующий шаг — система, которая «понимает» смысл текста. И такая система была создана. Это разработка «Интеллектуальный партнёр» минских учёных из компании «Интелпарт». Главное достоинство данной системы — способность «понимать» запрос пользователя, его живой язык. Система способна находить в файлах фрагменты, содержащие ответ на поставленный вопрос. Поиск ответов ведётся не по формальному совпадению символов (как, например, в Яндексе, Рамблере или Google), а по содержанию запроса: система способна находить аллегории, сравнения, прецеденты.
Работы по созданию такой системы были начаты в 1989 году, ещё при Союзе. Сначала компания занималась управлением коллективами; когда накопились большие картотеки по управлению, потребовалось мгновенно осуществлять навигацию в этих текстах. И к 1998 г. появилась первая версия осмысленного поисковика. Любопытно, что первая версия была в некотором смысле побочным, сервисным продуктом – она работала только внутри систем управления персоналом. Но постепенно выяснилось, что эта программа может жить самостоятельно, и в начале 2000-х гг. появилось ПО «Интеллектуальный партнёр» компании «Интеллектуальный партнёр» («Интелпарт»).
Компания «Интелпарт» первая сконструировала «микроскоп для знаний»1, но существуют и другие разработки, ориентированные на работу со смыслом текста. Интересна разработка «Document Explorer» корпорации «Майкрософт» для MSDN. Хорошая программа, но выстраивать все необходимые смысловые связи она не умеет, это приходится делать экспертам. Хлопотно, дорого, субъективно, не оперативно.
Программу осмысленного поиска планирует создать один из лидеров Российского IT-рынка компания «ABBYY». В её разработку уже вложены 500 человеко-лет труда, и планируется вложить ещё столько же. Это не может не внушать уважение и позволяет сделать вывод, что к 2009 году, как заявлено, появится интересный продукт.2
Хорош проект МГУ по созданию поисковой системы «NIGMA». Опираясь на алгоритмы кластеризации, она автоматически выявляет наиболее часто употребляемые смысловые связи (но не все). Эта система в ряде случаев действительно существенно облегчает поиск источников информации. Если разработчикам удастся успешно освоить ещё 340 тысяч долларов, выделенных «на научные исследования в области создания новых алгоритмов для интернет-поисковых систем»3, то они могут смело переходить к созданию персонализированных систем, позволяющих не только находить требуемые источники информации, но и работать с ними.
Технология осмысленного поиска информации особенно интересна в образовательном процессе. Одна из основных проблем современного образования — информационная перегрузка учащихся. Скачиваются рефераты, пишутся на заказ дипломы… На самом деле, учащиеся перегружены ненужной информацией, «мусором». По каждому запросу поисковая машина выдаёт сотни тысяч ссылок, десятки и сотни источников по каждой теме. Скажем, по запросу «нематериальная мотивация персонала» Яндекс выдаёт
271 000 ссылок, по запросу «окислительно-восстановительные реакции» —
124 000 ссылок. Понятно, что просмотреть эти массивы невозможно физически. Предлагаемая система не отменяет интеллектуальный труд: она проводит своего рода «обогащение информационной руды», и учащийся работает гораздо эффективнее, не тратя время на выуживании драгоценных крупиц нужных знаний.
С помощью такой системы, имея возможность получить доступ к любому фрагменту текста с учётом его смысла, педагогам также значительно легче вести научную, педагогическую и методическую работу. Значительно упрощается процесс подготовки материалов к занятиям, кейсов заданий для учащихся, учебных пособий, в том числе компендиумов, хрестоматий, сборников.
Российская специфика определяет необходимость опережающего, можно даже сказать превентивного получения новых знаний. С учётом советских традиций обучения, оказывается целесообразным применять постоянно «настраивающуюся» схему обучения. Именно такие возможности открывает технология осмысленной обработки информации.

1 Александров С., Фадеев П. Многоконтекст-ная автоматическая обработка больших объёмов информации. Принципы, методы, исходные алгоритмы // [Электронный ресурс]. — Электрон. дан. — Минск: Интеллектуальный Партнёр, cop. 2001–2008. — Режим доступа: http://intelpart.com/index_cip.htm.
2 Гостев А. Бесплатные числа // Секрет фирмы. — 2007. — №14(197). — С. 53.
3 Nigma.ru [Электронный ресурс]. — Электрон. дан. — М.: МГУ им. Ломоносова, Stanford University, cop. 2005–2009. — Режим доступа: http:// www.nigma.ru/index.php?action=click_menu&menu_element=news.

С авторами можно связаться:
modestov-s@mail.ru
intelpart@tut.by

Тема номера

№ 9 (459)'24
Рубрики:
Рубрики:

Анонсы
Актуальные темы