Библиотеки и архивы становятся «резервуаром» чистого знания

Основатель «Рувики» Владимир Медейко — о том, как защитить национальную систему знаний в эпоху «галлюцинирующего» искусственного интеллекта, кризисе «быстрых знаний», информационном суверенитете и гибридной модели верификации информации.
Владимир Медейко: Библиотеки и архивы становятся «резервуаром» чистого знания
Сейчас образовательный и ИТ-сектор стоят перед парадоксом: доступ к информации стал мгновенным, но доверие к ней упало до минимума. Нейросети склонны к «галлюцинациям» — они уверенно генерируют вымышленные даты, события и биографии. Проблема «деградации кода знаний» из-за ИИ — это не просто теоретический риск, а реальность, с которой уже столкнулись юриспруденция, наука и медиа.

Пожалуй, самый громкий случай, когда доверие к ИИ привело к профессиональному фиаско, произошел, когда адвокат Стивен Шварц использовал ChatGPT для подготовки судебного иска. Нейросеть выдумала шесть судебных решений с цитатами и номерами дел, которых никогда не существовало.
В академической среде возник феномен, когда исследователи включают в свои работы ссылки на статьи, сгенерированные ИИ. Эти статьи выглядят правдоподобно (есть названия журналов и имена реальных ученых), но самих публикаций не существует. Наука строится на принципе цитируемости. И когда ИИ генерирует галлюцинации в библиографии, это создает «информационный шум», который мешает молодым ученым отделять истину от вымысла, постепенно разрушая научную преемственность.
Даже такие гиганты, как Google, не избегают ошибок. Был зафиксирован случай, когда ИИ Google советовал добавлять клей в пиццу или утверждал, что некоторые ядовитые грибы съедобны. Это могло бы быть смешно, если бы не было опасно. Дело в том, что поисковые выдачи формируют общую базу знаний человечества, а закрепление ошибок ИИ в «цифровой памяти» приводит к тому, что будущие поколения будут обучаться на искаженных данных. И если общество начнет обучаться на этих ошибках, произойдет потеря смысла вещей и явлений.
По данным «Мегафона», россияне используют ИИ чаще всего для поиска информации (57,4%), редактирования текстов (27%) и обучения (20,1%). В мире растущего спроса на нейросети и ИИ-ассистентов людям становится критически важно находить информацию, которой можно доверять.
И это главная ценность таких сервисов, как «Рувики». Убежден, что будущее отраслевых стандартов за гибридной моделью верификации данных, в которой ИИ будет выступать как агрегатор информации, а финальным фильтром станут профильные ученые и ведущие эксперты. Технологии минимизируют риски устаревания или субъективности материалов, как это происходит в проектах с волонтерской организацией работы. При этом, делая технологии своим союзником, мы оставляем контроль за экспертами с подтвержденной репутацией.
У нас ИИ-сервисы становятся помощниками редакции в решении рутинных задач. Например, они анализируют ленты ведущих информационных агентств и автоматически вносят актуальные факты с автоматической валидацией в достоверных источниках. Или помогают создавать базы для статей, которые затем дорабатываются и рецензируются профильными специалистами.
Рецензированием занимаются ведущие эксперты (от Российской академии наук, Российской государственной библиотеки, Государственного архива РФ до ведущих музеев и экспертных площадок), и при этом мы даем возможность нашим читателям получать знания через уже привычный диалог с нейросетью. Думаю, что другие форматы энциклопедий постепенно будут уходить в прошлое: проекты, базирующиеся только на человеческом труде, будут проигрывать в скорости, а проекты исключительно на базе ИИ — терять в достоверности.
Гибридная модель верификации данных важна не только для обучения общества, но и для обучения самих нейросетей. Проблема «мусора на входе» (GIGO — Garbage In, Garbage Out) в эпоху LLM перерастает из технического несовершенства в угрозу суверенитету. Если нейросети обучаются на глобальном нефильтрованном вебе, они могут впитывать когнитивные и даже исторические искажения, заблуждения и стереотипы. Это также неизбежно приводит к деградации культурного и научного кода.
Как было показано в публикации в Nature в 2024 году, когда ИИ рекурсивно обучается на данных ИИ, высок риск вырождения модели. С другой стороны, использование синтетических данных позволяет ускорять и удешевлять обучение новых моделей. Таким образом, становится критически важным соблюдать баланс и снабжать ИИ новыми точными первичными знаниями. Государственные библиотеки, архивы и экспертные базы становятся «генетическим резервуаром» чистого человеческого знания, без которого ИИ-системы будущего рискуют превратиться в цифровое эхо друг друга, теряя точность и нюансы. Обучение на проверенных данных сокращает затраты на дообучение и модерацию ответов. Этой цели также может служить внедрение стандартов верификации на уровне интерфейсов (когда система подсвечивает сомнительные фрагменты текста или указывает индекс доверия к источнику), что позволит сохранить структуру научного кода. Это превращает потребление информации из пассивного принятия в активное исследование.
Образовательный сектор, в свою очередь, должен смещать акцент с «нахождения информации» (с этим ИИ справляется за секунды) на «критическую оценку её достоверности». Это должно стать базовым гражданским навыком, сопоставимым с умением читать и писать.