Как связаны промпт-инжиниринг и галлюцинации нейросетей и при чём здесь библиотеки

Взаимодействие работников культуры с генеративными нейросетями, в том числе в ходе профессиональной деятельности, понемногу становится мейнстримом. Нейросети могут помочь создать публикацию для социальных сетей, картинку для презентаций, логотип для брендбука, озвучку для квиза и многое другое.
Наверняка библиотекарям как людям, работающим с текстами и информацией, было бы интересно взглянуть на процесс работы нейросетей в лингвистическом ракурсе и, возможно, более глубоко погрузиться в тему искусственного интеллекта.
Основа работы генеративных нейросетей — это оптимизация запросов или промптов, то есть промпт-инжиниринг. В широком смысле это целое направление искусственного интеллекта, а именно обработка естественного языка, техническое взаимодействие с большими языковыми моделями и, по сути, раздел компьютерной лингвистики.
Конечно, среднестатистический библиотекарь не занимается промпт-инжинирингом как техническим направлением, то есть разработкой и оптимизацией промптов для языковых моделей. Он не работает с кодом, не осуществляет настройку префиксов и т. п. Поэтому нам интересны аспекты промпт-инжиниринга, связанные не с программированием, а с текстом — точнее, с правильным составлением текстового запроса для нейросети. Это умение включает в себя грамотность, богатый словарный запас, логику и, наверное, некоторую гибкость мышления. В каком-то смысле, составляя промпт, мы должны попытаться поставить себя на место нейросети и догадаться, какие лексика и синтаксис ей будут понятны. Для человека, не занимающегося нейросетями профессионально, этот процесс состоит из долгого и упорного переписывания текста промпта в надежде получить от нейросети именно то изображение или контент, которые он хочет.

Известно, что чем больше мы взаимодействуем с нейросетью, тем лучше она начинает работать. «Скармливая» ей обучающие данные, основанные на естественном, живом языке, мы помогаем ей совершенствоваться. Таким образом происходит процесс машинного обучения. При этом из-за беспрецедентного количества ныне существующего в интернете-контента, созданного с помощью искусственного интеллекта, нередки ситуации, когда в роли обучающих данных выступают тексты или изображения нейросетевого авторства. В этих случаях работа ИИ-моделей начинает ухудшаться. Такую закономерность обнаружили учёные-исследователи из университета Райса и Стэнфордского университета. Назвали они это цифровое заболевание Model Autophagy Disorder, или расстройство аутофагии ИИ-модели. Контент, который выдаёт нейросеть в ответ на обучающие данные, созданные другой нейросетью, деградирует с каждым новым витком работы. Изображения становятся расплывчатыми и похожими друг на друга, начинают обрастать «шрамами», дефектами, похожими на сетку. Учёные предполагают, что так же себя поведут и текстовые ИИ-модели, то есть сгенерированный ими текст будет все более некачественным и обобщенным. Поэтому обучающие данные должны быть свежими и состоять из живой речи, а это значит, что работы у промпт-инженеров в ближайшее время не убавится.

Анна Григорьевна Чащухина, ведущий библиотекарь организационно-методического отдела ОЮБ им. И. П. Уткина, г. Иркутск