Современные подходы статистического и стилистического анализа к обнаружению искусственно созданного текстового контента

Рецензии

Большие языковые модели (LLM) продвинулись настолько далеко, что даже людям трудно определить, был ли текст создан другим человеком или компьютером. Однако знание этого важно для определения его достоверности и имеет применение во многих областях, включая выявление мошенничества и академической недобросовестности, а также борьбу с распространением ложной информации и политической пропагандой. Таким образом, задача обнаружения текста, сгенерированного искусственным интеллектом (AIGT — AI-generated text), является одновременно очень сложной, и крайне важной.

Методы в целом делятся на три категории высокого уровня: нанесение водяных знаков, статистический и стилистический анализ, а также использование предварительно подготовленных языковых моделей для классификации. Каждая из этих категорий имеет свои сильные и слабые стороны. Как статистический, так и стилистический анализ работают на принципе извлечения признаков из сгенерированного текста. Статистические методы определяют, насколько вероятно каждое слово в последовательности (относительно некоторого распределения вероятностей). Стилистические методы фокусируются на лингвистических свойствах сгенерированного текста, таких как лексика, синтаксис и связность повествования.

Статистический анализ

Современные большие языковые модели (LLM) работают по принципу выборки следующего слова из изученного распределения вероятностей, обусловленного предыдущими словами в предложении (проще говоря – следующее слово определяется контекстом предыдущей связки слов). Методы статистического обнаружения пытаются распознать любые сигнатуры, оставшиеся после процесса выборки. Поскольку для такого подхода, как правило, требуется знание распределения вероятностей, большинство методов, то процесс можно отнести к категории методов «белого ящика», в котором предполагается, что у вас есть либо полный доступ ко всем весам модели генерации, либо, по крайней мере, к выходным значениям вероятности. Очевидно, что это возможно только в сценарии с известной моделью и более распространено для моделей с открытым доступом.

Кроме того, многие статистические методы обнаружения являются классификаторами по одному признаку, которые используют пороговое значение для разделения на классы. Например, сложные или редко используемые обороты речи, как правило, не применяются системами ИИ, в отличие от многих текстов, написанных людьми. Поэтому для статистического анализа нужно только выбрать пороговое значение сложности, чтобы классифицировать всё, что ниже него – будет большая вероятность, что оно сгенерировано искусственным интеллектом. Эта категория классификаторов обычно называется «нулевой», подразумевая, что данные для обработки не требуются. Вероятно, это связано с тем, что методы обычно оцениваются с использованием JavaScript, а это означает, что все пороговые значения включены в оценку, и авторам нет необходимости использовать обучающие данные, вводя их на сервер. Однако, чтобы использовать эти методы на практике, всё-таки необходимо выбрать пороговое значение. А это означает, что для калибровки порогового значения необходимы некоторые обучающие данные. Причём рекомендуется использовать новые данные калибровки, относящиеся к конкретной предметной области и модели. Обратите внимание, что свобода выбора порогового значения означает, что можно отдавать приоритет низкому уровню ложноположительных результатов, в отличие от обученных классификаторов, которые выдают предсказание класса без поддающегося интерпретации процесса принятия решений.

Наиболее тривиальной реализацией статистического классификатора является прямое измерение вероятности генерации некоторого наблюдаемого текста в соответствии с конкретной интересующей моделью. Для каждого слова в отрывке можно использовать языковую модель, чтобы ранжировать выбор слова, а также вычислить его вероятностное значение. Усреднение вероятности или ранга по токенам текстового фрагмента даёт интерпретируемую оценку текста, где более высокие вероятности и более низкие оценки указывают на присутствие искусственного интеллекта.

Энтропия текстового фрагмента также может быть вычислена на основе значений вероятности, чтобы дать представление об уверенности модели в выборе слова с учётом контекста. Во всех случаях эти показатели предназначены для того, чтобы определить, насколько вероятно, что текст был сгенерирован с помощью известной модели, и для классификации может быть установлено некоторое пороговое значение. Одним из преимуществ измерений на уровне слов является то, что они позволяют использовать интуитивно понятные инструменты визуализации, которые могут помочь людям понять и распознать искусственную природу образования текста. Ещё одно преимущество заключается в том, что они позволяют использовать гибкие скользящие средние значения по текстовому фрагменту (т.е. можно определить, как меняются показатели по документу или по объединению упорядоченных по времени публикаций в социальных сетях).

Хотя показатели на уровне слов по-разному оценивают значение функции вероятности языковой модели, также возможно кое-что узнать из структуры функции вероятности — любые небольшие изменения текста приведут к снижению значений вероятности. Но все эти методы предполагают, что есть доступ к модели и её экспериментальным результатам. Они не работают в применимости к настройкам неизвестной модели.

В экспериментах с перекрёстным обнаружением системы статистического анализа обеспечивают впечатляющие результаты для точного определения моделей поколения GPT2 в области новостей и подсказанных историй. Языковые модели, как правило, передают информацию более единообразно, чем люди, и поэтому предполагают разницу в вероятности слов на протяжении всего текста в качестве информативного признака для классификации. Для многих практических сценариев эти методы ограничены, поскольку невозможно получить доступ к значениям вероятности моделей с закрытым исходным кодом (например, GPT-4). В этом случае одним из способов определить, был ли текст сгенерирован по определённой модели, является простое генерирование текста и сравнение результирующей генерации с исходной. При такой настройке первая часть текста сохраняется в качестве входных данных для языковой модели, и не предполагается, что известно о фактическом правиле задания, которое было использовано в качестве входных данных.

Однако результаты сильно зависят от количества повторных попыток и коэффициента усечения (т.е. от того, сколько текста используется для сравнения на входе и на выходе), и поэтому для выбора гиперпараметра могут потребоваться некоторые данные для разработки, относящиеся к конкретной предметной области. Более конкретно, в отношении интерфейса команд в ChatGPT, предлагается метод регенерации, в котором ChatGPT генерирует запрос из исходного текста, а затем восстанавливает выходные данные. В отличие от методов обнаружения, основанных на языковых моделях, стратегии регенерации требуют лучшей генерализации для невидимых областей данных и новых языковых моделей, а также большей устойчивости к замене слов, повторному переводу и гибридным текстам человека и искусственного интеллекта. Эти методы наиболее подходят для произвольной или управляемой генерации (т.е. не слишком специфичных запросов) в режиме «чёрного ящика» (предполагается, что можно вводить подсказки в известную модель и наблюдать выходные данные, но при этом нет информации о внутренних весах или выходных вероятностях). Это запрещает использование любых алгоритмов, которые полагаются на эти значения вероятности для обнаружения, и неясно, будут ли они успешными при обнаружении управляемой генерации.

Другой способ использует внутреннюю размерность текстовых данных в качестве метода с одним признаком. Внутренняя размерность данных относится к минимальному числу переменных, необходимых для адекватного представления этих данных. Его можно рассматривать, как число независимых базовых переменных, которые являются причиной появления некоторых наблюдаемых фраз, когда они содержат одинаковый «шум» и записываются с использованием большего числа (неосознанно) коррелированных переменных. Методы уменьшения размерности, такие как анализ основных компонентов, направлены на извлечение истинного базового измерения.

Большие языковые модели представляют язык в виде плотных «слоёв», которые можно рассматривать как зашумленные данные с высокой размерностью. Тут возможно использовать плотные представления всех слов в предложении по отдельности, известных, как статические вложения, в качестве входного набора данных для уменьшения размерности. Методом оценки постоянной размерности соответствия было обнаружено, что текст, написанный человеком, имеет внутреннюю размерность от 9 до 10, а искусственный не поднимается в значении выше восьми. Это согласуется с тем фактом, что нейросети, как правило, придерживаются меньшего разнообразия языковых выражений по сравнению со всем пространством возможностей. Такое разделение справедливо для разных жанров и моделей разных поколений (в частности, GPT-2, GPT-3.5 и OPT-13B) и устойчиво к перефразированию шума. Таким образом, если наблюдаемое разделение справедливо для всех искусственных текстовых «произведений», независимо от генерирующего их искусственного интеллекта, то этот метод применим и для неизвестных LLM.

Использование сравнительного показателя между моделями более информативно, чем рассмотрение одного показателя, зависящего от конкретной системы ИИ. Преимущество этого направления исследований заключается в том, что оно расширяет возможности обнаружения новых языковых моделей, даже с закрытым исходным кодом.

Стилистический анализ

Другие методы обнаружения основаны на идее, что текст, созданный искусственно, обладает иными стилистическими или лингвистическими свойствами. Некоторые из исследований основаны на других областях лингвистической науки, таких как определение авторства (определение того, какой человек написал документ) и стилометрия в целом (автоматизированный анализ различных литературных стилей). Поскольку эти методы работают только на текстовом уровне, они подходят для сценария обнаружения в режиме «чёрного ящика». Однако некоторые стилистические свойства могут быть специфическими для конкретной нейросети или предметной области, с различной степенью обобщаемости для других моделей и предметных областей. Но всё равно, эти особенности различаются в текстах, созданных человеком и искусственным интеллектом. Если в методе декодирования приоритет отдаётся словам с наибольшей вероятностью, то результирующий текст, как правило, является беглым, но сильно повторяющимся, с низким лексическим разнообразием и отсутствием низкочастотных или необычных слов.

С другой стороны, если метод декодирования основан на выборке из более широкого распространения, результирующий текст может быть низкого качества и не обладать достаточной связностью. Классификация лингвистических особенностей на сегодняшний день, такова:

1) отсутствие синтаксического и лексического разнообразия;
2) повторяемость;
3) отсутствие согласованности в некоторых фрагментах, которых может быть немного;
4) отсутствие цели.

Есть ещё пятая расширенная категория функций общего назначения, включая количество символов, слов и предложений, распределение знаков препинания и показатели удобочитаемости. Слабое синтаксическое и лексическое разнообразие, наряду с универсальностью, являются наиболее отличительными признаками того, что текст «вышел из-под пера» компьютерной системы.

Стилистический анализ может также включать исследование общей дискурсивной структуры текста. То есть, являются ли факты, представленные в «произведении», последовательными и когерентными? В настоящее время даже новые LLM демонстрируют те же проблемы с согласованностью, что и более старые модели. Текст, написанный человеком, имеет тенденцию иногда последовательно ссылаться на ранее введённые объекты, даже с большими разделениями, в то время, как нейросеть стремится сгруппировать упоминания об одних и тех же объектах ближе друг к другу. Функция согласованности сущностей сначала извлекается в виде изученной графовой структуры, а затем используется в качестве входных данных для сравнительного изучения. Удивительно, но с помощью этой функции более старые системы сложнее обнаружить, чем новые.

Характерно, что для коротких текстов в социальных сетях в их наборе данных пунктуация и фразеология являются более информативными, чем признаки языкового разнообразия, для точной оценки которых могут потребоваться более длинные тексты. Новейшие методики обнаружения искусственности специально используют ожидаемые характеристики аутентичного журналистского текста, такие как соответствие руководству по стилю, структура статьи, избегание прошедшего времени или пассивной интонации, правильное использование знаков препинания и так далее. Добавление этих стилистических особенностей в классификатор распознавания повышает производительность во всех случаях, а также более устойчив в использовании перефразирования и кириллицы.

Также разрабатываются методы сравнения и сопоставления лингвистических закономерностей, наблюдаемых в текстах, созданных людьми. Лингвистический анализ показывает, что текст, сгенерированный искусственным интеллектом, имеет более ограниченный словарный запас, использует меньше прилагательных и больше цифр, содержит меньше слов, ассоциирующихся с негативными эмоциями, и имеет более высокую склонность к формальным местоимениям. Таким образом, развивая эту идею о специфичности предметной области, подразумевается, что текст, написанный человеком, имеет более высокое качество, использует более разнообразную лексику, сложный синтаксис и демонстрирует лучшую согласованность. Эти правила, скорее всего, справедливы для определённых областей (например, для новостных статей, написанных профессиональными журналистами).

Однако при обычном написании, например, в социальных сетях или в текстовых сообщениях, на самом деле может случиться так, что текст, сгенерированный искусственным интеллектом, может быть «слишком правильным». В обыденной жизни люди чаще, чем машины, используют мемы, идиомы и архаичный язык, различные варианты искажённого произношения слов, в дополнение к различным сокращениям. Порой искусственный текст может идентифицировать даже школьник (тем более современный), потому что тон и форма подачи у такого сообщения, как правило, «чрезмерно формальный», утверждения слишком объективны и не содержат каких-либо субъективных мнений. Кроме того, часто встречаются определённые фразы (такие как «стоит обратить внимание» или «пожалуйста, обратите внимание») там, где они вовсе необязательны. Длинные описательные тексты часто содержат списки с перечислениями, а также заканчиваются формальными заключительными предложениями. Таким образом, при использовании стилистических и лингвистических свойств важно учитывать ожидаемый уровень формальности и корректности письменной речи человека в данной предметной области.

admin
Оцените автора
Ruspisateli.ru
Добавить комментарий