Перейти к содержимому

Политики цензурирования

Раздел «Политики» предназначен для настройки правил безопасности, применяемых к входящим запросам пользователей (input) и ответам моделей (output). Здесь вы можете управлять встроенными политиками Guardrail, настраивать Custom политики на основе собственных промптов, а также контролировать пороги потребления токенов.

Подробнее о настройке лимитов по токенам см. в разделе Пороги токенов

Страница "Политики"

HiveTrace Guardrail — это встроенный набор защитных механизмов, поставляемый и поддерживаемый командой HiveTrace. Политики Guardrail имеют фиксированную конфигурацию и не подлежат изменению, что обеспечивает предсказуемый и проверенный уровень защиты.

В данном разделе вы можете включать или отключать применение Guardrail отдельно для:

  • входящих сообщений пользователей (input);
  • ответов моделей (output).

Guardrail обеспечивает защиту от широкого спектра угроз, включая prompt-инъекции, jailbreak-атаки и иные попытки манипулирования поведением моделей. Кроме того, механизмы фильтрации помогают выявлять и блокировать явно небезопасный или вредоносный контент, поступающий как со стороны пользователя, так и со стороны модели.

Этот раздел описывает, как настроить кастомную политику для тематической валидации запросов и ответов. Политика помогает боту отвечать только в заданном домене и блокировать оффтоп.

  • Политика проверяет текст на соответствие разрешенному списку тематик. Если тема не распознана как разрешенная, включается блокировка по принципу deny by default.
  • При срабатывании политика помечает событие флагом custom_flagged=true.
  • Политику можно включать:
    • на входе (проверка запроса пользователя до основной модели)
  • Политика оценивает тематическую релевантность. Она не заменяет проверку фактов или полноты ответа.

Промпт — это компактное описание разрешенного домена. Лучше всего работает список смысловых тем, а не набор отдельных вопросов.

  • Пишите темами, а не вопросами: эпохи, личности, войны, термины, хронология, подбор литературы, учебные задачи.
  • Держите список коротким: обычно 7–15 пунктов достаточно.
  • Используйте язык пользователей и их формулировки. Для чат-бота можно добавить 1–2 короткие диалоговые реплики.
  • После настройки обязательно прогоните реальные тесты и поправьте формулировки, если есть ложные срабатывания.

Пример промпта для домена «История»:

  • Исторические даты, годы, века и перевод форматов дат (до н.э. и н.э., BCE/CE).
  • Хронология и последовательность исторических событий.
  • Причины, ход и итоги войн, договоров, смен власти.
  • Исторические личности, государства, союзы и ключевые термины.
  • Короткие справки «что произошло в году X» и объяснение понятий в историческом контексте.
  1. Откройте нужное приложение в HiveTrace.
  2. Перейдите на вкладку «Политики».
  3. Нажмите создание или редактирование политики и выберите кастомную политику.
  4. Заполните поле «Название» (например: «История»).
  5. В поле «Промпт» вставьте список разрешенных тем (см. раздел 2).
  6. Включите переключатель «Ввод», если хотите фиксировать нерелевантные запросы до попадания в модель.
  7. Нажмите «Сохранить».

В правой части панели доступно окно тестирования — можно отправлять тестовые сообщения и сразу видеть результат проверки.

Окно редактирования кастомной политики и тестовые сообщения

  • Соберите несколько тестовых запросов: явно релевантные, явно нерелевантные и пограничные.
  • Проверьте, что релевантные запросы проходят, а нерелевантные блокируются.
  • Если релевантное блокируется — расширьте/переформулируйте список тем, чтобы покрыть нужные слова и контексты.
  • Если нерелевантное проходит — уточните формулировки тем: уберите слишком общие слова и добавьте более точные признаки домена.
  • Проверьте оба направления отдельно: если включен только «Вывод», нерелевантный запрос может пройти на вход, но ответ все равно будет заблокирован.

При срабатывании политика выставляет custom_flagged=true.

Кастомная политика — это классификатор релевантности: он проверяет, относится ли сообщение к списку разрешенных тем, заданных в политике. Если сообщение не подходит под эти темы, оно считается нерелевантным и может быть заблокировано или помечено при мониторинге.