Политики цензурирования

Управление политиками

Раздел «Политики» предназначен для настройки правил безопасности, применяемых к входящим запросам пользователей (input) и ответам моделей (output). Здесь вы можете управлять встроенными политиками Guardrail, настраивать Custom политики на основе собственных промптов, а также контролировать пороги потребления токенов.

Подробнее о настройке лимитов по токенам см. в разделе Пороги токенов

Страница "Политики"

HiveTrace Guardrail

HiveTrace Guardrail — это встроенный набор защитных механизмов, поставляемый и поддерживаемый командой HiveTrace. Политики Guardrail имеют фиксированную конфигурацию и не подлежат изменению, что обеспечивает предсказуемый и проверенный уровень защиты.

В данном разделе вы можете включать или отключать применение Guardrail отдельно для:

входящих сообщений пользователей (input);
ответов моделей (output).

Guardrail обеспечивает защиту от широкого спектра угроз, включая prompt-инъекции, jailbreak-атаки и иные попытки манипулирования поведением моделей. Кроме того, механизмы фильтрации помогают выявлять и блокировать явно небезопасный или вредоносный контент, поступающий как со стороны пользователя, так и со стороны модели.

Настройка кастомной политики в HiveTrace

Этот раздел описывает, как настроить кастомную политику для тематической валидации запросов и ответов. Политика помогает боту отвечать только в заданном домене и блокировать оффтоп.

1) Что делает кастомная политика

Политика проверяет текст на соответствие разрешенному списку тематик. Если тема не распознана как разрешенная, включается блокировка по принципу deny by default.
При срабатывании политика помечает событие флагом custom_flagged=true.
Политику можно включать:
- на входе (проверка запроса пользователя до основной модели)
Политика оценивает тематическую релевантность. Она не заменяет проверку фактов или полноты ответа.

2) Как написать промпт для политики

Промпт — это компактное описание разрешенного домена. Лучше всего работает список смысловых тем, а не набор отдельных вопросов.

Пишите темами, а не вопросами: эпохи, личности, войны, термины, хронология, подбор литературы, учебные задачи.
Держите список коротким: обычно 7–15 пунктов достаточно.
Используйте язык пользователей и их формулировки. Для чат-бота можно добавить 1–2 короткие диалоговые реплики.
После настройки обязательно прогоните реальные тесты и поправьте формулировки, если есть ложные срабатывания.

Пример промпта для домена «История»:

Исторические даты, годы, века и перевод форматов дат (до н.э. и н.э., BCE/CE).
Хронология и последовательность исторических событий.
Причины, ход и итоги войн, договоров, смен власти.
Исторические личности, государства, союзы и ключевые термины.
Короткие справки «что произошло в году X» и объяснение понятий в историческом контексте.

3) Пошаговая настройка в интерфейсе HiveTrace

Откройте нужное приложение в HiveTrace.
Перейдите на вкладку «Политики».
Нажмите создание или редактирование политики и выберите кастомную политику.
Заполните поле «Название» (например: «История»).
В поле «Промпт» вставьте список разрешенных тем (см. раздел 2).
Включите переключатель «Ввод», если хотите фиксировать нерелевантные запросы до попадания в модель.
Нажмите «Сохранить».

В правой части панели доступно окно тестирования — можно отправлять тестовые сообщения и сразу видеть результат проверки.

Окно редактирования кастомной политики и тестовые сообщения

4) Тестирование и отладка

Соберите несколько тестовых запросов: явно релевантные, явно нерелевантные и пограничные.
Проверьте, что релевантные запросы проходят, а нерелевантные блокируются.
Если релевантное блокируется — расширьте/переформулируйте список тем, чтобы покрыть нужные слова и контексты.
Если нерелевантное проходит — уточните формулировки тем: уберите слишком общие слова и добавьте более точные признаки домена.
Проверьте оба направления отдельно: если включен только «Вывод», нерелевантный запрос может пройти на вход, но ответ все равно будет заблокирован.

5) Что происходит при срабатывании

При срабатывании политика выставляет custom_flagged=true.

6) Резюме

Кастомная политика — это классификатор релевантности: он проверяет, относится ли сообщение к списку разрешенных тем, заданных в политике. Если сообщение не подходит под эти темы, оно считается нерелевантным и может быть заблокировано или помечено при мониторинге.