Як налаштувати чеклист AI QA для якісної оцінки діалогів
Чеклист для AI-оцінки діалогів — це набір критеріїв, за якими система автоматично перевіряє якість обслуговування. Якщо критерії сформульовані нечітко або дублюють один одного, AI дає неточні оцінки, і QA-спеціалістам доводиться часто корегувати результати. Ця сторінка пояснює принципи формулювання критеріїв, щоб AI стабільно і коректно оцінював діалоги.
Короткий зміст
- Контекст і проблема
- Основні концепції
- Структура критерію: опис і інструкція перевірки
- Розмір чеклисту та групування
- Критичність та ваги
- Прийняті принципи
- Практичні рекомендації для інтегратора
- Пов'язані документи
Контекст і проблема
AI-оцінка діалогів працює за чеклистом: кожен критерій перевіряється окремо, і на основі результатів формується загальний бал. Якщо критерії:
- описані загальними фразами без конкретики;
- дублюють один одного;
- не пояснюють, де і як перевіряти;
- зібрані в один надто великий чеклист;
то AI часто помиляється, і QA-спеціалісти витрачають час на корекції замість аналізу.
Типові сценарії:
- Інтегратор налаштовує чеклист для нового клієнта на основі їхніх стандартів якості.
- Клієнт передає критерії в CSV, Excel або текстовому вигляді — потрібно їх структурувати.
- Після запуску AI-оцінок виявляється багато помилок — потрібно зрозуміти, як покращити критерії.
Основні концепції
Що таке критерій
Критерій — це окрема перевірка якості діалогу. Наприклад: «Привітання та персоналізація», «Вирішення питання клієнта», «Дотримання процедур ідентифікації».
Кожен критерій має:
- Назву — коротко, що саме перевіряється.
- Опис — що саме вважається помилкою, а що правильною поведінкою.
- Інструкцію перевірки — конкретні кроки: де дивитися, що порівнювати, як перевіряти.
Модель оцінки: тільки віднімання балів
Система використовує дедуктивну модель: початковий бал — 100, за кожну виявлену помилку бали знімаються. Додаткові бали за «хорошу роботу» не нараховуються.
Наслідок: Усі критерії мають бути сформульовані як перевірки на відсутність помилок, а не на «наявність плюсів».
Структура критерію: опис і інструкція перевірки
Найважливіше правило: опис і інструкція перевірки виконують різні ролі і не повинні дублювати один одного.
Опис (description)
Призначення: Пояснити, що саме перевіряється і які помилки можливі.
Що включати:
- Що охоплює критерій.
- Які ситуації вважаються помилкою.
- Яка поведінка вважається правильною.
- Приклади, винятки, умови (якщо є).
Приклад:
Оператор має привітати клієнта та персоналізувати звернення: принаймні один раз на день спілкування привітати клієнта, назвати своє ім'я, звертатися до користувача по імені без помилок. Якщо ім'я неоднозначне (Алекс, Саша, Женя, Гоша), відсутність звернення по імені до моменту прояснення не вважається помилкою.
Інструкція перевірки (check_instruction)
Призначення: Пояснити, як саме перевіряти критерій — де шукати інформацію і які дії виконати.
Що включати:
- Де шукати (діалог, профіль клієнта, тікет).
- Що порівнювати з вимогами.
- Конкретні кроки перевірки (крок 1, крок 2 тощо).
- Винятки, якщо вони впливають на спосіб перевірки.
Що не включати:
- Повторення списку помилок з опису.
- Повторення прикладів з опису.
- Загальні фрази на кшталт «Перевірити відповідність».
Приклад інструкції перевірки:
- Відкрити транскрипт діалогу. 2. Знайти перше повідомлення оператора на день спілкування. 3. Перевірити наявність привітання, назви оператора та звернення до клієнта по імені. 4. Якщо ім'я неоднозначне — перевірити, чи було прояснення до моменту звернення по імені.
Чому важливо не дублювати
Якщо інструкція перевірки повторює опис, AI отримує однакову інформацію двічі і може неправильно інтерпретувати, що саме робити. Інструкція має давати методологію перевірки, а опис — зміст і контекст.
Розмір чеклисту та групування
Оптимальна кількість критеріїв
- 8–15 критеріїв — оптимально: достатньо деталізації, але без перевантаження.
- До 20 критеріїв — максимально допустимо в одному чеклисті.
- Понад 20 — варто розбити на кілька чеклистів.
Коли об'єднувати критерії
Об'єднуйте критерії, якщо:
- Назви дуже схожі (наприклад, «Привітання» і «Привітання оператора»).
- Опису перетинаються більш ніж на 60%.
- Критерії належать до однієї логічної категорії і перевіряють одне й те саме.
Приклад об'єднання: «Привітання» + «Персоналізація звернення» → «Привітання та персоналізація звернення» (якщо вони завжди перевіряються разом).
Коли розбивати на кілька чеклистів
Розбивайте, якщо критерії логічно групуються за категоріями:
- Стилістика: граматика, привітання, тон, стиль спілкування.
- Коректність контенту: відповідність скрипту, процедурам, точність інформації.
- Процес: таймінг, ідентифікація, технічні процедури.
Кожен чеклист можна використовувати окремо для різних типів звернень або етапів перевірки.
Критичність та ваги
Критичні критерії
Критичний критерій — порушення якого автоматично призводить до незадовільної оцінки, незалежно від інших балів.
Позначайте критерій як критичний, якщо:
- У назві або описі явно вказано «критична помилка», «блокуюча помилка» тощо.
- Це процедури ідентифікації, безпеки або обов'язкові регуляторні вимоги.
- Клієнт чітко визначив це як блокуючу умову.
Для критичних критеріїв вага не використовується (встановлюється 0).
Ваги некритичних критеріїв
Для некритичних критеріїв сума ваг має дорівнювати 100. Вага показує відносну важливість критерію:
- Більша вага — більший вплив на фінальний бал при порушенні.
- Менша вага — менший вплив.
Приклад: Якщо є 10 некритичних критеріїв з однаковою важливістю, кожен отримує вагу 10. Якщо «Вирішення питання» важливіше за «Привітання», можна задати, наприклад, 15 і 5.
Прийняті принципи
Мова клієнта — усі тексти критеріїв (назва, опис, інструкція перевірки) пишуться мовою клієнта (українська, російська тощо).
Тільки негативна оцінка — критерії перевіряють відсутність помилок; додаткові бали за «плюси» не нараховуються.
Інструкція важливіша за опис — для AI ключова інструкція перевірки: вона визначає, як саме перевіряти. Опис дає контекст і приклади.
Без дублювання — опис і інструкція перевірки не повторюють один одного.
Конкретні кроки — інструкція містить дієслова: перевірити, знайти, порівняти, переконатися, вказати.
Практичні рекомендації для інтегратора
Перед створенням чеклисту
- Отримайте від клієнта критерії в будь-якому форматі (CSV, Excel, текст).
- Перевірте кількість критеріїв: якщо більше 20 — заплануйте розбиття на кілька чеклистів.
- Визначте критичні критерії за назвами та описом клієнта.
При формулюванні кожного критерію
Опис: Збережіть усі деталі з джерела клієнта — приклади, винятки, умови. Не спрощуйте і не видаляйте важливі нюанси.
Інструкція перевірки: Напишіть окремо, як перевіряти:
- де шукати (діалог, профіль, тікет);
- що порівнювати;
- які кроки виконати.
Перевірка на дублювання: Переконайтеся, що інструкція не повторює опис. Якщо більше половини тексту збігається — переформулюйте інструкцію, зосередившись на методології перевірки.
Після налаштування
- Запустіть кілька тестових AI-оцінок на реальних діалогах.
- Перегляньте результати: якщо AI часто помиляється по одному критерію — уточніть інструкцію перевірки.
- Якщо QA-спеціалісти часто коректують одні й ті самі критерії — перегляньте формулювання.
Типові помилки
| Помилка | Проблема | Рішення |
|---|---|---|
| Інструкція повторює опис | AI не розуміє, що саме робити | Написати інструкцію як окремі кроки перевірки |
| Занадто загальна інструкція («Перевірити привітання») | AI інтерпретує по-різному | Додати: де шукати, що перевіряти, у якому порядку |
| Один великий чеклист (25+ критеріїв) | Перевантаження, гірша точність | Розбити на 2–3 чеклисти за логічними групами |
| Критичність не позначена | Критичні помилки не блокують оцінку | Позначити критерії з «критичними» у назві/описі |
| Сума ваг ≠ 100 | Некоректний розрахунок балу | Перерахувати ваги так, щоб сума дорівнювала 100 |
Пов'язані документи
- Створити оцінку — як створити оцінку та обрати чеклист
- Корегувати AI-оцінки — як виправляти помилки AI після оцінки
- Використати чеклист — як проводити перевірку за чеклистом