Як налаштувати фрагментацію в базі знань FastLinePro?
Фрагментація (chunking) — це процес розбиття документа на фрагменти (чанки) для пошуку. Правильне налаштування фрагментації забезпечує кращу точність пошуку та ефективність використання токенів.
Коли знадобиться
- Потрібно налаштувати параметри обробки файлу після завантаження в базу знань.
- Треба оптимізувати пошук інформації в базі знань.
- Потрібно налаштувати баланс між точністю пошуку та витратами на токени.
Що важливо знати
- Ідентифікатор сегмента — роздільник, який використовується у файлі для розділення тем (наприклад,
---або!--). - Hybrid пошук — покращений режим пошуку, який поєднує векторний та повнотекстовий аналіз для підвищення точності.
- Top K — параметр, що визначає кількість чанків, які AI-агент враховує під час формулювання відповіді.
- Чим більше Top K, тим більше шанс знайти відповідь, але тим більше токенів буде використано.
Перед початком
Ви увійшли в систему з правами інтегратора або адміністратора. Ви перейшли в модуль FastLineProчерез менюДодатки -> FastLinePro.Ви завантажили файл в базу знань та перейшли до налаштування фрагментації.
Покрокова інструкція
- У модулі
FastLineProперейдіть до розділу "База знань". - Виберіть базу знань, для якої потрібно налаштувати фрагментацію, або створіть нову.
- Після завантаження файлу відкриється екран налаштування фрагментації.
- У полі "Ідентифікатор сегмента" вкажіть роздільник, який використовується у вашому файлі:
- Найчастіше використовується
---(три дефіси) - Можна використовувати інші роздільники, наприклад
!--або*** - Роздільник має точно відповідати тому, що використано у файлі
- Найчастіше використовується
- Увімкніть опцію "Hybrid пошук" (рекомендується залишати увімкненим):
- Hybrid пошук поєднує векторний та повнотекстовий аналіз
- Підвищує точність пошуку релевантної інформації
- Рекомендується залишати увімкненим для кращих результатів
- У полі "Top K" вкажіть кількість чанків, які AI-агент враховує під час формулювання відповіді:
- Рекомендоване значення: 2–3
- Чим більше значення, тим більше шанс знайти відповідь
- Чим більше значення, тим більше токенів буде використано
- Для простих запитань достатньо 2, для складних — 3–4
- Натисніть кнопку "Далі" або "Зберегти" для збереження налаштувань.
Рекомендації з налаштування
Ідентифікатор сегмента
- Використовуйте
---як стандартний роздільник для найкращої сумісності. - Переконайтеся, що роздільник точно відповідає тому, що використано у файлі.
- Якщо у файлі немає роздільників, система автоматично розбиє документ на фрагменти.
Hybrid пошук
- Рекомендується: завжди увімкнено
- Поєднує переваги векторного та повнотекстового пошуку
- Забезпечує кращу точність пошуку релевантної інформації
Top K
- Для простих запитань: 2
- Для складних запитань: 3–4
- Для дуже складних запитань: 4–5 (збільшує витрати на токени)
Що відбувається після
Після збереження налаштувань система обробить файл, розбивши його на чанки згідно з вказаними параметрами. AI-агент зможе використовувати ці чанки для пошуку релевантної інформації та формулювання відповідей.
Як переконатися, що все вдалось
- Перевірте, що ідентифікатор сегмента відповідає роздільнику у файлі.
- Переконайтеся, що Hybrid пошук увімкнено (рекомендовано).
- Перевірте, що Top K встановлено в розумних межах (2–3).
- Протестуйте пошук, щоб переконатися, що фрагментація працює коректно.