Типы данных для обучения
Caila поддерживает ряд типов данных, на которых можно обучать и тестировать обучаемые сервисы.
| Тип датасета | Используется в сервисах | Пример файла |
|---|---|---|
csv/faq | Классификаторы, FAQ | Скачать |
csv/texts-and-labels | Классификаторы | Скачать |
json/any | Любые | — |
json/caila-intents | Классификаторы, FAQ | Скачать |
json/faq | Классификаторы, FAQ | Скачать |
json/lines | Сервис дообучения LLM | Скачать |
json/texts-and-labels | Классификаторы | Скачать |
json/texts | CDQA, loadtest | Скачать |
json/transformer-fit | Классификаторы | — |
plain/texts | CDQA, loadtest | Скачать |
xlsx/faq | Классификаторы, FAQ | Скачать |
json/tts-dictionary | aimyvoice-custom | Скачать |
В названиях типов вначале указан формат данных, например json или csv; после слеша — тип содержимого датасета.
Форматы данных
| Формат | Описание | Расширение |
|---|---|---|
plain | Пр остой текст без определенного формата. | Обычно TXT |
json | Текстовый формат, который хранит простые структуры данных и ассоциативные массивы (объекты). | JSON |
csv | Текстовый формат, где каждое значение отделено запятой или другим разделителем. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | CSV |
xlsx | Формат используется в программах для электронных таблиц, например Microsoft Excel. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | XLS, XLSX |
Типы содержимого датасетов
| Тип | Описание |
|---|---|
any | Файл произвольного формата. Используйте этот тип, если встроенные типы для вас не подходят. Сервис должен самостоятельно проверять, что содержимое датасета корректно. |
caila‑intents | Файл с интентами, экспортированными из проекта JAICP. Подробнее об экспорте интентов и структуре данных читайте в документации JAICP. |
faq | Файл с вопросами и ответами, а также дополнительными полями. Предназначен для обучения сервиса FAQ, который используется в JAICP. Подробнее о возможных полях читайте в документации JAICP. |
lines | Файл, в котором каждая строка — объект в формате JSON. |
texts | Файл, в котором каждая строка — простой текст без определенного формата. |
texts‑and‑labels | Файл с текстами и соответствующими им метками. |
transformer‑fit | Файл внутреннего технического формата. |
tts-dictionary | Файл, в котором каждый текст соответствует ожидаемому произношению. Используется для настройки синтеза речи в Aimyvoice. |