AI News Watcher
Saturday, Apr 25, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Apr 25, 2026 · 2 min read · AssemblyAI ← Back to feed

PII Redaction: два транскрипта в одном запросе — удобно для UI, но не без подвоха daily

Соблюдение конфиденциальности данных и обеспечение полноты информации часто идут рука об руку с компромиссами. Например, когда PII Redaction скрывает персональные данные в транскриптах, это хорошо для безопасности, но может усложнить внутренние процессы, где важен полный контекст. AssemblyAI предлагает решение, позволяя инженерам получать обе версии — отредактированную и исходную — в одном API-запросе, что упрощает работу, но требует четкого понимания, когда и как это использовать.

Hero illustration: PII Redaction: два транскрипта в одном запросе — удобно для UI, но не без подвоха.

Редакция · Daily briefing

Стоит читать если: вы работаете с транскриптами, требующими как удаления PII для безопасности, так и сохранения оригинального текста для анализа или отображения. Можно пропустить если: ваша задача — исключительно полная очистка от PII без необходимости хранить или показывать оригиналы.

PII Redaction: две версии транскрипта в одном запросе

AssemblyAI упрощает работу с PII Redaction, позволяя получать отредактированный и неотредактированный транскрипты в одном API-вызове. Ранее для таких сценариев часто требовалось выполнение двух отдельных запросов или реализация обходных путей.

Как получить обе версии. Для активации этой возможности необходимо установить флаг redact_pii_return_unredacted в true в теле запроса POST /v2/transcript.

Новые поля в ответе. В ответе API появятся новые поля верхнего уровня: unredacted_text, unredacted_words и unredacted_utterances. Они содержат исходные данные с PII.

Сохранение отредактированных полей. Важно отметить, что существующие поля text, words и utterances останутся полностью отредактированными. Новые поля являются чисто аддитивными и добавляются к ответу, не заменяя собой старые. Структура данных массивов unredacted_word и unredacted_utterance полностью соответствует форме их отредактированных аналогов, что облегчает последующую программную обработку.

Сценарии использования. Эта функция оптимизирует рабочие процессы, где нужны обе версии транскрипта. Например, это могут быть пользовательские интерфейсы, позволяющие переключаться между отредактированным и исходным видом транскрипта. Другой сценарий — создание двойных конвейеров, которые одновременно обеспечивают соответствие требованиям регуляторов (используя отредактированную версию) и сохраняют оригиналы для внутреннего анализа или других целей.

Важные ограничения. Для работы redact_pii_return_unredacted: true обязательно должен быть установлен redact_pii: true. Если redact_pii: true отсутствует, API вернет ошибку HTTP 400. По умолчанию флаг redact_pii_return_unredacted имеет значение false.

Совместимость. Новая функциональность интегрируется со всеми существующими параметрами PII, включая redact_pii_policies, redact_pii_sub и redact_pii_audio. Поддерживается для предзаписанной транскрипции с использованием SDK для Python и JavaScript.

Что это значит

Снижение сложности инфраструктуры. Эта новая опция снижает сложность для инженеров, которым ранее приходилось выполнять два отдельных запроса (один для PII-редакции, один для полного транскрипта) или использовать обходные пути. Теперь все нужные данные доступны в одном API-ответе, что упрощает логику обработки и потенциально снижает задержки и затраты на инференс, особенно в сценариях с высокими нагрузками.

Changelog

Источники

  1. https://www.assemblyai.com/changelog docs