API Reference

Batch Transcription Endpoint

Full reference for POST /v1/audio/transcriptions.

Request — multipart/form-data

Field	Required	Type	Description
model	Yes	string	Model name. Options: zero-indic, zero-med, zero-codeswitch, zero-universal.
file	one of	binary	Audio or video file upload.
url	one of	string	Public audio/video URL.
language_code	No	string	ISO code or name. Default: auto.
response_format	No	string	Response format. Default: verbose_json.
enable_denoising	No	bool	Enable audio denoising before transcription. Default: false.
use_vad_chunking	No	bool	Split at speech pauses. Default: true.
chunk_size	No	int	Fixed chunk seconds (VAD off). Default: 30.
output_script	No	string	Transliterate output script. Default: auto.
word_timestamps	No	bool	Per-word timestamps + alignment score.
enable_diarization	No	bool	Speaker diarization.
enable_speaker_identification	No	bool	Map speakers to registered names.
project	No	string	Speaker library namespace + analytics tag.
enable_emotion_diarization	No	bool	Per-segment emotion detection.
enable_intent_detection	No	bool	Intent classification (Gemini).
intent_choices	No	JSON arr	Constrain intent to specific labels.
enable_summarization	No	bool	Transcript summarization (Gemini).
summary_max_length	No	int	Max summary word count. Default: 150.
enable_sentiment_analysis	No	bool	Sentiment analysis (Gemini).
output_language	No	string	Translate to this language (Gemini).
enable_keyterm_normalization	No	bool	Keyterm normalisation (Gemini).
keyterm_keywords	No	JSON arr	Terms to focus normalisation on.
enable_profanity_hashing	No	bool	Mask profanity with **** (Gemini).
hash_keywords	No	JSON arr	Mask specific words with **** (regex).

Status	Meaning	Description
401	authentication_error	Missing or invalid API key.
403	permission_denied	Insufficient permissions.
422	transcription_error	Invalid audio or config parameters.
429	rate_limit_exceeded	Too many requests. Back off and retry.
5xx	server_error	Transient server error. Safe to retry.