STT (Speech-to-Text)
Pipeline 모드에서 사용할 수 있는 빌트인 STT Provider 목록입니다.
STT (Speech-to-Text)
Pipeline 모드에서 음성을 텍스트로 변환하는 빌트인 Provider입니다.
아래 제공자들은 모두 검증 전 상태입니다. 검증 상태는 제공자 호환성 문서에서 확인하세요.
DeepgramSTT
Deepgram Nova 기반 실시간 음성 인식입니다. WebSocket 스트리밍으로 동작하며, VAD(Voice Activity Detection)를 지원합니다.
from clawops.agent.pipeline import DeepgramSTT
stt = DeepgramSTT(
model="nova-3",
language="ko",
endpointing=300,
utterance_end_ms=1000,
)파라미터
| 파라미터 | 타입 | 기본값 | 설명 |
|---|---|---|---|
api_key | str | None | None | Deepgram API 키. 미지정 시 DEEPGRAM_API_KEY 환경변수 사용 |
model | str | "nova-3" | Deepgram 모델 |
language | str | "ko" | 인식 언어 코드 |
sample_rate | int | 16000 | 입력 오디오 샘플레이트 (Hz) |
encoding | str | "linear16" | 오디오 인코딩 포맷 |
punctuate | bool | True | 자동 구두점 삽입 |
interim_results | bool | True | 중간 인식 결과 반환. barge-in 감지에 사용 |
endpointing | int | 300 | 발화 종료 감지 임계값 (ms) |
utterance_end_ms | int | 1000 | 발화 종료 타임아웃 (ms) |