ClawOps Docs

직접 만들기

VoiceML 과 Stream 으로 IVR·분기·녹음 등 통화 흐름을 직접 제어. 고수준 Voice Agent SDK 와의 선택 기준 포함.

직접 만들기 (VoiceML)

ClawOps 에서 통화를 처리하는 두 가지 방식 중 서버가 통화 흐름을 직접 제어 하는 경로입니다. 공인 HTTPS 엔드포인트를 두고, 통화가 들어오면 ClawOps 가 보내는 webhook 에 VoiceML(XML) 로 응답합니다.

VoiceML 과 Stream 은 현재 전체 검증 전 상태입니다. 모든 동사·요청/응답 형식·Stream 프로토콜이 문서대로 동작하는지에 대한 정식 검증이 완료되지 않았으며, 운영 적용 전에 자체 테스트가 필요합니다.

ClawOps 의 또 다른 경로인 Voice Agent 는 SDK 가 ClawOps 서버에 WebSocket 으로 역접속하여 AI 통화 봇을 만드는 방식입니다. 두 경로는 서로 배타적이지 않으며, 같은 계정에서 번호별로 선택해 쓸 수 있습니다.

Voice Agent vs VoiceML

비교 항목Voice Agent (SDK)VoiceML (직접 만들기)
구현 언어Python / Node.js (공식 SDK)언어 무관 (HTTP/XML 응답 가능한 모든 서버)
인프라SDK 가 ClawOps 서버에 WS 역접속 (공인 엔드포인트 불필요)공인 HTTPS 엔드포인트 필요
AI 통합STT / LLM / TTS 빌트인 — OpenAI Realtime / Gemini Realtime / Pipeline자체 AI 없음. 필요 시 <Connect><Stream> 으로 외부 AI 서버 연결
통화 제어빌트인 도구 4종 + Python/Node 함수 등록 (@agent.tool)XML 동사 8종 (<Say> <Play> <Gather> <Record> <Dial> <Connect> <Hangup> <Redirect>)
TwiML 호환✓ (기존 TwiML 코드를 최소 수정으로 이전 가능)
부가 기능자동 녹음, MCP 서버 연동, OpenTelemetry 트레이싱<Record> 동사로 녹음. 그 외는 직접 구현
검증 상태OpenAI Realtime 만 검증 완료 (Gemini/Pipeline 검증 전)전체 검증 전 (모든 동사/Stream 포함)

어떤 걸 골라야 하나

  • AI 음성 봇이 목적이고 빠르게 만들고 싶다Voice Agent 공인 엔드포인트, XML 작성, 시그널/미디어 채널 분리를 SDK 가 다 처리합니다.
  • IVR / 분기 / 녹음 / 다른 번호로 전달 등 통화 흐름 자체를 제어해야 한다 → VoiceML AI 가 필요 없거나, AI 를 부분적 으로만 쓰고 나머지는 룰 기반으로 처리하고 싶을 때 적합합니다.
  • 기존 TwiML 코드를 옮긴다 → VoiceML 본 문서 VoiceML 의 차이점만 확인하면 대부분 그대로 동작합니다.
  • 둘이 필요하다 → 동시 사용 가능 번호별로 한쪽을 골라 쓰면 됩니다. VoiceML 흐름 안에서 <Connect><Stream> 으로 외부 AI(자체 호스팅 모델 포함)를 끼워 넣을 수도 있습니다.

이 그룹 페이지

  • VoiceML — XML 동사 레퍼런스, 요청/응답 형식, 서명 검증
  • Stream<Connect><Stream> WebSocket 프로토콜, 메시지 형식, 오디오 사양