직접 만들기

VoiceML 과 Stream 으로 IVR·분기·녹음 등 통화 흐름을 직접 제어. 고수준 Voice Agent SDK 와의 선택 기준 포함.

직접 만들기 (VoiceML)

ClawOps 에서 통화를 처리하는 두 가지 방식 중 서버가 통화 흐름을 직접 제어 하는 경로입니다. 공인 HTTPS 엔드포인트를 두고, 통화가 들어오면 ClawOps 가 보내는 webhook 에 VoiceML(XML) 로 응답합니다.

VoiceML 과 Stream 은 현재 전체 검증 전 상태입니다. 모든 동사·요청/응답 형식·Stream 프로토콜이 문서대로 동작하는지에 대한 정식 검증이 완료되지 않았으며, 운영 적용 전에 자체 테스트가 필요합니다.

ClawOps 의 또 다른 경로인 Voice Agent 는 SDK 가 ClawOps 서버에 WebSocket 으로 역접속하여 AI 통화 봇을 만드는 방식입니다. 두 경로는 서로 배타적이지 않으며, 같은 계정에서 번호별로 선택해 쓸 수 있습니다.

비교 항목	Voice Agent (SDK)	VoiceML (직접 만들기)
구현 언어	Python / Node.js (공식 SDK)	언어 무관 (HTTP/XML 응답 가능한 모든 서버)
인프라	SDK 가 ClawOps 서버에 WS 역접속 (공인 엔드포인트 불필요)	공인 HTTPS 엔드포인트 필요
AI 통합	STT / LLM / TTS 빌트인 — OpenAI Realtime / Gemini Realtime / Pipeline	자체 AI 없음. 필요 시 `<Connect><Stream>` 으로 외부 AI 서버 연결
통화 제어	빌트인 도구 4종 + Python/Node 함수 등록 (`@agent.tool`)	XML 동사 8종 (`<Say>` `<Play>` `<Gather>` `<Record>` `<Dial>` `<Connect>` `<Hangup>` `<Redirect>`)
TwiML 호환	—	✓ (기존 TwiML 코드를 최소 수정으로 이전 가능)
부가 기능	자동 녹음, MCP 서버 연동, OpenTelemetry 트레이싱	`<Record>` 동사로 녹음. 그 외는 직접 구현
검증 상태	OpenAI Realtime 만 검증 완료 (Gemini/Pipeline 검증 전)	전체 검증 전 (모든 동사/Stream 포함)

AI 음성 봇이 목적이고 빠르게 만들고 싶다 → Voice Agent 공인 엔드포인트, XML 작성, 시그널/미디어 채널 분리를 SDK 가 다 처리합니다.
IVR / 분기 / 녹음 / 다른 번호로 전달 등 통화 흐름 자체를 제어해야 한다 → VoiceML AI 가 필요 없거나, AI 를 부분적 으로만 쓰고 나머지는 룰 기반으로 처리하고 싶을 때 적합합니다.
기존 TwiML 코드를 옮긴다 → VoiceML 본 문서 VoiceML 의 차이점만 확인하면 대부분 그대로 동작합니다.
둘이 필요하다 → 동시 사용 가능 번호별로 한쪽을 골라 쓰면 됩니다. VoiceML 흐름 안에서 <Connect><Stream> 으로 외부 AI(자체 호스팅 모델 포함)를 끼워 넣을 수도 있습니다.