본문 바로가기
AI 이야기

음성인식 API 비토 스피치(VITO Speech)

by VITO_AI 2022. 8. 18.

리턴제로는 2022년 6월 30일, 비토의 음성인식 문자변환(STT) 기능을 오픈 API로 제공하는 '비토 스피치(VITO Speech)'와 함께 개발자 웹사이트(VITO Developer) 베타 버전을 출시 했습니다. 그래서 오늘은 비토 스피치를 만들게 된 배경과 비토 스피치가 지니고 있는 가치에 대해 이야기 하려고 합니다. 

 

 

 

비토 스피치(VITO Speech)는 어떻게 시작되었을까?

비토 스피치(VITO Speech)는 ‘비토(VITO)’에서 사용된 ‘음성인식 기술’을 어떻게 하면 더 많은 사람들이 경험 할 수 있을까 하는 생각에서 시작되었습니다. 비토를 위해 만든 좋은 STT기술을 사내에서만 사용할 수도 있겠지만 더 많은 개발자와 기업들이 정확한 성능을 제공하는 STT API를 보다 쉽게 사용할 수 있도록 만드는 것도 의미 있는 일이라고 생각했기 때문입니다. 특히 현재 시장에는 한국어 STT API 중에서 성능이 좋고 비용 부담도 없는 제품이 없다고 판단했습니다. 그래서 더 많은 개발자들과 기업들이 비토의 수준 높은 AI 음성인식 모델을 활용할 수 있도록 음성인식 API '비토 스피치(VITO Speech)'의 개발을 시작하게 되었습니다.

 

 

 

 

VITO Speech의 가치

 

비토 스피치(VITO Speech)는 비토 개발자 사이트(https://developers.vito.ai/)에 가입만 하면 월 1,000시간을 무료로 사용 할 수 있습니다. 경쟁사 G사는 월 1시간, N사는 월 20분 무료 사용인 것을 생각해 보면 초기 비용 걱정 없이 사용해 보기에 충분한 시간이라고 할 수 있습니다. 그러니 많은 연구자들과 기업들이 정확한 성능의 한국어 STT API를 초기 비용 걱정 없이 사용해 볼 수 있는 좋은 기회입니다. 

 

게다가 비토 스피치는 업계 최고의 성능을 보장하고 있으며, 그 중에서도 8K 전화 데이터에 최적화되어 있고, AICC, 세일즈콜, 앱내 통화에 특화된 성능을 제공하고 있습니다. 이것은 대본을 읽어서 만든 공개 데이터나 공개된 방송 등의 오디오가 아닌 VITO를 통해 사람이 일상에서 나누는 대화를 기반으로 학습한 인공지능이기 때문에 가능한 일입니다.

 

리턴제로의 기술력에 대해 좀 더 이야기해 보자면, 비토에 탑재된 소머즈 엔진은 방대한 양의 음성 데이터와 업계 최고의 기술력으로 국내에서 가장 정확한 수준의 통화 음성 인식률을 가지고 있습니다. 그리고 비토 서비스 특성상 한국어 특유의 구어체, 자유 발화, 소음 등 환경에 노출되어 있는 통화 음성 인식에 있어서도 특화되어 있습니다.

 

 

 

 

 

VITO Speech가 가진 주요 STT 기능

1) 화자 분리 기술 (https://developers.vito.ai/docs/stt-file/dialization)

VITO를 통해 학습한 인공지능 기술을 가지고 전화 데이터와 같은 2명의 화자가 대화를 나누는 음성 데이터의 화자를 분리 하는 기술을 제공하고 있습니다. 이를 통하여 화자의 대화를 분리하여 개발자 또는 고객사들의 서비스에 적용 가능합니다.

 

2) 다중 채널 지원 (https://developers.vito.ai/docs/stt-file/multi-channel)

화자분리 뿐만 아니라 2개 이상 채널이 포함된 오디오 파일들도 채널 별로 나누어 텍스트로 변환할 수 있는 기능을 제공하고 있습니다.

 

3) 실시간 STT 제공 (https://developers.vito.ai/docs/stt-streaming/)

비토 스피치는 파일을 텍스트로 변환 하는 STTP API 뿐 아니라 스트리밍 형태의 실시간 STT API 기능도 제공하고 있습니다. 스트리밍을 위해 GRPC, WebSocket 두 가지 방식을 지원하고 있으며 LINEAR16, WAV, FLAC, MULAW, ALAW, AMR, AMR_WB, OGG_OPUS, OPUS 등의 오디오 코덱을 지원하고 있습니다.

 

실시간 STT 기능은 개발자 사이트(https://developers.vito.ai/)의 ‘VITO Speech 성능 테스트’ 를 통해 직접 테스트 해 볼 수 있습니다.

 

 

 

 

 

4) 그외 고급 기능

비토 스피치(VITO Speech)는 위에서 이야기한 기능들 외에도 Inverse Text Normalization 기술을 활용하여 영어/숫자/단위 변환, 간투어 필터, 비속어 필터, 문단나누기 등의 고급 기능들도 제공하고 있습니다.

 

4_1) 영어/숫자/단위 변환 (https://developers.vito.ai/docs/stt-file/itn)

영어/숫자/단위 등에 해당하는 표현을 한글이 아닌 보다 가독성 높은 표기로 변환하는 기능입니다. 이 기능을 사용 하면 단순 알파벳, 숫자 나열 뿐만 아니라 약어, 이메일, 번호, 날짜, 단위 표현 등을 영어/숫자/단위 기호 표기로 변환하게 됩니다.

예을 들어, ‘일 이 삼 번을 차례대로 누르세요’를 ‘1 2 3 번을 차례대로 누르세요’로 변환합니다.

 

4_2) 간투어 필터 (https://developers.vito.ai/docs/stt-file/disfluency)

간투어란 '음, 뭐, 아' 와 같이 발성자가 다음 발성을 준비하기 위해서 소요되는 시간을 벌기 위해서 발성하는 표현을  말합니다. 간투어 필터를 통해 발화에서 큰 의미가 없는 표현을 제거하여 보다 간결한 텍스트 결과를 확인할 수 있습니다. 이렇게 간투어 제거를 통하여 문장의 가독성이 더욱 좋아지는 것을 확인 가능합니다.

 

4_3) 비속어 필터 (https://developers.vito.ai/docs/stt-file/profanity)

비속어 필터는 비속어 표현을 별표(*)로 가려서 표시하는 기능입니다. 텍스트 변환 결과 중 욕설 등의 혐오 발화가 포함되어 있을 때, 이를 가리기 위한 기능으로 사용 가능합니다.

 

4_4) 문단나누기 (https://developers.vito.ai/docs/stt-file/paragraph-splitter)

문단나누기는 변환된 결과를 복수개 문단으로 나눠 가독성을 높여주는 기능입니다. 문단나누기 기능은 발화 속도와 내용을 기반으로 요청한 글자 수 옵션값 범위(min 이상 max 이하) 내 적절한 지점에서 텍스트를 나누게 됩니다. 따라서 이 기능을 활용하여 모바일 기기에 적합한 UI/UX 를 위한 결과를 만들수 있습니다.

 

 

 

지금까지 비토 스피치(VITO Speech)의 탄생 배경과 가치에 대해서 이야기 해보았습니다.

STT 기술을 가지고 고객의 문제를 풀고자 하는 많은 개발자들과 기업들이 비토스피치(VITO Speech)를 통해서 좋은 제품들을 개발하게 되고, 많은 사람들이 STT 기술을 통해 새로운 경험을 하게 되기를 기대하면서 오늘 이야기를 마무리 하겠습니다. 

 

 

 

 

눈으로보는 통화

[비토 설치 바로가기]

 

무료 STT API 제공 

 [비토 디벨로퍼스 사이트 바로가기]

 

댓글