실시간 동영상 자막 추출 서비스
NARU Live
실시간 영상의 음성을 추출하여 스크립트를 자동으로 생성하고, 원하는 언어로 번역할 수 있는 서비스를 지원합니다. 실시간 번역 자막이 필요한 OTT, 라이브 커머스, 화상 회의/교육/세미나 등 다양한 서비스 플랫폼에 적용 가능합니다.
서비스 구성
주요 특징
- 01동영상파일/스트리밍
- 동영상 파일 및 스트리밍 데이터에서 음성 인식 및 추출
- 다양한 포맷의 동영상 콘텐츠 지원 (MP3, MP4, WAV, MOV 등)
- 네트워크 스트리밍 송출 멀티미디어 지원
- 영상 처리 기술을 활용하여 동영상 내에서 영상과 음성 분리
- 02음성분석
- 딥러닝 및 머신러닝 알고리즘을 활용한 음성 인식 처리 기술 탑재
- LSTM / E2E 듀얼 엔진을 활용하여 도메인에 따라 선택적 적용
- 딥러닝 기반 음향 모델 및 통계 기반 언어 모델 사용
- 전후 발화의 문맥 흐름을 분석하여 정확도 높은 단어 선택
- 03자막 생성/추출
- 약 280여개의 다양한 자막(smi, sub, json 등) 제공
- 영상에 자막을 별도의 레이어로 추가 후 동영상으로 변환
- 음성 인식의 시간에 맞춰 타임라인이 적용된 자막 생성
- 사용자의 발화가 길어질 경우 토큰화를 통해 자막 길이 조정
- 04번역
- 최신 신경망 기술을 이용한 정확하고 자연스러운 번역 품질 제공
- 지속적인 추가 학습을 통해 번역 성능을 향상 시킬 수 있는 도구 제공
- 자연어 처리를 통해 전후 문맥에 따른 최적화된 단어 선택
- 05사용자 검수
- 번역 결과 및 자막 편집 도구를 통해 검수 및 추가 재학습
- 사용자의 검수를 통해 지속적인 성능 향상
- 동영상 미리보기 / 자막 타임라인 / 재 번역 기능 지원