AI Hub

고객 응대 음성 소개

고객 응대 음성 소개

데이터셋명 고객 응대 음성
데이터 분야 음성/자연어 데이터 유형 텍스트, 오디오
구축기관 티맥스소프트 데이터 관련 문의처 담당자명 박윤수(티맥스소프트)
가공기관 아이스크림에듀,한국에듀테크산업협회 전화번호 031-8081-9398
검수기관 나무기술 이메일 yoonsu_park@tmax.co.kr
구축 데이터량 432만 구축년도 2020년
버전 1.2 최종수정일자 2021.12.13
소개 다양한 매장과 공간의 키오스크 등에서 주문, 검색, 조작 및 고객 응대 하는 한국어 음성 데이터
주요 키워드 음성 주문, 음성 검색, 음성 조작, 한국어 음성언어처리 기술, 구매 도메인, 예약 도메인, 생활 도메인, 음성 품질, 명료도, 대화 주제, 저작권
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 업데이트 중 교육활용동영상 영상보기
저작도구 다운로드 AI모델 다운로드
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
데이터 변경이력
버전 일자 변경내용 비고
1.2 2021.12.13 데이터 품질 보완  
1.1 2021.09.09 데이터 품질 보완 및 추가 개방  
1.0 2021.06.30 데이터 최초 개방  
구축 목적
  • 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축 다양한 매장과 공간의 키오스크, VoiceChatbot 등 기존에 터치UI로 제공되는 사이니지 등에서 나아가 음성언어로 주문, 검색, 조작할 수 있는 기술/서비스 개발에 활용할 수 있는 DB 구축
활용 분야
  • 연구분야: 음성인식, 음성언어처리, 자연어처리, 한국어 음성언어연구, 신호처리 등
  • 산업분야: Voice Chatbot, AI 키오스크, AI 사이니지 등
소개
고객 응대 음성 소개 이미지-1 고객 응대 음성 소개이미지-2

 

  • 가상 시나리오를 기반으로 수집한 범용성 높은 도메인의 한국어 고객 응대 음성으로부터 음성의 내용을 전사하고 검증한 한국어 고객응대 음성 AI 데이터셋으로, 음성인식 키오스크 개발 등에 활용 가능함.
  • 음성의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보함.
구축 내용 및 제공 데이터량
  • 다양한 도메인에서 주문, 예약, 환불, 정보조회 등의 음성인식으로 서비스에 활용될 수 있는 음성인식 학습용 3,000 시간의 남녀 1:1 비율의 고객 응대 음성 데이터셋
    데이터의 종류 수집시간 제공방식
    구매 도메인 1,000시간 wav 음원파일
    txt 전사파일
    json 메타파일
    예약 도메인 1,000시간
    생활 도메인 1000시간
    총 구축량 3,000시간  
대표도면
고객 응대 음성 대표도면 예시 이미지
필요성
  • 수년 전부터, 터치 UI 기반의 키오스크 기기가 카페, 식당, 극장, 쇼핑몰 등 거의 모든 분야에서 사용되어져 왔음 하지만, 최근의 코로나19의 팬데믹 상황에서는 터치 기반의 기기는 코로나 바이러스의 전염의 가능성으로 더욱 더 비접속식의 서비스 기기의 필요성이 대두되고 있음 본 과제의 목적은 이러한 시대적인 상황에서 스타트업, 기존의 중소기업 등 큰 비용 투자를 통해 음성인식 모델 데이터 구축이 어려운 업체들에게 다양한 도메인을 위한 음성인식 학습용 데이터셋을 제공하여 빠르게 응용 서비스를 구현할 수 있도록 함 많은 업체들이 다양한 분야에서 AI 키오스크, AI 사이니지, 음성챗봇을 위한 음성인식 모델을 생성할 수 있도록 다양한 도메인을 위한 데이터셋을 구축
데이터 구조
데이터 구조 표
ID 항목 타입
키 명 키 설명
  dataSet 데이터셋 Dict
1 version 데이터셋 버전 String
3 date 녹취된 날짜 String
4 typeInfo 음원 데이터 상세
정보
Dict
  4-1 category 음원 카테고리 정보 String
  4-2 subcategory 음원 서브카테고리 String
  4-3 place 음원 녹취 장소 String
  4-4 speakers 화자 목록 List
    4-3-1 id 화자 아이디 String
4-3-1 age 나이대:
20대, 30대,
50대(추정)
null(알수없음) 등
    4-3-2 gender 화자 성별:
남, 여
String
4-3-2 residence 거주지역:
서울, 대전, 부산,
광주, null(알수없음)
  4-5 inputType 입력형식:
방송, 유선, 모바일
인터넷 등
String
5 dialogs 전사 데이터 목록:
묶음 기준으로
나누어진 발화
단위로 생성
List
  5-1 speaker 화자 아이디:
speakers에 등록된
id
String
  5-2 audioPath 발화 단위 RAW
데이터경로
String
  5-3 textPath 발화 단위 TEXT
데이터 경로
String
데이터셋 구축 담당자
수행기관(주관) : 티맥스소프트
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
김윤성 031-8018-9325 kimys130907@gmail.com · 데이터 구축 총괄
· 데이터 수집
· 데이터 정제
· 데이터 가공
· AI모델 개발
· 응용 서비스 개발
수행기관(참여)
수행기관(참여)
기관명 담당업무 기관명 담당업무
㈜아이스크림에듀 · 데이터 수집
· 데이터 정제
· 데이터 가공
(사)한국에듀테크산업협회 · 데이터 수집
· 데이터 정제
· 데이터 가공
나무기술(주) · 품질검증