한국어-영어 번역(병렬) 말뭉치 소개
데이터셋명 | 한국어-영어 번역(병렬) 말뭉치 | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트 | |
구축기관 | 솔트룩스파트너스 | 데이터 관련 문의처 | 담당자명 | 김영택(솔트룩스파트너스) |
가공기관 | 에버트란, 플리토 | 전화번호 | 02-2193-1710 | |
검수기관 | 이메일 | ytkim@saltlux.com | ||
구축 데이터량 | 160만 | 구축년도 | 2019년 | |
버전 | 1.0 | 최종수정일자 | 2019. 12. 31 | |
소개 | AI 번역 엔진 개발을 위한 뉴스(80만 장), 정부/지자체 홈페이지, 간행물(10만 문장), 행정 규칙, 자치법규(10만 문장), 한국 문화(10만 문장), 구어체(40만 문장), 대화체(10만 문장)의 학습용 문장을 구축한 자연어 데이터 제공 | |||
주요 키워드 | 뉴스 텍스트, 행정 규칙, 한국 역사, 문화 콘텐츠, 자연스러운 구어체 문장, 상황/시나리오 기반 대화 세트 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | ||
저작도구 | 다운로드 | AI모델 |
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.0 | 2019.12.31 | 데이터 최초 개방 |
활용분야
산업분야
- 자동번역을 글로벌 쇼핑, 커뮤니티 서비스에 활용
- 서비스로 수집한 말뭉치를 추가 학습에 활용
연구분야
- 공개 한영 말뭉치를 활용하여 고품질 AI 번역 엔진 개발
- 다양한 언어 지능 기술 개발에 활용
- 한영 대화 세트는 자동번역 챗봇 평가/개발에 활용 가능
구축량
한국어-영어 160만 문장의 번역 말뭉치
- 문어체 한영 번역 110만 문장(뉴스 80만, 정부 웹사이트 컨텐츠 10만, 조례 10만, 한국문화 10만)
- 구어체 한영 번역 50만 문장(구어체 40만, 대화체 10만)
대표 도면
한국어 | 영어(초벌) | 영어 검수 |
---|---|---|
우리 모두 한국 전통 놀이에 대해서 많은 관심을 가집시다. | Let's get interested in Korean traditional games. | Let's all have more interest in Korean traditional games. |
제가 이야기한 것이 인정이 되어 기간을 조율하는 줄 알았습니다. | I thought what I said was accepted, and we are adjusting the period. | I thought what I said was accepted, and we are adjusting the period. |
나는 네가 한국어를 정말 열심히 배운다고 생각해. | I think you really study Korean hard. | I think you study Korean really hard. |
나는 당신이 한국 문화에 대해서 꽤 알고 있다고 생각합니다. | I think you know quite well about Korean culture. | I think you know quite well about Korean culture. |
또한 내가 한국 있는 동안 그녀가 나를 도와야 합니다. | Also, she should help me while I am in Korea. | Also, she has to help me while I am in Korea. |
나는 내일 한국에 가는 사람들에게 자료를 만들어 줘야해요. | I should work on some materials for people who are going to Korea tomorrow. | I have to work on some materials for people who are going to Korea tomorrow. |
또한 같이 한복도 입고 사진도 찍으며 문화를 알리고 싶습니다. | Furthermore, I want introduce culture by wearing Hanbok together. | Furthermore, I want to introduce culture by wearing Hanbok and taking pictures together. |
또한 지금 한국 사업도 상태가 안 좋은 것 같아. | Moreoever, the current situation of Korean companies seems to be bad. | Moreover, business in Korea seems to be in bad shape right now. |
나도 네라 한국어 공부하는 거 많이 도와 줄게. | I will also help you to study Korean. | I will help you studying Korean as well. |
필요성
-
민간/공공기관 자동 번역기 개발의 기초 데이터 가치 발현
-
기계번역학계 연구 자료의 수요
-
자동번역 기반 크라우드소싱 사업 활용
구축내용
- AI 번역엔진 개발을 위한 학습용 문장 구축
분야 | 설명 | 수량 |
---|---|---|
뉴스 | 뉴스 텍스트 | 80만 문장 |
정부 웹사이트/저널 | 정부/지자체 홈페이지,간행물 | 10만 문장 |
법률 | 행정 규칙,자치 법규 | 10만 문장 |
한국문화 | 한국 역사,문화 콘텐츠 | 10만 문장 |
구어체 | 자연스러운 구어체 문장 | 40만 문장 |
대화체 | 상황/시나리오 기반 대화 세트 | 10만 문장 |
합계 | 160만 문장 |
- 말뭉치 구축 프로그램 공개
- 법률(조례)번역 시범서비스 공개
데이터 구조
- 구축 데이터는 엑셀 파일(*.xlsx)로 제공, 번역 DB를 다운받아 활용 가능
- 데이터의 모든 문장에는 문장번호를 부착하여 관리 용이
구분 | 문장번호 | 구분 | 출처 | 특성 |
---|---|---|---|---|
뉴스 | ○ | 분야(3단계) | 기사 url | 언론사, 기사 작성일 |
웹사이트 | ○ | - | url | |
법률 | ○ | 지자체 | ||
한국문화 | ○ | 분야 | url,출판물 | |
구어체 | ○ | - | ||
대화체 | ○ | 분류/상황 | 대화세트/화자 |
데이터 구축 담당자
수행기관(주관) : 솔트룩스파트너스
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
김영택 | 02-2193-1710 | ytkim@saltlux.com | · AI 학습용 데이터 제작(뉴스와 지자체 사이트) 및 검수 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
㈜에버트란 | · AI 학습용 데이터 제작(뉴스일부, 한국문화, 조례) · 시범서비스 "조례 자동번역 사이트" 개발 |
㈜플리토 | · AI 학습용 데이터 제작(대화체와 구어체, 뉴스일부) |