+ All Categories
Home > Documents > 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... ·...

인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... ·...

Date post: 03-Jul-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
15
디지에코 보고서 2016.09.30 인공지능기반 음성인식, 사람보다 낫다 해외 사업자의 음성인식기술 활용 서비스 중심으로 KT경제경영연구소 이규섭([email protected]) I. 음성인식과 인공지능의 결합 II. 음성인식 기술 및 활용 분야 III. 국내외 음성인식 서비스 현황 IV. 시사점 최근 음성인식문자 기능을 활용하여 문자를 주고 받는 사용자가 많이 늘고 있다. 빅데이터 및 인공지능과 결합하여 한층 높은 음성 인식률과 지능화로 생활 곳곳에 새로운 사용자 인터페이스(User Interface)로 주 목 받고 있다. 2007년 애플의 아이폰이 기계와 인간의 혁신적인 인터페이스로 ‘Touch’를 공개한 이래 이제 는 기계와 자연어로 편안하게 대화하는 것이 새로운 패러다임으로 자리 잡아 가고 있다. 지난 8월 페이스북 CEO '마크 저커버그'는 영화 ‘아이언맨’(Iron Man)에 나오는 인공지능 비서 로봇 ‘자비 스’(Jarvis)와 같은 인공지능 개인비서를 제작 중이며 오는 9월에 공개할 예정이라고 밝혔고, 바이두리서치 를 이끌고 있는 스탠퍼드대 ‘앤드류 응’(Andrew Ng) 교수도 음성인식 기술이 앞으로 웨어러블 디바이스는 물론 자동차와 전자기기 등 사물인터넷 시장 자체를 바꾸어 놓을 것이라고 말했다. 음성인식기술은 앞으로 인간의 삶을 더욱 편리하게 만들어 주는 핵심적인 사용자 인터페이스로서 ‘사용자 의 게으름을 더 많이 지원하는 쪽이 이긴다’는 UI 경쟁의 룰을 따를지, 국내외 주요사업자들은 인공지능 시대에 어떻게 활용하여 기업의 미래를 준비하고 있는지, 해외 사업자 비즈니스 사례 중심으로 시사점을 도출해 보고자 한다. Issue&Trend
Transcript
Page 1: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

디지에코 보고서

2016.09.30

인공지능기반 음성인식, 사람보다 낫다

해외 사업자의 음성인식기술 활용 서비스 중심으로

KT경제경영연구소 이규섭([email protected])

I. 음성인식과 인공지능의 결합

II. 음성인식 기술 및 활용 분야

III. 국내외 음성인식 서비스 현황

IV. 시사점

최근 음성인식문자 기능을 활용하여 문자를 주고 받는 사용자가 많이 늘고 있다. 빅데이터 및 인공지능과

결합하여 한층 높은 음성 인식률과 지능화로 생활 곳곳에 새로운 사용자 인터페이스(User Interface)로 주

목 받고 있다. 2007년 애플의 아이폰이 기계와 인간의 혁신적인 인터페이스로 ‘Touch’를 공개한 이래 이제

는 기계와 자연어로 편안하게 대화하는 것이 새로운 패러다임으로 자리 잡아 가고 있다.

지난 8월 페이스북 CEO '마크 저커버그'는 영화 ‘아이언맨’(Iron Man)에 나오는 인공지능 비서 로봇 ‘자비

스’(Jarvis)와 같은 인공지능 개인비서를 제작 중이며 오는 9월에 공개할 예정이라고 밝혔고, 바이두리서치

를 이끌고 있는 스탠퍼드대 ‘앤드류 응’(Andrew Ng) 교수도 음성인식 기술이 앞으로 웨어러블 디바이스는

물론 자동차와 전자기기 등 사물인터넷 시장 자체를 바꾸어 놓을 것이라고 말했다.

음성인식기술은 앞으로 인간의 삶을 더욱 편리하게 만들어 주는 핵심적인 사용자 인터페이스로서 ‘사용자

의 게으름을 더 많이 지원하는 쪽이 이긴다’는 UI 경쟁의 룰을 따를지, 국내외 주요사업자들은 인공지능

시대에 어떻게 활용하여 기업의 미래를 준비하고 있는지, 해외 사업자 비즈니스 사례 중심으로 시사점을

도출해 보고자 한다.

Issue&Trend

Page 2: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

2

I. 음성인식과 인공지능의 결합

최근 음성인식문자 기능을 활용하여 문자를 주고 받는 사용자가 많이 늘고 있다. 손

가락 크기에 비해 작은 키보드로 잦은 오타도 그렇고, 다른 일을 하고 있거나 타이핑하

기 어려운 상황에서 간단한 메시지를 음성인식 문자로 보낼 수 있으며 다른 앱과도 연

동하여 사용할 수 있느니 여간 편리해 진 것이 아니다. 이러한 음성인식 기술은 최근

급속히 발전한 빅데이터 및 인공지능과 결합하여 한층 높은 음성 인식률과 지능화로 생

활 곳곳에 새로운 사용자 인터페이스(User Interface)로 주목 받고 있다.

2007년 애플의 아이폰이 기계와 인간의 혁신적인 인터페이스로 ‘Touch’를 공개한 이

래 이제는 기계와 자연어로 편안하게 대화하는 것이 새로운 패러다임으로 자리 잡아 가

고 있다. 인공지능 분야의 중요한 기술적 변화는 ‘대화형 인터페이스’(Conversational

Interface)로 요즘 홈비서로 가장 인기를 끌고 있는 대화형 인공지능 비서 아마존 ‘에코’

등 각 기업에서는 음성인식 기술을 활용하여 각자의 사업영역에서 전략적으로 활발히

움직이고 있다.

1 지난 8월 페이스북 CEO '마크 저커버그'는 영화 ‘아이언맨’(Iron Man)에 나오는 인공

지능 비서 로봇 ‘자비스’(Jarvis)와 같은 인공지능 개인비서를 제작 중이며 오는 9월에

공개할 예정이라고 밝혔다. 저커버그는 ‘인공지능이 내 목소리를 인식하도록 해서 집안

의 모든 것을 통제할 수 있도록 할 것’이라며 조명, 온도 조절과 얼굴 및 동작인식 등의

최신 기술을 접목해 집 정문이 저절로 열리게 된다고 덧붙였다. 이제 곧 영화 속 ‘자비

스’가 현실로 들어 올 날도 멀지 않은 것 같다.

바이두리서치를 이끌고 있는 스탠퍼드대 ‘앤드류 응’(Andrew Ng) 교수도 음성인식 기

술이 앞으로 웨어러블 디바이스는 물론 자동차와 전자기기 등 사물인터넷 시장 자체를

바꾸어 놓을 것이라고 말했다. 각종 기기 제어는 물론이고 음성 명령을 이용한 즉각적

인 정보 검색이 언제 어디서나 가능하다. 인공지능과 결합하면 개인별 사용자 경험에

최적화된 맞춤형 서비스도 가능할 것이다.

음성인식 기술은 앞으로 인간의 삶을 더욱 편리하게 만들어 주는 핵심적인 사용자 인

터페이스로서 ‘사용자의 게으름을 더 많이 지원하는 쪽이 이긴다’는 UI 경쟁의 룰을 따

를지, 국내외 주요사업자들은 인공지능 시대에 어떻게 활용하여 기업의 미래를 준비하

고 있는지, 해외 사업자 비즈니스 사례 중심으로 시사점을 도출해 보고자 한다.

1 Zuckerberg may debut 'Jarvis' AI assistant next month, USA TODAY(’16.8)

Page 3: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

3

II. 음성인식 기술 및 활용분야

음성인식 기술

음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호

(Acoustic speech signal)를 단어나 문장으로 변환시키는 기술을 말하는데 사람의 의도를

알려 주는 방법으로 사용된다. 일반적으로, 음향 신호를 추출한 후 잡음을 제거하는 작

업을 하게 되며, 이후 음성 신호의 특징을 추출하여 음성모델 데이터베이스(DB)와 비교

하는 방식으로 음성인식을 하게 된다.

또한 사람의 말을 인식, 텍스트로 변환하거나 특정 명령을 수행하는 솔루션으로 마우

스, 키보드, 터치 등 물리적 인터페이스 대신 사람의 음성만으로 기기 및 정보 서비스

이용이 가능한 것이 특징이다. 통상 음성인식 솔루션을 통한 입력 속도는 물리적 인터

페이스 대비 2~3배 빠른 것으로 알려졌다.

음성인식 과정은 입력받은 음성을 분석, 특징을 추출한 다음 미리 수집된 음성모델

데이터베이스(DB)와의 유사도를 측정해 가장 유사한 것을 텍스트로 혹은 명령어로 변환

하는 방식으로 작동한다. 이는 일종의 패턴 인식 과정과 흡사한데 사람마다 목소리와

발음, 억양 등이 달라 최대한 많은 사용자들로부터 음성모델 데이터베이스(DB)를 수집

해 이로부터 공통된 특성을 추출해 기준 패턴을 생성한다.

그림1. 음성인식 처리과정(자료원 : KT 경경연 편집)

음성인식 기술의 역사

음성인식 기술은 친숙하고 편리하며 이동 및 작업 중에도 상시 입력이 가능하고 화자

의 고유 정보를 전달할 수 있으며 입력속도가 빠르다는 장점으로, 1952년 미국 벨연구

인식구간 추출 잡음 등 전처리 음성모델 학습 특징 추출

인식결과

음성모델

DB

Hello !!

Page 4: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

4

소의 숫자 인식 시스템 ‘오드레이’(Audry) 개발을 시작으로 지난 반세기 동안 음성인식

기술은 많은 발전을 이루었다. 최근 인공지능과의 결합으로 활용 분야가 증가하면서 음

성인식 시장은 2017년 1,130억 달러까지 커질 것으로 미국 리서치 회사인 IDC에서는

2015년에 내다 보았다.2

그림2. 오드레이 시스템과 슈박스(자료원: androidautority.com의 Speech recognition: life before Siri3)

년도 주요 역사

1952년 미 AT&T 벨연구소(Bell Laboratories) 에서 단일 음성으로

말하는 숫자 인식 시스템 ‘오드레이’(Audrey) 개발이 시초

1963년 IBM은 세계 최초 음성을 통해 16개의 영어단어 인식 및 간단

한 숫자 계산이 가능한 ‘슈박스’(Shoebox) 라는 장비를 공개

1970년대 미 국방부 산하 국방첨단연구사업국(DARPA4)에서 대규모 음성이해

연구 프로젝트를 진행하여 1,000 단어 연속 음성 인식기를 개발

1980년대 IBM이 Hidden Markow Model(HMM)을 활용한 대규모 음성

시스템을 개발하면서 1만 단어 인식까지 가능한 전성기에 진입

1990년대

‘96년 벨사우스(BellSouth)社가 ARS 서비스를 시작하면서 수화

기 말한 내용을 인식하게 되었고‘97년 ‘Dragon

NaturallySpeaking’라는 연속 음성 인식 제품 출시

2000년대 ‘11년 Apple Siri, ‘12년 Google Now를 필두로 개인 비서형이

출시 되면서 본격 상용화

표1. 음성인식 역사(자료원: Wavelink의 The History of Voice: From Audrey to Siri, kt 경경연 재구성)

2 인공지능 산업의 이해와 투자 기회(현대증권, ’16.4)

3 http://www.androidauthority.com/speech-recognition-life-before-siri-and-whats-to-come-67994/

4 DARPA(Defense Advanced Research Projects Agency)

Page 5: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

5

주요 음성인식 엔진 비교

미국 실리콘밸리 벤터 투자가 ‘메리 미커’(Mary Meeker)가 발표한 ‘2016 Internet

Trends Report’에 따르면 사람은 1분에 평균 40단어를 타이핑하고, 150단어를 말할 수

있다며 음성이 가장 효과적인 형태의 입력 수단이 될 수 있다고 밝혔다.

또한 2010년에 시스템의 음성인식 정확도는 70% 안팎에 그쳤으나 2016년에는 95%

를 넘어섰고 억양, 음정, 다양한 화자의 특성, 원거리, 배경 소음 등 방해 요소를 극복하

고 동음이의어 구별, 새로운 단어의 학습 등으로 정확도가 높아지고 있다.

명칭 바이두

딥스위치2

사운드하운드

하운드(Hound) Apple Siri Google Now

출시일 2015.11 2015.3 2011.10 2012.7

가능언어 영,중 등 영 등 영,중,한 13개 영,일,한 9개

사용처 스마트폰 스마트폰, 태블릿등 아이폰, 패드 안드로이드 스마트폰

음성인식 정확도 96% 95% 95% 92%

표2. 주요 음성인식 엔진(자료원 : Mary Meeker’s 2016 Internet Trends report 재구성)5

그림3. 음성인식 정확도(자료원 : Mary Meeker’s 2016 Internet Trends report)

주요 활용분야

음성인식 엔진을 스마트폰이나 PC에 임베디드 시켜 대화형 개인비서나 3rd Party 앱

들과 연동하여 정보검색, 커머스로 확대 가능한 형태가 있는 반면 스피커형태의 별도

하드웨어에 탑재한 스피커형 개인비서 모델로 아마존 ‘에코’가 대표적이며 최근 국내

5 KPCB’s Mary Meeker presents the 2016 Internet Trends report, http://www.kpcb.com/blog/type/report

Page 6: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

6

Telco 및 스타트업에서도 개발, 출시를 서두르고 있다.

또한 자동통역 및 번역 분야에서도 개발이 활발한데, 1960년대 1세대 텍스트 자동번

역, 2세대 제한 영역 단문 자동통역, 3세대 실시간 동시통역으로 발전되고 있다.

그림4. 자동통역번역 기술 정의(자료원: 한국전자통신연구원, ’16.8)

한편 운전중 인포테인먼드 기기 조작에 따른 교통사고가 심각하고, 전방 주시 태만자

사고 사망자 증가로 운전 중 휴대폰 사용 금지 등 안전규제와 영상 장치 시청 및 조작

금지에 대한 법령 마련 등이 있지만, 이를 해결하는 방안으로 음성인식 기술이 대두 되

고 있다. 이에 ‘19년에는 자동차의 절반 이상 음성인식 탑재 예상되며(2012년 37%), 자

동차 음성인식 시장 규모는 2011년 81억 달러 대비 2019년 179억 달러 2배로 이상 예

상된다.6

의료녹취(Medical Transcription)는 진료시 의사의 진단, 처방, 영상 판독 소견, 수술 시

진료 내용 등 각종 의료 기록을 음성인식 기술을 활용해 저장하고 문서화 하는 것으로

미국은 의료 사고방지를 위해 50인 이상 의료기관은 의무적으로 의료기록을 녹취해야

한다. ‘18년에는 약 29조원 글로벌 시장 규모로 연평균 12.9% 성장이 예상된다고 Tern

System에서는 밝혔다.

마지막으로 콜센터 분야에서는 단순처리 및 정량 데이터 분석에 머물렀던 VOC를

6 스마트카 음성인식 기술 및 상용화 방안, 자동차부품연구원(’16.8)

Page 7: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

7

STT(Speech to Text)와 TA(Text Analytics) 기술을 통해 고객의 소리를 분석, 고객 니즈를

파악하고 대응함으로 성과를 향상시키며, 나아가 인공지능 상담원이 보조 역할을 하며

향후에는 무인 상담 콜센터로 발전할 전망이다.

III. 국내외 서비스 현황

음성인식 기반 서비스들은 2000년대 후반에 본격적으로 소개되기 시작했다. 특히 최

근 ‘알파고’로 촉발된 인공지능 기술로 생활 곳곳에 이용되고 있는 국내외 사례들을 알

아 보자.

애플 ‘시리’(Siri)

2011년에 Apple은 음성인식 기능인 ‘시리(Siri)’를 선보였으나 실용성이 부족하여 큰

인기를 누리지는 못하였다. 지난 6월 개발자 회의에서 iOS 10의 ‘시리(Siri)의 새로운 확

장성을 높인 기능을 선 보였다.

먼저 아이메시지외 다른 메신저 앱의 메시지도 읽어 주고 작성해 준다. 그리고 시리

의 음성인식을 통해 사람들의 길 안내를 도와주는 네비게이션 기능이 적용되어 지형 주

소뿐만 아니라 특정 브랜드 매장 검색, 포털 사이트와 연동을 통한 맞집 안내도 가능하

다. 또한 IoT앱과 연동하여 ‘시리야 방에 조명을 꺼줘’ , ‘집 안에 누가 있는지 확인 좀

해줘’등도 쉽게 해결이 가능하다. 그리고 타이핑 입력 또는 카메라를 이용해 텍스트 정

보를 입력하는 단순한 방법에서 음성을 인식해 곧 바로 번역해 주는 통역앱이나 번역이

앱과 연동해 개인 맞춤형 통역 서비스를 제공한다.

그림5. 시리의 IoT 연동과 음성인식 화면

특히 아이폰 7을 출시하면서 무선 이어폰 에어팟(Airpods)의 외부 동작 감시 센서를

2번 두드리면 음성인식 비서 ‘Siri’를 실행되는 기능도 추가 하였다.

Page 8: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

8

구글 ‘나우’(Google Now)

구글의 안드로이드 기반 지능형 개인 비서인데 구글 검색을 확장한 기술로서 질문에

대답하거나 추천을 생성하고 웹서비스에 대한 요청을 처리하는 자연 언어 사용자의 인

터페이스를 사용한다.7 사용자가 묻는 질문에 대답할 뿐 아니라 사용자의 검색 성향에

따라 사용자가 원하는 것을 예측하여 전달하는 지능형 개인 비서 소프트웨어로, 이 시

스템은 사용자가 단말기에서 반복하는 행동을 인식하여 사용자에게 ‘카드(card)’ 형태로

제공한다.

특화된 카드 기능으로는 이벤트/교통/예약/관광/가족 퇴근여부 등 알림, 스포츠/날씨/

뉴스/주식 등의 정보 전달, 걷기 등의 행동 분석, 주차 위치 자동 기억 기능, 검색한 물

건 판매처 근처에 도달했을 때 이를 알려주는 기능 등이 있다. 미국의 과학 잡지인 파

퓰러사이언스(Popular Science)는 구글 ‘나우’를 2012년 올해의 혁신기술로 선정하였다.

그림6. 안드로이드 폰의 구글 나우 화면

MS ‘코타나’(Cotana)

‘코타나’는 MS가 2014년 선보인 개인 디지털 비서로서 MS 윈도10으로 OS가 Update

되면서 더 똑똑해졌다. 머신러닝(Machine Learning) 기법을 기반으로 사용자의 개별 행

동방식을 학습하고 PC안에 저장된 다양한 정보와 MS의 검색엔진인 빙(Bing)을 결합해

인터넷과 사용자가 제공하는 데이터 기반 맞춤형 서비스를 제공한다.

'하이, 코타나'라고 말한 뒤 음악을 틀어 달라거나 날씨에 대해 물으면 코타나가 임무

를 수행하고 자주 이용하는 항공편이나 차가 주차된 장소 등의 주요정보를 기억해 뒀다

가 알려주기도 한다.

7 두산백과 검색결과 재구성

Page 9: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

9

그림7. 코타나 실행 화면

바이두 ‘딥스피치2’(Deep Speech2)

중국의 구글로 불리는 바이두가 지난 1일 베이징에서 열린 ‘바이두 월드 컨퍼런스’에

서 인공지능기반 음성인식 시스템 ‘딥스피치2’를 소개하며 2014년 미국 실리콘밸리에

인공지능 연구소를 세우고 구글에서 인공지능 연구를 주도하던 Andrew Ng 교수를 영

입하면서 ‘음성 인식 정확도가 97%에 이른다’고 설명했다.

‘딥스피치2’는 개인마다 다른 말투, 사투리, 시끄러운 환경에서도 높은 인식률을 보여

주며 중국어를 스마트폰에 입력하면 손으로 입력할 때보다 2.8배 빠르고, 오타는 60%

가량 줄일 수 있다. 미국 MIT테크놀로지리뷰는 지난 2월 ‘2016년 10대 혁신 기술’ 중

하나로 ‘딥스피치2’를 꼽았다.

그림8. Baidu’s Andrew Ng Discussing Speech Recognition and Deep learning at NVIDIA GTC 2015 (자료원: forbes.com)

Page 10: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

10

아마존 ‘알렉사’8

현재 美소비자 만족도 최고를 기록하고 있으며 3월말 기준 미국에서만 4백만대의 판

매 기록한 스피커 형태의 개인비서인 아마존 에코에 탑재된 인공지능(AI) 음성인식 비

서 서비스 ‘알렉사’는 사용자의 음성을 알아 듣고 에코에 연결된 네트워크를 통해 각종

정보를 수집해 그 결과를 전달하는데 현 위치를 파악하여 날씨를 알려 주거나, 라디오

나 음악 재생, 차량 공유서비스 ‘우버’나 ‘도미노피자’도 주문 가능하다.

에코의 가장 큰 장점은 높은 음성인식률로서 원거리 음장(far field)음성 인식 기술을

적용해 주위 소음에도 6~7m 거리의 명령도 인식이 가능하다. 2014년 출시 이후 매주

기능이 업데이트 되는데 조명, 가전 등 스마트홈 연동이나 구글 캘린더 연동을 통한 스

케줄 관리, 자동차 연동으로 차고 개폐 등 SDK공개를 통한 생태계 구축으로 1,000여개

의 기능으로 더욱 똑똑한 개인 비서가 되어 가고 있다.

그림9. 아마존 알렉사를 탑재한 ‘에코’

자동 통역비서 ‘지니톡’(GenieTalk)

자동통역의 시작은 음성인식인데 인공지능이 결합되어 한층 더 지능화 되었다. 국내

ETRI가 지난 2012년 개발하여 한·영 자동 통역 서비스를 시작한 이래 현재까지 다운로

드 건수가 220만건에 달하는 양방향 자동 통역 앱 ‘GenieTalk’이 대표적 자동 통역 어플

이다. ‘지니톡’은 스마트폰에서 한국어와 중국어·일본어·영어간 자동 통역 서비스를 제공

하며 인식할 수 있는 단어 수는 10만여개나 되고, 음성인식률과 자동 통역률이 각각

90%, 80%에 달한다.

8 ‘소름돋을정도’ 사람말귀신같이알아듣는알렉사

http://m.post.naver.com/viewer/postView.nhn?volumeNo=4496912&memberNo=28162671&vType=VERTICAL

Page 11: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

11

그림10. GenieTalk 실행화면

Skype 실시간 번역기(Skype Translator)

클라우드 기반 자동 번역 서비스인 스카이프 트랜슬래이터(Skype Translator)는 보다

많은 사용자들의 일상에 활용될 수 있도록 윈도우 데스크톱 앱으로 확대되었다.

스카이프 트랜슬래이터는 간단한 설정만으로 서로 다른 언어를 구사하는 사용자간 자

동으로 실시간 음성 통화를 하거나, 문자를 송수신할 수 있다. 이 서비스는 컴퓨터 스스

로 데이터를 통해 학습하고 사람처럼 어떤 대상 혹은 상황을 이해할 수 있게 하는 기술

인 MS의 머신러닝(Machine Learning)을 바탕으로 한다. 따라서 더욱 많은 사람들이 사

용할수록 더욱 지능화돼, 보다 향상된 서비스를 이용할 수 있다.

현재 스카이프 트랜슬래이터는 음성으로는 영어, 스페인어, 이탈리아어, 그리고 중국

어(북경어) 총 4개 국어를 지원하며, 사용자간 문자로는 한국어를 비롯해, 총 50개 언어

를 지원한다.

Page 12: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

12

그림11. 스카이프 트랜슬레이터로 동시 통역서비스를 이용하는 사용자(자료원: http://www.ciokorea.com/news/25513)

NTT 도코모 샤베테콘쉐루(しゃべってコンシェル)’ 외국어 통역 서비스

샤베테콘쉐루는 도코모의 3G 서비스인 아이모도(i-mode)의 개인향 컨시어지 서비스인

아이컨쉐류(i-Concier)가 발전된 것으로 개인 맞춤형 서비스를 위해 편리한 인터페이스가

필요한데 그런 수단으로써 음성인식 기술을 채택하고 NTT의 강력한 네트워크 기술이

결합해서 지금의 샤베테컨쉐루가 탄생되었다. 지난 6월에 도코모는 기존의 샤베테콘쉐

루를 업그레이드해서 본격 서비스를 개시했다.

그림12. 샤베테콘쉐루 실행화면

음성인식을 이용한 메루혼야쿠서비스(メール翻訳コンシェル)의 경우는 이보다 앞선 6

월 초부터 본격적으로 서비스가 제공되고 있는데, 영어, 한국어, 중국어를 거의 실시간으

로 번역해 주는 서비스이다. 서비스명이 메일(mail)을 번역해 주는 것으로 되어 있어서

Page 13: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

13

기능이 제한적인 것처럼 느껴질 수 있다. 기본적으로 일어로 말을 하면 즉시 정해진 외

국어로 통역을 해주는 준-동시통역 수준의 기능을 제공한다.

그림13. 메루혼야쿠서비스 실행화면

알리바바 ‘RX5’

중국 알리바바의 커넥티드카 RX5는 음성인식 엔진을 탑재하여 음성 명령으로 창문이

나 선루프, 에어컨, 음향기기 등 자동차 내부 기기를 제어 할 수 있다.9

로봇

2016년 독일 베를린 가전 박람회 ‘IFA 2016’ 에서 가전 제품의 스마트 허브 역할을 하

는 로봇인 ‘엑스페리아 에이전트’가 소개 되었다. 소니의 ‘엑스페이아 에이전트’는 음성인

식 기반이어서 사용자는 말로 로봇에게 명령해 가전제품을 제어하고 사람의 눈을 통해

사람의 동작을 인식한다. 네슬레의 커피머신 ‘돌체구스토’와 연결해 음성으로 커피를 내

려 마시는 모습도 시연 했다.

그림15. 엑스페이아 에이전트

9중국 알리바바의커넥티드카 RX5, http://navercast.naver.com/magazine_contents.nhn?rid=1103&contents_id=120396

Page 14: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

14

한편 글로벌 기업 보쉬의 자회사인 BSH는 음성인식을 통해 작동하는 로봇 ‘마이

키’(Mykie)를 소개하면서 ‘마이키’는 내 주방 요정(My Kitchen Elf)의 줄임말로 세탁기, 냉

장고 등 주방의 모든 가전기기를 연결해 제어하는 로봇이라고 설명했다.

아울러 일본 벤처기업인 세븐드리머스는 빨래를 개고 수납함에 정리해 주는 로봇, ‘론

드로이드’를 소개했는데 건조가 끝난 옷을 건네주면 알아서 티셔츠·바지·수건 등을 구분

해 빨래를 갠 뒤 수납함에 정리도 해준다.

‘미래엔 결국 집안에 로봇 비서 한 대 정도는 갖게 될 것’이라며 개인비서 역할을 하

는 로봇을 스마트홈의 필수 요소로 인식하고 이를 실현하는 사용자 인터페이스로 음성

인식 기술을 꼽았다.10

콜센터 음성인식

11미국 AT&T의 콜센터가 음성인식 기술을 이용해 실시간으로 속기록을 생성하고 고

객의 감정 상태를 파악하는 시스템을 구축했다. 이 시스템은 고객과 상담원의 대화 내

용 음성을 인식해 이를 실시간으로 받아쓰기 해서 글자로 바꿔 주고 고객의 말투를 분

석해 이 고객이 화가 났는지, 차분한 상태인지 등을 파악하고 데이터베이스와 대조한

후 해당 상태에 적합한 답변을 상담원이 보는 화면에 띄워 준다.

이 시스템은 '기계 학습'(Machine Learning)을 활용하여 컴퓨터가 과거 경험에 따라 반

응 양식을 바꿔 나가고 변하며, 이를 이용해 인간 상담원은 더 나은 고객상담 서비스를

할 수 있게 된다. 또한 이를 바탕으로 고객이 다음에 어떤 질문을 할지 예상해서 상담

원들이 화면을 보고 대비할 수 있도록 하는 기능도 있다.

12 한편 KTDS는 고객의 목소리를 인식하고 구별하며 변환하는 솔루션 ‘씽크 투 텍스

트(Think To Text, 이하 TTT)’를 출시했다. TTT는 단순한 단어 인식을 넘어 음성·텍스트 변

환과 연속 음성과 문장의 의미를 추출하고 분석하는 기능으로 차별화를 시도했다. 자체

테스트한 결과 음성을 문자로 변환했을 때 정확도는 80~85%를 보였다.

Dragon Medical 360

뉘앙스커뮤니케이션즈社의 ‘드라곤 메디컬 360’(Dragon Medical 360)은 전 세계 1만

곳 이상 의료기관에서 약 45만 명의 의사가 활용하고 있는 음성녹취서비스로 음성인식

기술을 활용해 환자 상담과 처방 내용을 전자문서화해 EMR(Electronic Medical Record·

10‘1가구 1로봇 시대의 예고, Chosun Biz(’16.9), http://biz.chosun.com/site/data/html_dir/2016/09/08/2016090801867.html

11 AT&T 콜센터에 음성인식 기술, 연합뉴스(’14.9)

12 KTDS, 콜센터 음성인식 솔루션 시장 진출, ZDNet Korea(’16.4)

Page 15: 인공지능기반 음성인식 › KTData › Board › FILE › PDF › 인공... · 2016-09-30 · 디지에코 보고서 2016.09.30 IV. 시대에 인공지능기반 음성인식,

Issue&Trend

15

전자의무기록) 작성을 지원한다.13

IMC社 ‘위스퍼 포 헬스케어’(WiSPER for Healthcare), Dolbey社 ‘퓨전 스피치

EMR(Fusion Speech EMR) 그리고 M*Modal社 ‘플로엔시 다이렉트’(Fluency Direct) 역시

음성인식 기술을 활용한 의료 녹취 기술사업자로 서비스를 제공한다.

이중 Dolbey社 퓨전 스피치 EMR은 음성으로 인식된 데이터를 EMR 뿐만 아니라 제3

자 프로그램에서도 활용 가능해 사용자 편의성이 뛰어나다.

IV. 시사점

4차 산업혁명의 핵심 인공지능과 결합한 음성인식 기술은 스마트폰 기반 대화형 개인

비서, 스피커형 홈허브, 커넥티드카, 동시통역, 로봇 등 신산업에 확대 적용되면서 최고

의 사용자 인터페이스(UI)로 각광받고 있다. 이러한 기술을 개발, 확보하기 위해 글로벌

사업자들은 스타트업을 인수하거나 기술 투자를 전개하고 있으며 이를 통한 기존 사업

영역을 넘어 새로운 사업 확장을 추진하고 있다.

한편 음성인식 오류나 사용자의 대화를 지원하기 보다는 오히려 방해 할 수도 있어서

이러한 사회적 리스크를 줄이기 위해서는 음성 인식률을 높이고 자연언어 처리 기술과

빅데이터 및 인공지능 분야의 추가적인 기술 연구 성과가 있어야 하겠다.

특히, 대충 얘기하거나, 사투리로 말하거나, 멀리서 말하거나 그리고 아무 때나, 시끄

러운 환경, 여러 명 중에서 내 목소리를 정확히 인식하고 마이크가 사람의 귀처럼 되기

위해서는 또 한 번의 획기적인 발전이 필요한 것 같다.

13 환자 ‘의료기록’ 쓰지 않고 음성으로 자동문서화, http://www.medicaltimes.com/News/1100500


Recommended