+ All Categories
Home > Documents > 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능...

인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능...

Date post: 28-Jul-2021
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
73
i 석사학위논문 인터넷 방송 응용을 위한 기술 분석 및 MPEG - 4 오디오 기능 분석 1999 12월 배재대학교 대학원 컴퓨터공학과 컴퓨터공학전공
Transcript
Page 1: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

i

석사학위논문

인터넷 방송 응용을 위한 기술 분석

및 MPEG-4 오디오 기능 분석

1999년 12월 일

배재대학교 대학원

컴퓨터공학과 컴퓨터공학전공

장 대 영

Page 2: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

ii

인터넷 방송 응용을 위한 기술 분석 및

MPEG-4 오디오 기능 구현

장 대 영

지도교수 정 회 경

배재대학교 대학원 컴퓨터공학과

(요약)

방송은 현재 가장 중요한 대중 매체의 하나로서 최근 디지털화하려는 움직

임이 가속되고 있다. Web은 컴퓨터의 보급 확산에 따라 사무실 뿐 아니라 일반

사용자 및 가정에서까지 많이 사용되고 있으며, 국가적으로도 정보화 시대에 앞

서 가기 위하여 정책적으로 지원하고 있다. 이러한 Web의 확산과 디지털 방송

기술의 발전을 기반으로 하여, 방송과 Web을 통합함으로써 새로운 향상된 서

비스를 창출하려고 하는 계획이 세계 여러 기관에서 이루어지고 있다.

이에 본 논문에서는 차세대 디지털 방송 시대의 새로운 서비스 형태에 대하

여 기술하였으며, SMIL (Synchronized Multimedia Integration Language),

MPEG-4 (Moving Picture Experts Group phase 4)를 중심으로 관련 국제 표

준화 동향을 분석하였다. 이를 통해 새로운 인터넷 방송 서비스의 구현에 있어

인터넷에서의 멀티미디어 데이터의 동기표현과 멀티미디어 데이터의 객체 기반

부호화 기능이 중요함을 확인하였다. 멀티미디어 데이터의 동기 표현 방식으로

서는 SMIL이 매우 유용하게 사용될 수 있으며, 객체 기반 부호화 방식으로서는

MPEG-4 기능이 적절히 사용될 수 있다.

이에 인터넷 방송의 구현을 위한 첫 단계로서 MPEG -4 오디오 기능을 구

Page 3: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

iii

현하였다. MPEG -4 오디오의 기능은 MPEG 그룹의 참조용 S/W를 기반으로 구

현하였으며, 자연 오디오 즉, 자연 음성 및 일반 오디오 (음악, 배경음)를 중심

으로 여러가지 도구의 기능을 다양한 동작모드에 의해 구현하였다. MPEG-4 오

디오의 도구는 크게 음성과 일반 오디오 (음악, 배경음)로 구분할 수 있는데, 음

성은 또한 파라메트릭 음성 부호화 및 CELP (Code Excited Linear Predictive)

부호화 도구로 나눌 수 있으며, 일반 오디오 부호화는 MPEG-4 AAC

(Advanced Audio Coding)도구와 Twin VQ (Vector Quantization) 도구로 나눌

수 있다. 파라메트릭 부호화는 2kbps 및 4kbps 모드에서의 동작을 검증하였으

며, CELP 부호화 도구는 8kHz 및 16kHz 표본화 주파수의 입력 신호에 대해

다양한 압축률과 동작 모드로서 검증하였다. 또한 AAC 및 TwinVQ 도구도 다

양한 비트율 및 동작모드를 구현하였으며, 구현 및 검증된 각 도구의 성능을 평

가하였다.

평가 결과 및 각 도구의 특성을 기반으로 하여 각 도구의 활용 방안을 제시

하였는데, 교육 방송, 광고 등 미리 녹화 및 편집에 의해 제작되는 방송 프로그

램에 특히 매우 유용하게 사용될 수 있음을 확인하였고, 교육 방송 형태의 프로

그램을 모델로 하여 실제 활용에 대한 예를 나타내었다. 이로써 인터넷 방송에

있어 부호화 대상의 객체 특성에 따라 적절한 부호화 도구을 선택하여 사용함

으로써 융통성 있는 서비스를 실현할 수 있음을 확인할 수 있었다.

Page 4: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

iv

목차 (Table of Contents)

요약 (Abstract) ···························································································································i

목차 (Table of Contents)·······································································································iv

그림목차 (List of Figures)····································································································vii

표목차 (List of Tables)···········································································································ix

제1장 서론······································································································································1

제2장 인터넷 방송 동향 및 기술 분석 ··············································································6

2.1 인터넷 방송의 동향··································································································6

2.2 SMIL ································································································································7

2.2.1 특징····················································································································8

2.2.2 현재 상태·········································································································9

2.3 MHEG-5························································································································9

2.3.1 특징····················································································································9

2.3.2 현재 상태······································································································10

2.4 MPEG-4 ·····················································································································11

2.4.1 특징·················································································································11

2.4.2 현재 상태······································································································13

제3장 MPEG -4 오디오 개요·······························································································14

Page 5: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

v

3.1 음성 부호화···············································································································18

3.1.1 HVXC 도구의 구조[16] ·········································································18

3.1.2 CELP 도구의 구조[17] ··········································································22

3.2 일반 오디오 부호화·······························································································23

3.2.1 일반 오디오 부호화 도구의 구조[18] ·············································24

3.3 구조화 오디오 ··········································································································29

3.4 문자 음성 변환········································································································30

3.5 프로파일과 레벨······································································································30

제4장 MPEG -4 오디오 기능 구현 및 성능 분석·······················································32

4.1 HVXC 도구의 기능 구현 및 분석 ···································································32

4.1.1 HVXC도구의 기능 구현··········································································32

4.1.2 HVXC의 성능 분석···················································································35

4.2 CELP 도구의 기능 구현 및 분석 ····································································37

4.2.1 CELP도구의 기능 구현 ···········································································37

4.2.2 CELP의 성능 분석····················································································40

4.3 일반 오디오 부호화 도구의 기능 구현 및 분석········································42

4.3.1 일반 오디오 도구의 기능 구현····························································42

4.3.2 일반 오디오 도구의 성능 분석····························································44

제5장 MPEG -4 오디오의 활용 ··························································································51

Page 6: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

vi

5.1 각 도구의 활용에 대한 제안 ·············································································51

5.2 교육 방송에의 활용 예 ························································································56

제6장 결론···································································································································59

참고문헌 (References)··········································································································61

Abstract········································································································································63

감사의 글 (Acknowlegement) ····························································································65

Page 7: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

vii

그림목차 (List of Figures)

그림 1. 디지털 방송 서비스 유형의 발전 단계·····································································2

그림 2. REAL PLAYER에 의한 SMIL 파일 재생 예 ······························································8

그림 3. MPEG-4의 AVO와 장면 합성의 관계 ··································································12

그림 4. 비트율에 따른 오디오 도구의 배분········································································14

그림 5. MPEG-4 버전간의 관계·····························································································15

그림 6. 오디오 부호화기 (A)와 복호화기 (B)의 블록 다이어그램······························16

그림 7. HVXC 부호화기의 구조······························································································19

그림 8. HVXC 복호화기의 구조······························································································21

그림 9. CELP 복호화기의 구조·······························································································23

그림 10. 일반 오디오 부호화기의 구조················································································25

그림 11. 일반 오디오 복호화기의 구조················································································28

그림 12. 원 신호와 HVXC 부호화 신호의 파형 비교 ····················································36

그림 13. 원 신호와 HVXC 부호화 신호의 스펙트럼 비교 ···········································36

그림 14. 원 신호와 CELP 부호화 신호의 파형 비교 ·····················································41

그림 15. 원 신호와 CELP 부호화 신호의 스펙트럼 비교 ············································41

그림 16. 원 신호와 일반 오디오 부호화 신호의 파형 비교 (16KBPS)·····················46

그림 17. 원 신호와 일반 오디오 부호화 신호의 스펙트럼 비교 (16KBPS)·············47

Page 8: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

viii

그림 18. 원 신호와 일반 오디오 부호화 신호의 파형 비교 (64KBPS)·····················48

그림 19. 원 신호와 일반 오디오 부호화 신호의 스펙트럼 비교 (64KBPS)·············49

그림 20. 방송의 오디오 도구 활용 예 ··················································································57

Page 9: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

ix

표목차 (List of Tables)

표 1. MPEG-4 자연 오디오 부호화 도구들의 활용 방안 요약···································53

Page 10: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

1

제1장 서론

1930년경 본격적으로 방송이 시작된 이후 라디오 방송과 텔레비전 방송은

생활 속 깊숙이 자리를 잡게 되었으며, 인간의 생활에 있어서 이제는 없어서는

안될 가장 중요한 대중매체가 되었다. 지금까지의 방송은 그 기술이 아날로그

기술에 의한 것으로서 방송 프로그램들은 아날로그 장비에 의해 생성되고, 저장

되며, 각 가정으로 전송되었다. 그러나 그 데이터 양은 막대한 것이어서 영상과

오디오를 합하여 수Mbps (Mega bits per second)에서 수십Mbps에 이른다. 이

렇게 막대한 데이터량은 저장하여 보관하는데 비용이 많이 들뿐 아니라 관리하

기도 쉽지 않다. 이러한 문제를 해결하기 위하여 오디오, 비디오 등의 매체를

디지털화하고 압축하여 저장과 관리가 용이하도록 하는 기술이 꾸준히 개발되

었다[1].

디지털 매체의 표준화 기관으로서 대표적인 기관은 MPEG (Moving Picture

Experts Group)이라고 할 수 있다. 1990년대 들어 MPEG 에서는 기존의 디지털

기술들을 결합하여 비디오 CD (Compact Disc) 등 저장 매체의 용도로 MPEG -

1 (공식 명칭은 ISO/IEC 11171)[2]의 기술을 표준화하였다. 이를 시발점으로

하여 방송 및 통신 분야에서도 사용할 수 있는 디지털 압축 기술이 연이어 표

준화 되었는데, 1994년에 MPEG -2 (공식 명칭은 ISO/IEC 13818)[3]가 표준화

되어 고능률 부호화로서 디지털 방송이나 고선명 텔레비전 방송에 사용되게 되

었고, 현재 상용 방송 서비스를 위해 개발이 한창 진행 중이다. 오디오 분야에

있어서는 MPEG -2의 알고리즘에 다소 불합리한 면을 제거하고 새로운 기술을

도입하여 1997년에 MPEG -2 AAC (공식 명칭은 ISO/IEC 13818-7)[4]를 추가

로 표준화 하였다. MPEG-2까지의 부호화 기술은 주로 기존의 아날로그 방식을

대체하려고 하는 의도로 개발된 것으로서, 아날로그 신호를 기준으로 하여 품질

이 저하되지 않도록 하는 것이 그 목표였다. 그러나 MPEG -4[5] 기술은 인터

넷 멀티미디어 서비스, 이동 통신, 방송 등 다양한 분야를 목표로 표준화가 진

Page 11: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

2

행되었으며, 그로 인해 초저비트율의 부호화에서부터 고품질 부호화에 이르기까

지 다양한 프로파일과 레벨을 정의하게 되었다.

방송이 디지털화 되면 저장, 편집이 자유로운 디지털 매체의 유연한 특성을

이용하여 보다 향상된 방송 혹은 데이터 서비스를 제공할 수 있다. 디지털 방송

에 의한 서비스의 유형을 살펴보면 단계적으로 역방향 채널이 없고 부가적인

데이터도 없는 단순 디지털 방송, 역방향 채널은 없으나 방송 채널을 통하여 방

송에 대한 부가정보를 제공하는 향상된 디지털 방송, 역방향 채널이 있어 기본

방송 프로그램에 대한 부가 정보를 제공할 뿐만 아니라, 사용자의 요구에 따른

부가 정보까지 제공할 수 있는 대화형 디지털 방송, 역방향 채널이 있고 방송과

인터넷 영역을 자유롭게 왕래할 수 있는 대화형 멀티미디어 방송 등으로 발전

하게 될 것으로 전망하고 있다[6]. 이러한 관계를 그림 1에 나타내고 있다.

그림 1. 디지털 방송 서비스 유형의 발전 단계

한편 Web은 컴퓨터의 보급 확산에 따라 사무실 뿐 아니라, 일반 사용자 및

가정에까지 급속히 보급되어 사용되고 있으며, 국가적으로도 정보화 시대에 국

제적으로 앞서 가기 위하여 국민 PC (Personal Computer) 등 저가 PC를 보급

함으로써 정책적으로 지원하고 있다. 이러한 추세에 따라 사람들은 Web을 통

하여 많은 정보서비스를 제공 받고 있으며, 점점 더 많은 서비스와 정보를 요구

하기에 이르렀다.

Page 12: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

3

이러한 Web의 확산과 방송 기술의 발전을 기반으로 하고, 저장 매체, 게임,

멀티미디어 응용 분야의 동반 성장에 힘입어, 방송과 Web을 통합하여 새로운

향상된 서비스를 창출하려고 하는 계획이 세계 여러 기관에서 이루어지고 있다.

이와 관련된 잘 알려져 있는 기관으로서는 다음과 같은 것들이 있다.

?? ATSC (Advanced Television Systems Committee, 미국)

미국의 디지털 방송 관련 규격을 정하는 기관으로서, 산하 기관인

DASE (Digital television Software Environment)에서 디지털 방송의

부가 서비스를 위해 bHTML (broadcast Hyper Text Markup

Language)에 대하여 논의하고 있다.

?? ARIB (Association of Radio Industries and Businesses, 일본)

방송과 통신 등 다양한 분야를 통합시킴으로써 사회적으로 필요한 부

가 서비스를 창출하려는 목적으로 1995년에 설립되었다.

?? ATVEF (Advanced Television Enhancement Forum, 미국)

방송, 유선망, 텔레비전 전송, 가전업체 및 PC (Personal Computer)

업체들이 모여 결성된 그룹으로서, HTML (Hyper Text Markup

Language)을 이용하여 진보된 방송 내용을 어떠한 형태의 전송로든

지 또는 어떠한 형태의 수신기이든지 방송할 수 있는 프로토콜을 정

의하고 있다.

?? DAVIC (Digital Audio/Video Council)

1999년 8월 현재 활동을 종료한 상태이며, DAVIC 1.5 표준에 셋탑

(set top) 박스에 내장된 디지털 저장 장치를 이용하는 TV Anytime

이라는 대화형 서비스 개념과, 인터넷을 이용하여 방송 컨텐츠

(contents)를 멀리 떨어진 곳으로 전송하여 사용자가 원하는 곳에서

직접 시청할 수 있도록 하는 TV Anywhere 개념을 포함시켰다.

?? DVB (Digital Video Broadcast, 유럽)

Page 13: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

4

유럽을 중심으로 한 표준화 단체로서 DAVIC의 참조 모델을 기반으

로 하여 비대칭 대화형 서비스 (asymmetric interactive service)를

위한 시스템 참조 모델과 이를 구현하기 위한 프로토콜 스택 모델을

정의하고 있다.

?? IETF (Internet Engineering Task Force)

다양한 매체로서 인터넷 서비스를 확장하기 위하여 텔레비전 및 유선

통신망을 이용한 인터넷 전송 등을 구상하고 있다.

?? MPEG-4

인터넷 및 이동 통신을 위한 음성, 오디오, 비디오, 그림 등 객체의

부호화 및 다중 객체에 의한 장면 기술 (scene description) 에 대하

여 표준화하였다.

?? MPEG-7

오디오, 비디오 컨텐츠의 내용기반 검색 및 색인을 보조하기 위한 내

용 기술 (content description) 에 관련된 표준으로서, 2001년 표준 완

성 예정이며, 인터넷 방송 및 대화형 방송에 있어 다양한 서비스에

응용될 수 있다.

상기의 그룹 혹은 기관 외에도 EBU (European Broadcasting Union), CEMA

(Computer and Electronics Marketing Association) 등과 같은 많은 관련 기관

에서 인터넷을 이용하는 차세대 방송 서비스에 대하여 구상하고 있다.

본 논문에서는 이상과 같은 배경 하에서 인터넷 방송의 구현을 위한 동향 파

악 및 기술 분석과 차세대 인터넷 방송의 구현을 위한 첫 단계로서, 인터넷 방

송의 음성 및 오디오 데이터의 압축을 위한 MPEG -4 오디오의 부호화기, 복호

화기의 기능을 구현한 결과에 대하여 기술한다.

본 논문의 구성은 다음과 같다. 제2장에서는 현재 인터넷 방송의 동향과 차

Page 14: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

5

세대 대화형 방송 모델들에 관한 기술분석에 관하여 기술하고, 제 3장에서는

MPEG-4 오디오의 과 개념과 자연 음성 및 오디오 부호화 도구의 구조에 대한

설명을 기술한다. 제 4장에서는 MPEG-4 오디오의 기능 구현 및 성능 평가에

대해 기술하며, 각 도구들의 활용 방안을 제시하고, 간단한 예시를 통하여 그

효과를 입증한다. 마지막으로 제 5장에서는 결론을 맺고 향후 필요한 연구 방

향을 기술한다.

Page 15: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

6

제2장 인터넷 방송 동향 및

기술 분석

2.1 인터넷 방송의 동향

현재 인터넷을 통하여 서비스되고 있는 인터넷 방송은 크게 개인 및 단체의

취미 및 홍보를 위한 소규모 인터넷 방송과, 공중파로써 서비스되고 있는 방송

내용을 인터넷을 통하여 청취 혹은 시청할 수 있도록 하는 대규모 방송국의 실

시간 인터넷 방송으로 구분할 수 있다. 소규모 인터넷 방송은 방송 제작 및 전

송 단계가 연속되어 있지 않으며, 주로 방송 프로그램만을 게시하고 각 프로그

램의 저장 위치를 연결함으로써, 사용자의 선택에 의해 방송 프로그램을 선택한

사용자에게 전송하는 일종의 주문형 방송이라고 할 수 있다. 실시간 인터넷 방

송은 현재 방송되고 있는 프로그램을 그대로 인터넷을 통하여 사용자에게 전달

하는 것인데, 인터넷 망의 사용 상태에 따라 서비스 질이 떨어지거나 자주 끊어

지는 현상이 발생하는 것과, 오디오, 비디오의 해상도가 낮은 것 외에는 라디오,

텔레비전을 통한 방송 수신과 다르지 않다.

현재 인터넷 방송을 위한 도구는 Real player, Windows media player, Q uick

time movie player 등이 있으며, 인터넷을 통하여 대량의 오디오, 비디오 정보

를 전송하기 위한 압축 기술과, 인터넷 망의 상태에 따라 프로그램의 사전 저장

용 버퍼를 제어하고 관리하는 기술, 전송되어 온 데이터를 복원하고 타이밍을

재구성하여 재생하는 기술 등이 매우 중요하다.

인터넷 방송의 전송속도는 대개 28.8kbps, 혹은 56kbps로서 실제 이러한 전

송속도로서는 선명한 화질과 음질을 보장할 수 없다. 즉, 컬러 텔레비전 방송의

경우 그 데이터량은 수MHz에 달하며, 라디오 방송의 경우에도 AM (Amplitude

Modulation) 방송의 경우 약 400kbps, FM (Frequency Modulation)의 경우는

약 1Mbps이므로 수십 배에서 수백 배까지의 데이터 압축이 필요하다. 사실상

Page 16: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

7

이러한 압축은 현재 기술로는 불가능하므로 오디오, 비디오의 해상도를 저하시

킴으로써 데이터량을 줄이고 있다고 할 수 있다.

오디오, 비디오, 문자 등 멀티미디어를 객체로서 취급하여 전송하고, 다시 하

나의 장면으로 구성하는 것은 보다 자연스러운 멀티미디어 서비스를 위하여 매

우 효과적이다. 오디오, 비디오 객체를 시공간적으로 그 특성 및 효과에 의해

적절히 배분하여 부호화하고, 전송하며, 이를 다시 재합성하여 하나의 장면을

구성하는 개념이 여러 곳에서 표준화되었다. 이러한 개념을 표준화한 것 중 대

표적인 것이 “SMIL (Synchronized Multimedia Integration Language), MHEG -

5 (Multimedia and Hypermedia Experts Group), MPEG -4 시스템”이다. 이들

은 서로 성격이 다른 그룹에 의해 표준화되었으며, 내용면에서도 어느 정도 관

점이 다르다. 그러나 이들간에 공유하고 있는 많은 개념들이 대화형 텔레비전

응용에 있어 적절한 해법을 제시한다.

다음에 이들의 개요와 상태에 대하여 설명한다.

2.2 SMIL

SMIL은 W3C의 동기 멀티미디어 (Synchronized Multimedia: SYMM) 작업

그룹에 의해 제안된 권고안이다. 이 권고안의 목적은 고가의 저작도구를 필요로

하지 않으면서, 동기 멀티미디어를 Web에서 사용하기 위한 것이다. 그림 2는

Real Player에 의한 SMIL 파일의 재생 장면이다. 그림에서 보면 뉴스를 진행하

고 있는 비디오와 현재 진행자의 정보가 나타나 있고, 오른 쪽의 작은 창으로서

오늘의 주요 뉴스를 나타내고 있다. 응용에 따라 광고를 집어 넣을 수도 있고,

비디오 대신 고정된 그림 및 애니메이션을 표현할 수 도 있다. 또한 현재 진행

되고 있는 화면에 대한 자막을 다른 창을 이용하여 나타낼 수도 있을 것이다.

Page 17: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

8

그림 2. Real Player에 의한 SMIL 파일 재생 예

2.2.1 특징

SMIL을 사용함으로써, 멀티미디어 저작자는 시간과 사용자 행위에 의존하는

매체의 배치, 작용, 이벤트 등에 의한 멀티미디어의 표현을 할 수 있게 되었다.

SMIL 문서는 필수적으로 "배치 (layout) " 와 "본문 (body) " 요소를 가진다. 배

치는 스크린 상의 매체의 놓일 위치 (region)의 집합을 규정하며, 위치는 본문

에 있는 요소 (element)를 참조한다. 저작자는 SMIL의 기본 배치와 CSS2

(Cascading Style Sheet)에서 나타내는 배치 중에서 선택할 수 있다.

본문은 문서의 시간 종속적인 작용과 링크 (link)에 관련된 정보를 포함한다.

문서의 구조는 연속적이거나 병렬로 표현되는 “동기 요소”들의 집합으로서 트

리 구조를 가진다. 트리의 각 끝 노드에는 애니메이션, 오디오, 비디오, 문자,

문자 스트림 요소 등을 관리하는 매체 객체 요소 (media object elements )가

있다. 각 요소는 어떠한 이벤트의 발생에 의해 활성화될 수도 있다 (예를 들면

Page 18: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

9

비디오의 시작에 맞추어 시작). 링크는 사용자에 의해서만 활성화되며, 객체 간

의 연결 접속을 가능하게 하며, 새로운 문서나 문서내의 객체를 활성화시킬 수

있다.

Web 환경에서 유용한 특성으로서 스위치 (switch) 요소가 있다. 이것은 재생

기에 있어 여러 개의 대신할 수 있는 요소 중에서 택일할 수 있는 항목을 표시

할 수 있게 한다. 예를 들면 이를 이용함으로써 다른 비트율로서 부호화되어 있

거나, 여러 국가의 언어를 포함하는 오디오 트랙을 함께 전송하는 것이 가능하

다[7].

2.2.2 현재 상태

SMIL 1.0 버전이 W3C에 의해 제안되어 있으며, 여러 곳에서 독립적으로 구

현된 수단들에 의해 상호 운용성을 시연하고 있다.

2.3 MHEG-5

ISO의 MHEG -5 표준은 대화형 서비스 및 방송 영역에 사용될 수 있는 응용

계층을 제공한다. 또한 디지털 텔레비전을 수신하는 셋톱 박스처럼 최소의 자원

을 가지는 단말에서도 제대로 사용할 수 있도록 설계되었다.

2.3.1 특징

MHEG-5 는 장면 (scene) 객체의 집합으로 구성되는 형상화된 페이지 단위

의 응용을 제공한다. 한 순간에 있어서는 하나의 장면만이 활성화되어야 하는데,

하나의 응용 내에서는 장면간의 전환을 가능하도록 하는 기능이 있으며, 여러

개의 응용간에도 역시 전환이 가능하다. 장면은 하나 하나의 도형, 비트맵, 문

장, 오디오, 비디오 스트림을 포함하는 오디오, 비디오의 내용을 시공간적으로

조화를 이루어 표현하는 것이다. 객체 혹은 장면간의 상호작용은 버튼, 미끄럼

스위치와 같은 그림 및 선택 문자 목록, 하이퍼 텍스트에 의해 수행된다.

Page 19: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

10

전체 응용뿐 만 아니라 모든 장면은 이벤트에 의해 활성화되는 링크의작용

(action)을 포함하는 실제 표현되는 것들이다. 이벤트는 사용자 혹은 타이머에

의해 발생될 수도 있고, 스트림의 재생, 또는 실행 절차에서 내부의 다른 조건

에 의해 발생되기도 한다.

MHEG-5는 객체 지향의 접근 방식을 채택하였기 때문에, 모든 관계는 객체

의 계층으로서 규정된다. 그룹과 구성 요소라고 하는 두 가지의 최상위 계층이

존재하는데, 다른 모든 계층은 그룹과 구성 요소의 속성을 상속 받는다. 그룹

계층은 접근하고 전환할 수 있는 단일의 구성 요소인 객체들을 범주화 한다. 그

룹은 응용 및 장면 계층으로 특성화될 수 있으며, 다른 그룹을 포함할 수 없다.

구성 요소 계층은 응용이나 장면에 속할 수 있는 모든 객체에 통용되는 작용

을 제공한다. 두 가지 종류의 중요한 구성요소가 있는데 "표현" 과 "링크" 이다.

표현 구성 요소는 비트맵, 선, 문자, 오디오, 비디오 스트림, 도형 등의 연출을

가능하게 한다. 구성 요소 항목에는 목록, 스위치, 포인트 등 몇 가지 특별한

사용자 상호작용을 포함한다.

링크는 이벤트에 의해 활성화 되는 동적 작용을 표현하기 위해 사용된다. 표

준에서는 슬라이드 쇼, 스트림 속도의 변화, 재생 방향 혹은 시간코드의 위치

(임의 접근), 장면의 배치 수정, 사용자 상호작용의 관리, 링크 활성화의 제어

등 여러 가지 형태의 작용을 제공하기 위하여 100가지 이상의 작용을 지원한다.

이들 객체 및 속성의 부호화를 위하여 이진 표현 (ASN.1) 및 문자 표현의 두

가지 부호화 형식을 사용할 수 있다[8].

2.3.2 현재 상태

MHEG-5 는 1996년 11월에 국제 표준으로서 등록되었고, 현재는 구현에 의

한 조언을 기반으로 기술적 교정작업이 진행되고 있다. MHEG-5는 최근

MHEG-6에 의해 보완되고 있는데, MHEG-6는 Java Script 계층에서 MHEG-5

를 사용할 수 있도록 MHEG-5 API (Application Program Interface)를 규정하

Page 20: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

11

고 있다. MHEG-5 와 MHEG -6는 DAVIC (Digital Audio Visual Council) 에 의

해 채택되어 있으며, DVB/MHP (Media Home Platform)에서도 채택을 고려 중

에 있다.

2.4 MPEG-4

MPEG-4는 여러 부분으로 구성되어 있는 ISO의 표준으로서, 그 목적은 자연

세계와 가상 세계의 상호작용에 의한 교량 역할을 제공하는 것이다. 다음의 내

용은 멀티미디어 표현 방법을 기술한 MPEG -4 시스템 (ISO 14496-1) 부분을

참조한 것이다.

2.4.1 특징

MPEG-4는 다음과 같은 방식을 표준화한다:

AVOs (audio/visual objects)라고 하는 오디오, 비디오 내용의 표현단위 -

AVO는 자연적인 것이거나 인공적인 것일 수 있다. 즉 객체는 카메라나 마이크

에 의해 녹화 및 녹음된 것일 수도 있고, 컴퓨터에 의해 그려진 것일 수도 있다

는 것이다;

오디오, 비디오 장면을 형성하는 혼합된 오디오, 비디오 객체를 생성하기 위

해 이들 객체를 서로 합성하는 기능;

AVO 자체의 적절한 QoS (Quality of Service)를 제공하면서 망을 통하여 객

체들을 전송하기 위한 관련된 AVO의 다중화 및 동기;

수신기단에서의 생성된 오디오, 비디오 장면간의 상호작용.

오디오, 비디오 장면은 계층 구조로 구성된 몇 개의AVO들을 합성하여 얻어

진다. 그림 3에 AVO와 장면 합성, 합성된 장면의 표현, 사용자 상호작용 등의

관계를 나타내고 있다. 트리의 마지막 노드는 원 AVO라고 하는데, 그림 3의 2

차원의 배경, 발표자의 신체, 발표자의 음성 등이 이것이다. MPEG-4 는 많은

Page 21: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

12

원 AVO 를 표준화하였는데, 자연적인 것과 인공적인 것, 2차원과 3차원 형태를

모두 표현할 수 있다. 범위 내에 속하는 것은 문장, 그림, 발표자의 머리, 수신

기에서 그려지거나 합성된 머리와 합성 음성을 제어하기 위한 관련된 문장

(TTS: Text to Speech) 그리고 인공으로 만들어진 인간의 신체 등이다.

오디오 , 비디오 객체

멀티미디어 발표

3 차원 객체

음성

발표자

2 차원 배경

표현

사용자 입력 스피커

사용자 제어

오디오 객체

합성 비디오 합성

다중화된

입력 스트림

제어 / 데이터

다중화된

출력 스트림

제어 / 데이터

그림 3. MPEG-4의 AVO와 장면 합성의 관계

장면 합성은 VRML (Virtual Reality Modeling Language)의 구조 및 객체 합

성 기능에서 몇 가지 개념을 도입하였다. 표준에는 단순, 2차원, VRML, 오디오

Page 22: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

13

및 전체라는 프로파일의 집합이 있다[9].

MPEG-4 장면은 BIFS (Binary Format for Scenes)로 부호화되는데, 저작에

있어 동일 구조의 문자 표현이 사용되므로 매우 간결하다.

2.4.2 현재 상태

MPEG-4 버전 1이 1999년 1월에 국제 규격으로서 등록되었고, 현재

MPEG-4 재생기의 모델이 몇 개 존재하는데, 2차원 3차원 프로파일을 지원하

도록 향상시키는 중이다. 버전 2에 대한 작업이 1999년 말 완성될 계획으로 있

다.

다음 장에서는 지금까지 살펴 본 객체 단위의 합성 및 표현, 객체간의 상호작

용 등 대화형 인터넷 방송 구현을 위한 관련 표준들에 기반하여, 독립된 객체들

에 대한 부호화, 특히 MPEG-4에서 규정하고 있는 음성 및 오디오 객체의 부

호화에 대하여 간단히 기술한다.

Page 23: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

14

제3장 MPEG-4 오디오 개요

MPEG-4 오디오 표준의 첫번째 버전은 1998년에 완성되었으며, 자연, 합성

오디오 객체의 부호화 및 다수 객체들을 하나의 “오디오 장면[10, 11]”으로 합

성하여 구성하는 도구들을 제공하고 있다. 자연 오디오 객체 (음성, 음악 등)는

파라메터에 의한 음성 부호화, CELP 기반의 음성 부호화 및 변환을 기반으로

하는 일반 오디오 부호화를 사용하여 채널 당 2kbps ~ 64kbps 혹은 그 이상의

비트율 범위에서 부호화 할 수 있다. 그림 4에서는 자연 오디오의 도구들에 대

하여 비트율에 따른 도구들의 배분을 나타내고 있다. 합성 오디오 객체는 문자

음성 변환 (Text To Speech: TTS) 인터페이스 또는 구조화된 오디오 합성 도

구를 사용하여 표현할 수 있다. 이러한 도구들은 반사음 등 효과음을 추가하고,

청취자가 직접 들을 수 있는 “오디오 장면”을 구성하기 위하여 여러 오디오 객

체를 혼합하는데 사용될 수 있다.

위성 통신

이동 통신 인터넷 종합정보통신망

비트율 kbps

계층 부호화

음성 부호화

일반 오디오 부호화

오디오 대역폭

TTS

그림 4. 비트율에 따른 오디오 도구의 배분

MPEG-4 표준화의 일정이 너무 촉박하여 MPEG-4에 제안된 몇 가지 도구

Page 24: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

15

들이 첫번째 버전의 표준에 포함되기에는 충분한 준비가 되어 있지 않았다. 많

은 도구들이 MPEG-4 버전 1에서는 지원하지 않는 유용한 기능들을 제공하므

로, 이들 도구들을 확장된 표준, 버전 2에 포함시키는 작업을 계속하기로 하였

다.

확장된 표준에서는 버전 1의 기존 도구들은 전혀 변화시키지 않고, 새로운

도구를 MPEG -4 버전 2에 추가하였다. 그러므로 버전 2는 그림 5에 나타낸 것

과 같이 버전 1을 완전히 포함하고 있다.

그림 5. MPEG-4 버전간의 관계

MPEG-4 버전 2의 오디오는 새로운 도구들을 추가함으로써 다음의 새로운

기능들을 제공한다.

?? 전송 오류 탄성 도구는 오류가 발생하기 쉬운 전송 채널 상에서 향상

된 성능을 제공한다.

?? 저지연 오디오 부호화 도구는 양방향 실시간 통신과 같은 낮은 부호

화 지연을 필요로 하는 응용 분야에서 일반 오디오 신호를 전송할 수

있도록 한다.

?? 좁은 단계의 계층 부호화 도구는 매우 세밀한 단계 (즉, 버전 1의 일

반 오디오 부호화 도구를 기반으로 하는 매우 적은 비트율 단위의 계

층 부호화 단계)에 의한 계층 부호화를 제공한다.

Page 25: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

16

?? 파라메터에 의한 오디오 부호화 도구는 일반 오디오 신호의 초 저비

트율 부호화와 더불어 외부 효과음 처리기 없이도 복호화 동안 재생

속도 및 음높이를 조절할 수 있는 기능을 가지고 있다.

?? 현장감 재생 도구는 버전 1보다 더 자연스러운 음원 및 실내음향 모

델링에 의해 “오디오 장면”을 구성할 수 있다.

오디오 부호화에서는, 오디오 신호에 포함되어 있는 불필요하고 불합리한 신

호를 줄이기 위한 인간의 청각능력에 대한 적절한 지각 모델과 함께 다양한 음

원 모델을 조합하여 유용하게 사용할 수 있다. 그림 6은 이러한 고려사항에 의

해 고안된 오디오 부호화 및 복호화기의 일반적인 블록 다이어그램을 나타내고

있다.

그림 6. 오디오 부호화기 (a)와 복호화기 (b)의 블록 다이어그램

MPEG-4 오디오 표준은 채널 당 2kbps에서 64kbps 및 그 이상 범위의 비

트율에서 오디오 신호를 부호화하는 기능을 제공한다. 이러한 광범위한 비트율

에서 최적의 부호화기 성능을 얻기 위해서는, 특정 비트율 범위에 따라 다른 모

델을 가정하는 것이 효과적이다[12]. 또한 부호화되는 오디오 신호의 특성을

고려하여야 하는데, 이는 특성화된 음성 부호화기는 음성신호에 대해 주어진 비

트율에서 일반 오디오 신호를 위해 설계된 부호화기에 비해 보다 좋은 성능을

Page 26: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

17

발휘하는 현상을 반영한 것이다. 이러한 고려사항에 의해 MPEG-4 오디오는

공통의 틀로서 통합되는 음성 부호화 기술과 일반 오디오 부호화 기술을 함께

포함하고 있다.

데이터 압축 뿐만 아니라, MPEG-4 오디오는 다음의 기능들을 지원한다:

비트율 계층화 는 종종 포함 부호화 (Embedded coding)라고도 하며, 기본

계층 비트스트림과 하나 이상의 부가적인 상위 계층 비트스트림을 사용한다. 복

호화기에서 단지 기본 계층만을 복호화 할 수 있는 경우에도 청취 가능한 신호

를 복원할 수 있다. 복호화기에서 하나 혹은 그 이상의 상위 계층의 복호화를

수용할 수 있다면 보다 좋은 품질의 신호를 얻을 수 있다.

속도 및 음 높이 조절 은 재생하는 동안 사용자의 제어에 의해 MPEG-4 오

디오의 복호화 된 신호의 속도 및 음높이를 조절한다.

MPEG-4 오디오는 자연 오디오 (음성, 음악과 같은)의 부호화 뿐 만 아니라,

“구조화”라고 하는 효과적인 표현에 의해 오디오를 합성해 내는 기술을 포함하

고 있다. 음계나 MIDI (Musical Instrument Digital Interface)에 의한 표현과 함

께 문자 음성 변환기를 위한 문자 표현 방법을 제공하고 있다. 음악 합성은 “악

기 기술 (instrument description)”이라고 하는 방법에 의해 표현할 수 있다. 이

들 도구들은 또한 반사음과 같은 효과음 합성과 MPEG-4 오디오 복호화기의

출력 신호들을 하나의 완전한 “오디오 장면”으로 구성하기 위한, 여러가지 오디

오 객체들의 합성 방안을 제공한다.

다음의 절에서는 MPEG -4 버전 1의 몇 가지 오디오 도구들을 좀 더 자세히

기술하며, 특히 자연 음성 및 오디오 부호화 도구의 구조 및 동작 원리에 대해

자세히 설명한다.

Page 27: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

18

3.1 음성 부호화

2에서 24kbps 범위의 비트율로서 음성 부호화를 지원하는데, 파라메터에 의

한 음성 부호화 (Harmonic Vector eXcitation Coding: HVXC)에 의해서는 2에

서 4kbps의 비트율을, CELP (Code Excited Linear Predictive) 부호화에 의해

서는 약 4에서 24kbps의 비트율을 지원할 수 있다[13]. 뿐만 아니라 HVXC는

가변 비트율 모드에서 평균 약 1.2kbps 까지의 비트율로서 동작할 수 있다.

CELP 부호화에서는 협대역과 광대역 음성을 지원하기 위해 8과 16kHz의 두

가지 표본화 주파수를 사용한다.

HVXC와 CELP 음성 부호화는 비트율 계층화 기능을 제공한다. HVXC는 파

라메터에 의한 분석 합성 음성 부호화기로서, 복호화기에서의 재생 속도, 음 높

이 조절 기능을 제공한다.

3.1.1 HVXC 도구의 구조[16]

HVXC는 선형 예측 부호화 (Linear Predictive Coding: LPC)의 잉여신호

(residuals)를 고조파 벡터와 확률 벡터를 사용하여 부호화한다. 즉 신호가 유

성음일 때는 LPC 잉여신호의 스펙트럼 포락선 (spectral envelope)을 벡터 양

자화하여 부호화하고, 무성음일 때는 벡터 여기 부호화 (Vector excitation

coding: VXC) 기법을 사용하여 부호화하기 때문에 HVXC 라 한다.

HVXC 부호화기의 구조는 그림 7에 나타나 있듯이 대략 LPC 분석 및 LPC

양자화, 피치 추정, 고조파 형태 추출, 유성음/무성음 (Voiced/UnVoiced:

V/UV) 판별, 무성음 양자화기, 지각 가중 필터 (perceptual weighting filter),

고조파 벡터 양자화로 구성된다.

Page 28: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

19

+

선형 예측부호화

지각 가중

LPC 합성 필터

DFT V/UV판별

G

V/UV

여기파라메터

피치

스펙트럼 포락선

형상

이득

유성음

무성음

입력

LSP

LSP의 벡터양자화

+-

지각 가중치계산

LPC역필터

개루프피치추정

정밀피치 탐색

스펙트럼포락선

스펙트럼포락선 VQ

지각 가중필터

확률적부호표

오차의계산

그림 7. HVXC 부호화기의 구조

LPC 분석 및 LPC 양자화는 매 입력 단위마다 해밍 창함수를 적용한 신호에

대해 자기상관(auto-correlation) 방법을 사용하여 LPC 계수를 구하며, LPC 계

수는 LSP (Line Spectral Pairs) 파라메터로 변환한 후 벡터 양자화 방법을 사

용하여 양자화된다.

피치 추정은 개 루프(open loop) 피치 추정 과정을 통하여 첫번째 추정치를

얻는데, 먼저 LPC 잉여신호의 자기상관 값이 계산되며, 보다 정확한 피치 값을

얻기 위하여 피치 추적이 수행된다. 피치 추적은 이전 프레임의 V/UV, 과거와

현재 입력 단위의 피치 파라메터 등을 사용하여 수행하게 된다.

고조파 형태 추출 과정은 정밀 (fine) 피치 탐색 과정과 스펙트럼 포락선

(spectral envelope) 검출 과정으로 이루어 진다. 피치 추정 모듈에서 개 루프

피치 추정에 의해 얻어진 정수 값의 피치를 이용하여 소수점 이하의 정밀도를

갖는 피치 값을 추정한다. 정밀 피치 검색은 합성된 신호의 스펙트럼과 원래 신

Page 29: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

20

호의 스펙트럼 간에 오차가 최소화 되도록 수행되며, 이 과정에서 피치의 값과

고조파 형태가 동시에 추정된다.

유성음/무성음 (Voiced/UnVoic ed: V/UV) 판별은 합성된 스펙트럼과 원래 스

펙트럼 사이의 유사성, 신호 전력, LPC 잉여신호의 에너지로 정규화된 LPC 잉

여신호 자기상관 값의 최대치, 영 교차 (zero crossing) 수 등의 파라메터를 이

용하여 수행 된다.

무성음 성분 양자화기에서는 먼저 LPC 분석이 수행되며, 이때 얻어진 LPC

계수는 유성음인 경우와 동일한 방식으로 LSP 파라메터로 변환된다. 다음으로

LSP 파라메터들이 양자화 되고, 이 양자화된 LSP 파라메터들은 다시 역 양자

화된 LPC 파라메터로 변환된다.

지각 가중 필터 (perceptual weighting filter) 에서는 고조파 성분들로 구성되

는 스펙트럼의 포락선에 대해 가중 벡터 양자화를 사용하기 위해 지각 가중 필

터의 주파수 응답이 계산된다. 지각 가중 필터는 LPC 계수로부터 얻어진다.

고조파 벡터 양자화를 이용한 고조파 성분의 부호화 과정은 차원 변환과 잉

여벡터들의 벡터 양자화라는 두 단계로 구성된다.

HVXC 복호화기의 구조는 그림 8에 나타나 있듯이 LSP 복호화, 고조파 VQ

복호화, 무성음 성분 복호화, 파라메터 보간, 유성음 성분 합성, 무성음 성분 합

성 등으로 구성된다.

Page 30: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

21

LSP

V/UV

피치

스펙트럼포락선

형상

이득

LSP역 양자화

고조파합성

G

LSP보간

파라메터보간

스펙트럼포락선의역 양자화 +

LPC합성 필터 후처리 필터

음성출력

창 적용

여기파라메터

속도 변환지수

LPC합성 필터 후처리 필터

확률부호표

고조파 VQ 복호화기

시간영역 복호화기

LSP 복호화기

무성음 성분 합성

유성음 성분 합성

속도 변환을 위한파라메터 보간

그림 8. HVXC 복호화기의 구조

LSP 복호화에는 다단계 구조를 갖는 양자화기가 사용되며, 각 단계에서의 출

력 벡터들이 더해짐으로써 최종적인 LSP 파라메터가 얻어진다.

고조파 VQ 복호화에서는 비트율이 2kbps인 경우 복호화 과정이 잉여 벡터들

에 대한 역 양자화와 벡터의 차원 변환의 2단계로 구성되며, 비트율이 4kbps인

경우에는 추가적인 역 양자화기가 사용된다.

무성음 성분 복호화에서 무성음 성분의 복원를 위한 시간영역 복호화기(time

domain decoder)는 수신한 코드북의 인덱스를 이용한 테이블 참조를 통하여

여기신호를 생성하게 된다.

파라메터 보간부는 출력되는 오디오 신호의 음속을 제어하기 위해 수신된 비

트스트림으로부터 얻어진 파라메터들인 피치값, 유성음/무성음 판정 신호, LSP

계수, 그리고 스펙트럼 성분의 진폭 등을 보간함으로써 변경된 시간 영역에서의

파라메터들을 계산한다.

유성음 성분 합성부는 고조파 합성부, LPC 합성 필터, 그리고 후처리 필터

Page 31: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

22

(Post Filter)로 구성된다. 먼저 고조파 합성부에서는 고조파 성분의 진폭 포락

선으로부터 주기적인 여기 파형을 얻기 위해 효과적인 고조파 성분 여기 합성

방법이 사용되며, 이에 잡음 성분이 더해져 유성음 성분의 여기 신호가 구해진

다. 다음으로 유성음 성분의 여기 신호가 LPC 합성 필터와 후처리 필터를 통과

하여 유성음 신호가 구해진다.

무성음 성분 합성부는 창 (Window), LPC 합성 필터 (LPC Synthesis Filter),

그리고 후처리 필터 (Post Filter)로 구성된다.

3.1.2 CELP 도구의 구조[17]

CELP는 협대역과 광대역 모드가 있으며, 음성 뿐만 아니라 일반 오디오에

대해서도 어느 정도의 부호화가 가능하다. 낮은 비트율에서의 음성과 배경음이

섞여 있는 입력에 대해 가장 좋은 성능을 발휘한다.

CELP 부호화기는 전처리, LPC 분석, LPC 양자화 및 보간, LPC 분석 필터,

가중치 모듈, 여기 분석, 비트스트림 다중화로 구성되어 있으며, 전처리부에서

는 입력신호의 직류성분을 제거한다. LPC 분석부는 단기간 스펙트럼을 추정하

는 도구이며, LPC 양자화 및 보간부에서는 협대역 양자화 도구, 광대역 양자화

도구, 대역폭에 의한 계층 양자화 도구 중 하나에 의해 LPC 계수를 양자화한다.

LPC 분석 필터는 입력신호를 LPC 계수에 의해 필터링함으로써 잉여 신호를

발생시키며, 가중치 모듈은 LPC 계수에 적용시킬 가중치를 계산한다. 여기 분

석부에서는 복호화된 합성음성과 스펙트럼의 형상 및 이득을 계산하며, 비트스

트림 다중화부에서는 각 모듈의 출력을 다중화함으로써 비트스트림을 생성한다.

CELP 복호화기의 구조는 그림 9와 같으며, 비트스트림 역 다중화, LPC 복호

화 및 보간, 여기 발생, LPC 합성 필터, 후처리로 구분될 수 있다.

Page 32: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

23

LPC 파라메터

복호화기

적응

부호표

고정

부호표 1

고정

부호표 n

이득

복호화기

LP 합성

필터

LPC 파라메터

보간

후처리

필터

LPC지수

지연지수

형상지수 1

형상지수 n

이득지수

출력신호

???

여기

발생부

그림 9. CELP 복호화기의 구조

비트스트림 역 다중화부에서는 수신된 비트스트림으로부터 CELP 데이터를

추출하며, LPC 복호화 및 보간은 LPC 지수로부터 LPC 계수를 복원하며, 복원

된 LPC계수를 보간한다. 여기 발생부는 정규 펄스 여기 (Regular Pulse

Excitation: RPE)절차 혹은 다중 펄스 여기 (Multi Pulse Excitation: MPE)절차

를 사용하여 여기신호를 발생한다. LPC 합성 필터는 LPC 계수로부터 합성된

신호와 여기신호를 출력하며, 후처리부는 합성 필터에 의해 생성된 재구성된 음

성 신호의 질을 향상시키는 도구로서 선택적으로 사용할 수 있다.

3.2 일반 오디오 부호화

일반 오디오 (general audio: GA) 부호화는 넓은 비트율 범위의 부호화를 제

공하기 위해 변환 부호화 기술이 사용된다[14]. 이 도구는 넓은 범위의 비트율

과 표본화 율을 지원한다. 6kbps의 비트율과 4kHz 이하의 대역폭으로부터 방

송용 품질 (64kbps 이상)에 이르기 까지, 또한 모노 채널로부터 멀티채널에 이

르기 까지 넓은 범위를 지원한다. 16kbps까지의 매우 낮은 비트율에서는 변환

에 의한 교차 벡터 양자화 (Transform-domain Weighted INterleaved

Page 33: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

24

Vector Quantization : TwinVQ) 도구가 사용된다. 보다 높은 비트율에서는

MPEG-2 AAC (Advanced Audio Coding) 기술의 확장된 버전이 사용된다. 이

버전은 MPEG-2 AAC에 대해 역방향의 호환성을 가지며, 장시간 예측 (Long

Term Prediction : LTP)과 지각 잡음 대체 (Perceptual Noise Substitution :

PNS)라고 하는 새로운 모듈을 추가로 포함하고 있다.

TwinVQ (Twin Vector Quantization)와 AAC는 비트율 계층화 기능을 제공

한다. 계층 AAC의 구조는 기본 계층의 부호화 도구로서 변환 부호화 도구뿐

만 아니라 CELP 부호화 도구도 사용할 수 있다.

3.2.1 일반 오디오 부호화 도구의 구조[18]

일반 오디오 부호화 도구는 MPEG 오디오 부호화의 고전적인 형태로서, AAC

부호화기의 경우 모든 오디오 신호에 대해 16 kbps 보다 높은 비트율에서 가장

우수하며, 복잡한 오디오 신호에 대해 6 혹은 8 kbps 의 비트율에서 Twin-VQ

가 가장 우수하다. 그림 10과 11은 일반 오디오 부호화기 및 복호화기의 구조

를 나타내고 있다.

그림 10에서 보면 일반 오디오 부호화기는 심리음향 모델링, 이득 제어, 대역

필터뱅크, 시간영역 잡음 형상화, 장시간 예측, 세기/결합 부호화, 단시간 예측,

지각 잡음 대체, M/S (Mid/Side) 스테레오, 양자화 및 무잡음 부호화 혹은 스펙

트럼 정규화 및 교차 벡터 양자화 도구로 구성된다.

심리음향 모델링 도구는 신호에 의해 차폐되는 최대 왜곡 에너지를 계산한다.

이와 함께 시간영역에서의 창 효과에 의한 지연 보상 및 부호화에 필요한

MDCT (Modified Discrete Cosine Transform) 의 블록 길이를 결정한다.

이득 제어 도구는 선택적으로 사용할 수 있는 기능으로서 블록 단위의 입력

신호를 4 개의 대역으로 필터링하여 이득과 정규화를 통하여 신호 진폭을 줄인

다.

Page 34: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

25

지각모델

Bark 단위에서스케일 팩터

대역단위로 변환

스케일 팩터 부호화양자화

스펙트럼정규화 및교차 V Q

지각 잡음대체

필터 뱅크

세기 /결합부호화

단시간 예측

M/S부호화

프레임길이결정

비트스트림형성 부호화된 오디오

비트스트림

데이터제어

시간 영역잡음 형상

입력 신호

심리음향 모델

스펙트럼 부호화 도구

양자화 및 부호화

A A C이득 제어

도구

장시간예측

A A C TwinVQ

무잡음 부호화

그림 10. 일반 오디오 부호화기의 구조

대역 필터뱅크는 MDCT를 사용하여 주파수 영역의 신호로 변환하는 도구로

서 블록 길이에 따라 1024 혹은 128 개의 시간영역 신호를 입력으로 받아

256 혹은 32개 단위로 변환한다.

Page 35: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

26

시간영역 잡음 형상화는 부호화 잡음의 시간영역에서의 형태를 제어하는 도

구로서 부호화기에서는 입력으로 들어온 신호를 시간영역의 포락선에 대하여

편평하게 하는 특성이 있다.

장시간 예측은 시간 영역의 입력 신호를 예측을 통하여 예측 오차 신호 만을

부호화함으로써 부호화 신호의 진폭을 줄일 수 있다. 장시간 예측의 절차는 먼

저 최적의 예측을 수행하고, 예측된 신호와 원 신호간의 예측 오차를 계산한 다

음 이 오차 신호를 양자화하여 전송한다.

세기/결합 부호화는 스테레오 채널 쌍에 대하여 채널간 신호의 유사성에 근

거하여 고주파 영역에서 신호는 좌우 합의 신호만을 전송하고, 각 채널에 대해

서는 이득 신호 만을 전송함으로써, 데이터량을 줄이는 도구이다.

단시간 예측은 예측기를 사용하여 주파수 영역에서의 인접 스펙트럼을 예측

하는 도구로서, 미리 정해진 예측기 집합에 의해 예측을 수행하고 그 오차 신호

만을 전송한다. 실제 예측기는 정해진 순서대로 사용되므로 예측기 정보를 전송

할 필요가 없는 것이 특징이다.

지각 잡음 대체는 대역에 따라 잡음 성분만 포함되어 있는 대역에 대하여 실

제 신호를 전송하지 않고, 이득만을 전송함으로써 복호화기에서 등가 잡음을 생

성토록 하는 도구이다. 잡음은 실제 그 스펙트럼만이 중요하므로 실제 시간 영

역의 파형은 중요치 않다는 사실에 근거한다.

M/S (Mid/Side) 스테레오는 좌, 우 스테레오 형식 대신 서로의 합과 차에 의

한 중앙 (mid) 신호와 측면 (side) 신호의 형식으로 전송하는 것이다. 이는 복

호화기에서 역과정으로 복원할 수 있으며, 전체적으로 볼 때 측면 신호 채널의

신호 진폭이 줄어 들게 되어 데이터를 줄일 수 있다.

양자화 및 무잡음 부호화는 가변 비트 수에 의한 부호인 허프만 코드에 의해

신호 발생 확률에 따라 부호화하는 것으로 주어진 테이블로서 변환할 수 있다.

전체적으로는 확률이 많은 신호에 대해 비트 수가 적은 코드를 할당함으로써

데이터를 줄인다.

Page 36: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

27

스펙트럼 정규화 및 교차 벡터 양자화 도구는 주파수 영역의 스펙트럼의 포

락선을 편평하게 변환하고, 벡터 양자화에 의해 그 지수 만을 전송함으로써, 데

이터량을 줄인다. 이 도구는 무잡음 부호화를 대신할 수 있는 도구로서 낮은 비

트율 부호화에 주로 사용된다.

비트스트림 형성부는 부호화된 각 정보를 비트스트림 문법에 맞도록 다중화

하여 최종 비트스트림을 형성하는 도구이다.

그림 11에서 보면 일반 오디오 복호화기는 비트스트림 역 다중화 도구, 무잡

음 복호화 및 역양자화 혹은 교차 벡터 역양자화 및 스펙트럼 복원, M/S

(Mid/Side) 스테레오, 지각 잡음 대체, 단시간 예측, 세기/결합 부호화, 장시간

예측, 시간영역 잡음 형상화, 대역 필터뱅크, 이득 제어 도구로 구성된다. 비트

스트림 역 다중화 도구는 MPEG -4 비트스트림을 입력으로 하여 비트스트림 문

법에 따라 역다중화와 각 도구에 대한 정보를 추출한다. 역양자화 및 무잡음 복

호화는 무잡음 부호화 방법에 의해 부호화된 비트스트림인 경우 사용되는 복호

화 도구로서, 허프만 코드 테이블을 이용하여 원래의 양자화된 스펙트럼 값을

복원하며, 양자화의 역과정에 의해 역 양자화를 수행한다.

교차 벡터 역 양자화 및 스펙트럼 복원은 벡터 양자화에 의해 양자화된 비트

스트림의 경우 벡터 부호 테이블을 사용하여 양자화된 스펙트럼을 복원해 내고,

정규화된 스펙트럼 포락선을 복구한다. M/S (Mid/Side) 스테레오는 M/S 스테레

오 도구가 사용된 경우, 복원된 중앙 신호와 측면 신호의 스펙트럼의 합과 차에

의해 원래의 좌, 우 신호를 복구한다. 지각 잡음 대체 도구가 사용된 경우 랜덤

신호에 의해 잡음신호를 생성하여 내고, 비트스트림에 의해 전송되어 온 잡음신

호의 이득을 취하여 원래의 잡음 신호와 등가인 지각 잡음을 생성한다.

단시간 예측 도구가 사용된 경우, 부호화기의 미리 정해진 예측기들을 사용하

여 예측을 함으로써 스펙트럼을 복원해 낸다.

세기/결합 복호화 도구가 사용된 경우, 비트스트림으로부터 추출된 정보에 의

해, 부호화기의 역과정을 거쳐 각 채널의 세기/결합 부호화 이전의 스펙트럼을

Page 37: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

28

복원해 낸다.

비트스트림역 다중화

오디오비트스트림

데이터제어

지각 잡음대체

세기 /결합부호화

장시간 예측

M/S스테레오

AAC이득 제어

도구

필터 뱅크

시간 영역잡음형상

스펙트럼 복호화 도구

A A C

역 양자화스케일팩터 복호화

스펙트럼정규화

교차 V Q 및

복호화 및 역 양자화

출력신호

장시간예측

TwinVQ무잡음 복호화

그림 11. 일반 오디오 복호화기의 구조

Page 38: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

29

장시간 예측은 비트스트림에 의해 전송되어 온 예측 파라메터와 예측 오차

신호에 대해 이미 복원된 시간 영역의 기준신호로부터 예측에 의해 원래의 신

호를 복구한다.

시간영역 잡음 형상화는 전송되어 온 시간영역 잡음형상화에 사용된 필터계

수에 의해 주파수 영역에서 역필터를 적용함으로써 부호화기에서의 시간영역

잡음 형상화 이전의 신호를 복원한다.

대역 필터뱅크는 블록 형태에 따라 128 혹은 32 개의 스펙트럼에 대해

IMDCT를 취함으로써, 부호화기에서 대역 필터뱅크를 통과하기 이전의 시간 영

역 신호를 합성하여 낸다.

이득 제어가 사용된 경우 각 네 개의 대역에 대해 이득을 적용함으로써 보상

하고, 하나의 대역 신호로 재 합성함에 의해 최종 복원된 신호를 얻는다.

3.3 구조화 오디오

구조화 오디오 도구는 구조화 된 표현을 합성 오디오 신호로 합성 변환한다

[15]. 복호화는 구조화 오디오 오케스트라 언어 (S tructured Audio Orchestra

Language : SAOL)라고 하는 특별한 합성 언어로서 기술되어 있다. 이 언어는

공정 제어 데이터를 생성하는 “악기” (비트스트림에서 다운로드 되지만, 터미널

에 대해 유동적임)로서 구성되는 “오케스트라”를 정의하고 있다. 여기서 악기라

고 하는 것은 실제 음향 악기와 같은 특별한 소리를 모방하도록 하는 일종의

소규모 신호처리망이다. 신호 처리망은 소리를 생성하고 처리하며, 사전에 저장

된 소리를 가공하기도 한다.

다양한 악기를 불러내거나 제어하는 “악보”를 비트스트림으로 전송함으로써

합성을 제어한다. 악보는 구조화 오디오 악보 언어 (Structured Audio Score

Language :SASL)로서 부호화되거나 MIDI 데이터로 전송될 수 있다.

구조화 오디오 도구는 복호화된 오디오 객체에 필터, 잔향, 합창 등과 같은

간단한 효과 처리를 하여, 청취자가 직접 들을 수 있는 “오디오 장면”을 구성하

Page 39: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

30

는 도구로도 사용된다.

3.4 문자 음성 변환

문자 음성 변환 (Text-To-Speech : TTS) 합성은 200bps에서 1.2kbps 비

트율 범위로서 전송되어 오는 문장, 혹은 운율 파라메터 (피치 윤곽, 음소 지속

시간 등)를 가진 문장으로부터 합성 음성을 생성한다. 또한 문자 음성 변환 도

구는 얼굴 표정 합성과의 동기를 위한 파라메터, 문장 표현을 위한 국제 언어와

음소의 표현을 위한 국제 기호를 제공한다. MPEG -4에서는 기준이 되는 TTS

합성기 자체가 아닌 문자 음성 변환 복호화기의 동작을 위한 표준화된 문자 음

성 변환 인터페이스만을 제공한다.

3.5 프로파일과 레벨

MPEG-4는 오디오 객체의 부호화를 위한 다양한 도구를 제공하고 있다. 표

준의 효과적인 구현을 도모하기 위하여, 모든 도구들 중에서 특별한 응용분야에

사용될 수 있는 소수 도구들로 구성되는 부분 집합들을 정의하고 있다. 이 부분

집합을 “프로파일”이라고 하며, 표준을 따르는 복호화기가 구현하여야 될 도구

의 집합을 한정한다. 각 프로파일에 대해 하나 이상의 레벨을 규정하고 있는데

이는 구현이 복잡해 지는 것을 제한하기 위한 것이다. 버전 1에서는 다음 네

개의 프로파일이 정의되어 있다:

?? 음성 프로파일 (Speech Profile) 은 파라메터에 의한 초저비트율 부호

화를 위하여 HVXC를, 협대역/광대역 음성 부호화기로서 CELP, 그

리고 문자 음성 인터페이스를 제공한다.

?? 계층 프로파일 (Scalable Profile)은 음성 프로파일을 포함하며, 인터

넷과 협대역 디지털 오디오 방송 (Narrow-band Audio Digital

Broadcasting : NADIB)과 같은 망을 위한 음성 및 음악의 계층 부

호화에 적합한 일반 오디오 부호화 도구들을 포함한다.

Page 40: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

31

?? 합성 프로파일 (Synthesis Profile)은 SAOL과 파형 테이블 (wave -

table)을 사용하는 악보에 의해 합성하는 구조화 오디오 도구와 매우

낮은 비트율에 의해 음성을 생성하는 문자 음성 인터페이스를 제공

한다.

?? 주 프로파일 (Main Profile)은 자연 오디오 및 합성 오디오 도구 전

체를 포함하는 프로파일로서 상기 세 개의 프로파일의 전체 집합이

다.

본 논문에서는 MPEG-4 오디오의 도구 중 자연 오디오에 해당하는 CELP,

HVXC와 같은 음성 부호화 도구, 및 Twin VQ, AAC 부호화 도구에 의한 일반

오디오 부호화 도구를 MPEG 그룹에서 제공하는 참조용 S/W를 기본으로 하여

각 도구의 동작 모드 별로 파라메터 입력에 의해 정상적으로 동작하도록 구현

하였다.

Page 41: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

32

제4장 MPEG-4 오디오 기능 구현 및

성능 분석

앞에서 인터넷 방송의 동향과 차세대 대화형 인터넷 방송을 목표로 하는 몇

가지 표준에 대하여 간단히 알아 보았다. 또한 인터넷 방송 구현에 있어 오디오

객체를 부호화하는 도구로서 MPEG-4 오디오에 대해 간단히 설명하였다.

본 장에서는 MPEG -4 오디오의 자연 오디오를 위한 도구, 즉 음성 부호화를

위한 HVXC 도구 및 CELP 도구와 오디오 부호화를 위한 Twin VQ 및

MPEG-4 AAC 부호화 방식의 기능 구현에 대하여 기술하는데, MPEG 그룹에서

제공하는 참조용 S/W를 기반으로 구현된 MPEG-4 S/W의 다양한 동작 모드

및 비트율에 대해 그 성능을 분석한다.

4.1 HVXC 도구의 기능 구현 및 분석

HVXC는 주로 2에서 4kbps 사이의 비트율로서 8kHz의 음성을 부호화하는

도구로서, 이하에 구조 및 제어 파라메터에 대하여 기술하고, 복호화된 음성의

품질을 기반으로 성능을 분석한다.

4.1.1 HVXC도구의 기능 구현

HVXC 부호화기의 동작 모드는 2kbps 고정 비트율 부호화 모드, 4kbps 고정

비트율 부호화 모드, 가변 비트율 부호화 모드의 세 가지로 나눌 수 있다.

HVXC 부호화기의 동작을 위해서는 몇 가지 파라메터를 설정하여 주어야 하

는데, 필수적인 파라메터로서 도구 선택과 부호화기 파라메터, 부호화 비트율,

입력 파일이다. 도구 선택을 위한 스위치는 ‘-m <값>’으로 나타내어야 하며,

HVXC를 선택하려면 값으로서 ‘hvxc’를 입력하여야 한다. 부호화기 파라메터를

위한 스위치는 -c ”<선택사양>”로서 사용할 수 있고, 선택사양의 값에는 다음

Page 42: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

33

과 같은 종류가 있다. HVXC 도구를 사용할 경우 ‘hvxc_sys ’를 사용하여야 하

며, 지연 모드를 사용하여 정상지연 모드 (1), 와 저지연 모드 (0)로서 운용할

수 있다. 여기에 또한 가변 비트율 부호화 모드로서 동작시킬 때는 vr을 설정하

여 주어야 한다.

또한 부호화 비트율은 -r 스위치와 함께 사용할 수 있는데, 비트율은 정수로

서 표현한다. 또한 입력 파일은 스위치 없이 파일명만 입력하면 된다.

이외에도 스위치로서는 입력 및 출력 파일의 확장자 선택, 파일 탐색 경로,

디버깅 레벨 출력 파일 등을 지정하기 위한 스위치들이 있다. 여기서 mp4enc

는 실행 파일명이다.

다음에 HVXC부호화기의 사용법 및 각 모드별 사용 예를 나타낸다.

사용법 : mp4enc -m hvxc -c "<선택사양>" -r <비트율> <입력 파일> -o

<출력 파일>

사용예

2kbps 고정 비트율 모드

-m hvxc -c "-hvxc_sys" -eo .wav -po ori -pb bit -r 2000 spfen8 -o t0

: -eo (입력 파일 확장자), -po (입력 파일 경로), -pb (출력 파일 경로), -o

(출력 파일)

4kbps 고정 비트율 모드

-m hvxc -c "-hvxc_sys" -eo .wav -po ori -pb bit -r 4000 spfen8 -o t1

가변 비트율 모드

-m hvxc -c "-hvxc_sys vr=1" -eo .wav -po ori -pb bit -r 2000 -vr

spfen8 -o t2

Page 43: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

34

: vr, -vr (가변 비트율 모드)

복호화기는 비트스트림으로터 기본적인 정보를 스스로 찾아내므로 상대적으

로 사용하기 쉽다. 도구선택은 따로 할 필요가 없으며, 복호화기 파라메터와 입

력 파일만 지정해 주면 된다. 복호화기에는 네 가지 모드가 있는데, 부호화기보

다 하나가 더 많은 것은 4kbps 고정 비트율 모드의 비트스트림일 경우 모든 정

보를 이용하지 않고, 2kbps 의 비트스트림에 해당하는 정보만을 가지고 복호화

할 수 있는 계층 부호화 모드가 추가되어 있기 때문이다.

다음에 HVXC 복호화기의 사용법 및 각 모드별 사용 예를 나타낸다.

사용법 : mp4dec -c "<선택사양>" <입력 파일> -o <출력 파일>

사용예

2kbps 고정 비트율 모드

-c "-hvxc_sys" -ed .wav –pd dec -pb bit -r 2000 t0

: -ed (출력 파일 확장자), -pb (입력 파일 경로), -pd (출력 파일 경로), -o

(출력 파일)

4kbps 고정 비트율 모드

-c "-hvxc_sys" -ed .wav –pd dec -pb bit -r 4000 t1

가변 비트율 모드

-c "-hvxc_sys" -ed .wav -pd dec -pb bit -r 2000 t2

계층 부호화 모드 : 입력으로 4kbps 고정 비트율로 부호화된 비트스트림을

받아 4kbps 혹은 2kbps 모드로 복호화할 수 있으며, 사용법은 고정 비트율 모

드와 동일함.

이외에도 복호화기 스위치로서 -pf 와 -cf 가 있는데 이들은 각각 복호화기

Page 44: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

35

의 출력 신호에 있어 음높이 및 재생 속도를 자유롭게 조정할 수 있는 스위치

로서 상대적인 비율 값을 값으로서 사용한다.

4.1.2 HVXC의 성능 분석

4.1.1절에서 살펴 본 HVXC 의 각 동작 모드에 따른 동작 시험 및 부호화되

고 복원된 음성신호에 대한 성능평가를 해 보았다.

우선 파형과 스펙트럼에 있어 그림 12와 그림 13에서 알 수 있듯이 원래의

신호와 약간의 차이를 보였다. 그러나 파형 및 스펙트럼의 차이는 큰 의미를 가

지는 것이 아니며, 청취에 의해 성능을 분석해 보면, HVXC가 유성음과 무성음

구간에 대해 판별을 하고, 그에 따른 파라메터를 생성한 후 복호화기에서 복원

하는 특성을 가지는 것에 의해 유성음과 무성음이 정확하게 구분이 되지 않는

비음과 파열음 등에서는 약간 부자연스러운 음이 생겼으며, 배경에 잡음이나 다

른 사람의 음성이 동시에 녹음된 경우 잘못된 파라메터를 생성함으로 인해 성

능이 저하되는 것을 알 수 있었다.

또한 2kbps, 4kbps 및 가변 비트율 모드에서의 성능 차이는 매우 적었으며,

비음 및 배경잡음에 대해 4kbps 모드에서 좀 더 자연스러운 것을 확인하였다.

Page 45: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

36

그림 12. 원 신호와 HVXC 부호화 신호의 파형 비교

그림 13. 원 신호와 HVXC 부호화 신호의 스펙트럼 비교

Page 46: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

37

4.2 CELP 도구의 기능 구현 및 분석

CELP는 대략 4에서 24kbps 사이의 비트율로서 8kHz 및 16kHz의 음성을

부호화하는 도구로서, 다음에 구조 및 제어 파라메터에 대하여 설명하고, 복호

화된 음성의 품질을 기반으로 성능을 분석한다.

4.2.1 CELP도구의 기능 구현

CELP 부호화기의 동작 모드는 먼저 코드 여기 방식에 따라 간격이 일정한

정규 펄스 여기 방식과 불규칙한 다중 펄스 여기 방식이 있다. 여기서 다시 정

규 펄스 여기 방식에 의한 부호화 동작은 고정 비트율과 가변 비트율 부호화

방식으로 나눌 수 있으며, 입력으로 16kHz의 표본화 주파수만 수용한다. 다중

펄스 여기 방식에 의한 부호화 동작은 비트율 계층화를 사용한 방식과 사용하

지 않은 방식, 그리고 대역폭 계층화 방식으로 구분할 수 있으며, 입력으로는

8kHz 및 16kHz의 표본화 주파수를 사용할 수 있다.

CELP 부호화 도구를 선택하려면 스위치 ‘-m <값>’의 값에 ‘lpc’를 입력하여

야 한다. 부호화기 파라메터를 위한 스위치 -c ”<선택사양>”의 선택사양에는

다음과 같은 것들이 있다. 우선 정규펄스 여기 방식 (1)과 다중 펄스 여기 방식

(0)을 e <값> 선택사양에 의해 설정하여야 하며, 비트율 계층화 방식을 사용할

경우 상위 계층의 개수를 n <값>으로 지정할 수 있다. 또한 가변 비트율 부호

화 방식을 사용할 경우 이를 나타내는 스위치 f에 0을 대입하여야 한다. 또한

대역폭 계층화 방식을 사용할 경우 저 대역 부분의 비트율을 b <비트율>사양으

로서 따로 설정하여 주어야 하며, 입력 신호의 사전 필터링을 위한 스위치 p를

가진다.

다음에 CELP부호화기의 사용법 및 각 모드별 사용 예를 나타낸다.

사용법 : mp4enc -m lpc -c "<선택사양>" -r <비트율> <입력 파일> -o <출

력 파일>

Page 47: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

38

사용예

정규 펄스 여기 방식에 의한 부호화 모드

(고정 비트율) -m lpc -c "e 1 f 0 p <0 or 1>" -po ori -pb bit -r <비트율>

toms16.wav -o t4

: 비트율 (14400, 16000, 18667, 22533 bps)

(가변 비트율) -m lpc -c "e 1 f 1 p <>" -po ori -pb bit -vr -b <> -r <비트

율> toms16.wav -o t4

: 비트율 (13500, 15400, 18000, 21500 bps), -b (입력 버퍼 크기; 대개

6000)

다중 펄스 여기 방식에 의한 부호화 모드

(기본 부호화) -m lpc -c "e=0,p=1" -po ori -pb bit -r <비트율> toms16.wav

-o t12

: 비트율 (38500에서 23800에 이르는 다양한 고정 비트율 제공)

(비트율 계층화) -m lpc -c "e=0,n=num,p=1" -po ori -pb bit -r <비트율>

toms16.wav -o t13

: n (계층의 개수로서 num은 3까지의 정수), 비트율 (기본 부호화와 동일)

: 실제 비트율 = 비트율 + num * 2000 (또는 16kHz 표본화 주파수 인 경우

4000)

(대역폭 계층화) -m lpc -c "e=0,b=<저비트율>" -r <비트율> toms16.wav -o

t14

: b (저 대역 부분의 비트율), 비트율 (저비트율 + 상위 계층 비트율)

: 상위 계층 비트율 (저 대역 비트율의 범위에 따라 고정 비트율로서 정해짐)

Page 48: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

39

복호화기는 비트스트림으로터 기본적인 정보를 스스로 찾아내므로 상대적으

로 사용하기 쉽다. 도구선택은 따로 할 필요가 없으며, 복호화기 파라메터와 입

력 파일만 지정해 주면 된다. 복호화기에는 세 가지 모드가 있는데, 정규 펄스

여기 방식과 멀티 펄스 여기 방식의 기본 부호화 방식의 복호화 명령은 동일하

다. 비트율 계층화 및 대역폭 계층화인 경우 복호화 하려는 계층을 사용자가 결

정하여 주어야 한다.

다음에 CELP 복호화기의 사용법 및 각 모드별 사용 예를 나타낸다.

사용법 : mp4dec -c "<선택사양>" <입력 파일> -o <출력 파일>

사용예

정규 펄스 여기 방식 및 다중 펄스 여기 방식의 기본 모드

-c "lpc_p 0" -ed .wav -aaceof -pd dec -pb bit t4.mp4

: lpc_p (출력 필터 스위치), -ed (출력 파일 확장자), -aaceof (파일 끝 탐색

사용)

비트율 계층화 모드

-c "lpc_n=3,lpc_p=1" -ed .wav -aaceof -pd dec -pb bit t13.mp4

: lpc_n (복호화하려는 계층의 개수)

대역폭 계층화 모드

-c "lpc_b=0,lpc_p=1" -ed .wav -aaceof -pd dec -pb bit -s 8000 t14.mp4

: lpc_b (복호화 계층 선택 0: 저 대역 계층, 1: 모든 계층) , -s (출력 표본

화 주파수)

모든 선택 사양 및 스위치를 사용자가 제어하도록 하는 것은 실제 응용에 있

어서는 그리 적절한 방법이 아니며, 적용 분야에 따라 이러한 선택의 범위를 최

Page 49: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

40

적화 시켜야 할 것이다.

4.2.2 CELP의 성능 분석

4.2.1절에서 살펴 본 CELP 의 각 동작 모드에 따른 동작 시험 및 부호화되

고 복원된 음성신호에 대한 성능평가를 해 보았다. 16kbps의 CELP 부호화의

경우, 원 신호와의 파형 및 스펙트럼 변화를 그림 14 및 그림 15에서 비교하고

있다. 원음과 비교하여 보면 스펙트럼에서 고주파 대역의 에너지 분포가 다른

것을 알 수 있다. 청취에 의해 비교하여 보면 무성음 구간에서 미소한 차이가

있는 것을 확인할 수 있었다.

우선 비교 대상은 HVXC가 될 수 있는데 저 비트율에서는 자연성에 있어 더

좋은 성능을 나타내었지만 잡음이 포함되어 있는 것을 확인하였으며, 적절한 비

트율을 선택함으로써 성능을 최적화 할 수 있었다. 또한 HVXC의 배경음이 포

함된 경우의 문제점은 CELP에서는 나타나지 않았으며, 16kHz 표본화 주파수에

대한 부호화는 음성 뿐만 아니라 일반 오디오가 포함된 입력 신호에 대해서도

성능을 유지하는 것을 알 수 있었다.

또한 CELP의 각 동작 모드 별로 성능 차이는 느낄 수 없었으며, 대체로 비

트율에만 의존함을 알 수 있었다. 비트율 계층화의 경우 망의 상태에 따라 혹은

복호화기의 성능에 따라 유연하게 전송하거나 복호화 계층을 조절할 수 있어,

망의 지능화에 연계하여 아주 유용하게 사용될 수 있는 기능임을 확인하였다.

Page 50: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

41

그림 14. 원 신호와 CELP 부호화 신호의 파형 비교

그림 15. 원 신호와 CELP 부호화 신호의 스펙트럼 비교

Page 51: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

42

4.3 일반 오디오 부호화 도구의 기능 구현 및 분석

일반 오디오 부호화 도구는 Twin VQ, AAC 등으로 구성되는데 각각 독립적

으로 사용할 수도 있다. 또한 일반 오디오 부호화 도구는 7.35에서 96kHz의

다양한 표본화 주파수에 대해 채널 당 약 6에서 300kbps의 비트율로서 사용될

수 있다.

4.3.1 일반 오디오 도구의 기능 구현

일반 오디오 부호화기의 동작 모드는 먼저 양자화 및 부호화 방식에 따라 벡

터 양자화를 사용하는 Twin VQ와 비선형 양자화와 허프만 부호화를 사용하는

AAC 방식으로 나눌 수 있다. 또한 이 외에 Twin VQ와 AAC를 계층화하여 계

층 부호화를 수행하는 계층 AAC 부호화 방식이 있다. 일반 오디오 부호화 도

구에는 많은 선택사양이 있으며, 이들을 사용함으로써 성능을 높일 수 있으나,

성능에 비례하여 알고리즘이 복잡하여 지므로 응용 분야에 따라 적절히 선택

사용하는 것이 중요하다.

일반 오디오 부호화 도구를 선택하려면 스위치 ‘-m <값>’의 값에 ‘tf’를 입력

하여야 한다. 부호화기 파라메터를 위한 스위치 -c ”<선택사양>”의 선택사양은

매우 많이 있으며, 대략 살펴보면 Twin VQ에 있어서는 입력 신호의 블록에 대

한 창 함수의 선택 (tvq_wshape), 블록 길이의 선택 (tvq_960), 대역폭 제한을

위한 사양 (tvq_bandlimit), 계층 부호화를 위한 파라메터, 기타 선택적으로 사

용할 수 있는 도구들의 사용을 위한 스위치로 구분될 수 있다. AAC 및 계층

AAC 부호화에 있어서는, MPEG -4 AAC의 선택 가능한 도구들을 사용하기 위

한 스위치와 계층 부호화에 대해 몇 가지 정의된 동작모드 및 기본 계층의 부

호화기 및 그 비트율을 선택할 수 있는 파라메터가 있다.

다음에 일반 오디오 부호화기의 사용법 및 각 모드별 사용 예를 나타낸다.

사용법 : mp4enc -m tf -c "<선택사양>" -r <비트율> <입력 파일> -o <출

Page 52: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

43

력 파일>

사용예

Twin VQ 부호화 모드

-m tf -c "-mp4ff -core_coder 10 -mode 0 <선택사양 도구> -

core_br 8000 -nttScl 8000 8000" -eo .wav -po ori -pb bit -r 38400

mtest24 -o t24.mp4

: -mp4ff (MP4 파일 형식), -core_coder (기본 계층 부호화기), -nttScl (계

층별 비트율)

AAC 부호화 모드

-m tf -c "-aac_raw <선택사양 도구>" -eo .wav -po ori -pb bit -vr -r

128000 test48 -o t27

: -aac_raw (헤더를 생략한 raw 데이터만 생성), -vr (가변 비트율)

계층 AAC 부호화 모드

-m tf -c "-aac_sys –mode 7 -core_br 16000" -eo .wav -po ori -pb bit -

r 64000 testmo48 -o t32

: -aac_sys (계층 AAC 부호화), -mode (부호화 모드 선택) , -core_br

(기본계층 비트율)

복호화기는 비트스트림으로터 기본적인 정보를 스스로 찾아내므로 상대적으

로 사용하기 쉽다. 도구선택은 따로 할 필요가 없으며, 복호화기 파라메터와 입

력 파일만 지정해 주면 된다. 복호화기에는 두 가지 모드가 있는데, 계층 AAC

복호화와 AAC 복호화로 구분할 수 있다. Twin VQ와 계층 AAC 도구는 부호

화기의 모드 선택에 의해 구분되는데, 복호화기에서는 모드를 따로 지정할 필요

가 없으므로 동일한 명령을 사용할 수 있다. AAC 복호화기는 출력 표본화 주파

Page 53: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

44

수 및 출력 채널 수를 변경하는 기능이 있다.

다음에 일반 오디오 복호화기의 사용법 및 각 모드별 사용 예를 나타낸다.

사용법 : mp4dec -c "<선택사양>" <입력 파일> -o <출력 파일>

사용예

계층 AAC 복호화 모드

-c "-mp4ff -out 2" -ed .wav -aaceof -pd dec -pb bit t24 -o t24

: -out (복호화하려는 계층 개수를 나타냄), -aaceof (파일 끝 탐색 사용)

AAC 복호화 모드

-c "-aac_raw <선택사양 도구>" -ed .wav -pd dec -pb bit -aaceof t27 -s

48000 -n 2

: -s (출력하려고 하는 표본화 주파수 지정), -n (출력 채널 수 지정)

일반 오디오 부호화 도구는 매우 많은 선택사양과 다양한 표본화 주파수 및

비트율 등 매우 융통성 있는 도구이지만, 실제 사용에 있어서는 꼭 필요한 모드

를 잘 선택하여 구현하는 것이 매우 중요하며, 서로 다른 모드의 부호화기를 보

완할 수 있도록 잘 선택하여야 한다.

4.3.2 일반 오디오 도구의 성능 분석

4.3.1절에서 살펴 본 일반 오디오 부호화기의 각 동작 모드에 따른 동작 시

험 및 부호화되었다가 다시 복원된 오디오 신호에 대한 성능평가를 해 보았다.

원 신호와의 비교에 의한 자체평가를 위해 그림 16에서 그림 19에 각각

16kbps와 64kbps에서의 원 신호와 TwinVQ와 AAC의 파형 및 스펙트럼을 함

Page 54: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

45

께 나타내었다.

그림 16과 그림 17에서 보면 16kbps에서의 AAC의 복원 파형과 스펙트럼이

원 신호와 차이가 많이 나는 것을 볼 수 있다. 파형과 스펙트럼의 비교가 근본

적으로 의미가 없는 것이지만, 원 신호에서 어느 정도 강한 에너지를 가진 대역

의 신호들이 없어진 것은 청취에서도 영향을 미칠 수 있다. 실제 청취에 의해

양자화 잡음이 많이 섞여 있으며, 음질이 많이 떨어지는 것을 알 수 있었다.

그림 18과 그림 19는 64kbps의 비트율에서의 결과인데, 원 신호와 TwinVQ

및 AAC의 결과 파형은 유사하며, 스펙트럼에 있어서는 AAC가 더 차이가 많이

나는 것으로 보인다. 하지만 이 결과는 AAC의 경우 심리음향 모델을 사용함으

로 인해, 지각이 되지 않는 신호는 부호화 시 제외되었기 때문에, 제외된 신호

가 보이지 않는 것이며, 청취 결과에서는 AAC가 더 우수한 것으로 평가되었다.

Page 55: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

46

그림 16. 원 신호와 일반 오디오 부호화 신호의 파형 비교 (16kbps)

Page 56: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

47

그림 17. 원 신호와 일반 오디오 부호화 신호의 스펙트럼 비교 (16kbps)

Page 57: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

48

그림 18. 원 신호와 일반 오디오 부호화 신호의 파형 비교 (64kbps)

Page 58: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

49

그림 19. 원 신호와 일반 오디오 부호화 신호의 스펙트럼 비교 (64kbps)

Page 59: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

50

우선 채널 당 6에서 24kbps 사이의 낮은 비트율에서는 CELP와 비교하였고,

그 이상의 고 비트율에서는 원음과 비교하였다. 채널 당 6에서 24kbps 사이의

비트율에서는 Twin VQ의 성능이 가장 돋보였으며, AAC는 Twin VQ보다 잡음

이 많이 포함되어 있었으며, 비트율이 24kbps 이상 되면 가장 좋은 성능을 발

휘하는 것을 확인하였다. 계층 AAC는 AAC와 비슷한 성능을 보였으며, 이론적

으로 볼 때는 계층화를 위한 추가적인 데이터가 필요하여 AAC보다 조금 성능

이 떨어지는 것으로 되어 있다. 그러나 계층 AAC는 복호화기에서 복호화 계층

개수를 지정함에 의해 복호화기의 복잡한 정도를 조절할 수 있으며, 채널의 상

태가 시간에 따라 변하는 적용분야에 있어서는, 음성 부호화기들의 계층 부호화

와 같이 유용하게 사용될 수 있을 것이다.

Twin VQ 및 AAC 부호화 도구는 많은 선택사양을 가지고 있으며, 표본화 주

파수와 비트율의 가변 범위가 매우 넓어 사용에 있어 사용자가 입력 신호에 따

라 직접 도구를 선택하는 것은 매우 번거로운 일이 된다. 그러므로 사용 방법에

대한 최적화가 이루어 져야 하며, 망의 상태에 따라 또는 입력 신호의 특성에

따라 가장 적절한 도구의 구성을 권고할 필요가 있다.

Page 60: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

51

제5장 MPEG-4 오디오의 활용

3장 및 4장에서 음성 및 일반 오디오에 대한 도구들의 구조와 구현된 동작

모드 및 성능 평가에 대하여 기술하였다. MPEG -4의 기본 목적은 입력되는 오

디오 또는 비디오의 특성에 따라 부호화 방법을 특성화 시킴으로써 부호화 효

율을 높이고, 또한 객체 단위로 처리함으로써 신호가 없는 영역에서는 데이터를

전송하지 않아도 되므로 전체적으로 데이터량이 상대적으로 적어지게 되며, 멀

티미디어의 조작성 및 재 활용성을 극대화 할 수 있다. 본 장에서는 지금까지의

기술 분석 및 MPEG -4 오디오 도구의 구현과 성능 분석 결과를 토대로 각 도

구의 활용 방안에 대하여 기술하고자 한다.

5.1 각 도구의 활용에 대한 제안

MPEG-4 오디오는 음성 및 오디오의 종류 및 특성에 따라 특성화된 부호

화 도구를 사용하여 부호화 하고, 부호화된 각 객체는 하나의 비트스트림으로

다중화되어 전송된다. 이러한 특성을 방송에 활용하기 위해서는 방송 프로그램

의 오디오가 가능한 한 여러 가지의 특성화된 객체로 분리되어 있어야 함을 알

수 있다. 즉 순수한 음성, 음성 및 저주파 대역의 신호, 광대역의 고품질 음악

신호 등으로 이미 분리되어 녹음된 프로그램은 각 신호의 특성에 따라 적절한

부호화기를 선택하여 처리할 수 있는 것이다.

방송 프로그램의 오디오를 보다 자세히 살펴 보면 먼저 음성에 대해서는 녹

음될 때의 상황에 따라 주변 잡음이 없고 여러 사람이 함께 대화하는 상황이

아닌, 즉 스튜디오 등에서 아나운서가 주변 잡음이 배제된 가운데 녹음한 순수

한 음성이 있을 수 있고, 한편으로는 야외에서의 배경 잡음과 동시에 녹음된 음

성이나, 스튜디오에서의 녹음이라 할지라도, 여러 사람이 진행함으로 인해 여러

사람의 음성이 동시에 녹음된 신호도 생각할 수 있다. 또 한편으로는 전화 통화

음성 등 그 신호의 대역이 낮은 주파수 대역에 한정되어 있는 신호도 있을 수

있다.

Page 61: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

52

음성 부호화기 중 HVXC는 부호화기에서 음성에 적절한 파라메터를 분석한

후, 복호화기에서 전송되어 온 음성 파라메터를 이용하여 합성함으로써 원래의

음성 신호를 복원하는 도구로서, 음성 신호 이외의 신호가 포함된 경우 제대로

부호화하지 못한다. 그러므로 순수한 음성 신호만을 입력하는 경우 2kbps및 그

이하의 비트율까지 부호화 할 수 있는 HVXC 도구를 사용하면 매우 낮은 비트

율로서 부호화할 수 있게 되는 것이다. 다만 HVXC는 8kHz의 표본화 주파수에

대해서만 부호화하므로, 전화를 통하여 들리는 음성 정도의 품질만 보장한다.

CELP 부호화기는 8kHz의 표본화 주파수 뿐만이 아니라, 16kHz의 표본화

주파수에 대해서도 적용할 수 있으므로, 4kbps 이상 16kbps이하의 비트율을

사용할 수 있는 응용 분야에 대해서는 적절한 해결책이라고 할 수 있다. 또한

CELP는 음성 뿐 만이 아니라 일반 오디오 신호에 대해서도 어느 정도의 품질

을 유지하므로 낮은 비트율에서는 일반 오디오 부호화 도구를 대신할 수도 있

다.

오디오에 대해서는 신호의 주파수 대역에 따라 객체를 나눌 수 있으며, 인

간이 들을 수 있는 오디오의 가장 높은 주파수인 20kHz까지의 신호를 나타내

는, 표본화 주파수가 44.1kHz 혹은 48kHz인 전대역의 오디오, 즉, CD나 LD와

같은 디지털 매체의 오디오와 약 16kHz를 최고 주파수로 하는 FM

(Frequency Modulation) 라디오 방송 수준의 오디오, 약 10kHz 이하의 대역폭,

즉, 전대역의 오디오의 약 절반에 해당하는 대역폭 및 표본화 주파수를 가지는

협대역의 오디오, 전화수준의 품질에 해당하는 전화대역 오디오로 나눌 수 있다.

위에서 살펴 본 바 전대역의 오디오 및 FM 수준의 오디오에 대해서는 고

비트율에서 성능이 가장 우수한 AAC를 사용하는 것이 적절하며, 낮은 비트율

을 사용하여야 하는 경우는 전처리로서 대역폭을 제한하거나 표본화 주파수를

낮은 주파수로 변환함으로써 처리할 수도 있다. 대개 음악이나 영화 등 고품질

의 오디오를 필요로 하는 경우는 AAC 부호화 도구를 사용하는 것이 적절하다

고 할 수 있다. 협대역의 오디오에 대해서는 AAC 또는 Twin VQ를 사용하는

것이 적절하며, 전화대역의 오디오에 대해서는 Twin VQ를 사용할 수 있다.

Page 62: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

53

오디오 부호화기의 활용 분야에 대하여 다시 정리하여 보면, 대역폭 12kHz

이하, 혹은 비트율 24kbps이하를 사용하여야 하는 응용 분야에 있어서는 Twin

VQ를 사용하는 것이 적절하며, 대역폭 16kHz 이상, 혹은 비트율 32kbps이상

을 사용하는 응용분야에 있어서는 AAC를 선택하는 것이 적절하다.

각 도구의 사용 가능 비트율 및 표본화 주파수, 활용 분야에 대하여 표 1에

정리하였다.

표 1. MPEG-4 자연 오디오 부호화 도구들의 활용 방안 요약

도구 비트율 범위 표본화 주파수 활용 분야

HVXC 1.2 ~ 4kbps 8kHz 인터넷 전화 음성

CELP 3.85 ~ 23.85kbps 8, 16kHz 인터넷 전화, 이동 통신

TwinVQ 8 ~ 24kbps 8 ~ 24kHz 인터넷 방송 오디오

AAC 32 ~ 64kbps 8 ~ 48kHz 인터넷 방송, MOD

계층 AAC부호화기는 채널의 상태가 수시로 변화하는 인터넷, 이동 통신 등

의 응용 분야에 적절하며, 또한 동일한 비트스트림에 의해 복호화 계층의 수를

조절함으로써 복호화기의 복잡도를 가변할 수 있는 계층 AAC 부호화의 특성을

이용하면, 하나의 서비스에 대하여 수신기의 형태가 다양한 방송 서비스나 회의

통신 등의 응용 분야에도 사용할 수 있다.

또한 음성 및 오디오 신호의 특성에 따른 객체의 정의와 각 객체에 대해 특

성화 된 부호화기를 사용하는 것이 가능한 MPEG-4오디오는, 각 객체에 대해

다른 관련된 정보를 연결하여 부가 서비스를 제공할 수 있으며, 각 객체 별로

분리하여 재생하거나, 객체별로 복호화기에서의 추가적인 처리가 가능한 장점을

가지고 있으며, 이러한 특징을 이용하면 차세대의 인터넷 방송 서비스에 효과적

으로 이용할 수 있다.

Page 63: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

54

방송 프로그램의 경우 여러 가지 객체로 구분될 수 있는 오디오로 구성하기

용이한 프로그램은 여러 가지 자료 및 사례를 들면서 교육하는 교육 방송 프로

그램, 스튜디오와 현장을 오가며 소식을 전하는 뉴스 프로그램, 오케스트라 연

주회, 다큐멘터리 방송, 애니메이션, 다중 언어 방송 등이다. 또한 방송 프로그

램이 아니더라도 인터넷 사이트에서의 기관 및 단체의 소개 비디오, 멀티미디어

를 이용한 홈페이지, CDROM 타이틀, 게임 등도 객체 기반의 멀티미디어를 유

용하게 사용할 수 있다.

방송에 있어 우선 교육 방송 프로그램은 강사의 강의, 자료 및 사례를 위한

오디오로 구분될 수 있으며, 주로 강의는 스튜디오에서 녹음되는 순수한 음성으

로 간주할 수 있다. 자료 및 사례의 오디오는 상황에 따라 다양한 종류의 오디

오를 포함할 수 있다. 여기서 강의 음성은 CELP 부호화 도구를 사용하여 저비

트율의 고품질 음성을 전송할 수 있을 것이며, 자료의 오디오는 일반 오디오 부

호화 즉 신호의 특성에 따라 TwinVQ 또는 AAC를 사용하여 전송할 수 있다.

이외에도 배경음악이 포함될 경우 TwinVQ 또는 AAC를 사용하여 부호화하는

것이 적절하다.

뉴스에 있어서는 스튜디오의 뉴스 진행자의 음성은 비교적 순수한 음성으로

간주하여 음성 부호화 도구를 사용할 수 있으며, 현장의 오디오는 일반 오디오

로서 TwinVQ 또는 AAC를 사용할 수 있다. 간혹 전화를 이용하여 진행하는

경우도 있으므로, 이 경우 CELP 혹은 저 비트율의 TwinVQ를 사용하여 부호

화하는 것도 가능하다.

오케스트라 연주에 있어서는 각 악기별로 일반 오디오 부호화 도구를 사용

하여 부호화 할 수 있지만 이들을 동시에 전송하면 데이터량이 매우 많아진다.

그러므로 실제 활용에 있어서는 모든 악기음을 적절히 혼합하여 스테레오 혹은

모노 채널로써 전송하여야 한다. 단 사용자와의 상호작용에 의해 모든 악기음의

혼합된 소리 대신 특정 악기음 만을 전송하거나, 이 악기음 만을 제외하고 혼합

하여 전송하도록 할 수도 있다. 이러한 기능은 음악을 배우는 사용자에 있어서

특정 악기를 선별하여 청취하며, 특정악기를 제외시킨 음악을 들으면서 자신이

Page 64: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

55

직접 연주함으로써 실제 협연하는듯한 느낌을 갖게 할 수 있다.

다큐멘터리 방송이나 애니메이션도 여러 오디오 신호를 혼합하여 편집함으

로써 프로그램을 제작하는 경우가 많으므로 편집 이전의 오디오 신호들을 객체

화 하여 부호화 하면 효과를 얻을 수 있으며, 다중 언어 방송에 있어서는 여러

나라의 언어로 된 음성을 저비트율 음성 부호화 도구를 사용하여 전송하고, 이

를 사용자의 선택에 따라 특정 언어가 재생되도록 할 수 있다.

이들 부호화 도구들은 인터넷 망의 데이터 전송률에 따라 더 낮은 비트율로

서 전송하는 것이 가능하므로 인터넷 망의 상태 변화에 적응하여 전송하는 것

도 가능하다. 즉 인터넷 망의 전송속도에 따라 매우 낮은 전송률에서도 전화 통

화 정도의 품질로서 방송 청취가 가능할 것이며, 전송 속도가 증가할수록 AM

방송, FM 방송, CD 품질의 방송 청취도 가능해 질 수 있다.

MPEG-4 객체 기반의 부호화를 이용한 인터넷 방송이 실현되기 위해서는

방송 프로그램의 제작, 편집 시스템으로부터 저장 매체, 전송, 수신에 이르는

모든 영역의 개념이 변화되어야만 하는데, 사실 단시일 내에 이러한 변화가 실

현되는 것은 불가능하다. 또한 대규모 방송국의 모든 프로그램을 객체 기반으로

제작하는 것은 그 절차나 작업량이 매우 방대해 지므로 단시일 내에 이루기 힘

든 것이다. 이러한 문제를 해결하기 위해서는 편리하고, 간편한 방송 프로그램

제작, 편집, 저장 시스템을 구현하는 것이 가장 필요하다고 할 수 있다.

다음 절의 예는 영어 교육 프로그램의 한 장면을 모사한 것인데, 객체로서

영어 회화의 대화와 배경음, 배경 음악이 있는 경우 각 객체의 부호화 및 처리

에 대하여 실제 예를 들고 있다. 본격적인 대화형 방송이 시작되기 이전에는 이

러한 분야에 주로 객체 기반의 MPEG -4 기능이 사용될 것으로 추정되며, 기존

의 교육용 CDROM 타이틀들은 쉽게 MPEG -4 기반으로 변환될 수 있을 것이

다.

Page 65: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

56

5.2 교육 방송에의 활용 예

그림 20에서 영어 교육 프로그램에 대한 방송에 있어 MPEG-4 오디오 부

호화의 활용 예를 나타낸다. 그림에서 오디오 객체의 종류는 총 여섯 개이며 다

음과 같다.

?? A : 배경 음악 (스테레오 채널, 부호화: Twin VQ, 48kbps)

?? B : 비행기 소리 (스테레오 채널, 부호화: AAC, 96kbps)

?? C : 대화1 (모노 채널, 부호화: HVXC, 4kbps)

?? D : 대화2 (모노 채널, 부호화: HVXC, 4kbps)

?? E : 대화3 (모노 채널, 부호화: HVXC, 4kbps)

?? F : 대화4 (모노 채널, 부호화: HVXC, 4kbps)

각 오디오 객체들은 독립적으로 부호화 및 다중화되어 전송되며, 부호화된

객체들과 함께 각 오디오에 대한 속성 및 자막 등의 부가정보가 전송된다. 속성

에는 해당 개체의 재생할 시간, 공간적인 위치, 기타 추가적인 처리 사항이 포

함된다. 이러한 속성은 MPEG -4 시스템의 형식을 따를 수도 있고, 다른 방식에

의할 수도 있다.

전송되어 온 MPEG-4 오디오 파일은 역 다중화되어 객체를 분리하며, 각

객체의 종류에 따라 해당 도구의 복호화기로 입력된다. 복호화된 객체들은 파일

형태로 저장되며, 함께 전송되어 온 속성에 따라 공간 및 시간적으로 배치되어

하나의 오디오 장면을 구성하게 된다. 공간적인 배치는 간단히 적절한 에너지

비율로서 각 채널에 분배하여 혼합하는 방식을 사용할 수 있다. 그림 20의 아

래쪽에는 각 객체의 재생 시간의 배치를 구간으로서 나타내고 있고, 그래픽 화

Page 66: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

57

면에서는 각 객체의 공간적인 위치를 나타내고 있다.

그림 20. 방송의 오디오 도구 활용 예

각 오디오 객체들은 독립적으로 부호화 및 다중화되어 전송되며, 부호화된

객체들과 함께 각 오디오에 대한 속성 및 자막 등의 부가정보가 전송된다. 속성

에는 해당 개체의 재생할 시간, 공간적인 위치, 기타 추가적인 처리 사항이 포

함된다. 이러한 속성은 MPEG -4 시스템의 형식을 따를 수도 있고, 다른 방식에

의할 수도 있다.

전송되어 온 MPEG-4 오디오 파일은 역 다중화되어 객체를 분리하며, 각

객체의 종류에 따라 해당 도구의 복호화기로 입력된다. 복호화된 객체들은 파일

형태로 저장되며, 함께 전송되어 온 속성에 따라 공간 및 시간적으로 배치되어

하나의 오디오 장면을 구성하게 된다. 공간적인 배치는 간단히 적절한 에너지

비율로서 각 채널에 분배하여 혼합하는 방식을 사용할 수 있다. 그림 20의 아

래쪽에는 각 객체의 재생 시간의 배치를 구간으로서 나타내고 있고, 그래픽 화

Page 67: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

58

면에서는 각 객체의 공간적인 위치를 나타내고 있다.

각 복호화된 객체는 대화의 경우 각 자막의 문자에 링크되어 선택에 의하여

재생될 수도 있고, 비디오 또는 그래픽 화면에서 풀 다운 형태의 메뉴에 의해

선택하여 재생할 수도 있다. 또한 재생 버튼에 의해 전체 객체가 혼합된 상태로

재생될 수도 있다. 이때 어느 특정 객체만을 재생할 수도 있고, 그 객체만 제외

하고 재생할 수도 있을 것이다.

MPEG-4 오디오에 의한 객체 지향 부호화에 의한 방송 프로그램 제작은

상기와 같이 다양한 부가 기능을 구현할 수 있도록 하며, 새로운 서비스에 대해

서도 융통성 있게 대처할 수 있는 장점을 가지고 있다.

Page 68: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

59

제6장 결론

본 논문에서는 차세대 대화형 인터넷 방송 기술의 개발을 위한 분석과 전망

에 대해 고찰하였으며, 인터넷 방송 기술의 개발에 대한 첫 단계로서 음성 및

오디오의 객체 기반 부호화 방식인 MPEG-4 오디오의 기능 구현에 대하여 기

술하고, 객체별 부호화 모드에 따른 성능 평가 및 활용에 대해 분석하였다.

현재 인터넷 방송은 방송 프로그램을 단순히 인터넷을 이용하여 실시간 서

비스하는 것이지만, 인터넷의 다양한 정보 전달 능력을 이용하면 다양한 부가

서비스 및 보다 매력적인 인터넷 방송을 구현하는 것이 가능하다. 현재 가장 뚜

렷한 차세대 인터넷 방송 관련 표준으로서는 W3C의 SMIL, ISO의 MHEG -5 및

MPEG-4를 들 수 있으며, 이들을 적절히 조합하여 구성하면 매우 유용한 서비

스를 창출할 수 있을 것이다.

차세대 인터넷 방송에 있어 음성 및 오디오의 부호화 방식으로서 MPEG -4

오디오의 기능을 MPEG 그룹에서 제공하는 참조용 S/W를 기반으로 구현하고,

성능 평가 및 활용방안에 대하여 기술하였다. 음성 부호화에 있어서는 HVXC와

CELP 부호화 도구를 구현하였으며, 및 오디오 부호화에 대해서는 AAC 및

TwinVQ 도구의 기능을 구현하였다. 성능 평가를 통하여 순수한 음성을 4kbps

이하의 비트율로서 부호화하는 경우 HVXC 도구가 적절하며, 4에서 16kbps의

비트율 구간에서 음성을 부호화하는 경우 CELP도구가 적절함을 확인하였다.

또한 일반 오디오 부호화에 있어서는 8kbps이하의 비트율 구간에서는 CELP

를 사용할 수 있으며, 8에서 24kbps의 비트율 구간에 대해서는 Twin VQ를 사

용하는 것이 적절하며, 24kbps이상의 비트율에 대해서는 AAC를 사용하는 것이

가장 좋은 것으로 확인되었다.

MPEG-4 오디오 객체의 성능 평가 및 분석을 통해 차세대 대화형 인터넷

방송에 적용될 수 있음을 확인하였고, 영어 교육 프로그램에 대한 한가지 예로

서 그 효과를 입증하였다. 이렇듯 오디오의 객체 지향 부호화의 활용은 다양한

서비스를 만족할 뿐 아니라 새로운 서비스에 대한 적응성을 높일 수 있다.

Page 69: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

60

향 후 MPEG -4 비디오 기능 구현, MPEG -4 시스템 기능 구현, SMIL과의

통합에 의한 인터넷 방송 저작도구 및 재생기의 연구가 계속되어야 하며, 방송

을 구성하는 각 객체의 속성 기술 및 객체에 대한 부가정보를 참조할 수 있도

록 연결해 주는 등 인터넷 방송의 부가 서비스에 대한 연구도 계속되어야 할

것이다.

Page 70: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

61

참고문헌 (References)

[1]. M. Robin, M. Poulin, “Digital Television Fundamentals ”, Mc Graw Hill,

Chapter 8, 1997.

[2]. ISO/IEC, Coding of moving pictures and associated audio for digital

storage media at up to about 1.5Mbit/s (ISO/IEC IS 11172), 1993.

[3]. ISO/IEC, Generic Coding of Moving Pictures and Audio (ISO/IEC IS

13818), 2.1997

[4]. ISO/IEC, Generic Coding of Moving Pictures and Audio: Advanced

Audio Coding (AAC, ISO/IEC 13818-7), 4.1997

[5]. ISO/IEC, Coding of audio-visual objects (ISO/IEC FDIS 14496),

12.1998.

[6]. Christian Bertin, “TV and Web evolution paths = towards each other”,

Workshop on Television and the Web, 6.1998.

[7]. Larry Bouthillier, “Synchronized Multimedia on the Web”, Web

Techniques Magazine, Volume 3, Issue 9, 9.1998.

[8]. Pietro Marchisio, “Outlook of Standards for Multimedia Applications ”,

Workshop on Television and the Web, 6.1998.

[9]. ISO/IEC, Coding of audio-visual objects : System (ISO/IEC FDIS

14496-1), 12.1998.

[10]. Rob Koenen, “Overview of the MPEG-4 Standard”, ISO/IEC

JTC1/SC29/WG11, N2725, 3.1999.

Page 71: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

62

[11]. ISO/IEC, Coding of audio-visual objects : Audio (ISO/IEC FDIS 14496-

3), 12.1998.

[12]. B. Edler, “Very Low Bit Rate Audio Coding Development”, Proc. AES

14th International Conference, 6.1997.

[13]. M. Nishiguchi, “MPEG-4 speech coding”, Proc. AES 17th International

Conference, Sep.1999.

[14]. K. Brandenburg and M. Bosi, “Overview of MPEG Audio: Current and

Future Standards for Low Bit Rate Audio Coding”, J. Audio Eng. Soc.,

Vol. 45, No.1, pp.4-21, 1.1997.

[15]. B. Vercoe, W. Gardner, E. Scheirer, “Structured Audio: Creation,

Transmission, and Rendering of Parametric Sound Representations ”,

Proc. IEEE, No. 86:5, pp. 922-940, 5.1998

[16]. ISO/IEC, Coding of audio-visual objects : Audio (ISO/IEC FDIS 14496-

3), Subpart 2: Speech Coding – HVXC, 12.1998.

[17]. ISO/IEC, Coding of audio-visual objects : Audio (ISO/IEC FDIS 14496-

3), Subpart 3: Speech Coding – CELP, 12.1998.

[18]. ISO/IEC, Coding of audio-visual objects : Audio (ISO/IEC FDIS 14496-

3), Subpart 4: General Audio (GA) Coding: AAC/TwinVQ, 12.1998.

Page 72: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

63

Implementation of MPEG-4 Audio Tools

and Technical Analysis for

Internet Broadcasting

Dae – Young Jang

Department of Computer Science, Graduate School of Paichai University Taejon, Korea

(Supervised by Professor Hoe-Kyung Jung)

(Abstract)

Currently broadcasting is one of the most important mess media for

human life. On the other hand, World Wide Web is also very important media,

and is being used in more and more areas of office, home etc. According to

the development of both fields of the broadcasting and the web, many

organizations have new plan for integrating these two medias for internet

broadcasting, which enables many new services.

This paper discusses new service aspects for new generation digital

broadcasting, and related standards as SMIL (Synchronized Multimedia

Integration Language) and MPEG-4 (Moving Picture Experts Group phase 4).

Via the analysis of the development aspects of the internet broadcasting, it

can be seen that the synchronized presentation and object based coding of

multimedia data is very important for internet broadcasting. For object

based coding, this paper implements MPEG-4 audio tools based on MPEG-4

Page 73: 인터넷 방송 응용을 위한 기술 분석 및 MPEG-4 오디오 기능 분석mie.pcu.ac.kr/research_file/1342590921_292681723.pdf · 1 제1장 서론 1930년경 본격적으로

64

reference software, and then evaluate implemented MPEG-4 audio tools.

MPEG-4 natural audio coding tools consist of speech and general audio.

For speech, MPEG-4 audio provides HVXC (Hybrid Vector eXcitation

Coding) and CELP (Code Excited Linear Prediction) tools, and for general

audio, MPEG-4 audio provides AAC (Advanced Audio Coding) and Twin VQ

(Twin Vector Quantization) tools. HVXC is implemented and verified with

2kbps and 4kbps modes, and is evaluated that can be used for very efficient

coding tool for pure speech. CELP is implemented with various bitrates from

4kbps up to 24kbps for speech signal with 8kHz and 16kHz sampling rate,

and is evaluated that can be used for coding of speech signals with some

environmental noise. General audio tools, AAC and Twin VQ also

implemented and verified with various sampling rates and bitrates, and both

tools can be used for general audio in wide bitrate ranges from 6kbps to

64kbps per channel and more.

On this paper, finally propose the application methods for MPEG-4 audio

tools based on the properties of tools and evaluation results. First, object

based coding scheme is very applicable for post-production program such

as education program and advertisement. Various objects are previously

recorded and stored for production, and then each object is coded with

proper tool selected based on the properties of the object. These coded

objects will be transmitted to clients’ terminal, and then reconstructed and

post-produced if necessary. This paper also shows an application example

for language education program. Conclusively, through the implementation

and evaluation of MPEG -4 tools and the of a language education program

for internet broadcasting, it can be identified that object oriented coding

scheme such as MPEG-4 is well suited for internet broadcasting service.


Recommended