1.3.1 음성 신호 처리
앞서 언급한 바와 같이, 음성인식 시스템의 입력은 음성 신호이다. 음성 신호를 수집하는 장치는 마이크이며, 마이크의 종류에 따라 수집되는 음성 신호의 특성도 다르다. 예를 들어, 휴대전화의 음성 검색 기능을 사용할 때, 휴대전화의 마이크에서 음성 신호를 수집하는데, 일반적으로 마이크 가까이에서 소리가 입력되므로, 이를 근거리장(near field)이라고 하며, 모노 또는 듀얼 채널로 입력된다. 스마트 스피커로 가정용 장치를 제어할 때, 음성 신호는 스피커의 어레이 마이크를 통해, 4개 또는 6개의 다중 채널로 수집되며, 일반적으로 원거리에서 수집되므로, 이를 원거리장(far field) 이라고 한다.
근거리 장이든 원거리 장이든, 마이크를 구동하는 오디오 칩은 일반적으로 샘플링, 양자화, 반향 제거, 잡음 억제, 동적 크기 제어 및 오디오 코덱 등을 포함한 일련의 처리를 수행해야 한다. 그 기능은 다음과 같다.
ㆍ샘플링은 공기 중에 전파되는 음파를 컴퓨터에서 처리할 수 있는 디지털 신호로 변환하는 것이다. 마이크의 진동 소자는 음파의 진동에 의해 지속적으로 진동하여 마이크 회로의 전류를 지속적으로 변화시키게 되는데, 샘플링 과정은 일정 간격으로 전류값을 기록하고 이를 다음 샘플링까지 유지하는 것을 반복하는 것이다(sample-and-hold). 각 샘플링에 대해 하나의 샘플 포인트를 얻을 수 있다. 샘플 포인트 사이의 시간 간격은 샘플링 주기이고, 샘플링 주기의 역수는 샘플링 주파수이다. 예를 들어, 1/16000초 마다 샘플링하는 경우, 샘플링 주파수는 16000Hz이다.
ㆍ양자화의 목표는 샘플 값을 효율적으로 저장하는 것이다. 마이크의 물리적 특성의 한계로 인해 진동 소자의 최대 진폭이 고정되어 있으며, 샘플 포인트의 전류는 양의 최대값과 음의 최대값 사이에서 지속적으로 변화한다. 연속적인 값의 보존은 상대적으로 높은 정밀도를 요구하므로, 16 비트 또는 8 비트 정수를 사용하여 샘플을 나타내는 경우가 많으며, 이 샘플의 형식 변환 과정이 양자화이다.
ㆍ반향 제거는 음성을 이용한 상호 작용 응용프로그램, 특히 원거리장 음성 상호 작용에서 없어서는 않되는 기능이다. 음성 상호작용 과정에서 음성이 합성된 음성의 형태로 스피커 장치에서 출력된다. 반향 제거가 없으면, 출력 음성이 마이크에 입력되어 반향을 형성한다. 전통적인 음향처리에서 반향은 회로 반향과 음향 반향으로 나뉜다. 여기서 언급한 반향은 특히 후자를 말한다.
ㆍ잡음 억제는 음성인식 성능을 향상시키는 효과적인 수단이며, 일반적으로 사용되는 잡음 억제 기술에는 주파수 영역 억제와 공간 영역 억제가 있다. 공간 억제는 마이크 어레이 기술, 음원 위치 파악 및 빔포밍(Beamforming) 그리고 기타 알고리즘을 사용하여 특정 방향에 대한 음성 신호를 향상시킬 수 있다. 주파수 영역 억제 기술은 통신 분야에서 널리 사용되고 있으며, 대부분의 기술적 수단은 사람이 더 잘 들을 수 있도록 하는 것을 목적으로 하고 있다. 그러나, 음성인식 시스템의 특성은 사람의 귀 특성과 다르기 때문에 음성인식의 성능을 개선하기 위한 주파수 소음 억제 기술 개발에도 많은 노력이 필요하다.
ㆍ동적 크기 제어는 마이크 시스템에서 일반적으로 사용되는 기능으로, 거리 및 기타 실제 환경 요인으로 인한 소리의 변동을 효과적으로 개선할 수 있다.
ㆍ오디오 코덱은 오늘날 업계에서 대어휘 연속 음성인식은 주로 클라우드 서비스를 기반으로 하기 때문에, 일반적으로, 음성 신호를 클라우드 서버에 업로드하기 전에 음성을 인코딩하여 전송 비용을 줄이고 속도를 높인다. 그리고 인코딩된 비트 패킷을 디코딩하여 오디오 신호를 복원한다.
위의 처리 방법 중 샘플링과 양자화는 음성 신호를 컴퓨터 데이터로 변환하는 필수 방법이며, 다른 처리 기능의 선택은 사용 환경의 필요에 따라 달라진다.
1.3.2 발음 및 언어학
인간의 말 소리를 다른 다양한 소리와 구별하는 중요한 특성은 효율적인 표의문자적 능력이다. 수년간의 연구 끝에 언어 학자들은 여러 언어에서 인간의 말소리를 대략적으로 제한된 수의 기본 요소로 나눌수 있음을 발견했는데, 이것을 음소(Phoneme)라고 한다. 각 언어에서 의미의 기본 단위를 음소로 결합하여 구성할 수 있다. 이는 다양한 언어의 표기 체계와 발음 체계로 이어지며, 발음 사전(Pronunciation dictionary)의 매핑을 통해 서로 연결된다.
음소는 언어 학자에 의해 인위적으로 정의된 개념이므로, 각 언어에는 음소 집합(Phone set)이라고 하는 다양한 음소 정의가 있다. 그에 따라 발음 사전도 다양하다. 예를 들어, 미국식 영어 음성인식에서는 카네기 멜론 대학교 음성 그룹에서 발행한 발음 사전과 음소 집합이 일반적으로 사용되며, 중국어 음성인식에서는 일반적으로, 병음을 이용한 성모와 운모가 음소로 사용된다. 다중 발음과 동음이의어(단어) 현상으로 인해 발음 사전이 일대일 매핑되지 않을 수 있다. 음성에 대한 음소 외에도 음성인식 모델이 비음성을 처리할 수 있도록 하기 위해 일반적으로 묵음 음소, 잡음 음소 등과 같은 비음성 음소가 추가된다.
음소는 특정 언어의 발음에 대한 일반적인 분류일 뿐이며, 실제 적용에서는 문맥의 영향으로 인한 동화 발음 현상도 고려해야 한다. 음성인식에는 동화 발음을 위한 많은 기법들이 있는데, 예를 들어, 각 음소를 서로 다른 발음 단계에 해당하는 여러 상태로 분할하는 방법이다. 여기서 서로 다른 발음 단계 간의 차이는 주로 문맥의 인접 음소에 영향을 받는다. 또 다른 예로, 각 음소를 모델링 할 때, 실제 모델링 객체는 앞뒤 음소를 고려하여 구성된 트라이폰(Triphone)을 이용하는 것이다.
--- 본문 중에서