본문 바로가기

학교 관련/Smart Tools

기대되는 기술 : 음성인식

Subvocal speech recognition


나름 이런저런 컴퓨터나 교육 기술/서비스에 관심을 가지면서 계속 기다리고 있는 게 있다. 그리고 나는 이 기술이 가까운 미래에 다양한 정보를 정리하고, 검색하는 데 매우 중요한 역할을 할 것이라고 생각한다. 


이 글을 쓰게 된 계기 : 빌게이츠의 기사를 보고


그 기술은 바로, 

음성인식. 



음성인식은 텍스트를 읽어주는 TTS(Text to Speech)기능부터 나의 말을 듣고 받아쓰는 기능까지 실생활에서 쉽게 접할 수 있는 정도가 되었다. 나는 이미 여러번 외국 블로거들이 자신의 블로그에 설치한 에드온으로 독자들을 글을 읽도록 할 뿐만 아니라, 들을 수 있도록 해놓은 것을 보았다. 그리고 이미 많은 책들이 오디오북으로 나와 있으며, 장애인을 위해서도 일반인을 위해서도 지속적으로 오디오북은 출시될 것이다. 외국 여행시 서점에 갔을 때도 한쪽 코너는 오디오북으로 전시된 것을 많이 볼 수 있었다. 언어라는 것이 반드시 소리로 구성되어야 하는 것이 아닌 것처럼, 독서라는 것도 반드시 활자로 인식되어야 하는 것은 아니다. 우리는 눈으로 활자를 따라가지만, 내용을 이해하지 못하는 경우도 얼마나 많은가. 그리고 시각에 비해서 청각은 쉽게 지치지 않는다. (이 부분은 과학적 근거가 있다기 보다는 나의 경험) 그리고 블루투스 이어셋 등의 개발로 우리는 맘껏 들으면서도 몸을 편안하게 움직일 수 있다. 내가 즐겨 사용하는 에버노트도 Clearly라는 앱에 TTS기능을 적용시켰다. 나는 이 기능이 곧 에버노트 안에 담긴 노트도 읽어주는 기능으로까지 확장되기를 바란다. 


텍스트를 읽어주는 기능(한 두가지의 '비교적 정확한 발음'만 있으면 된다.)은 누군가의 말을 알아듣는 것에 비해 간단한 기능인 것 같다. 실제 사람이 말하는 소리는 음량이나 높낮이, 발음도 정말 천차 만별이다. 노홍철씨가 만들어 내는 'ㅅ'소리는 정말 /th/에 가깝지 않는가? 어떤 사람의 목소리든 컴퓨터가 알아듣게 된다면, 그리고 그러한 목소리를 텍스트화할 수 있다면(이는 곧 의미있는 정보로 처리할 수 있다는 얘기가 될 것이다.), 우리는 더 많고 풍부한 정보들을 갖게 될 것이다. 그리고 음성자료는 인간이 하루동안 가장 많은 양을 쏟아내는 자료의 형태이다. 물론 하루 종일 사람들이 이야기를 한다고 해서 늘 새로운 정보를 배출해내지는 않겠지만 (Small talk에 해당하거나, Gossip 등에 대한 이야기가 대부분일 수도 있다. 그리고 했던 이야기를 여러번 반복할 수도 있다.) 어떤 장소에서 어떤 사람의 이야기를 선택하느냐에 따라서 아주 질높은 정보를 취할 수도 있다. 게다가 이미 우리는 수많은 비디오를 가지고 있다. 그 비디오에 나오는 음성들은 모두 훌륭한 자료가 된다. 



음성인식에서 음성검색


쌀알 같은 자료는 가지가 없다. 널려 있는 음성자료 자체로를 아무런 의미가 없다. 그것이 꼭 활자화되지는 않더라도 우리는 이미 많은 음성자료를 가지고 있다. 이것들이 '정보'로서 효용을 가지거나, '사용가능성'을 가지려면, '검색'이 되어야 한다. 유튜브는 성인물의 업로드를 제한하기 위해서 또 저작권자의 자료가 불법적으로 업로드되는 것을 제한하기 위해서 비디오와 소리를 분석하는 기술을 사용한다. 유튜브는 아직은 베타서비스이기는 하지만, 영상에서 추출한 음성을 바로 자막으로 서비스하고 있다. 최근까지 사용해본 결과 영어의 경우에도 매우 우수하다고 보기 힘들지만, 유료서비스도 아니며 아직 베타서비스임을 감안하면 발전가능성은 무긍무진 하다. 


결국 음성인식 기술을 발달하게 될 것이다. 


SF영화를 즐겨보지 않더라도 우리 주변에는 점점 다양한 '로봇'들이 나타나고 있다. 

사전에는 로봇을 이렇게 정의하고 있다. 


Robot

noun

1. a machine that resembles a human and does mechanical, routine tasks on command.

2. a person who acts and responds in a mechanical, routine manner, usually subject to another's will;automaton.

3. any machine or mechanical device that operates automatically with humanlike skill. 

로봇이 인간의 '말'을 알아듣고, 인간이 시키는 일을 수행하도록 하기 위한 노력은 계속 될 것이다. 이때에도 가장 중요한 것은 역시 인간의 '발화'를 의미있는 소리로 알아듣고 분석하는 것. 나는 로봇을 연구하는 과학자들이 언어를 매우 열심히 공부한다는 것을 알고는 꽤 놀랬었다. 그 놀랐던 시기가 물론 지금부터 한참 전이었지만, 로봇의 발전 = 언어에 대한 이해/분석 이라고 생각을 못하던 때였던 터라 놀라움이 그만큼 컸다. 



음성으로 메모하기





C.S.I.의 부검의도, '나는 전설이다'에서의 윌 스미스도 음성으로 메모한다. 많은 사람들이 오랫동안 보이스레코더를 사용해 왔으며 또 많은 사람들이 아이폰에 통화녹음 기능이 없다는 것에 매우 불편함을 표시했다. 나는 에버노트에 음성으로 일기를 기록하기도 하고, 갑자기 떠오른 생각을 메모하기도 한다. 이 모든 음성 기록들을 검색할 수 있다면? 따로 시간을 내어 나의 음성을 다시 들으며 그것들을 활자화할 필요가 없다. 무엇인가 생각이 떠오르면, 음성으로 메모를 하고,적당한 태그도 붙일 수 있을 것이다. 이런 날이 곧 오기를. 어쩜 나쁜 글씨체를 탓해야할 시기는 지나고, 나쁜 발음을 탓해야할 시기가 올지도 모른다. 물론 그 나쁜 발음도 패턴(한 개인의 발음 패턴을 로봇이 학습할 수 있을 것이므로, 나의 발음을 알아듣는 로봇을 곧 가지게 될 것이다.)도 별 문제가 안되는 시기가 곧 오겠지만 말이다.