:: Gestão de Dissertações de Mestrado Integrado ::

Área Científica: Processamento de Sinal
Recohecimento de Voz: Sistema de VerificaÃ§Ã£o do Orador, Baseado em modelos de Markov, Compactado num Objecto COM para Windows
Publicada a 2010-10-22
Aluno: LuÃs Carlos Castro Monteiro Número: 38046 Email: monteiro_lcm@hotmail.com
Data início: 02/11/2006 Data Conclusão: 24/10/2007

Orientador(es):
Nome: Carlos Manuel G. S. Lima Email: carlos.lima@dei.uminho.pt

Arguente(s):
Data da defesa: 24/10/2007

versão electrónica

Descrição:

Esta dissertação descreve a implementação de um sistema de reconhecimento

do orador que foi desenvolvido no âmbito de um projecto de modernização

da economia (PME) com a referência PMDT 01/165, que se denomina projecto

TECNOVOZ. Este tipo de projectos têm como principal objectivo transferir a tecnologia

dos meios científicos para a comunidade.

O reconhecimento do orador vai ser usado com a finalidade de restringir o

acesso a informação confidencial (e.g. relatórios médicos) em ambientes tipo

"mãos livres" ou ainda no controlo de acessos a áreas reservadas. Ambas as aplicações

requerem desempenho elevado do Reconhecedor, pelo que se optou pelo

reconhecimento de palavras isoladas dependentes do texto (ISR - Isolated Word

Recognition), o que significa também mais requisitos computacionais.

Este sistema de reconhecimento do orador ("Reconhecimento de "Voz") é

baseado em HMM´s de observações contínuas e teve como ponto de partida um

Reconhecedor, desenvolvido no contexto de um trabalho de doutoramento [3]. Este

sistema está implementado em C++ (uma linguagem de programação) através da

ferramenta Visual C++ e está inserido num objecto COM para Windows. Com a

criação deste objecto COM, converte-se esta implementação num software dinâmico,

isto é, num sistema que possa ser interligado com qualquer outro software que

necessite de reconhecimento de "Voz". Este é um requisito fundamental dado que

o Reconhecedor vai ser inserido em aplicações já existentes, desenvolvidas em

diversas plataformas.

A utilidade prática do Reconhecedor do orador implica alguma flexibilidade

ao nível da sua estrutura, como seja a adaptação a um novo conjunto de oradores,

o que acontece sempre que por exemplo mais um orador seja inserido no sistema.

Esta flexibilidade de adaptação a um novo conjunto de oradores foi conseguida

pela disponibilização de modelos independentes do orador, mas dependentes

do texto. Deste modo, a inserção de um novo orador pode fazer-se tomando como

modelo inicial o modelo independente do orador.

Foi, ainda, implementada uma pequena aplicação de interface com o objecto

COM. O objectivo deste software é testar os serviços, de treino e de reconhecimento,

que este COM disponibiliza, visto que é um sistema isolado que necessita

de interacção por parte de alguma aplicação para fornecer os serviços.