quarta-feira, 1 de junho de 2011

Técnica multimodal facilita busca de cenas em vídeos

Pesquisadores da Universidade de São Paulo (USP) criaram uma nova técnica computacional que facilita a busca por vídeos digitais, a partir das próprias imagens.

Atualmente, a busca é feita em sua maior parte com base nos textos que acompanham o vídeo, como no site do Youtube.

Multimodal

Segundo o cientista Danilo Coimbra, autor do projeto, a técnica é interessante para as emissoras que desejam disponibilizar o conteúdo de seus telejornais na web, de modo que os internautas possam navegar de maneira mais fluente entre as notícias.

"O método multimodal é mais preciso que outros já utilizados porque propõe uma busca mais apurada. Ele pode ser aplicado para a personalização de conteúdo considerando as preferências do usuário, uma tendência na área de recuperação de informação em vídeos," explica Danilo.

O gênero de vídeo com o qual Danilo trabalhou foi o telejornal - foram utilizados vinte episódios de quatro telejornais brasileiros.

Segmentação do vídeo

A técnica consiste em um algoritmo que segmenta os vídeos em cenas, integrando informações de texto, imagem e som.

Como explica o autor, o algoritmo identifica e indica o momento de transição entre duas cenas, e, a partir disso, faz a segmentação do vídeo em partes menores.

Para medir a eficácia do algoritmo, o pesquisador assistiu aos telejornais, documentando manualmente os momentos em que havia mudança de cena. A seguir, aplicou a técnica nesses mesmos telejornais, obtendo os resultados oferecidos pelo programa.

Então, comparou os dois modelos, analisando quantas cenas o algoritmo detectou e quantas não detectou.

Segundo Danilo, os resultados apontam que a técnica se apresentou 17 % mais precisa do que as outras técnicas monomodais analisadas, além de recuperar um número maior de cenas.

O que é uma cena

Para desenvolver a técnica, o primeiro passo da pesquisa foi definir semanticamente o que seria considerado cena, para transformar esse conceito em linguagem técnica no algoritmo.

"Uma definição mais ampla de 'cena' é uma das peculiaridades do método, que proporciona um resultado melhor na segmentação", afirma.

Para o autor, há mudança de cena em um jornal quando há mudança de assunto. "Notícias diferentes são cenas diferentes; vinhetas e blocos de comercial também são assuntos distintos."

Em um telejornal, o áudio, a imagem e o texto emitem sinais de que haverá uma mudança de assunto, ou seja, de cena. Isso acontece nos vídeos em geral.

A técnica desenvolvida na pesquisa integra as três mídias, levando em conta as características peculiares de cada uma.

Integração de métodos monomodais

Para elaborar a técnica multimodal, Danilo integrou seis métodos monomodais, cada um capaz de apontar a transição de cena por intermédio de sua respectiva mídia: três deles com características visuais, dois com áudio e um com texto.

O cientista conta que, por exemplo, no caso do som, a nova técnica capta os momentos em que há silêncio, que geralmente indicam que haverá uma mudança de cena: "Essa é uma das informações referentes ao som, e diz respeito ao momento em que um repórter termina de falar para que um âncora (apresentador do telejornal) inicie a apresentação de outro assunto. Nesse ínterim, há o silêncio".

No tocante às imagens, o algoritmo detecta cenas analisando a imagem do âncora, o que também indica que vai haver transição de um assunto para o outro, ou seja, de uma cena para outra.

Mas podem ocorrer equívocos, e o algoritmo apontar uma transição que não existe, por exemplo quando há um diálogo entre os dois âncoras, que necessariamente não representam mudança de cena.

Nesse sentido, Danilo aponta que isso acontece menos quando é aplicada uma técnica multimodal, uma vez que "as vantagens das técnicas monomodais integradas compensam suas limitações quando utilizadas em separado".

Nenhum comentário: