Computando com legendas de filmes

8 de janeiro de 2009

Uma ideia que tive tempos atrás foi a de utilizar uma massa de dados de legendas de filmes em diferentes línguas para, através de um tratamento estatístico-linguístico (a ser elaborado), obter uma base equivalência de termos ou expressões em diferentes línguas.

A entrada de dados (vários arquivos de legendas de filmes em duas ou mais línguas) não é difícil de se conseguir. O problema é a parte de pesquisa propriamente dita, que exigiria um projeto mais sofisticado. De qualquer forma, acho que poderia surgir um resultado interessante.

Quem sabe calha de alguém mais capacitado/possibilitado ler isso e levar a coisa adiante... :c)

Comments

2 Responses to “Computando com legendas de filmes”
Post a Comment | Postar comentários (Atom)

Thiago disse...

Se você conseguir definir um método para quebrar as legendas em "expressões" o problema se torna razoavelmente simples. Você poderia criar um mapping de "expressão, língua" para "multiset de expressões, língua" e contar. Os mappings mais comuns para uma expressão e source/target language seriam os seus candidatos pra tradução.

O método para quebra não é exatamente trivial. Talvez as marcas de tempo na legenda (com alguma margem de erro) combinadas com algumas outras heurísticas (talvez language specific) possam ser adequadas.

É fácil distribuir o processamento dessa técnica. Para um dado filme com legendas de tamanho m e n, você precisa O(m + n) (ou seja, processamento linear (já que você pode iterar nas duas legendas ao mesmo tempo)). Agregar os resultados é potencialmente mais complexo, mas pelo menos pode ser distribuído por par de línguas.

Você pode fazer um experimento em casa com um par de línguas - português e inglês, talvez? Ou o par de línguas em que você encontrar mais legendas disponíveis.

Avaliar a qualidade da técnica é um pouco difícil, mas eu acredito que julgamentos humanos em um sample aleatório sirvam razoavelmente bem para esse propósito.

17:49
Helder disse...

Já existe coisa pronta para criar tradução estatística. Não sei exatamente como é, mas é o que o Google usa. Não existe nada específico de linguagem, gramática nada. É só treinar com um corpus em línguas diferentes. Se já existir algum software livre implementando isso, é o simples caso de pegar esse corpus de legendas e botá-lo no formato de entrada certo.

Uma possível limitação é que legendas raramente são traduções puras do que está sendo dito. Geralmente são também um resumo, porque lemos mais devagar do que escutamos.

Btw, vi que você adotou há muito tempo a postura que eu recentemente adotei (http://helderribeiro.net/?p=124) de sair soltando idéias sem de fato implementá-las. Se pelo menos eu tivesse pensado nisso antes :)

18:32