Audiovisual perception of biological motion
Mendonça, Ana Catarina Macedo
Tese
Tese doutoramento em Psicologia
(ramo de conhecimento em Psicologia Experimental
e Ciências Cognitivas)
This thesis comprises three experimental sections: a) Locating Auditory
Sources with Non-Individualized HRTF-Based Auralizations; b) The Effect of
Auditory Cues on Biased Biological Motion; and c) The Multisensory
Integration of Biological Motion.
In the first experimental section, the accuracy and adaptation to auralized
sounds was tested. Auralization is a powerful tool to increase the realism and
sense of immersion in Virtual Reality environments. The Head Related
Transfer Function (HRTF) filters commonly used for auralization are nonindividualized,
as obtaining individualized HRTFs poses very serious practical
difficulties. It is therefore important to understand to what extent this hinders
sound perception. In this section, we addressed this issue from a learning
perspective. In a set of experiments, we observed that mere exposure to
virtual sounds processed with generic HRTF did not improve the subjects’
performance in sound source localization, but short training periods involving
active learning and feedback led to significantly better results. We proposed
that using auralization with non-individualized HRTF should always be
preceded by a learning period.
In the second experimental section we addressed the effect of auditory cues
on bistable biological motion representations. Perceiving humans in motion is
a frequent and crucial task. However, visual stimuli alone are might be poorly
informative and often result in a face forward bias. In this section, we intended
to explore if related and meaningful sounds would reduce those visual biases.
Participants were presented with visual, auditory or audiovisual walkers,
which could be moving forward or away from the perceiver. The task was to
discriminate walking motion direction. Overall, results in the audiovisual
condition were significantly better than those of the visual condition, with more
correct estimates and a lower bias, but similar to the auditory results. We concluded that step sounds are a relevant cue, able to diminish the perceptual
error and break the face forward illusion.
In the last experimental section, we explored the multisensory integration of
cues of walking speed. After testing for audiovisual asynchronies (visual
signals led auditory ones by 30 ms in simultaneity temporal windows of 76.4
ms), in the main experiment, visual, auditory and bimodal stimuli were
compared to a standard audiovisual walker in a velocity discrimination task.
Results in variance reduction conformed to optimal integration of congruent
bimodal stimuli across all subjects. Interestingly, the perceptual judgements
were still close to optimal for stimuli at the smallest level of incongruence.
Comparison of slopes allowed us to estimate an integration window of about
60 ms, which is smaller than that reported in audiovisual speech.
We conclude that the audiovisual interactions of biological motion stimuli allow
accuracy improvement and uncertainty reduction. These multisensory
integration processes might be predicted by optimal mechanisms.
A presente tese contempla três secções experimentais: a) Localização de
fontes sonoras com auralizações baseadas em HRTFs não individualizados;
b) O efeito de pistas auditivas em representações enviesadas de movimento
biológico; e c) A integração multimodal de movimento biológico.
Na primeira secção experimental, testou-se a precisão e adaptação a sons
auralizados. A auralização é uma ferramenta poderosa para melhorar o
realismo e a sensação de imersividade em ambientes de realidade virtual. Os
filtros de HRTF (Head Related Transfer Functions), frequentemente utilizados
no processo de auralização, não são individualizados, uma vez que obter
HRTF individualizados coloca sérias dificuldades práticas e elevados custos.
Como tal, é importante compreender de que forma é que estes filtros
genéricos afectam a percepção dos sons auralizados. Nesta secção,
abordámos este tema numa perspectiva de aprendizagem. Num conjunto de
experiências, constatámos que a mera exposição aos sons virtuais
processados com HRTF genéricos não melhorava a performance dos sujeitos
experimentais na localização de fontes sonoras. Contudo, curtos períodos de
treino envolvendo aprendizagem activa e feedback conduziram a resultados
significativamente melhores. Como conclusão, propomos que todo o uso de
sons auralizados com HRTF não individualizados seja precedido de um
período de aprendizagem.
Na segunda secção experimental, abordámos o efeito de pistas auditivas em
representações bi-estáveis de movimento humano. Perceber humanos em
movimento é uma tarefa frequente e crucial. Contudo, a visão pode ser pouco
informativa e frequentemente leva a um viés frontal. Nesta secção,
pretendemos analisar se sons relacionados e congruentes poderiam reduzir
este viés. Apresentaram-se estímulos visuais, auditivos e audiovisuais de
movimento biológico, que podiam mover-se em aproximação ou afastamento do observador. A tarefa consistiu em identificar a direcção do movimento do
estímulo. Os resultados da condição audiovisual foram significativamente
melhores que os da condição visual, com mais estimativas correctas e menos
viés, mas foram semelhantes aos resultados da condição auditiva.
Concluímos que os sons de passos são uma pista relevante, capaz de
diminuir o erro perceptivo e eliminar o viés frontal.
Na última secção experimental, abordou-se a integração multimodal de pistas
de movimento biológico. Depois de se testar as assincronias percebidas (o
estímulo visual deve ser apresentado antes do estímulo auditivo em 30 ms),
na experiência principal, compararam-se estímulos visuais, auditivos e
bimodais com um estímulo standard, numa tarefa de discriminação de
velocidade. Os resultados de redução de variância dos estímulos
audiovisuais congruentes foram bem previstos pelo modelo de integração
óptima. Surpreendentemente, os julgamentos perceptivos dos estímulos ao
nível mais baixo de incongruência também estiveram muito próximos das
previsões óptimas. A comparação de curvas de ajustamento permitiu-nos
estimar uma janela de integração multimodal de cerca de 60 ms, que é mais
pequena que aquela reportada para a integração multimodal de estímulos
verbais.
Conclui-se que as interacções audiovisuais de estímulos de movimento
biológico permitem o aumento de precisão e a redução de incerteza. Estes
processos de integração multissensorial podem ser explicados por
mecanismos óptimos.