10 de pointe des tendances de phonétique de l'avenir

Phonétique a parcouru un long chemin depuis l'époque «le bon vieux de Daniel Jones et ses collègues à Londres au tournant du siècle. La technologie et la communication de masse ont révolutionné le domaine de la phonétique, ce qui permet des percées les fondateurs aurais jamais imaginé. Les extraits suivants de certaines de ces nouvelles directions étonnantes.

Sommaire

Formation ordinateurs à reconnaître les émotions humaines dans le discours

De toute évidence, de nombreuses situations existent où reconnaissant l'émotion dans la parole peut être important. Pensez à comment votre voix peut devenir de plus en plus tendue que vous attendez sur le téléphone pour un opérateur d'ordinateur pour (enfin) la main sur vous à une personne réelle. Ou, plus sérieusement, considérer les personnes travaillant dans des situations d'urgence comme un opérateur 911. Principaux problèmes, potentiellement mortelles peuvent se produire si un opérateur 911 ne peut pas comprendre ce que vous dites.

Travailler avec émotion dans la parole est un sujet de recherche de pointe dans de nombreux laboratoires à travers le monde. Par exemple, le Dr Carlos Busso à l'Université du Texas à Dallas a expérimenté appariement informatisé voix et têtes visuels exprimant les émotions de colère, de joie et de tristesse. Ce travail a comparé le discours des acteurs et des gens ordinaires dans des situations plus naturalistes. À partir des enregistrements audio, Busso utilise des fonctionnalités de pas de classer les émotions. Il utilise ensuite la technologie de suivi de mouvement pour enregistrer les mouvements du visage des intervenants pendant le discours. Les résultats montrent que certaines régions du visage sont plus critiques pour exprimer certaines émotions que d'autres.

Linguistique et les scientifiques peuvent désormais utiliser les résultats de ces études pour créer plus crédible avatars (informatisé humaine comme des personnages), et de mieux comprendre les troubles tels que la maladie de Parkinson (dans lequel la désintégration du système nerveux provoque une perte de l'expression du visage), et l'autisme (dans lesquelles la fréquentation aux signaux du visage semble y avoir un problème).

Animation silicium appareil vocal

Différentes manières peuvent vous aider à comprendre l'appareil vocal humain. Une façon est d'étudier le corps humain à travers l'anatomie et la physiologie. Une autre façon est de construire des modèles du système et d'étudier les propriétés biomécaniques de ces créations. Silicon étendues vocales sont un nouveau type de modèle qui peut être utilisé pour synthèse de la parole, la création artificielle de la parole par la machine.

Le début de la synthèse de la parole remonte en fait aux années 1700 avec une machine parlante cornemuse comme constitué d'un soufflet en cuir (pour servir les poumons) et un roseau (pour servir les cordes vocales). Bien que ce système a grincé son chemin à travers la parole, il n'a pas été possible de déchiffrer beaucoup sur la source de la parole ou le filtre par l'étude de ses composants.

Aujourd'hui, les gens restent fascinés par machines parlantes, y compris les robots humanoïdes et des créations. Ces robots aident à l'animation et à d'autres fins artistiques, ainsi que d'aider les chercheurs à mieux comprendre les systèmes anatomiques.

Produire un système articulatoire comme un humain est pas simple. Le corps humain a une densité très spécifique, d'amortissement, l'élasticité et les propriétés d'inertie qui ne sont pas faciles à reproduire. Les formes physiques changeantes de l'appareil vocal sont également difficiles à reproduire mécaniquement. Par exemple, la langue est un hydrostatique musculaire qui préserve son volume lors du changement de forme. La langue allonge quand saillie et bosses en position rétractée.

Dr Atsuo Takanishi à l'Université Waseda au Japon a passé des décennies à perfectionner une tête de silicium qui peut produire des voyelles, des consonnes et fricatives en japonais. Vous pouvez regarder des films de ses divers engins, y compris silicium cordes vocales, la langue et les lèvres motorisés, commande par engrenage et le visage.

Obtenir tubulaire et synthétique

Une méthode de synthèse de la parole plus cérébral que la construction de robots consiste à faire des modèles électroniques ou mathématiques du système de production de parole. Après les chercheurs à comprendre ces systèmes complexes, ils peuvent les créer, puis manipuler ces systèmes dans un ordinateur pour simuler le système humain (quoique électroniquement). Gunnar Fant, qui a développé des modèles de la relation entre l'anatomie de la parole humaine et les fréquences de formants, fer de lance de ce type de travail dans les années 1950. Cette entreprise appuie également sur les modèles physiques de Hermann von Helmholtz qui ont décrit comment résonateurs simples et résonateurs couplés saisie d'une forme sonore.

Des versions plus récentes de modèles de tubes sont des percées avec des problèmes difficiles, tels que reproduire les voix des femmes et des enfants, ainsi donnant l'illusion que les ordinateurs qu'ils chantent avec succès. Brad Story, professeur à l'Université de l'Arizona, travaille sur un prototype appelé Tube causeur. Ce système est basé sur le modèle de la physiologie des cordes vocales et le système des voies aériennes supérieures. Sa conception intègre des images vidéo des cordes vocales et des images IRM du tractus vocal prises pendant le discours. En utilisant à la fois articulatoires et contraintes acoustiques, histoire et son équipe peuvent modéliser et déplacer articulateurs virtuelles pour créer des mouvements en douceur, les orthophonistes-like. Le résultat est une onde sonore qui peut être écouté, analysé et comparé à la vraie parole.

Tube causeur a été modifié à certains égards étranges et intéressantes. Par exemple, les modèles traditionnels de parole suggèrent que les composants vocaux et de filtrage doivent être considérés à part. Cependant, pour certains types de voix chantée (et peut-être pour la voix pour les enfants), cela peut ne pas être le cas. Les versions récentes de la personne qui parle de tube ont testé interactions non linéaires entre la source et le filtre que de nouvelles combinaisons possibles pour mieux modéliser ces types de voix et le chant.

Un autre modèle utilisant des dessins en forme de tube a remporté un récent concours européen de la chanson de synthèse de la parole pour non seulement rendre plausible langage parlé, mais aussi pour le chant (vous pouvez assister au spectacle étrange de tracts vocales informatisés 3D transparents, développé par le Dr Peter Birkholz, chant un duo).

Formation avec Baldi et autres avatars

Agents d'enseignement, comme les avatars qui sont conçus pour être des conférenciers experts de différentes langues, sont une autre tendance intéressante en phonétique. Ces systèmes peuvent aider les instructeurs en donnant plus de pratique avec des plans de leçon, aider à la formation d'apprentissage en langue seconde, en collaboration avec les personnes malentendantes, ou des personnes ayant des difficultés particulières d'interagir avec les partenaires de la parole en direct (tels que les personnes autistes).

Sous la direction du professeur Dominic Massaro à l'Université de Californie à Santa Cruz, les chercheurs ont mis au point une tête parlante 3D nommé Baldi, capable de faire de nombreuses tâches. Par exemple, les étudiants japonais Baldi a permis de développer leur accent anglais et a aidé à l'éducation des sourds. Dans les versions les plus récentes, la tête de Baldi est devenue transparente afin de mieux montrer son appareil vocal afin que les apprenants de langues dans lesquelles les positions de la langue et du pharynx spéciales sont importants (comme l'arabe) peuvent voir ce qui se passe. Baldi a même des jambes germées, les bras et un corps parce que les gestes d'un avatar peut dans certaines situations ajouter à une situation plus efficace d'apprentissage des langues. Ce type de recherche suggère que le travail avec des avatars peut contenir un avenir audacieux et prometteur pour la phonétique.

Aider le discours muet d'interfaces vocales silencieuses

Interface vocale silencieuse (SSI) peut être particulièrement utile dans les applications militaires, comme pour le personnel dans les cockpits forts ou les véhicules qui les empêchent de se entendre parler ou d'être enregistrée par un microphone.




En outre, SSI peut aider les autres qui ne peuvent pas produire un son audible de leurs cordes vocales, mais leur articulateurs (langue, les lèvres, la mâchoire et) fonctionne toujours. Avoir une source vocale artificielle permettrait d'atténuer ce problème. Si la position de la langue de la personne peut être suivi en temps réel, et cette information a été introduite dans un ordinateur, les deux peuvent être couplés à une source de voisement et, presto, discours.

Plusieurs prototypes de travail intéressantes pour les SSI sont actuellement en développement. L'accent sur les principes suivants acoustiques et articulatoires technologies de suivi de l'articulateur chair points:

  • Les chercheurs en Afrique du Sud travaillent sur un système utilisant electropalatography (EPG).

  • Les scientifiques de l'Université de Géorgie sont à explorer l'utilisation d'un système de suivi à aimant permanent.

  • D'autres chercheurs travaillent sur des systèmes de suivi des lèvres et de la langue.

Un jour, le but ultime est d'avoir des personnes qui ne peuvent pas parler à cause de la perte du larynx de simplement sortir leur téléphone (ou un dispositif plus ou moins que la taille), appuyer sur un bouton, et ensuite avoir une qualité haute voix synthétisée pour parler comme ils articulent.

Visualisation mouvement de la langue pour les patients victimes d'AVC

Beaucoup de personnes atteintes gauche lésions cérébrales ont corticale apraxie de la parole (AOS), un problème de contrôle de la production des sons de la parole. Bien que ces patients comprennent généralement la langue assez bien, si ils veulent un certain son prononcer, disent "s" dans le mot "see ", le son peut sortir mal, comme aussi"she. «AOS est très frustrant pour les patients car ils savent généralement qu'ils ont produit un son dans l'erreur. Ils se sentent souvent comme ils savent quoi dire, mais ils ne peuvent pas sortir.

Un principe éprouvé connu pour aider ces patients est la pratique (pratique rend parfait), en particulier parce que ces personnes ont tendance à cesser de parler en raison de la frustration, de la dépression, et ayant d'autres membres de la famille prennent le dessus et parlent pour eux. Un autre principe important est la formation thérapeutique articulatoire. L'Université de Dallas au Texas laboratoire (en collaboration avec des collègues de l'Université de Pittsburgh) donne les individus avec AOS rétroaction visuelle concernant la position de leur langue pendant le discours. Cette intervention est basée sur le postulat que les individus avec AOS ont une ventilation avec le séquençage de son et son application, mais leurs systèmes de rétroaction oeil à la langue de suivi sont intacts.

Un certain nombre d'études ont montré que cette méthode peut aider les individus avec AOS augmenter la précision de leur production sonore après un AVC. Les travaux à ce jour est fondée sur les informations à partir d'un seul point de données articulatoire (tel que le bout de la langue). Les travaux à venir donner aux patients un avatar 3D qui leur montre le mouvement en ligne de leur langue pendant qu'ils parlent. Cela permettra le traitement d'un plus large éventail de sons de la parole et permettra aux cliniciens de traiter mode d'articulation, ainsi que le lieu.

Tri voix plus masculine de la voix moins masculin

Un certain nombre de propriétés dans la voix peut effectivement indiquer la masculinité. Phonéticiens ont des termes pour cela:

  • Discours plus masculin (MMS)

  • Discours moins masculin (LMS)

MMS est plus faible dans fréquence fondamentale (le terrain une personne entend). Les deux semblent également avoir des différences dans la spectral qualité (comment aigu du hissiness est) des fricatives. En outre, les individus ont MMS espace voyelle moins prononcée que les personnes jugées LMS (LMS signifiant parleurs utilisent de plus grandes excursions de la langue tout en parlant).

Les entreprises ou les gouvernements peuvent être en mesure d'utiliser cette information pour concevoir un mâle par rapport détecteur de voix féminine et peut-être un détecteur encore plus détaillée (droite par rapport gay) pour les types simples de jugements. Cependant, le transport entre les sexes par la parole est plus compliquée qu'une approximation générale des propriétés biologiques du sexe opposé. Autrement dit, malgré ce que la culture populaire implique souvent, le discours des hommes gais ne semble pas être simplement une version féminisée de la parole des hommes droites (ou le discours des lesbiennes une version masculinisée du discours des femmes droites).

Ron Smyth, professeur à l'Université de Toronto, a étudié les différences entre les plus et moins gai discours à consonance. Son travail révèle que le mélange complexe suivante de propriétés acoustiques caractérise le «discours de gay-résonance":

  • Les voyelles produites au plus près des bords de l'espace de voyelle

  • Arrêtez consonnes avec plus vocaux fois apparition (VoT)

  • Plus / s / et / # / 643- fricatives avec des fréquences maximales plus élevées

  • Allophones "L" Plus de lumière

Le travail de Smyth montre aussi que bon nombre de ces jugements dépendent également sur des hypothèses faites par les auditeurs, les types d'échantillons de parole fournis, et sur le genre et l'orientation sexuelle des auditeurs eux-mêmes. L'orientation sexuelle et de la parole est un sujet permanent de recherche afin de déterminer si les stéréotypes populaires-culturelles sont basés sur rien de tangible, et si la perception de l'orientation sexuelle des gens (des gens gais de l'auto-proclamée Gaydar) Est ce qu'il prétend être (Son travail a montré que la gaydar des gens sur la base de la parole est généralement pas fiables.)

Ces questions concernent le domaine de la sociolinguistique, l'étude de la relation entre la langue et de la société. Des études ont montré, par exemple, que les jeunes hommes (hétérosexuels) vont baisser leur fréquence fondamentale quand une jeune femme questionneur, plutôt que d'un mâle, entre dans la pièce. Ces hommes sont sans doute se rendre attrayant grâce à une voix plus basse. Si les résultats des études précédentes sont exactes, une recherche pourrait supposer que dans les mêmes conditions expérimentales, les femmes augmenteraient l'breathiness de leur voix, une caractéristique connue pour augmenter le percept de la parole féminine plus attrayant.

Comprendre le syndrome de l'accent étranger (FAS)

Syndrome de l'accent étranger (FAS) est un trouble moteur de la parole où les adultes présentent des discours consonance étrangère à la suite d'anomalies mistiming et prosodiques issus de trouble cérébral. Il continue de fasciner le public et les scientifiques. Étude d'individus ayant ce trouble peut potentiellement donner une meilleure image de laquelle les systèmes du cerveau sont impliquées dans la production et la compréhension de l'accent.

Jusqu'ici, la plupart des cas de SAF ont été les personnes de langue maternelle anglaise, bien que de plus en plus d'autres langues européennes sont également en cours d'enregistrement. Maintenant, plusieurs cas de non-indo-européenne (hébreu, japonais et arabe) ont été enregistrés. Les chercheurs sont intéressés par les variétés de langues sont affectés, et les chercheurs se demandent dans quelle mesure et de stress ou des facteurs prosodiques base syllabe (communément quantifiée en tant que Pairwise Indice de variabilité, (PVI)) Joue un rôle dans si ces patients sont perçus comme des étrangers, et si il ya des haut-PVI et sous-types à faible PVI FAS.

Un autre casse-tête dans l'image SAF est la façon dont les cas qui résultent de lésions focales franches (comme un accident vasculaire cérébral ou une tumeur) peuvent être liés à ceux du étiologies moins spécifiques ou inconnues (tels que la migraine, l'allergie, ou les causes psychogènes éventuellement). Un individu avec une lésion dans une région du cerveau bien établie connue pour correspondre à la fonction de la parole (comme la zone de langue périsylvienne) peut être supposé avoir une cause plausible pour le SAF. La situation pour les personnes sans cause physiologique connue est moins claire.

Beaucoup de patients dirigés vers la clinique à l'Université du Texas à Dallas pour suspicion de SAF ont été diagnostiqués avec trouble de conversion. Ceci est une condition dans laquelle les patients éprouvent des symptômes neurologiques que l'évaluation médicale ne peut expliquer. Trouble de conversion est pas la simulation (feindre la maladie) et il peut affecter la parole, mais c'est pas la même chose que le FAS. Pour mieux évaluer les FAS, les professionnels doivent travailler en étroite collaboration dans une équipe qui comprend idéalement un psychologue et un psychiatre. Y compris les tests phonétiques pour exclure la modification d'accent intentionnelle, par inadvertance, ou imitée est également important.

Découvrir la génétique de la parole

Phonéticiens sont devenus plus intéressés par l'évolution rapide et passionnant domaine de la génétique pour trouver la base de la parole et du langage. Un tumulte a commencé dans les années 1980 avec la découverte d'une famille dans l'ouest de Londres qui a eu une série de parole et du langage problèmes familiaux. Entre les différents membres de la famille (nommé KE) avait neuf frères et sœurs. Quatre de ces frères et sœurs avaient prononcé des problèmes avec la compréhension, la compréhension des phrases telles que "Le garçon est poursuivi par le tigre" comme signifiant "Le garçon est chassant le tigre." Ils ont également chuté de sons au début de mots, comme disant «art» lorsque l'intention de dire «tarte." De tels comportements, il est devenu clair qu'il y avait quelque chose liées à la famille touchant particulièrement leur parole et du langage.

Dans les années 1990, un groupe de généticiens de l'Université d'Oxford a commencé à chercher le gène endommagé dans cette famille. Ils ont trouvé ce trouble provoqué quand un seul gène a été passé d'une génération à l'autre (autosomique dominante) Et n'a pas été lié au sexe. Une enquête plus poussée a goupillé le gène dans une région sur le chromosome 7, qui a été appelé parole et du langage Trouble 1 (SPCH1). Les généticiens ont procédé à localiser l'endroit précis du chromosome 7 bris dans le cas d'un autre enfant avec un discours génétique et trouble du langage. Il est avéré concerner les cas KE d'une manière étonnante: deux quelque chose de codé appelé Forkhead Box Protein (FOXP2), une protéine de transcription que les codes d'autres facteurs nécessaires pour les systèmes neurologique, l'intestin et du poumon.

FOXP2 est associée à l'apprentissage vocal chez les jeunes oiseaux chanteurs, écholocation des chauves-souris, et éventuellement dans d'autres espèces vocales-apprentissage, comme les baleines et les éléphants. Souris avec des gènes humains-FOXP2 épissage dans leur ADN émis faibles grincements géniales et a grandi différents modèles de neurones dans leur cerveau dans les régions impliquées dans l'apprentissage.

Comme toutes les histoires scientifiques passionnants, l'histoire de FOXP2 est pas sans controverse. De nombreux rapports populaires de ces découvertes font des déclarations simplifiées, surplombant la base génétique multifactorielle pour la parole et du langage. Par exemple, la descente du larynx humain était sans doute important pour rendre la parole physiquement possible, en comparaison de l'appareil vocal de chimpanzés. Pourtant, ce processus génétique ne semblent susceptibles liée à FOXP2, suggérant que d'autres loci sont sans doute impliqués. En effet, d'autres gènes émergent déjà. FOXP2 éteint un gène appelé protéines comme contactine-associée 2 (CNTNAP2). Ce gène a été associé à la fois dépréciation spécifique du langage (SLI) et l'autisme. Les cellules nerveuses dans le cerveau en développement, en particulier dans les circuits associés à la langue, à déployer CNTNAP2, qui code pour la protéine.

Dialectes pour le plaisir et le profit correspondant

Beaucoup de gens changent leur accent parlé à travers le cours d'une journée pour correspondre à l'accent des gens à qui ils parlent. Vous pouvez appeler cette étant une éponge accent, même si elle est techniquement plus appelé dialecte correspondant ou inscrivez appariement.

Dialecte correspondant est tout à fait naturel pour les gens. En fait, il est devenu l'une des zones chaudes dans la reconnaissance vocale de l'ordinateur pour le potentiel de faire correspondre une demande d'appel téléphonique, avec une réponse en ligne adapté en dialecte. Parce que les gens semblent apprécier l'appartenance au groupe, l'idée est d'avoir l'ordinateur de reconnaître rapidement votre dialecte et vous jumeler avec un copain de téléphone ou voix informatisée que vous correspond.

Les chercheurs conçoivent des systèmes informatiques avec la reconnaissance de l'unité de téléphone et de modules d'adaptation de l'unité de téléphone. Systèmes téléphoniques utilisant ces technologies peuvent déterminer l'accent de la personne qui appelle, extraire les caractéristiques de cet accent, et de modifier la sonorité synthétisé répondre à l'appelant par la meilleure adaptation que de l'accent de la personne. Si fait correctement, cela peut mener à une plus grande intelligibilité et peut-être un meilleur sentiment subjectif dans la conversation. D'autre part, si elle n'a pas bien fait, les gens peuvent se sentir imitée ou moqué. Vous pouvez imaginer comment ce genre de chose peut être utilisé dans les systèmes informatisés de rencontres.

Dialect correspondance est encore naturel pour les orques, dauphins, les chauves-souris et de lance-nez, aussi. Orques et dauphins utilisent des grincements et des sifflets coordonnées de décider ce qu'ils vont chasser et de voyager avec. Étude des chauves-souris de lance-nez a montré que les femmes correspondent à leurs appels de recruter d'autres membres de leur perchoir quand ils trouvent une riche source de nourriture et de défendre collectivement leur nourriture d'autres chauves-souris. Selon les biologistes, ces sons d'animaux sont tous les cas de signalisation pour appartenance à un groupe.


» » » » 10 de pointe des tendances de phonétique de l'avenir