Witold Kepinski - 07 oktober 2019

IBM belicht Text-to-Speech innovaties met behulp van LPCNet

IBM belicht Text-to-Speech innovaties met behulp van LPCNet image

IBM belicht nieuwe Text-to-Speech innovaties met behulp van LPCNet zo meldt het in een blog.

Recente vorderingen op het gebied van diep leren verbeteren de ontwikkeling van Text-to-Speech-systemen (TTS) aanzienlijk door efficiënter en efficiënter leren van stem- en spreekstijlen van sprekers en een meer natuurlijke generatie van hoogwaardige output-spraak, aldus IBM.

Om deze spraak van hoge kwaliteit te produceren, zijn de meeste TTS-systemen echter afhankelijk van grote en complexe neurale netwerkmodellen die moeilijk te trainen zijn en geen real-time spraaksynthese toestaan, zelfs wanneer gebruik wordt gemaakt van GPU's.

Om deze uitdagingen aan te gaan, heeft het IBM Research AI-team een nieuwe methode ontwikkeld voor neurale spraaksynthese op basis van een modulaire architectuur, die drie diepe neurale netwerken (DNN's) combineert met tussentijdse signaalverwerking van de output van de netwerken.

Lees meer details hier.

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!