IBM belicht Text-to-Speech innovaties met behulp van LPCNet
IBM belicht nieuwe Text-to-Speech innovaties met behulp van LPCNet zo meldt het in een blog.
Recente vorderingen op het gebied van diep leren verbeteren de ontwikkeling van Text-to-Speech-systemen (TTS) aanzienlijk door efficiënter en efficiënter leren van stem- en spreekstijlen van sprekers en een meer natuurlijke generatie van hoogwaardige output-spraak, aldus IBM.
Om deze spraak van hoge kwaliteit te produceren, zijn de meeste TTS-systemen echter afhankelijk van grote en complexe neurale netwerkmodellen die moeilijk te trainen zijn en geen real-time spraaksynthese toestaan, zelfs wanneer gebruik wordt gemaakt van GPU's.
Om deze uitdagingen aan te gaan, heeft het IBM Research AI-team een nieuwe methode ontwikkeld voor neurale spraaksynthese op basis van een modulaire architectuur, die drie diepe neurale netwerken (DNN's) combineert met tussentijdse signaalverwerking van de output van de netwerken.