Google создал практически идеальный синтезатор речи
Ближе к концу 2017 года американский поисковый гигант завершил работу над передовой системой синтеза речи – Tacotron 2. Данный алгоритм способен преобразовывать печатный текст в речь, максимально напоминающую человеческую.
В основе работы Tacotron 2 – две взаимосвязанные нейронные сети. Первая нейросеть дробит текстовый контент на отдельные составляющие (буквы, знаки препинания и т.д.), представляя их в виде соответствующей спектрограммы. Вторая нейронная сеть трансформирует полученные спектрограммы в аудиозапись, учитывая при этом различные специфические параметры языка конкретного текста.
Если верить создателям, синтезатор речи Tacotron 2, работа которого фактически зависит от искусственного интеллекта, гораздо совершеннее своих предшественников. Этот алгоритм умеет не только механически воспроизводить слова, но и делать паузы, выделять определенные слова/фразы и различать омонимы, исходя из контекста.
Таким образом, уверяют разработчики, речь, воссозданная с помощью нового синтезатора, практически не отличается от человеческой. Правда, Tacotron 2 пока что лишь умеет разговаривать женским голосом. Мужской на подходе…
Возможности нового синтезатора речи от Google скорее всего пригодятся для улучшения работы голосовых помощников, бум на которые только начинается.
28 Декабря 2017
Возврат к списку