Google представила новую экспериментальную нейросеть Translatotron, способную напрямую переводить речь на другой язык, не используя ее текстовое представление, и сохранять голосовые данные и темп речи говорящего, сообщается в блоге компании. Система с долгой краткосрочной памятью способна принимать голосовой ввод и обрабатывать его как спектрограмму, а затем генерировать на этой основе новую спектограмму на целевом языке. При определенных условиях это позволит увеличить не только скорость перевода, но и его точность. С более полным описанием новой разработки можно ознакомиться в статье,
«Translatotron — это первая сквозная модель, которая может напрямую переводить речь с одного языка на речь на другом языке, сохраняя исходные особенности речи источника», — сообщает компания в своем официальном блоге.
В Google отмечают, что большинство современных систем машинного перевода речи построены на принципе каскадного метода, когда задача разделяется на несколько более простых задач. В рамках первой происходит автоматическое распознавание речи. Затем осуществляется машинный перевод с одного языка на другой, а после этого готовый переведенный текст превращается обратно в речь, которая практически всегда отличается голосом от исходного носителя.
Каскадная система доказала свою эффективность и практичность, и используется в большинстве систем перевода, включая Google. Однако специалисты Google в области ИИ считают, что данная система не идеальна. На каждом этапе решения проблемы могут возникать ошибки, что в целом снижает качество готового результата. В Google уверены, что сквозная модель перевода может превзойти каскадную, удалив среднюю часть зачади, где речь сначала переводится в текст.
Как поясняют в Google, каскадный принцип перевода совсем не похож на то, как люди, знающие несколько языков, мысленно осуществляют перевод речи с одного языка на другой. Как именно это работает — описать довольно сложно, однако переводчики вряд ли согласятся с тем, что они сначала разбивают текст в голове, затем его мысленно визуализируют, переводя его на язык перевода, а затем просто засчитывают готовый перевод.
Спектрограммы исходного языка и переведенной речи. Качество самого перевода, следует признать, не самое лучшее, но звучит он естественнее
Имитация когнитивных способностей человека является одним из принципов машинного обучения. Разработчики Translatotron решили использовать в качестве входных данных для перевода спектрограммы (изображения, показывающие зависимость спектральной плотности мощности сигнала от времени) речи источника и генерировать на их основе новые спектрограммы на языке перевода. Такой подход разительно отличается от каскадного метода перевода. Исследователи отмечают, что как и любом другом случае новая система имеет свои недостатки и достоинства.
Одно из преимуществ сквозного метода перевода заключается в том, что несмотря на свою сложность, этот процесс одностадийный, а не многошаговый. Таким образом, при наличии достаточной вычислительной мощности Translatotron способен выполнять перевод быстрее. Но еще более важно то, что система сохраняет характер и особенности исходной речи в переводе, голосовые данные и темп речи говорящего, а не воспроизводит перевод нейтральным синтетическим голосом.
Те, кто понимает в лингвистике, а также те, кто занимается технологиями синтеза речи наверняка согласятся, что при переводе важно не только то, что говорит человек, но и как он это говорит. Изменение экспрессии исходной речи в речи перевода может кардинальным образом менять смысл сказанного. С примерами работы Translatotron можно ознакомиться, перейдя
Разработчики Translatotron признаются, что по части точности перевода система еще не опередила традиционные каскадные системы, но, как и любая модель машинного обучения, со временем она может улучшиться. Учитывая преимущество сохранения оригинального голоса говорящего даже в переведенной речи, дальнейшие исследования в этой области могут оказаться полезными для будущих систем перевода Google на базе AI.
Обсудить новость можно в нашем Telegram-чате.