И голос мой негромок
Jan. 5th, 2014 11:05 am
В том тексте, который вы сейчас читаете, правки случилось не больше двух-трёх символов на одно предложение. Я её как-то без напряжения осилил на экране Nexus 7. Потому что экран этот достаточно большой, и пальцами попадать по клавишам не составляет особенного труда.
Тем не менее, отдельные слова расшифровываются каким-то совершенно нелепым способом, и тогда уже хрен кто кроме меня поймёт, что я там на самом деле имел в виду. А это значит, что отправить сырой надиктованный текст какой-нибудь расшифровщице на вычитку совершенно нереально. Блох необходимо вылавливать самому. Тут уже не получается никакой экономии сил, нервов и времени.
А самое обидное – что один и тот же продукт по распознаванию текста значительно хуже поддерживает русский язык, чем любой другой европейский. К сожалению, двух объяснений этому факту нет, и быть не может. Даже если мало кто сегодня сомневается в готовности русскоязычного пользователя платить за всевозможные танки и прочие рингтоны, производители серьезного софта для профессиональных нужд не видят большой коммерческой перспективы в выпуске платных продуктов на наш рынок. Всё, что нужно и полезно, будет назавтра спирачено и расшарено. Так что в вопросе расшифровки речи придется русскоязычному пользователю и впредь довольствоваться крохами с барского стола. А, кстати сказать, вот же вам и наглядный пример кейса, в котором свою революционную роль мог бы сыграть краудфандинг: не нужно оглядываться на 70 миллионов любителей халявы, если можно подписать тысяч 50 платежеспособных и реально заинтересованных в продукте. Правда, я не имею ни малейшего понятия о том, сколько реально мог бы стоить в разработке подобный языковой модуль. Но тут, по крайней мере, хорошо понятно, у кого такую информацию можно было бы выспросить. Posted via LiveJournal app for Android.
no subject
Date: 2014-01-05 07:12 am (UTC)no subject
Date: 2014-01-05 07:15 am (UTC)no subject
Date: 2014-01-05 07:18 am (UTC)no subject
Date: 2014-01-05 07:27 am (UTC)Мандарин?
Бенгальский?
Валлийский?
Кастильянский?
Африкаанс?
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2014-01-05 07:50 am (UTC)Вот насмешили.
Распознавание речи — та сфера, в которой вообще ничего невозможно ни ограничить, ни засекретить, потому что и язык, и произношение, и миллионы часов диктовки на любом языке находятся в public domain.
Компания Nuance, на продукте которой надиктован этот пост, имеет капитализацию 5 млрд долларов, больше миллиарда долларов годовой выручки, 12.000 сотрудников и офисы в 35 странах. Чего такого не может сделать компания с такими мощностями, что могли бы сделать инженеры какой-нибудь режимной шарашки?! Где то секретное знание о фонетике, которое давало бы спецслужбам преимущество перед коммерсантами?
Ровно в одном вы правы: действительно, никто не будет делать подарки. Поэтому мы и в пролёте. Dragon Dictate стоит от 200 долларов США за одну лицензию, английский медицинский аналог — от 1000. Для русского рынка, где всё это украдут, где даже в госструктурах поставят пиратку, разумеется, никому не интересно стараться.
(no subject)
From:no subject
Date: 2014-01-05 07:25 am (UTC)no subject
Date: 2014-01-05 07:40 am (UTC)no subject
Date: 2014-01-05 07:34 am (UTC)no subject
Date: 2014-01-05 07:38 am (UTC)А вообще - "фефект фикции" как говорил Райкин.
no subject
Date: 2014-01-05 07:57 am (UTC)Но, конечно, Яндекс — игрок серьёзный, и очень заинтересован в голосовом вводе поисковых запросов, потому что с мобильным рынком связаны основные перспективы его роста на ближайшие 5-10 лет. Тем более, что у Гугла есть русское распознавание. Поэтому на Яндекс большие надежды, но ввод текстов для них ни разу не приоритетен. Если Гугл по сей день не сделал в русской диктовке знаков препинания, вряд ли их сделает Яндекс. А без знаков препинания это не текст, а рыба. И не диктовка, а распальцовка.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2014-01-05 07:42 am (UTC)no subject
Date: 2014-01-05 07:59 am (UTC)(no subject)
From:no subject
Date: 2014-01-05 07:52 am (UTC)no subject
Date: 2014-01-05 07:54 am (UTC)Но знаю, что некоторые ребята так язык изучают, разговаривая с какой-то программой.
no subject
Date: 2014-01-05 08:06 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2014-01-05 08:03 am (UTC)Ну, и капчи бы в ЖЖ сделать для голоса :)
no subject
Date: 2014-01-05 08:14 am (UTC)И разрешить английские регулярные выражения внутри неанглоязычной диктовки им тоже религия не позволяет.
А вот Нюанс уже осилил очень богатый набор русской пунктуации.
no subject
Date: 2014-01-05 08:22 am (UTC)Вот, ЦРТ например. Но они не умеют делать для конечного пользователя, практически.
Яндекс выпустил в уже прошлом году speechkit для распознавания русских запросов, он будет и дальше развивать и совершенствовать русское распознавание.
Есть куча компаний поменьше, но у них все менее благополучно.
Есть еще отдельный фактор, что для европейских языков, я так понимаю, что речь в первую очередь, конечно, про английский, а потом немецкий и/или французский, есть куча доступных языковых ресурсов. Готовых опен сорс пакетов, правильно размеченных корпусов звучащей речи, синтаксисов, морфологий (которые и позволяют осмыслять и причесывать варианты, которое дает распознавание) и т.д. и т.п. Появляются все эти пакеты и корпуса из грантов и проектов в научном сообществе, потом ими могут пользоваться не только гиганты, но и компании поменьше. У русского языка все хуже, сообщества нет, грантов нет, поэтому и готовых ресурсов нет. И только гиганты могут себе позволить создавать ресурсы с нуля, они очень дорого стоят, а делиться дорогостоящими продуктами с парой конкурентов никто не хочет. Таким образом все поменьше остаются за бортом и вынуждены догонять, как могут.
no subject
Date: 2014-01-05 08:28 am (UTC)no subject
Date: 2014-01-05 08:48 am (UTC)no subject
Date: 2014-01-05 09:24 am (UTC)no subject
Date: 2014-01-05 05:45 pm (UTC)В конечном счете это вредит не только тем , у кого воруют , но и тем, кто ворует.
no subject
Date: 2014-01-05 09:54 am (UTC)no subject
Date: 2014-01-05 12:22 pm (UTC)Что это даст?
1) Возможность сэкономить совсем немного времени при наборе теста с клавиатуры?
Но те, кто работает с компом давно -- набивают любой текст примерно с той же скоростью, что и говорят. Ну, ок -- почти с той же. Да и править текст все равно прийдется ручками. Ручками править и видеть его целиком -- намного удобнее, чем гонять туда сюда его аудиоверсию.
2) Освободятся руки и пявится возможность публиковать посты, когда ты за рулём?
Но пост -- это не только работа рук, но и в первую очередь головы. И от того, что половина твоего внимания прикована к дороге, твой пост вряд ли выиграет.
Более того, когда ты диктуешь текст, то страдает прайвэси. Люди вокруг будут слышать о чем ты пишешь. Кроме того -- это шум.
Поэтому, мне кажется, возможность вести блог под диктовку -- переоценена.
no subject
Date: 2014-01-05 01:52 pm (UTC)Дальнейшее развитие качества возможно только через набор и аннотацию речевого материала и развитие инфраструктуры (парка серверов) для обработки данных и запросов онлайн. Речь идет об обработке более 100000 часов материала и о бюджете в несколько млн долларов в год.
Я не специалист в краудфандинге, но мне кажется, что такая задача по силам только крупным фирмам как google, microsoft или яндекс. Даже nuance получает основную прибыль в других областях, без которых изолированная разработка того же dragon dictate была бы убыточной.
no subject
Date: 2014-01-05 06:20 pm (UTC)(no subject)
From:no subject
Date: 2014-01-05 02:37 pm (UTC)no subject
Date: 2014-01-05 04:16 pm (UTC)Не в программировнии и алгоритмах, а в огромной базе образцов, с которыми эта штука должна сверяться.
Без базы это будет работать чуть хуже, чуть лучше,.. но идеала никогда не будет. Надо чем-то жертвовать и искать компромисы.
Существует всего два варианта решения:
1. Это перевести на онлайновый доступ к такой базе, что сразу налагает ограничение на скорость и на доступность и на требование постоянного присутствия в сети.
2. Ждать пока носители и девайсы достигнут такого уровня, когда смогут перерабатывать миллиарды вариантов из базы за секунды. А сама база будет находится на этих девайсах.
Это как с видео. Когда-то в 80-х видео под MS DOS смотрелось скорее забавным, отрывки из последовательности кадров в 256 цветов.
Сейчас это норма. Поэтому стоит подождать лет 20.
no subject
Date: 2014-01-05 06:15 pm (UTC)Кроме того, качество распознавания английской речи, например, уже находится на уровне достоверности распознавания той же речи живым слушателем. Русская речь гуглем тоже распознаётся приемлемо. Но, к сожалению, офлайновый алгоритм в андроиде ещё несовершенен.
(no subject)
From:no subject
Date: 2014-01-05 06:08 pm (UTC)no subject
Date: 2014-01-05 06:35 pm (UTC)и сказанное они даже прочитают.
no subject
Date: 2014-01-05 09:47 pm (UTC)no subject
Date: 2014-01-17 06:48 am (UTC)Вот ссылка. Можно скачать и наслаждаться. Программа на данный момент абсолютно бесплатна:
https://play.google.com/store/apps/details?id=com.magnifis.parking
И второй язык, который мы добавили, после Английского, это Русский :)
no subject
Date: 2014-01-17 07:24 pm (UTC)