dolboed: (0mosaic)
[personal profile] dolboed
Очень хочется уже когда-нибудь дожить до  такого дня, когда можно будет диктовать все тексты компьютеру голосом. Точнее сказать, мы уже до такого времени дожили: этот текст, например, я диктую планшету. Но беда в том, что после диктовки случается жуткая куча правки. В каких-то программах распознавания речи этой правки меньше, в других – больше. Но в любом случае, к сожалению, эту самую правку удобнее вводить с клавиатуры, а не с экрана мобильного устройства.

В том тексте, который вы сейчас читаете,  правки случилось не больше двух-трёх символов на одно предложение. Я её как-то без напряжения осилил на экране Nexus 7. Потому что экран этот достаточно большой, и пальцами попадать по клавишам не составляет особенного труда.

Тем не менее, отдельные слова расшифровываются каким-то совершенно нелепым способом, и тогда уже хрен кто кроме меня поймёт, что я там на самом деле имел в виду. А это значит, что отправить сырой надиктованный текст какой-нибудь расшифровщице на вычитку совершенно нереально. Блох необходимо вылавливать самому. Тут уже не получается никакой экономии сил, нервов и времени.

А самое обидное – что один и тот же продукт по распознаванию текста значительно хуже поддерживает русский язык, чем любой другой европейский. К сожалению, двух объяснений этому факту нет, и быть не может. Даже если мало кто сегодня сомневается в готовности русскоязычного пользователя платить за всевозможные танки и прочие рингтоны, производители серьезного софта для профессиональных нужд не видят большой коммерческой перспективы в выпуске платных продуктов на наш рынок. Всё, что нужно и полезно, будет назавтра спирачено и расшарено. Так что в вопросе расшифровки речи придется русскоязычному пользователю и впредь довольствоваться крохами с барского стола. А, кстати сказать, вот же вам и наглядный пример кейса, в котором свою революционную роль мог бы сыграть краудфандинг: не нужно оглядываться на 70 миллионов любителей халявы, если можно подписать тысяч 50 платежеспособных и реально заинтересованных в продукте. Правда, я не имею ни малейшего понятия о том, сколько реально мог бы стоить в разработке подобный языковой модуль. Но тут, по крайней мере, хорошо понятно, у кого такую информацию можно было бы выспросить.

Page 1 of 3 << [1] [2] [3] >>

Date: 2014-01-05 07:12 am (UTC)
From: [identity profile] ishura.livejournal.com
Хорошо было бы услышать объяснения производителя софта.

Date: 2014-01-05 07:15 am (UTC)
From: [identity profile] 1ivanov1.livejournal.com
Значит, пора работать над дикцией?

Date: 2014-01-05 07:18 am (UTC)
From: [identity profile] zorins.livejournal.com
А может просто русский несколько сложнее для распознавания?

Date: 2014-01-05 07:25 am (UTC)
From: [identity profile] podchernjaev.livejournal.com
С клавиатуры, ясное дело, вводить удобнее. Особенно, когда умеешь печатать десятипальцевым методом. Тут могут научить: nabiraem.ru

Date: 2014-01-05 07:27 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Чем, например, какой?
Мандарин?
Бенгальский?
Валлийский?
Кастильянский?
Африкаанс?

Date: 2014-01-05 07:34 am (UTC)
From: [identity profile] andpierrot.livejournal.com
Это тот случай, когда я готов участвовать в краудфандинге. Сзавистью смотрю на английских и французских коллег, которые без проблем диктуют свои тексты...

Date: 2014-01-05 07:36 am (UTC)
From: [identity profile] zorins.livejournal.com
мандарин (путунхуа) точно легче, про остальные не знаю

з.ы. капча - зло

Date: 2014-01-05 07:38 am (UTC)
ext_968764: (Заец бешенный)
From: [identity profile] owk4.livejournal.com
Бесплатные яндекс-карты на любой платформе очень замечательно распознают адрес вида "Пятыйкабельныйпроезд15строениевосемь". С учетом того что мобила стоит в кредле на лобовом стекле в полуметре и играет радио. Может проще лицензировать у яндекса?

А вообще - "фефект фикции" как говорил Райкин.

Date: 2014-01-05 07:38 am (UTC)
From: [identity profile] anfedoro.livejournal.com
А какой из вышеуказанных широкораспространенный европейский?
Не думаю что распознавалки для данных языков качественнее..если вообще существуют.

Date: 2014-01-05 07:40 am (UTC)
From: [identity profile] anfedoro.livejournal.com
Одна беда..совершенно не применимо к мобильным устройствам без использования внешней клавы

Date: 2014-01-05 07:42 am (UTC)
From: [identity profile] helg deadman (from livejournal.com)
Ну правильно, европейцы делают для европейцев, арабы для арабов. А для русских кто делать должен? Карлсон Энгельсон, из русского который знает "баляляйка, матрошка, пошёль нафиг"?

Date: 2014-01-05 07:50 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Госсссподи.
Вот насмешили.

Распознавание речи — та сфера, в которой вообще ничего невозможно ни ограничить, ни засекретить, потому что и язык, и произношение, и миллионы часов диктовки на любом языке находятся в public domain.

Компания Nuance, на продукте которой надиктован этот пост, имеет капитализацию 5 млрд долларов, больше миллиарда долларов годовой выручки, 12.000 сотрудников и офисы в 35 странах. Чего такого не может сделать компания с такими мощностями, что могли бы сделать инженеры какой-нибудь режимной шарашки?! Где то секретное знание о фонетике, которое давало бы спецслужбам преимущество перед коммерсантами?

Ровно в одном вы правы: действительно, никто не будет делать подарки. Поэтому мы и в пролёте. Dragon Dictate стоит от 200 долларов США за одну лицензию, английский медицинский аналог — от 1000. Для русского рынка, где всё это украдут, где даже в госструктурах поставят пиратку, разумеется, никому не интересно стараться.

Date: 2014-01-05 07:52 am (UTC)
From: [identity profile] bud-bat.livejournal.com
легче-сложнее можно понять только при сравнении с другими славянскими языками - и экономику процесса тоже можно прикинуть на примере Словении/Словакии

Date: 2014-01-05 07:53 am (UTC)
From: [identity profile] alex987654321.livejournal.com
А вы качество распознавания на этих языках уже успели проверить? :)

Date: 2014-01-05 07:54 am (UTC)
From: [identity profile] cccce.livejournal.com
Чудеса. Чудеса. Никогда не пробовала.

Но знаю, что некоторые ребята так язык изучают, разговаривая с какой-то программой.

Date: 2014-01-05 07:57 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Яндекс раздаёт API распознавания голоса, но только не нужно забывать, что числительных актуально не больше сотни, а в Москве 4000 актуальных топонимов, многие из которых используют одинаковые слова в составе названия. То есть словарь Яндекса по географии, вместе со всеми флексиями — это максимум 5000 единиц. А распознаватель произвольной речи должен хранить миллионы словоформ.

Но, конечно, Яндекс — игрок серьёзный, и очень заинтересован в голосовом вводе поисковых запросов, потому что с мобильным рынком связаны основные перспективы его роста на ближайшие 5-10 лет. Тем более, что у Гугла есть русское распознавание. Поэтому на Яндекс большие надежды, но ввод текстов для них ни разу не приоритетен. Если Гугл по сей день не сделал в русской диктовке знаков препинания, вряд ли их сделает Яндекс. А без знаков препинания это не текст, а рыба. И не диктовка, а распальцовка.

Date: 2014-01-05 07:59 am (UTC)
From: [identity profile] dolboeb.livejournal.com
И для европейцев, и для китайцев, и для арабов делает одна и та же американская компания, будь то Nuance Communications или Google. Нанять специалистов по языку эти компании могут в любой стране. Google Translate, например, строил австрийский лингвист.

Date: 2014-01-05 08:01 am (UTC)
From: [identity profile] dolboeb.livejournal.com
На иврите, английском, французском, немецком — успел.
В целом достаточно легко проверить, какие есть языки в коммерческих версиях диктовочного софта.

Date: 2014-01-05 08:03 am (UTC)
From: [identity profile] white-bars.livejournal.com
Никак не пойму, как андроид обходится со знаками препинания при надиктовке... Судя по форумам, не я один.
Ну, и капчи бы в ЖЖ сделать для голоса :)

Date: 2014-01-05 08:05 am (UTC)
stas: (Default)
From: [personal profile] stas
Я бы как раз скорее на Яндекс надеялся. У гугля направлений много, и русский - далеко не самый приоритетный их язык, как я вижу. А у Яндекса - своя ниша. Хочется ли им, правда, заниматься профессиональной диктовкой, которая рынок совсем не массовый (т.е. поисковые запросы - это одно, а знаки препинания - совсем другой уровень требований) - это большой вопрос.
Edited Date: 2014-01-05 08:06 am (UTC)

Date: 2014-01-05 08:06 am (UTC)
stas: (Default)
From: [personal profile] stas
См. duolingo.com - советую. Они, кстати, планируют базу языков расширять скоро.

Date: 2014-01-05 08:09 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Как мандарин может быть легче для распознавания, если в нём у каждого гласного звука четыре тона?!

Date: 2014-01-05 08:11 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Я эти языки взял из списка в спецификациях Nuance.
Крутые коммерческие продукты есть для английского, французского, немецкого.
Из того нерусского, что я пробовал, очень хорошо берётся иврит даже на базе Гугла.

Date: 2014-01-05 08:12 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Совершенно точно продукты для ввода текста — непрофильный для них продукт.
Но поверх API можно нахлобучить заменялку регулярных выражений знаками препинания.
Главная работа — массив лексикона накопить.

Date: 2014-01-05 08:13 am (UTC)
From: [identity profile] helg deadman (from livejournal.com)
Ну тогда Ваша правда, овчинка выделки не стоит.
Page 1 of 3 << [1] [2] [3] >>

Profile

dolboed: (Default)
Anton Nossik

April 2017

S M T W T F S
       1
23 45678
9 10 11 12 13 14 15
16 17 18 19 202122
23 24 25 26 27 2829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 17th, 2026 04:06 am
Powered by Dreamwidth Studios