dolboed: (0mosaic)
[personal profile] dolboed
Очень хочется уже когда-нибудь дожить до  такого дня, когда можно будет диктовать все тексты компьютеру голосом. Точнее сказать, мы уже до такого времени дожили: этот текст, например, я диктую планшету. Но беда в том, что после диктовки случается жуткая куча правки. В каких-то программах распознавания речи этой правки меньше, в других – больше. Но в любом случае, к сожалению, эту самую правку удобнее вводить с клавиатуры, а не с экрана мобильного устройства.

В том тексте, который вы сейчас читаете,  правки случилось не больше двух-трёх символов на одно предложение. Я её как-то без напряжения осилил на экране Nexus 7. Потому что экран этот достаточно большой, и пальцами попадать по клавишам не составляет особенного труда.

Тем не менее, отдельные слова расшифровываются каким-то совершенно нелепым способом, и тогда уже хрен кто кроме меня поймёт, что я там на самом деле имел в виду. А это значит, что отправить сырой надиктованный текст какой-нибудь расшифровщице на вычитку совершенно нереально. Блох необходимо вылавливать самому. Тут уже не получается никакой экономии сил, нервов и времени.

А самое обидное – что один и тот же продукт по распознаванию текста значительно хуже поддерживает русский язык, чем любой другой европейский. К сожалению, двух объяснений этому факту нет, и быть не может. Даже если мало кто сегодня сомневается в готовности русскоязычного пользователя платить за всевозможные танки и прочие рингтоны, производители серьезного софта для профессиональных нужд не видят большой коммерческой перспективы в выпуске платных продуктов на наш рынок. Всё, что нужно и полезно, будет назавтра спирачено и расшарено. Так что в вопросе расшифровки речи придется русскоязычному пользователю и впредь довольствоваться крохами с барского стола. А, кстати сказать, вот же вам и наглядный пример кейса, в котором свою революционную роль мог бы сыграть краудфандинг: не нужно оглядываться на 70 миллионов любителей халявы, если можно подписать тысяч 50 платежеспособных и реально заинтересованных в продукте. Правда, я не имею ни малейшего понятия о том, сколько реально мог бы стоить в разработке подобный языковой модуль. Но тут, по крайней мере, хорошо понятно, у кого такую информацию можно было бы выспросить.

Date: 2014-01-05 07:12 am (UTC)
From: [identity profile] ishura.livejournal.com
Хорошо было бы услышать объяснения производителя софта.

Date: 2014-01-05 07:15 am (UTC)
From: [identity profile] 1ivanov1.livejournal.com
Значит, пора работать над дикцией?

Date: 2014-01-05 07:18 am (UTC)
From: [identity profile] zorins.livejournal.com
А может просто русский несколько сложнее для распознавания?

Date: 2014-01-05 07:27 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Чем, например, какой?
Мандарин?
Бенгальский?
Валлийский?
Кастильянский?
Африкаанс?

(no subject)

From: [identity profile] zorins.livejournal.com - Date: 2014-01-05 07:36 am (UTC) - Expand

(no subject)

From: [identity profile] dolboeb.livejournal.com - Date: 2014-01-05 08:09 am (UTC) - Expand

(no subject)

From: [identity profile] romx.livejournal.com - Date: 2014-01-05 11:17 am (UTC) - Expand

(no subject)

From: [identity profile] zorins.livejournal.com - Date: 2014-01-05 11:18 am (UTC) - Expand

(no subject)

From: [identity profile] anfedoro.livejournal.com - Date: 2014-01-05 07:38 am (UTC) - Expand

(no subject)

From: [identity profile] dolboeb.livejournal.com - Date: 2014-01-05 08:11 am (UTC) - Expand

(no subject)

From: [identity profile] alex987654321.livejournal.com - Date: 2014-01-05 07:53 am (UTC) - Expand

(no subject)

From: [identity profile] dolboeb.livejournal.com - Date: 2014-01-05 08:01 am (UTC) - Expand
(deleted comment)

Date: 2014-01-05 07:50 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Госсссподи.
Вот насмешили.

Распознавание речи — та сфера, в которой вообще ничего невозможно ни ограничить, ни засекретить, потому что и язык, и произношение, и миллионы часов диктовки на любом языке находятся в public domain.

Компания Nuance, на продукте которой надиктован этот пост, имеет капитализацию 5 млрд долларов, больше миллиарда долларов годовой выручки, 12.000 сотрудников и офисы в 35 странах. Чего такого не может сделать компания с такими мощностями, что могли бы сделать инженеры какой-нибудь режимной шарашки?! Где то секретное знание о фонетике, которое давало бы спецслужбам преимущество перед коммерсантами?

Ровно в одном вы правы: действительно, никто не будет делать подарки. Поэтому мы и в пролёте. Dragon Dictate стоит от 200 долларов США за одну лицензию, английский медицинский аналог — от 1000. Для русского рынка, где всё это украдут, где даже в госструктурах поставят пиратку, разумеется, никому не интересно стараться.

(no subject)

From: [identity profile] spartak-1974.livejournal.com - Date: 2014-01-05 01:17 pm (UTC) - Expand

Date: 2014-01-05 07:25 am (UTC)
From: [identity profile] podchernjaev.livejournal.com
С клавиатуры, ясное дело, вводить удобнее. Особенно, когда умеешь печатать десятипальцевым методом. Тут могут научить: nabiraem.ru

Date: 2014-01-05 07:40 am (UTC)
From: [identity profile] anfedoro.livejournal.com
Одна беда..совершенно не применимо к мобильным устройствам без использования внешней клавы

Date: 2014-01-05 07:34 am (UTC)
From: [identity profile] andpierrot.livejournal.com
Это тот случай, когда я готов участвовать в краудфандинге. Сзавистью смотрю на английских и французских коллег, которые без проблем диктуют свои тексты...

Date: 2014-01-05 07:38 am (UTC)
ext_968764: (Заец бешенный)
From: [identity profile] owk4.livejournal.com
Бесплатные яндекс-карты на любой платформе очень замечательно распознают адрес вида "Пятыйкабельныйпроезд15строениевосемь". С учетом того что мобила стоит в кредле на лобовом стекле в полуметре и играет радио. Может проще лицензировать у яндекса?

А вообще - "фефект фикции" как говорил Райкин.

Date: 2014-01-05 07:57 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Яндекс раздаёт API распознавания голоса, но только не нужно забывать, что числительных актуально не больше сотни, а в Москве 4000 актуальных топонимов, многие из которых используют одинаковые слова в составе названия. То есть словарь Яндекса по географии, вместе со всеми флексиями — это максимум 5000 единиц. А распознаватель произвольной речи должен хранить миллионы словоформ.

Но, конечно, Яндекс — игрок серьёзный, и очень заинтересован в голосовом вводе поисковых запросов, потому что с мобильным рынком связаны основные перспективы его роста на ближайшие 5-10 лет. Тем более, что у Гугла есть русское распознавание. Поэтому на Яндекс большие надежды, но ввод текстов для них ни разу не приоритетен. Если Гугл по сей день не сделал в русской диктовке знаков препинания, вряд ли их сделает Яндекс. А без знаков препинания это не текст, а рыба. И не диктовка, а распальцовка.

(no subject)

From: [personal profile] stas - Date: 2014-01-05 08:05 am (UTC) - Expand

(no subject)

From: [identity profile] dolboeb.livejournal.com - Date: 2014-01-05 08:12 am (UTC) - Expand

(no subject)

From: [identity profile] owk4.livejournal.com - Date: 2014-01-05 09:17 am (UTC) - Expand

(no subject)

From: [identity profile] thedeemon.livejournal.com - Date: 2014-01-05 01:13 pm (UTC) - Expand

Date: 2014-01-05 07:42 am (UTC)
From: [identity profile] helg deadman (from livejournal.com)
Ну правильно, европейцы делают для европейцев, арабы для арабов. А для русских кто делать должен? Карлсон Энгельсон, из русского который знает "баляляйка, матрошка, пошёль нафиг"?

Date: 2014-01-05 07:59 am (UTC)
From: [identity profile] dolboeb.livejournal.com
И для европейцев, и для китайцев, и для арабов делает одна и та же американская компания, будь то Nuance Communications или Google. Нанять специалистов по языку эти компании могут в любой стране. Google Translate, например, строил австрийский лингвист.

(no subject)

From: [identity profile] helg deadman - Date: 2014-01-05 08:13 am (UTC) - Expand

Date: 2014-01-05 07:52 am (UTC)
From: [identity profile] bud-bat.livejournal.com
легче-сложнее можно понять только при сравнении с другими славянскими языками - и экономику процесса тоже можно прикинуть на примере Словении/Словакии

Date: 2014-01-05 07:54 am (UTC)
From: [identity profile] cccce.livejournal.com
Чудеса. Чудеса. Никогда не пробовала.

Но знаю, что некоторые ребята так язык изучают, разговаривая с какой-то программой.

Date: 2014-01-05 08:06 am (UTC)
stas: (Default)
From: [personal profile] stas
См. duolingo.com - советую. Они, кстати, планируют базу языков расширять скоро.

(no subject)

From: [identity profile] cccce.livejournal.com - Date: 2014-01-05 09:28 am (UTC) - Expand

(no subject)

From: [identity profile] drvi1.livejournal.com - Date: 2014-01-05 10:49 am (UTC) - Expand

Date: 2014-01-05 08:03 am (UTC)
From: [identity profile] white-bars.livejournal.com
Никак не пойму, как андроид обходится со знаками препинания при надиктовке... Судя по форумам, не я один.
Ну, и капчи бы в ЖЖ сделать для голоса :)

Date: 2014-01-05 08:14 am (UTC)
From: [identity profile] dolboeb.livejournal.com
В официальной справке Гугла сказано, что ни для какого языка, кроме английского, на сегодняшний день знаки препинания не поддерживаются.

И разрешить английские регулярные выражения внутри неанглоязычной диктовки им тоже религия не позволяет.

А вот Нюанс уже осилил очень богатый набор русской пунктуации.

Date: 2014-01-05 08:22 am (UTC)
From: [identity profile] elada.livejournal.com
Вы упускаете момент, что в России тоже есть софтверные компании, в том числе лингвистические, и именно они занимаются русским языком. И продаваться целиком на запад не хотят. А при этом западные компании тоже не хотят или жмутся или не знаю что, но не покупают лицензии.
Вот, ЦРТ например. Но они не умеют делать для конечного пользователя, практически.
Яндекс выпустил в уже прошлом году speechkit для распознавания русских запросов, он будет и дальше развивать и совершенствовать русское распознавание.
Есть куча компаний поменьше, но у них все менее благополучно.

Есть еще отдельный фактор, что для европейских языков, я так понимаю, что речь в первую очередь, конечно, про английский, а потом немецкий и/или французский, есть куча доступных языковых ресурсов. Готовых опен сорс пакетов, правильно размеченных корпусов звучащей речи, синтаксисов, морфологий (которые и позволяют осмыслять и причесывать варианты, которое дает распознавание) и т.д. и т.п. Появляются все эти пакеты и корпуса из грантов и проектов в научном сообществе, потом ими могут пользоваться не только гиганты, но и компании поменьше. У русского языка все хуже, сообщества нет, грантов нет, поэтому и готовых ресурсов нет. И только гиганты могут себе позволить создавать ресурсы с нуля, они очень дорого стоят, а делиться дорогостоящими продуктами с парой конкурентов никто не хочет. Таким образом все поменьше остаются за бортом и вынуждены догонять, как могут.

Date: 2014-01-05 08:28 am (UTC)
From: [identity profile] 715.livejournal.com
У меня он распознает только одну фразу всегда. А как продолжить надиктовку? Кнопка микрофона исчезает после того, как распознался первый кусок текста. В том же Google Keep вот такая фигня, например.

Date: 2014-01-05 08:48 am (UTC)
From: [identity profile] Рулон Обоев (from livejournal.com)
Борисыч, а Вы на обычной клаве умеете вслепую когтями стучать?

Date: 2014-01-05 09:24 am (UTC)
From: [identity profile] strega-bianca.livejournal.com
встроенная андроидная утилита вполне неплохо дружит с русским языком. проблема в именах собственных остается, конечно.

Date: 2014-01-05 05:45 pm (UTC)
From: [identity profile] igorkon.livejournal.com
Вот видите, почему воровать интеллектуальную собственность плохо?
В конечном счете это вредит не только тем , у кого воруют , но и тем, кто ворует.

Date: 2014-01-05 09:54 am (UTC)
From: [identity profile] a-007-mp.livejournal.com
Надо надиктовывать на диктофон, чтобы потом расшифровщица могла сверяться с оригиналом.

Date: 2014-01-05 12:22 pm (UTC)
From: [identity profile] prodamnedorogo.livejournal.com
Ну, не уверен, что возможность диктовать посты -- это прям какой-то прорыв. Я давно размышляю над этим.
Что это даст?
1) Возможность сэкономить совсем немного времени при наборе теста с клавиатуры?
Но те, кто работает с компом давно -- набивают любой текст примерно с той же скоростью, что и говорят. Ну, ок -- почти с той же. Да и править текст все равно прийдется ручками. Ручками править и видеть его целиком -- намного удобнее, чем гонять туда сюда его аудиоверсию.
2) Освободятся руки и пявится возможность публиковать посты, когда ты за рулём?
Но пост -- это не только работа рук, но и в первую очередь головы. И от того, что половина твоего внимания прикована к дороге, твой пост вряд ли выиграет.
Более того, когда ты диктуешь текст, то страдает прайвэси. Люди вокруг будут слышать о чем ты пишешь. Кроме того -- это шум.

Поэтому, мне кажется, возможность вести блог под диктовку -- переоценена.

Date: 2014-01-05 01:52 pm (UTC)
From: [identity profile] no more turtles (from livejournal.com)
Тысяч 50 платежеспособных подписчков, скажем по 100$ было бы достаточно, чтобы собрать с нуля или на основе сущестующего public domain софта работающий прототип примерно с тем же уровнем качества, которое выдает google бесплатно.

Дальнейшее развитие качества возможно только через набор и аннотацию речевого материала и развитие инфраструктуры (парка серверов) для обработки данных и запросов онлайн. Речь идет об обработке более 100000 часов материала и о бюджете в несколько млн долларов в год.

Я не специалист в краудфандинге, но мне кажется, что такая задача по силам только крупным фирмам как google, microsoft или яндекс. Даже nuance получает основную прибыль в других областях, без которых изолированная разработка того же dragon dictate была бы убыточной.

Date: 2014-01-05 06:20 pm (UTC)
From: [identity profile] yalexey.livejournal.com
Речевого материала неограниченное количество. Это и аудиокниги, и звуковые дорожки фильмов с субтитрами. Учитывая, что всё это не будет воспроизводиться ни публично, ни, даже, лично, то и взять это всё можно с любого трекера.

(no subject)

From: [identity profile] no more turtles - Date: 2014-01-05 07:33 pm (UTC) - Expand

Date: 2014-01-05 02:37 pm (UTC)
From: [identity profile] realspeaker.livejournal.com
Для русского языка на Windows хочу порекомендовать Вам RealSpeaker - www.realspeaker.net (http://www.realspeaker.net) (распознает речь любой длины, есть функции голосового управления и можно отправлять сообщения голосом)

Date: 2014-01-05 04:16 pm (UTC)
From: [identity profile] photo505.livejournal.com
Самая проблема в распозновании речи, ровно как и в распознавании картинок и видео. Ровно как и в синтезе речи.
Не в программировнии и алгоритмах, а в огромной базе образцов, с которыми эта штука должна сверяться.
Без базы это будет работать чуть хуже, чуть лучше,.. но идеала никогда не будет. Надо чем-то жертвовать и искать компромисы.

Существует всего два варианта решения:
1. Это перевести на онлайновый доступ к такой базе, что сразу налагает ограничение на скорость и на доступность и на требование постоянного присутствия в сети.
2. Ждать пока носители и девайсы достигнут такого уровня, когда смогут перерабатывать миллиарды вариантов из базы за секунды. А сама база будет находится на этих девайсах.

Это как с видео. Когда-то в 80-х видео под MS DOS смотрелось скорее забавным, отрывки из последовательности кадров в 256 цветов.
Сейчас это норма. Поэтому стоит подождать лет 20.

Date: 2014-01-05 06:15 pm (UTC)
From: [identity profile] yalexey.livejournal.com
Постоянно лопатить терабайт информации для распознавания речи, это не эфективно. Эффективнее натравить систему майнинга, задав целевые критерии. Она построит достаточно хорошие правила распознавания.

Кроме того, качество распознавания английской речи, например, уже находится на уровне достоверности распознавания той же речи живым слушателем. Русская речь гуглем тоже распознаётся приемлемо. Но, к сожалению, офлайновый алгоритм в андроиде ещё несовершенен.
Edited Date: 2014-01-05 06:16 pm (UTC)

(no subject)

From: [identity profile] photo505.livejournal.com - Date: 2014-01-05 07:20 pm (UTC) - Expand

Date: 2014-01-05 06:08 pm (UTC)
From: [identity profile] yalexey.livejournal.com
Современная бизнесмодель, это не продажа продукта, тем более, такого массового, а эксплуатация халявщиков, готовых смотреть рекламу. Таких в России более чем достаточно. Поэтому совершенно не ясно что народ мнёт сиськи. Независимые разработчики, видимо, понимают, что с гуглем/майкрософтом и не потягаться. А вот с чего гугль тормозит, это совершенно не ясно.

Date: 2014-01-05 06:35 pm (UTC)
From: [identity profile] nepeanois.livejournal.com
зато мы уже дожили до такого времени, когда по телефону уже можно снова говорить с детьми.

и сказанное они даже прочитают.

Date: 2014-01-05 09:47 pm (UTC)
From: [identity profile] lahtak.livejournal.com
Лет 15 тому назад возился с этой темой. В русском языке много проблем. Например финское произношение - безударные гласные произносятся как глухие (стог-сток, луг-лук). Кстати зря отменили ять, с ним было понятнее. Но главное не это , попробуйте фонетически распознать незнакомый язык.Это практически невозможно. Мы должны приблизительно ожидать что можем услышать. Это как слышали русские люди Нессельроде- КисельВроде, Holyday - Голодай. Поэтому анализировать придется не отдельное слово, а целую фразу или ещё больший кусок текста. База данных разрастается до размеров циклопических. Но при современном развитии компьютерного дела на западе решение этой задачи вполне реально.

Date: 2014-01-17 06:48 am (UTC)
From: [identity profile] volodya getselevich (from livejournal.com)
Наша стартап разрабатывает персональный голосовой ассистент для Андроид - Робин.
Вот ссылка. Можно скачать и наслаждаться. Программа на данный момент абсолютно бесплатна:

https://play.google.com/store/apps/details?id=com.magnifis.parking

И второй язык, который мы добавили, после Английского, это Русский :)

Date: 2014-01-17 07:24 pm (UTC)
From: [identity profile] ilyaeck.livejournal.com
Robin для Андроида (https://play.google.com/store/apps/details?id=com.magnifis.parking) поддерживает диктовку сообщений на русском со знаками препинания и даже некоторым голосовым редактированием (заменить "А" на "Б"). Пока что это ограничено СМС, но продукт быстро развивается и функциональность эта будет расширяться. Это я могу утверждать точно, т.к. имею непосредственное отношение к продукту :)
Edited Date: 2014-01-17 07:28 pm (UTC)

Profile

dolboed: (Default)
Anton Nossik

April 2017

S M T W T F S
       1
23 45678
9 10 11 12 13 14 15
16 17 18 19 202122
23 24 25 26 27 2829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 16th, 2026 10:06 pm
Powered by Dreamwidth Studios