У Гугла перевод преимущественно на статистике основан. Полноценного машинного перевода на настоящий момент не существует, несмотря на хорошее начало в рамках Джоржтаунского эксперимента =) Как человек, работающий в сфере текстового анализа, скажу, что до качественного полностью автоматического перевода пройдет не меньше десятка лет. Работы там не то что море - океаны.
В текстовом анализе есть два пути: 1. Статистика. Быстро и просто, но не очень качественно. 2. Лингвистика. Долго и очень тяжко, но качество выше всяких похвал.
По понятным причинам широко используется именно статистика, но работы по комбинированному применению статистики и лингвистики не останавливаются. В России, например, они ведутся аж с 60х годов. А прототипы работающие начали появляться в начале 2000х.
Проблема - с моей сугубо потребительской точки зрения - состоит как раз в том, что в любой отдельно взятый момент времени люди, близкие к разработке, обещают результаты через 10 лет.
При этом надо заметить, что результаты Google Translate в переводе целых текстов впечатляют. Особенно - с таких языков, как китайский и албанский. А вот с автодетектом жопа полнейшая.
Определение языка у гугла сделано на n-граммах. Метод, конечно, красивый, но для близких языков не применим. Перевод статистикой делать проще, но порой жуткие ляпы бывают.
Что касается результатов. Они есть уже сейчас. Не идеальные, но есть даже для русского языка. Про английский все и так ясно. Другой вопрос, что большинству компаний да и потребителей важнее скорость. Машинный результат воспринимается, скорей, как вспомогательный, а не как основной. Потому статистика так широко распространена, а лингвистика в опале.
Ну а 10 лет... Какие-то нюансы в обработке текстов не будут учтены даже через 20-30 лет. Слишком естественный язык изменчив и нелинеен.
Я подозреваю что оно просто на автоматическом плавании, и иногда подправляют интерфейс :) Вот уже почти 4 месяца как я жаловался про важность точки (http://hyperom.com/2011/04/27/google-translate-where-a-dot-means-a-lot.html), и главному гугловоду писал, и всё равно пофиг :) До сих пор в предложении без точки "Отмывание пола" это "Money-sex" а с точкой "Money-floor".
no subject
Date: 2011-08-20 01:18 pm (UTC)no subject
Date: 2011-08-20 01:21 pm (UTC)no subject
Date: 2011-08-20 01:22 pm (UTC)no subject
Date: 2011-08-20 01:28 pm (UTC)Как человек, работающий в сфере текстового анализа, скажу, что до качественного полностью автоматического перевода пройдет не меньше десятка лет. Работы там не то что море - океаны.
no subject
Date: 2011-08-20 01:31 pm (UTC)no subject
Date: 2011-08-20 01:32 pm (UTC)на эту страничку я попал из твиттера :)))
no subject
Date: 2011-08-20 01:34 pm (UTC)no subject
Date: 2011-08-20 01:39 pm (UTC)1. Статистика. Быстро и просто, но не очень качественно.
2. Лингвистика. Долго и очень тяжко, но качество выше всяких похвал.
По понятным причинам широко используется именно статистика, но работы по комбинированному применению статистики и лингвистики не останавливаются. В России, например, они ведутся аж с 60х годов. А прототипы работающие начали появляться в начале 2000х.
no subject
Date: 2011-08-20 02:09 pm (UTC)no subject
Date: 2011-08-20 02:26 pm (UTC)no subject
Date: 2011-08-20 02:39 pm (UTC)http://profiles.google.com/dolboeb
http://picasaweb.google.com/dolboeb
Просто оно в цифры все переименовывает зачем-то
no subject
Date: 2011-08-20 02:41 pm (UTC)При этом надо заметить, что результаты Google Translate в переводе целых текстов впечатляют. Особенно - с таких языков, как китайский и албанский. А вот с автодетектом жопа полнейшая.
no subject
Date: 2011-08-20 02:50 pm (UTC)Что касается результатов. Они есть уже сейчас. Не идеальные, но есть даже для русского языка. Про английский все и так ясно. Другой вопрос, что большинству компаний да и потребителей важнее скорость. Машинный результат воспринимается, скорей, как вспомогательный, а не как основной. Потому статистика так широко распространена, а лингвистика в опале.
Ну а 10 лет... Какие-то нюансы в обработке текстов не будут учтены даже через 20-30 лет. Слишком естественный язык изменчив и нелинеен.
no subject
Date: 2011-08-20 03:17 pm (UTC)no subject
Date: 2011-08-20 07:02 pm (UTC)no subject
Date: 2011-08-20 08:29 pm (UTC)no subject
Date: 2011-08-20 08:30 pm (UTC)no subject
Date: 2011-08-20 09:07 pm (UTC)Вот уже почти 4 месяца как я жаловался про важность точки (http://hyperom.com/2011/04/27/google-translate-where-a-dot-means-a-lot.html), и главному гугловоду писал, и всё равно пофиг :)
До сих пор в предложении без точки "Отмывание пола" это "Money-sex" а с точкой "Money-floor".
no subject
Date: 2011-08-21 04:46 pm (UTC)no subject
Date: 2011-08-21 05:08 pm (UTC)