Участник:LeNiN/Черновики/О переводах

Материал из Xgu.ru

Данный текст был опубликован на habrahabr.ru с целью привлечь большое количество людей, но дальше песочницы не ушёл.

Содержание

1 О переводах
2 Лицензия на текст

[править] О переводах

Большая часть документации написана на английском языке. Хорошо бы всем знать английский :) Но не все его знают. А значит не все программисты и админы могут прочитать RFC, ещё меньшее число смогут прочитать и всё понять, и от этого будут страдать пользователи программ / клиенты сетей. Проблему с переводами нужно как-то решать.

Что мы имеем сейчас? Есть машинный перевод и ручной перевод. На машинный перевод я пока полагаться не хочу. С ручным переводом всё хорошо, но есть проблема: огромное число отдельных статей с переводами, у которых чаще всего связующее звено с оригиналом — только ссылка. Если в оригинале что-то изменилось, в переводе это уже не появится. Если перевод выложен не на вики, то ошибки в нём возможно никто уже не исправит. Такие переводы теряют свою пользу. А ведь человек тратил на него своё время, выкладывал на всеобщее обозрение, чтобы текст был полезен не только ему. При всём моём уважении к ресурсу translated.by, он ничего не может сделать с актуальностью материала.

Моя идея такова: сделать базу переводов в виде готовых предложений. Пользоваться этим можно, к примеру, через плагин к браузеру, который будет ходить в базу. Причём эта база может быть и локальной.

[править] Минусы

Большой трафик к базе;
Нужен очень быстрый движок базы;
Нужен алгоритм выделения предложений из текста (хотя возможно не обязательно предложения, можно просто весь текст скидывать);
Нужно разработать протокол обмена между клиентом и сервером;
Нужно написать софт (клиент и сервер);
Анонимность сомнительна. Для этого нужно держать локальную базу, которая будет периодически обновляться с основной.

[править] Плюсы

Переведённые тексты не будут отставать от оригинала. Изменился текст — либо нашёлся готовый перевод, либо он будет показан «как есть», и кто нибудь его переведёт, но старого текста уже не будет.
Можно делать переводы на разные языки, при этом предложения будут эквивалентны, и автоматически будет доступен перевод между другими языками.
При переводе программа может предлагать похожие уже переведённые предложения, что будет с увеличением базы ускорять процесс.
Возможна «социальность» — хотелось бы что-то похожее на википедию.

[править] Что должно быть в базе

Сам текст (фраза/предложение/словосочетание, или отдельное слово);
Язык этого текста;
Уникальный номер;
Ссылка на источник;
Флаг оригинала — если установлен, то текст менять нельзя, даже если текст написан с ошибкой.
Таблицу отношений между текстами разных языков. Здесь же видимо будут и тэги, т. к. текст может переводиться по-разному в зависимости от тематики;
Таблица пользователей;
Таблица истории изменений.

[править] Желаемые плюшки

Зарегистрированные пользователи могут вносить правки, а незарегистрированные — только предлагать изменения.
Легко сделать форк проекта — база должна быть доступна для полного скачивания.

[править] Юридический вопрос

Хотелось бы писать текст в базу под свободной лицензией, чтобы каждый пользователь был уверен, что он переводит текст не для владельца базы, я для всех. Но может ли вообще перевод быть под какой-то лицензией? Нужно ещё учесть, что в базе будут храниться переводы отдельных предложений, а не весь текст.

Даже при наличии большого числа минусов, проект должен существовать, т. к., как мне кажется, это единственный способ качественно и быстро (не дожидаясь официальных переводов, если они вообще появятся) переводить документацию.

Цель данной статьи — услышать полезные предложения, возможно даже ссылки на готовые аналогичные проекты, или если таких проектов нет — найти единомышленников для написания необходимого софта.

[править] Похожие продукты

Нашёл хорошую статью Память переводов.

translated.by
http://en.wikipedia.org/wiki/Computer-assisted_translation#Comparison_of_different_CAT_tools — сравнительная таблица.
SDL Trados — платная система, «один из мировых лидеров в классе систем Translation Memory».
OmegaT — весь словарь хранит в оперативной памяти. Java.
Pootle — программа для управления и перевода на различные языки через веб. Python.
http://open-tran.eu — свободный он-лайн словарь, есть разнообразное api для взаимодействия с разными языками программирования, всю базу можно скачать. В качестве оболочки возможно подойдёт freespeak — GTK-интерфейс к бесплатным он-лайн словарям: Google, Yahoo!, opentran, FreeTranslation.
Anaphraseus — плагин к OpenOffice. Не дождался, когда он загрузит тестовый 300 мегабайтный tmx-файл.
Attesoro — не разобрался :( Зато у них есть страница с похожим софтом http://attesoro.org/similar.html
gtranslator —
TinyTM — сервер для памяти переводов (спасибо ilnar.salimzyan за подсказку!)
Virtaal —

[править] Возможные варианты реализации

Apache Lucene

Поиск текста (рус.)
Hadoop Nutch и Lucene v3 (рус.)

[править] Лицензия на текст

Текст доступен на условиях лицензии Creative Commons Attribution/Share-Alike