Участник:LeNiN/Черновики/О переводах
Материал из Xgu.ru
Данный текст был опубликован на habrahabr.ru с целью привлечь большое количество людей, но дальше песочницы не ушёл.
Содержание |
[править] О переводах
Большая часть документации написана на английском языке. Хорошо бы всем знать английский :) Но не все его знают. А значит не все программисты и админы могут прочитать RFC, ещё меньшее число смогут прочитать и всё понять, и от этого будут страдать пользователи программ / клиенты сетей. Проблему с переводами нужно как-то решать.
Что мы имеем сейчас? Есть машинный перевод и ручной перевод. На машинный перевод я пока полагаться не хочу. С ручным переводом всё хорошо, но есть проблема: огромное число отдельных статей с переводами, у которых чаще всего связующее звено с оригиналом — только ссылка. Если в оригинале что-то изменилось, в переводе это уже не появится. Если перевод выложен не на вики, то ошибки в нём возможно никто уже не исправит. Такие переводы теряют свою пользу. А ведь человек тратил на него своё время, выкладывал на всеобщее обозрение, чтобы текст был полезен не только ему. При всём моём уважении к ресурсу translated.by, он ничего не может сделать с актуальностью материала.
Моя идея такова: сделать базу переводов в виде готовых предложений. Пользоваться этим можно, к примеру, через плагин к браузеру, который будет ходить в базу. Причём эта база может быть и локальной.
[править] Минусы
- Большой трафик к базе;
- Нужен очень быстрый движок базы;
- Нужен алгоритм выделения предложений из текста (хотя возможно не обязательно предложения, можно просто весь текст скидывать);
- Нужно разработать протокол обмена между клиентом и сервером;
- Нужно написать софт (клиент и сервер);
- Анонимность сомнительна. Для этого нужно держать локальную базу, которая будет периодически обновляться с основной.
[править] Плюсы
- Переведённые тексты не будут отставать от оригинала. Изменился текст — либо нашёлся готовый перевод, либо он будет показан «как есть», и кто нибудь его переведёт, но старого текста уже не будет.
- Можно делать переводы на разные языки, при этом предложения будут эквивалентны, и автоматически будет доступен перевод между другими языками.
- При переводе программа может предлагать похожие уже переведённые предложения, что будет с увеличением базы ускорять процесс.
- Возможна «социальность» — хотелось бы что-то похожее на википедию.
[править] Что должно быть в базе
- Сам текст (фраза/предложение/словосочетание, или отдельное слово);
- Язык этого текста;
- Уникальный номер;
- Ссылка на источник;
- Флаг оригинала — если установлен, то текст менять нельзя, даже если текст написан с ошибкой.
- Таблицу отношений между текстами разных языков. Здесь же видимо будут и тэги, т. к. текст может переводиться по-разному в зависимости от тематики;
- Таблица пользователей;
- Таблица истории изменений.
[править] Желаемые плюшки
- Зарегистрированные пользователи могут вносить правки, а незарегистрированные — только предлагать изменения.
- Легко сделать форк проекта — база должна быть доступна для полного скачивания.
[править] Юридический вопрос
Хотелось бы писать текст в базу под свободной лицензией, чтобы каждый пользователь был уверен, что он переводит текст не для владельца базы, я для всех. Но может ли вообще перевод быть под какой-то лицензией? Нужно ещё учесть, что в базе будут храниться переводы отдельных предложений, а не весь текст.
Даже при наличии большого числа минусов, проект должен существовать, т. к., как мне кажется, это единственный способ качественно и быстро (не дожидаясь официальных переводов, если они вообще появятся) переводить документацию.
Цель данной статьи — услышать полезные предложения, возможно даже ссылки на готовые аналогичные проекты, или если таких проектов нет — найти единомышленников для написания необходимого софта.
[править] Похожие продукты
Нашёл хорошую статью Память переводов.
- translated.by
- http://en.wikipedia.org/wiki/Computer-assisted_translation#Comparison_of_different_CAT_tools — сравнительная таблица.
- SDL Trados — платная система, «один из мировых лидеров в классе систем Translation Memory».
- OmegaT — весь словарь хранит в оперативной памяти. Java.
- Pootle — программа для управления и перевода на различные языки через веб. Python.
- http://open-tran.eu — свободный он-лайн словарь, есть разнообразное api для взаимодействия с разными языками программирования, всю базу можно скачать. В качестве оболочки возможно подойдёт freespeak — GTK-интерфейс к бесплатным он-лайн словарям: Google, Yahoo!, opentran, FreeTranslation.
- Anaphraseus — плагин к OpenOffice. Не дождался, когда он загрузит тестовый 300 мегабайтный tmx-файл.
- Attesoro — не разобрался :( Зато у них есть страница с похожим софтом http://attesoro.org/similar.html
- gtranslator —
- TinyTM — сервер для памяти переводов (спасибо ilnar.salimzyan за подсказку!)
- Virtaal —
[править] Возможные варианты реализации
- Apache Lucene
- Поиск текста (рус.)
- Hadoop Nutch и Lucene v3 (рус.)
[править] Лицензия на текст
Текст доступен на условиях лицензии Creative Commons Attribution/Share-Alike