new-words
view README @ 1:4c9076f87241
Различать регистр; поддержка разных алфавитов.
Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
| author | igor@book.xt.vpn | 
|---|---|
| date | Mon Feb 22 08:34:11 2010 +0200 (2010-02-22) | 
| parents | b21fb3f1fcb7 | 
| children | 68722cd6faff | 
 line source
     2 Программа, которая помогает нам находить неизвестные
     3 слова в новом тексте
     5 Подробности: http://xgu.ru/wiki/new-words
     7 == Файлы ==
     9 README              Файл, который мы сейчас читаем
    10 new-words.sh        Собственно программа (написана на sh)
    11 new-words.pl        Программа new-words, которую мы когда-нибудь напишем на Perl
    14 == Что сделать ==
    16 * Переписать на Perl (пока на Perl)
    17 * Пометки к словам
    18 * Статистика по текущему тексту; уровни покрытия словами текста
    19 * Время добавления слова и прогресс добавления
    20 * Источник слова
    21 * Поиск предложений, содержащих слова, в тексте
    22 * Автоматическое определение языка по тексту
