# HG changeset patch # User igor@book.xt.vpn # Date 1266820451 -7200 # Node ID 4c9076f87241bd91cca3ecbc293cbe1fb0b4cce5 # Parent b21fb3f1fcb7e59ca9166ea064ea29af3326acbb Различать регистр; поддержка разных алфавитов. Раньше слова все приводились к нижнему регистру, теперь я сделал, что они остаются в исходном регистре. Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]], таким образом, нормально стали обрабатываться другие алфавиты. Пока проверял на русском только. diff -r b21fb3f1fcb7 -r 4c9076f87241 README --- a/README Sun Feb 21 19:34:18 2010 +0200 +++ b/README Mon Feb 22 08:34:11 2010 +0200 @@ -14,7 +14,6 @@ == Что сделать == * Переписать на Perl (пока на Perl) -* Поддержка разных алфавитов (пока поддерживается только латинский) * Пометки к словам * Статистика по текущему тексту; уровни покрытия словами текста * Время добавления слова и прогресс добавления diff -r b21fb3f1fcb7 -r 4c9076f87241 new-words.sh --- a/new-words.sh Sun Feb 21 19:34:18 2010 +0200 +++ b/new-words.sh Mon Feb 22 08:34:11 2010 +0200 @@ -34,10 +34,10 @@ get_words() { -tr ' ' '\n' | sed 's/--/ /g' | tr A-Z a-z \ +tr ' ' '\n' | sed 's/--/ /g' \ | tr -d '*\r,.-:#@()+=—<>$;"?!|·[]^%&'"'" \ | tr ' ' '\n' | grep_v_english_perl \ -| grep -x '[a-zA-Z0-9_-]*' \ +| grep -x '[[:alnum:]]*' \ | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn }