# HG changeset patch
# User igor@book.xt.vpn
# Date 1266820451 -7200
# Node ID 4c9076f87241bd91cca3ecbc293cbe1fb0b4cce5
# Parent  b21fb3f1fcb7e59ca9166ea064ea29af3326acbb
Различать регистр; поддержка разных алфавитов.

Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.

diff -r b21fb3f1fcb7 -r 4c9076f87241 README
--- a/README	Sun Feb 21 19:34:18 2010 +0200
+++ b/README	Mon Feb 22 08:34:11 2010 +0200
@@ -14,7 +14,6 @@
 == Что сделать ==
 
 * Переписать на Perl (пока на Perl)
-* Поддержка разных алфавитов (пока поддерживается только латинский)
 * Пометки к словам
 * Статистика по текущему тексту; уровни покрытия словами текста
 * Время добавления слова и прогресс добавления
diff -r b21fb3f1fcb7 -r 4c9076f87241 new-words.sh
--- a/new-words.sh	Sun Feb 21 19:34:18 2010 +0200
+++ b/new-words.sh	Mon Feb 22 08:34:11 2010 +0200
@@ -34,10 +34,10 @@
 
 get_words()
 {
-tr ' ' '\n' | sed 's/--/ /g' | tr A-Z a-z \
+tr ' ' '\n' | sed 's/--/ /g' \
 | tr -d '*\r,.-:#@()+=—<>$;"?!|·[]^%&'"'" \
 | tr ' ' '\n' | grep_v_english_perl \
-| grep -x '[a-zA-Z0-9_-]*' \
+| grep -x '[[:alnum:]]*' \
 | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn
 }