new-words

changeset 1:4c9076f87241

Различать регистр; поддержка разных алфавитов.

Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
author igor@book.xt.vpn
date Mon Feb 22 08:34:11 2010 +0200 (2010-02-22)
parents b21fb3f1fcb7
children 68722cd6faff
files README new-words.sh
line diff
     1.1 --- a/README	Sun Feb 21 19:34:18 2010 +0200
     1.2 +++ b/README	Mon Feb 22 08:34:11 2010 +0200
     1.3 @@ -14,7 +14,6 @@
     1.4  == Что сделать ==
     1.5  
     1.6  * Переписать на Perl (пока на Perl)
     1.7 -* Поддержка разных алфавитов (пока поддерживается только латинский)
     1.8  * Пометки к словам
     1.9  * Статистика по текущему тексту; уровни покрытия словами текста
    1.10  * Время добавления слова и прогресс добавления
     2.1 --- a/new-words.sh	Sun Feb 21 19:34:18 2010 +0200
     2.2 +++ b/new-words.sh	Mon Feb 22 08:34:11 2010 +0200
     2.3 @@ -34,10 +34,10 @@
     2.4  
     2.5  get_words()
     2.6  {
     2.7 -tr ' ' '\n' | sed 's/--/ /g' | tr A-Z a-z \
     2.8 +tr ' ' '\n' | sed 's/--/ /g' \
     2.9  | tr -d '*\r,.-:#@()+=—<>$;"?!|·[]^%&'"'" \
    2.10  | tr ' ' '\n' | grep_v_english_perl \
    2.11 -| grep -x '[a-zA-Z0-9_-]*' \
    2.12 +| grep -x '[[:alnum:]]*' \
    2.13  | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn
    2.14  }
    2.15