new-words
diff new-words.sh @ 1:4c9076f87241
Различать регистр; поддержка разных алфавитов.
Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
author | igor@book.xt.vpn |
---|---|
date | Mon Feb 22 08:34:11 2010 +0200 (2010-02-22) |
parents | b21fb3f1fcb7 |
children | 68722cd6faff |
line diff
1.1 --- a/new-words.sh Sun Feb 21 19:34:18 2010 +0200 1.2 +++ b/new-words.sh Mon Feb 22 08:34:11 2010 +0200 1.3 @@ -34,10 +34,10 @@ 1.4 1.5 get_words() 1.6 { 1.7 -tr ' ' '\n' | sed 's/--/ /g' | tr A-Z a-z \ 1.8 +tr ' ' '\n' | sed 's/--/ /g' \ 1.9 | tr -d '*\r,.-:#@()+=—<>$;"?!|·[]^%&'"'" \ 1.10 | tr ' ' '\n' | grep_v_english_perl \ 1.11 -| grep -x '[a-zA-Z0-9_-]*' \ 1.12 +| grep -x '[[:alnum:]]*' \ 1.13 | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn 1.14 } 1.15