new-words

diff new-words.sh @ 1:4c9076f87241

Различать регистр; поддержка разных алфавитов.

Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
author igor@book.xt.vpn
date Mon Feb 22 08:34:11 2010 +0200 (2010-02-22)
parents b21fb3f1fcb7
children 68722cd6faff
line diff
     1.1 --- a/new-words.sh	Sun Feb 21 19:34:18 2010 +0200
     1.2 +++ b/new-words.sh	Mon Feb 22 08:34:11 2010 +0200
     1.3 @@ -34,10 +34,10 @@
     1.4  
     1.5  get_words()
     1.6  {
     1.7 -tr ' ' '\n' | sed 's/--/ /g' | tr A-Z a-z \
     1.8 +tr ' ' '\n' | sed 's/--/ /g' \
     1.9  | tr -d '*\r,.-:#@()+=—<>$;"?!|·[]^%&'"'" \
    1.10  | tr ' ' '\n' | grep_v_english_perl \
    1.11 -| grep -x '[a-zA-Z0-9_-]*' \
    1.12 +| grep -x '[[:alnum:]]*' \
    1.13  | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn
    1.14  }
    1.15