new-words
changeset 1:4c9076f87241
Различать регистр; поддержка разных алфавитов.
Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
Раньше слова все приводились к нижнему регистру,
теперь я сделал, что они остаются в исходном регистре.
Убрал фильтрацию по a-zA-Z, заменив её на [[:alnum:]],
таким образом, нормально стали обрабатываться другие алфавиты.
Пока проверял на русском только.
author | igor@book.xt.vpn |
---|---|
date | Mon Feb 22 08:34:11 2010 +0200 (2010-02-22) |
parents | b21fb3f1fcb7 |
children | 68722cd6faff |
files | README new-words.sh |
line diff
1.1 --- a/README Sun Feb 21 19:34:18 2010 +0200 1.2 +++ b/README Mon Feb 22 08:34:11 2010 +0200 1.3 @@ -14,7 +14,6 @@ 1.4 == Что сделать == 1.5 1.6 * Переписать на Perl (пока на Perl) 1.7 -* Поддержка разных алфавитов (пока поддерживается только латинский) 1.8 * Пометки к словам 1.9 * Статистика по текущему тексту; уровни покрытия словами текста 1.10 * Время добавления слова и прогресс добавления
2.1 --- a/new-words.sh Sun Feb 21 19:34:18 2010 +0200 2.2 +++ b/new-words.sh Mon Feb 22 08:34:11 2010 +0200 2.3 @@ -34,10 +34,10 @@ 2.4 2.5 get_words() 2.6 { 2.7 -tr ' ' '\n' | sed 's/--/ /g' | tr A-Z a-z \ 2.8 +tr ' ' '\n' | sed 's/--/ /g' \ 2.9 | tr -d '*\r,.-:#@()+=—<>$;"?!|·[]^%&'"'" \ 2.10 | tr ' ' '\n' | grep_v_english_perl \ 2.11 -| grep -x '[a-zA-Z0-9_-]*' \ 2.12 +| grep -x '[[:alnum:]]*' \ 2.13 | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn 2.14 } 2.15