new-words
diff misc/one-word-voc @ 67:87bb1c5e6616
added de script to misc/
author | Igor Chubin <igor@chub.in> |
---|---|
date | Wed Mar 28 15:54:30 2012 +0200 (2012-03-28) |
parents | |
children |
line diff
1.1 --- /dev/null Thu Jan 01 00:00:00 1970 +0000 1.2 +++ b/misc/one-word-voc Wed Mar 28 15:54:30 2012 +0200 1.3 @@ -0,0 +1,35 @@ 1.4 + 1.5 +cat <<EOF > /dev/null 1.6 +Как работает? 1.7 +---------------- 1.8 + 1.9 +Слова, которые мы должны обрабатывать поступают на стандартный поток ввода. 1.10 +* Удаляем из них комментарии. 1.11 +* Размножаем слова, которые, возможно, находятся не в нормальной форме. 1.12 + Например, слова, заканчивающиеся на te. 1.13 +* Прогоняем через прогу, которая разложит их по категориям. 1.14 +* Разложенные по категориям слова прогоняем ещё раз. 1.15 +EOF 1.16 + 1.17 +word_multiplier() 1.18 +{ 1.19 + cat 1.20 +} 1.21 + 1.22 +new-words -l de -R 95 -n -c -a "$@" \ 1.23 +| grep -v ^# | awk '{print $2}' | word_multiplier \ 1.24 +| while read word 1.25 +do 1.26 + de-short "$word" 1.27 +done \ 1.28 +| perl ~/hg/new-words/misc/categorized.pl \ 1.29 +| while read word 1.30 +do 1.31 + if echo $word | fgrep -q "|" 1.32 + then 1.33 + w="$(echo $word | awk '{print $1}')" 1.34 + a="`de-super-short $w`"; [ -n "$a" ] && echo $w " | " $a 1.35 + else 1.36 + echo "$word" 1.37 + fi 1.38 +done