new-words

diff misc/one-word-voc @ 66:53ba2847501f

added misc scripts
author Igor Chubin <igor@chub.in>
date Tue Mar 27 14:16:46 2012 +0200 (2012-03-27)
parents
children
line diff
     1.1 --- /dev/null	Thu Jan 01 00:00:00 1970 +0000
     1.2 +++ b/misc/one-word-voc	Tue Mar 27 14:16:46 2012 +0200
     1.3 @@ -0,0 +1,35 @@
     1.4 +
     1.5 +cat <<EOF > /dev/null
     1.6 +Как работает?
     1.7 +----------------
     1.8 +
     1.9 +Слова, которые мы должны обрабатывать поступают на стандартный поток ввода.
    1.10 +* Удаляем из них комментарии.
    1.11 +* Размножаем слова, которые, возможно, находятся не в нормальной форме.
    1.12 +  Например, слова, заканчивающиеся на te.
    1.13 +* Прогоняем через прогу, которая разложит их по категориям.
    1.14 +* Разложенные по категориям слова прогоняем ещё раз.
    1.15 +EOF
    1.16 +
    1.17 +word_multiplier()
    1.18 +{
    1.19 +    cat
    1.20 +}
    1.21 +
    1.22 +new-words -l de -R 95 -n -c -a "$@" \
    1.23 +| grep -v ^# | awk '{print $2}' | word_multiplier \
    1.24 +| while read word
    1.25 +do
    1.26 +    de-short "$word"
    1.27 +done \
    1.28 +| perl ~/hg/new-words/misc/categorized.pl \
    1.29 +| while read word 
    1.30 +do 
    1.31 +    if echo $word | fgrep -q "|"
    1.32 +    then
    1.33 +    w="$(echo $word | awk '{print $1}')"
    1.34 +    a="`de-super-short $w`"; [ -n "$a" ] && echo $w " | " $a 
    1.35 +    else
    1.36 +    echo "$word"
    1.37 +    fi
    1.38 +done