new-words

annotate misc/one-word-voc @ 66:53ba2847501f

added misc scripts
author Igor Chubin <igor@chub.in>
date Tue Mar 27 14:16:46 2012 +0200 (2012-03-27)
parents
children
rev   line source
igor@66 1
igor@66 2 cat <<EOF > /dev/null
igor@66 3 Как работает?
igor@66 4 ----------------
igor@66 5
igor@66 6 Слова, которые мы должны обрабатывать поступают на стандартный поток ввода.
igor@66 7 * Удаляем из них комментарии.
igor@66 8 * Размножаем слова, которые, возможно, находятся не в нормальной форме.
igor@66 9 Например, слова, заканчивающиеся на te.
igor@66 10 * Прогоняем через прогу, которая разложит их по категориям.
igor@66 11 * Разложенные по категориям слова прогоняем ещё раз.
igor@66 12 EOF
igor@66 13
igor@66 14 word_multiplier()
igor@66 15 {
igor@66 16 cat
igor@66 17 }
igor@66 18
igor@66 19 new-words -l de -R 95 -n -c -a "$@" \
igor@66 20 | grep -v ^# | awk '{print $2}' | word_multiplier \
igor@66 21 | while read word
igor@66 22 do
igor@66 23 de-short "$word"
igor@66 24 done \
igor@66 25 | perl ~/hg/new-words/misc/categorized.pl \
igor@66 26 | while read word
igor@66 27 do
igor@66 28 if echo $word | fgrep -q "|"
igor@66 29 then
igor@66 30 w="$(echo $word | awk '{print $1}')"
igor@66 31 a="`de-super-short $w`"; [ -n "$a" ] && echo $w " | " $a
igor@66 32 else
igor@66 33 echo "$word"
igor@66 34 fi
igor@66 35 done