new-words: 7e3a52db54ad new-words.sh

new-words

view new-words.sh @ 18:7e3a52db54ad

Среднее количество слов и неизвестных слов (*10) в предложении в статистике.

Пример использования:

LANG KNOWN% UNKNOWN% KNOWN TOTAL WPS UWPS*10
en 89.8 10.2 167021 185840 21 21

author	Igor Chubin <igor@chub.in>
date	Mon Apr 05 21:34:55 2010 +0300 (2010-04-05)
parents	35eeaf2620ce
children	416394a87d9f

line source

1 #!/bin/sh

2 cat <<HELP > /dev/null

4 USAGE:

6 new-words [ -l lang ] [ -s ] [ ARG ]

8 SWITCHES:

10 -s show text statistics and exit

11 -l lang override language settings

13 Поддержка нескольких языков:

15 new-words -l lang URL

17 Например, для немецких текстов:

19 new-words -l de URL

21 Или, предварительно создав соответствующую ссылку:

23 de-words URL

25 HELP

27 WORK_DIR=~/.new-words/

28 TEMP1=`mktemp /tmp/new-words-XXXXXXXXXX-temp1`

29 TEMP2=`mktemp /tmp/new-words-XXXXXXXXXX-temp2`

30 export ORIGINAL_TEXT=`mktemp /tmp/new-words-XXXXXXXXXX-orig`

31 editor=${EDITOR:-vim}

33 LANGUAGE=en

34 my_name="`echo $0 | sed s@.*/@@ | sed s/-.*// `"

35 if echo "$1" | grep -q http://...wikipedia.org/wiki/

36 then

37 LANGUAGE="`echo $1 | sed s@http://@@ | sed s@.wikipedia.*@@`"

38 fi

39 [ "${my_name}" = "new" ] || LANGUAGE="$my_name"

40 if [ "$1" = "-l" ]

41 then

42 LANGUAGE="$2"

43 VOCABULARY="$LANGUAGE".txt

44 shift 2

45 fi

46 VOCABULARY=${LANGUAGE}.txt

47 NOTES_FILE=notes-${LANGUAGE}.txt

49 STAT_ONLY=NO

50 if [ "$1" = "-s" ]

51 then

52 STAT_ONLY=YES

53 shift

54 fi

56 get_words()

57 {

58 tr ' ' '\n' | sed 's/--/ /g' \

59 | sed "s/'/__APOSTROPHE__/g" \

60 | tr '—·-' '-----' \

61 | tr '*\r,.:#@()+=—<>$;"?!|·[]^%&' ' ' \

62 | tr ' ' '\n' \

63 | grep -x '[[:alpha:]'"'"'-]*' \

64 | tee "$1" \

65 | grep_v_english_perl \

66 | sort | uniq -c | awk '{if ($2!="") print;}' | sort -rn

67 }

69 add_stat()

70 {

71 before="$1"

72 after=${before}2

73 cat > "$after"

74 total="`wc -w $1 | awk '{print $1}'`"

75 total_unknown="`cat $after|awk '{s=s+$1}END{print s}'`"

76 total_known="`echo $total-$total_unknown|bc`"

77 percentage="`echo '100*('$total-$total_unknown')'/$total | bc -l | sed 's/\\.$.$.*/.\1/'`"

78 #sentences="`cat $after | perl -e 'local $/; $_=<>; s@http://[a-zA-Z&_.:/0-9%?=,\#+()\[\]~-]*@@g; s@\n@@g; s@(Mr|Mrs)\.@\1POINT@g; @sentences=split /\\./;print $#sentences;'`"

79 sentences="`cat $ORIGINAL_TEXT | perl -e 'local $/; $_=<>; s/[^.]//msg; print length($_);'`"

82 if [ "$STAT_ONLY" = "YES" ]

83 then

84 echo "LANG KNOWN% UNKNOWN% KNOWN TOTAL WPS UWPS*10"

85 echo "$LANGUAGE $percentage `echo $100-$percentage$ | bc -l` $total_known $total `echo $total/$sentences|bc` `echo 10*$total_unknown/$sentences|bc` "

86 rm $after

87 return 0

88 else

89 echo "# $LANGUAGE, $percentage, <$total_known/$total>"

90 fi

92 PERL_SCRIPT_TEMP_NAME=`mktemp /tmp/perl-grep-v-english-XXXXXXXX`

93 cat <<'PERL_SCRIPT' > $PERL_SCRIPT_TEMP_NAME

94 my $total=shift(@ARGV);

95 my $total_known=shift(@ARGV);

96 my $s=0;

97 my $mark_line=int($total_known*100/$total/5)*5;

98 if ($mark_line>=90) { $mark_line+=1; } else { $mark_line +=5; };