new-words: 7eb1a8c3eade new-words-py.sh

new-words

view new-words-py.sh @ 44:7eb1a8c3eade

-2 and -3 are now supported by new-words.py

author	Igor Chubin <igor@chub.in>
date	Fri Jan 28 21:45:58 2011 +0100 (2011-01-28)
parents	d532e7b52ab2
children	5f90e44eecfc

line source

1 #!/bin/bash

3 show_usage()

4 {

5 cat <<HELP > /dev/stderr

7 USAGE:

9 new-words [ -l lang ] [ -s ] [ ARG ]

11 SWITCHES:

13 -h print this screen

14 -c show compressed wordlist: one word per group

15 -k put higher words that are similar to the known words (only for English)

16 -l lang override language settings

17 -n non-interactive mode (don't run vi)

18 -N turn off known words filtering

19 -a don't add marks (and don't save marks added by user)

20 -p pages work with specified pages only (pages = start-stop/total )

21 -s show the text statistics (percentage of known words and so on) and exit

22 -S show your vocabulary statistics (number of words and word groups)

23 -t tag tag known words with tag

24 -T show list of active tags

25 -m tag merge the words tagged with "tag" into the main vocabulary

26 -M merge the words tagged with any tag into the main vocabulary

27 -r tag remove subvocabulary for the "tag"

28 -2 -3 find 2 and 3 words' sequences

30 The language of the text can be specified also

31 by name of the program new-words (correspondent link must be created before).

32 For example, these calls are equivalent:

34 de-words URL

35 new-words -l de URL

37 HELP

38 }

40 if [ "$1" = "-h" ]

41 then

42 show_usage

43 exit 0

44 fi

46 NEW_WORDS_PY=/home/igor/hg/new-words/new-words.py

47 WORK_DIR=~/.new-words/

48 TEMP1=`mktemp /tmp/new-words-temp1.XXXXXXXXXX`

49 TEMP2=`mktemp /tmp/new-words-temp2.XXXXXXXXXX`

50 export ORIGINAL_TEXT=`mktemp /tmp/new-words-orig.XXXXXXXXXX`

51 editor=${EDITOR:-vim}

53 # language detection

55 LANGUAGE=en

56 my_name="`echo $0 | sed s@.*/@@ | sed s/-.*// `"

57 for arg

58 do

59 if echo "$arg" | grep -q http://...wikipedia.org/wiki/

60 then

61 LANGUAGE="`echo $arg | sed s@http://@@ | sed s@.wikipedia.*@@`"

62 fi

63 done

64 [ "${my_name}" = "new" ] || LANGUAGE="$my_name"

66 #----------------------------------------------------

67 # command line options processing

69 STAT_ONLY=NO

70 NEED_TO_USE_VOCABULARY_WHEN_SORT=NO

71 DONT_ADD_MARKS=NO

72 NON_INTERACTIVE_MODE=NO

73 PART_TO_PROCESS=''

74 GROUP_WORDS_BY_THREE=NO

75 GROUP_WORDS_BY_TWO=NO

76 TAG_NAME=''

77 MERGE_THIS_TAGS=''

78 TAGS_LIST_ONLY=NO

79 MERGE_TAGGED_WORDS=NO

80 MERGE_ALL_TAGGED=NO

81 DONT_ADD_MARKLINES=NO

82 FILTER_WORDS=YES

83 SHOW_VOC_STAT=NO

84 COMPRESSED_WORDLIST=NO

85 while getopts cl:sSkanNp:t:Tm:Mr:23 opt

86 do

87 case "$opt" in

88 c) COMPRESSED_WORDLIST=YES;;

89 s) STAT_ONLY=YES;;

90 S) SHOW_VOC_STAT=YES;;

91 k) NEED_TO_USE_VOCABULARY_WHEN_SORT=YES;;

92 l) LANGUAGE="$OPTARG";;

93 a) DONT_ADD_MARKS=YES;;

94 n) NON_INTERACTIVE_MODE=YES;;

95 N) FILTER_WORDS=NO;;

96 p) PART_TO_PROCESS="$OPTARG";;

97 t) TAG_NAME="$OPTARG";;

98 T) TAGS_LIST_ONLY="YES";;

99 m) DONT_ADD_MARKLINES="YES"; MERGE_TAGGED_WORDS="YES"; MERGE_THIS_TAGS="$TAG_NAME $OPTARG";;

100 M) DONT_ADD_MARKLINES="YES"; MERGE_ALL_TAGGED="YES";;

101 r) REMOVE_TAG="YES"; TAG_NAME="$TAG_NAME $OPTARG";;

102 2) GROUP_WORDS_BY_TWO=YES;;

103 3) GROUP_WORDS_BY_THREE=YES;;

104 \?) # unknown flag

105 show_usage

106 exit 1;;

107 esac

108 done

109 shift `expr $OPTIND - 1`

110

111 if [ "$1" = "-l" ]

112 then

113 LANGUAGE="$2"

114 shift 2

115 fi

116

117 VOCABULARY=${LANGUAGE}.txt

118 NOTES_FILE=notes-${LANGUAGE}.txt

119

120 if [ "${SHOW_VOC_STAT}" = "YES" ]

121 then

122 $0 -l "${LANGUAGE}" -N -n ${WORK_DIR}/${VOCABULARY} | head -1 | awk '{print $5}' | tr -d "<>"

123 exit 0

124 fi

125

126 text_from_url()

127 {

128 lynx -dump "$1" | perl -p -e 's@http://[a-zA-Z&_.:/0-9%?=,#+()\[\]~-]*@@'

129 }

130

131 add_marks()

132 {

133 $NEW_WORDS_PY -l "$LANGUAGE" -f add_notes "$1"

134 }

135 remove_marks()

136 {

137 $NEW_WORDS_PY -l "$LANGUAGE" -f remove_notes "$1"

138 }

139 get_words_group_words_add_stat()

140 {

141 STAT_ONLY="$STAT_ONLY" \

142 GROUP_WORDS_BY_TWO="$GROUP_WORDS_BY_TWO" \

143 GROUP_WORDS_BY_THREE="$GROUP_WORDS_BY_THREE" \

144 $NEW_WORDS_PY -l "$LANGUAGE" -f get_words_group_words_add_stat "$1"

145 }

146

147 part()

148 {

149 PERL_SCRIPT_TEMP_NAME=`mktemp /tmp/perl-part-XXXXXXXX`

150 cat <<'PERL_SCRIPT' > $PERL_SCRIPT_TEMP_NAME

151 #!/usr/bin/perl

152

153 my @lines=<STDIN>;

154 my $lines=$#lines;

155 my $interval=$ARGV[0];

156 if (not $interval) {

157 print @lines;

158 }

159 else {

160 my ($start,$stop,$total);

161 if ($interval =~ m@(.*)/(.*)@) {

162 $start = $1;

163 $total = $2;

164 }

165 else {

166 $start=$interval;

167 $total=0;

168 }

169 if ($start =~ m@(.*)-(.*)@) {

170 $start = $1;

171 $stop = $2;

172 }

173 if ($start =~ m@(.*)\+(.*)@) {

174 $start = $1;

175 $stop = $start+$2;

176 }

177

178 $start=int($lines/$total*$start);

179 $stop=int($lines/$total*$stop);

180

181 for($i=$start;$i<$stop;$i++){

182 print $lines[$i];

183 }

184 }

185 PERL_SCRIPT

186 perl $PERL_SCRIPT_TEMP_NAME "$1"

187 rm $PERL_SCRIPT_TEMP_NAME

188 }

189

190 if [ "$TAGS_LIST_ONLY" = "YES" ]

191 then

192 cd "${WORK_DIR}"

193 echo ${LANGUAGE}_*.txt | tr ' ' '\n' | grep -v '*' | sed 's/[^_]*_//;s/.txt$//'

194 exit 0

195 fi

196

197 tag_file_name()

198 {

199 echo "${LANGUAGE}_${1}.txt"

200 }

201

202 if [ "$REMOVE_TAG" = "YES" ]

203 then

204 cd "${WORK_DIR}"

205 for i in $TAG_NAME

206 do

207 echo "$TAGNAME" | grep -q '[/*?]' && continue

208 f="`tag_file_name $i`"

209 if [ -e "$f" ]

210 then

211 rm -f "$f" && echo Tag "'$i'" removed

212 else

213 echo Unknown tag "'$i'"

214 fi

215 done

216 exit 0

217 fi

218

219 mkdir -p $WORK_DIR

220 oldpwd="$PWD"

221 cd $WORK_DIR

222 if [ "$MERGE_TAGGED_WORDS" = "YES" ]

223 then

224 VOC_FILES=''

225 for i in $MERGE_THIS_TAGS

226 do

227 f=`tag_file_name $i`

228 [ -e "$f" ] && VOC_FILES="${VOC_FILES} $f"

229 done

230 if [ -z "$VOC_FILES" ]

231 then

232 echo Unknown tags: $MERGE_THIS_TAGS > /dev/stderr

233 else

234 cat $VOC_FILES

235 fi

236 elif [ "$MERGE_ALL_TAGGED" = "YES" ]

237 then

238 cat ${LANGUAGE}_*.txt

239 elif echo "$1" | grep -q http:

240 then

241 text_from_url "$1"

242 elif [ "$#" != 0 ]

243 then

244 if echo $1 | grep -q ^/

245 then

246 cat "$1"

247 else

248 cat "$oldpwd/$1"

249 fi

250 else

251 cat

252 fi \

253 | part $PART_TO_PROCESS \

254 | tee $ORIGINAL_TEXT \

255 | \

256 get_words_group_words_add_stat \

257 | tee "$TEMP1" > "$TEMP2"

258

259 if [ "$STAT_ONLY" = "YES" ]

260 then

261 cat "$TEMP1"

262 elif [ "$NON_INTERACTIVE_MODE" = "YES" ]

263 then

264 cat "$TEMP1"

265 else

266 if [ `wc -l "$TEMP2" | awk '{print $1}'` != 0 ]

267 then

268 [ "$DONT_ADD_MARKS" = "YES" ] || add_marks "$TEMP2"

269 if [ "$editor" = vim ]

270 then

271 vim -c 'set keywordprg='"$LANGUAGE" -c 'set iskeyword=@,48-57,/,.,-,_,+,,,#,$,%,~,=,48-255' "$TEMP2" < /dev/tty > /dev/tty

272 else

273 $editor "$TEMP2"

274 fi

275 remove_marks "$TEMP2"

276

277 vocabulary="$VOCABULARY"

278 [ -n "$TAG_NAME" ] && vocabulary="`tag_file_name $TAG_NAME`"

279 diff "$TEMP1" "$TEMP2" | awk '{print $3}' | sort -u >> "$vocabulary"

280 fi

281 fi

282

283 rm -f "$TEMP1" "$TEMP2" "${TEMP1}-full" "$ORIGINAL_TEXT"