new-words

annotate grep-sentences.pl @ 14:9b18c7efe31c

Километровые столбы — процентные отметки.

В списке неизвестных слов добавляются пометки,
указывающие, какой процент текста закроют расположенные выше слова
(вместе с уже известными словами), если их выучить.
До 90% пометки ставятся с шагом 5; после 90 — с шагом 1.
author Igor Chubin <igor@chub.in>
date Sun Apr 04 12:54:46 2010 +0300 (2010-04-04)
parents 9345cc05fdd1
children c6efd17741aa
rev   line source
igor@5 1 #!/usr/bin/perl
igor@5 2
igor@5 3
igor@6 4 $regexp=$ARGV[0];
igor@6 5 $page=$ARGV[1];
igor@5 6 #if (open(PAGE, "lynx -dump '$page'|")) {
igor@5 7 if (open(PAGE, "$page")) {
igor@5 8 local $/;
igor@5 9 $text=<PAGE>;
igor@5 10 $text =~ s@http://[a-zA-Z&_.:/0-9%?=,\#+()\[\]~-]*@@g;
igor@5 11 $text =~ s@\n@@g;
igor@5 12 @sentences=split /\./, $text;
igor@5 13 for (@sentences) {
igor@5 14 s/^\s*//;
igor@5 15 s/\s*$//;
igor@5 16 s/\[[0-9]+\]//g;
igor@5 17 s/\s+/ /g;
igor@5 18 print "$_.\n\n" if /\b$regexp\b/;
igor@5 19 }
igor@5 20 }