new-words

diff grep-sentences.pl @ 16:c65ffd60cc18

ключ -s: Информация об известных словах в тексте

Может использоваться в пакетном режиме,
например, для того чтобы из множества файлов
выбрать тот, в котором процент известных слов наибольший
author Igor Chubin <igor@chub.in>
date Sun Apr 04 19:03:30 2010 +0300 (2010-04-04)
parents d1851ee29a1a
children 416394a87d9f
line diff
     1.1 --- a/grep-sentences.pl	Wed Mar 10 10:38:27 2010 +0200
     1.2 +++ b/grep-sentences.pl	Sun Apr 04 19:03:30 2010 +0300
     1.3 @@ -9,8 +9,10 @@
     1.4      $text=<PAGE>;
     1.5      $text =~ s@http://[a-zA-Z&_.:/0-9%?=,\#+()\[\]~-]*@@g;
     1.6      $text =~ s@\n@@g;
     1.7 +    $text =~ s@(Mr|Mrs)\.@\1POINT@g;
     1.8      @sentences=split /\./, $text;
     1.9      for (@sentences) {
    1.10 +         s@(Mr|Mrs)POINT@\1.@g;
    1.11          s/^\s*//;
    1.12          s/\s*$//;
    1.13          s/\[[0-9]+\]//g;