-
Notifications
You must be signed in to change notification settings - Fork 0
/
atrain.pl
executable file
·46 lines (41 loc) · 1.58 KB
/
atrain.pl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#!/usr/bin/perl
# Čte CSTS a učí se vztah mezi morfologickými značkami rodiče a dítěte a syntaktickou značkou.
# (c) 2007 Dan Zeman <[email protected]>
# Licence: GNU GPL
use utf8;
use open ":utf8";
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
binmode(STDERR, ":utf8");
use csts;
csts::projit_data("-", \%konfig, \&zpracovat_vetu);
# U každé dvojice nahradit pole možností s četnostmi tou nejčetnější možností.
my @klice = sort(keys(%stat));
foreach my $klic (@klice)
{
my @klice2 = sort{$stat{$klic}{$b}<=>$stat{$klic}{$a}}(keys(%{$stat{$klic}}));
my $odpoved = $klice2[0];
# Kvůli uložení nahradit v klíči i v odpovědi všechny tabulátory něčím jiným.
$klic =~ s/[\t\r\n]+/ /sg;
$odpoved =~ s/[\t\r\n]+/ /sg;
# Uložit statistiku.
print("$klic\t$odpoved\n");
}
#------------------------------------------------------------------------------
# Zpracuje poslední přečtenou větu.
#------------------------------------------------------------------------------
sub zpracovat_vetu
{
my $stav_cteni = shift; # hash s údaji o aktuálním dokumentu, odstavci a větě
my $anot = shift; # pole hashů o jednotlivých slovech
# Projít větu po slovech.
foreach my $slovo (@{$anot})
{
# Zjistit morfologickou značku slova, morfologickou značku jeho rodiče a syntaktickou značku slova.
my $klic = "$slovo->{znacka} $anot->[$slovo->{rodic_vzor}]{znacka}";
my $klic2 = $slovo->{afun};
$stat{$klic}{$klic2}++;
$stat{$slovo->{znacka}}{$klic2}++;
$stat{""}{$klic2}++;
}
}