Upload failed. Maybe wrong permissions?

User Tools

Site Tools




Szövegstatisztika

Kicsit eljátszottam egy online statisztikaprogrammal, odaadtam neki a Kissy eddigi tizenkilenc részét. Az eredmény érdekes, és nemcsak a könyv szempontjából.
  Azt mondja, hogy 4 399 072 karakter van a szövegben. Ez jóval több, mint amit az én programom mutat, 4 198 545, és nem tudom, hol a hiba. Kétszázezres hibát azért hátha még én se csinálok. A Unicode-konverzió szerintem mindkét helyen rendben van. A szószámláló is eltér, de kevésbé, neki 682 546 szó jött ki, nekem meg 678 023. Kétségkívül mindkettőnk programja szónak számítja a magukban álló gondolatjeleket, ami a második leggyakoribb szó az a névelő után, majdnem 33 ezer darab van belőle (a névelőből 47 ezer), szóval ezt le kellene vonni, mert hát mégse szó, akkor 649 661 szavunk van.
  Érdekes, ahogy a leggyakoribb magyar szavak sokaságában előkerülnek a szereplőink nevei. Kissy neve a tizedik leggyakoribb szó, 5688-szor fordul elő, Vanessáé tizenhetedikként már csak 3351-szer, pedig valójában ő a főszereplő. Csak hát sokszor van említve különféle becenevein és epitheton ornansain. Niala a huszonkettedik, 2411 említéssel, 25. Nimby és csak 57. Martin, az ő neve alig ezerszer szerepel. A többieké még kevesebbszer. Persze ezek csak az alanyesetű alakok, van még 338 Kissynek, 144 Kissyt, 76 Kissyre, 58 Kissyék, 33 Kissyvel, 26 Kissyhez, hasonlóképpen 172 Vanessát, 154 Vanessának, 75 Vanessára, 73 Vanessával, és így tovább; még a Nimbyéknél is előfordul hétszer.
  No, ezért mondom én, hogy nem szabad prediktív szövegjósoló módszerekkel könyvet írni. A legritkább szavak sajnos nem szerepelnek, mert túl nagy a könyv, csak az első tízezer leggyakoribb szót listázza ki, de íme azok közül az utolsó száz (mindegyik ötször fordul elő):
  hagynak ezerszer térképét esküdni helyszín kacskaringós hagyján sikerülni hagynia titka auteuilben bátyjának salátával napi lihegett name gépbe szórt naná sérüléseit tűzpiros shindyhez ilse férjének hétfőre mancsát eséllyel megjegyezték vihar járdáról kaliforniai keresse ácsorgott védelem cikk azonosítja fiúhoz problémájukat lennétek rotflour avatták műhelybe képernyőről szabályos centis bundájára szüleimnek érzéke áttette vevő kampusch vaszabit elegendőek felmutatta veri egyvalami fotóztak kitalálunk kriogén összeszedte szalutált zűrzavar összeszedni tervrajz januárban kódja elért csináltatni ostobaság csináltatok betört töltőre élőszóval másodpercben köszöntötték olaszországban leveleznek ugyanazokat szabályai belátták húztak henger félórára liftet füzetet gépére fojtottan megrúgta választhatsz valamiképpen fölmegyünk figyelmeztetlek lyonból koromban előírásosan pontokat úrtól teophil lelket csavarta
  Ez csak egy kicsiny minta, száz olyan szó, amik mindegyike ötször fordul elő. Hány hiányzik a prediktív szótárakból? Auteuilben, Olaszországban, Lyonból, Teophil – kétlem, hogy meglennének. A ROTFLOUR és a shindy meg annak ragozott alakjainak hiánya nem annyira probléma, arra számít az ember, hogy a program mégse ismerheti az ő szócsinálmányait, hát megtanítja őket, de alkalmanként előforduló tulajdonnevek hátha mégsincsenek mind meg.
  A lista nagyon érdekes egyébként, lehet, hogy megpróbálok csinálni egy teljeset. Hat szó van, ami több mint tízezerszer fordul elő (közülük egy a – gondolatjel, a többi: a, és, az, nem, hogy). Ötvennyolc szó fordul elő legalább ezerszer. Hatszázötven szó legalább százszor. 3131 szó legalább hússzor, vagyis a tízezer kilistázott szó közül közel majdnem hétezer húsznál kevesebbszer. Ahhoz éppen elég gyakoriak ezek is, hogy számítson, ha hiányoznak a szótárból, de ahogy ritkább szavakhoz érünk, egyre valószínűbb, hogy nem lesznek meg. Az a szó pedig, amelyik hússzor fel tudja bosszantani az embert egy könyv megírása alatt – és tucatszámra lehetnek ilyen szavak –, az már éppen elég bosszantó.

»»»»»»