A pontos számítás

Végre rászántam magam, hogy megírjam régóta tervezett szószámláló programocskámat. Sose kaptam igazán pontos eredményt, mindegyik program mást mondott, úgyhogy végül nekiültem és írtam egyet direkt a Kissy számára. Nos, a programok többet mondtak a kelleténél (olyan helyeken is új szót számoltak, ahol nem kellett volna), így az első húsz rész pontos méretei a következők.
  675 144 szó marad, ha eltávolítjuk a külön szóként szereplő gondolatjeleket és minden egyebet, ami nem szó. Szerepel a szövegben egy szorzókereszt, egy görög π betű és néhány morzekód, de ezeket benne hagytam, mert szóként kiejtjük őket, ha felolvassuk a szöveget; természetesen benne hagytam a számokat és alfanumerikus kódokat is.
  4 611 364 karaktert tartalmaz a szöveg, ha az Entereket is egynek vesszük. De a program elkészít egy „lenyúzott” változatot is, amiből eltüntet minden írásjelet, ami nem része szónak – így csak 4 382 297 karakter marad –, de ebből még le kell vonni a szóközöket is (marad 3 707 154), hogy megtudjuk: a szavak átlagos hossza 5,49 karakter.
  Az eddigiek csak a kérkedést szolgálták, „nédd má, mekkora könyvet írtam”, (ulánbátor én tényleg ekkorát írtam), de a terjedelem az, ami mérhető, az irodalmi érték nem. Ha az lenne, akkor sem egy programocska feladata megmérni és nem is az enyém.
  Viszont a program nyelvi információt is szolgáltat azáltal, hogy a szavakról gyakorisági statisztikát készít. Ebből megtudjuk, hogy 76 829-féle szót tartalmaz a könyv, vagyis egy-egy szó átlagosan 8,78 példányban fordul elő a szövegben. A leggyakoribb szavakat már ismerjük: 49 700 „a”, 16 190 „és”, 16 087 „az”, 14 115 „nem”, 11 887 „hogy” és így tovább. De most már meg tudjuk nézni a legritkábbakat is. Felsorolni nem, mert 45 591 olyan szót tartalmaz a szöveg, ami csak egyszer fordul elő benne, vagyis a szavak közel hatvan százaléka egyedi példány. Legtöbbjük amúgy nem valami különlegesség, csak történetesen ebben a könyvben eddig csak egyszer szerepeltek az adott ragozásban; például oszlott, pele, refrént, reflexek, növelni, pezsgőt, orromra, rákattintasz, oszlopsor, pénzneme. De persze itt vannak Elke tört franciaságának szavai is, mint nézjed, ráfogik, Rattékat, Nordnémetország és hasonlók; olyasmik, mint nnnnnem, nééééztünk, idegen nyelvű idézetekből való szavak és még rengeteg minden.
  Most már meg tudjuk nézni azt is, hogy voltaképpen hányféle alakban fordulhat elő egy szó egy magyar szövegben. Kezdjük tulajdonnevekkel. Kissy neve így, ragozatlanul 5953-szor fordul elő, ez a kilencedik leggyakoribb szó a könyvben. Ragozva: 357 példányban fordul elő a Kissynek szó, 151-szer a Kissyt, 78-szor a Kissyre, de van még -be, -ben, -ből, -hez, -ig, -k, -ket, -ként, -n, -nél, -ről, -től, -vel, -vé, továbbá a különféle birtokos esetek: Kissyé, -ében, -ével. A családra utaló Kissyék forma mellett megvannak ennek ragozásai, -et, -hez, -kel, -nek, -nél és -től. Van továbbá egy Kissyt-e kérdő alak, továbbá szóösszetételek: Kissy-fejre, Kissy-Google, Kissy-recepteknek, Kissy-szan és ennek tárgyesete, Kissyanyu (Elke-féle, egybeírt alak) és kissykülönítmény. Összesen 36 szó, amik 6780-szor fordulnak elő.
  Vanessa nevéből 49-féle alakot képeztünk, de ezek csak 4158-szor fordulnak elő. Alanyesetben 3458-szor, a könyv tizenhetedik leggyakoribb szava. Kötőjeles utótagjai: ~-arcú, ~-féle, ~-kaját, ~-macaron, ~-matematika, ~-szan, ~-szendvicset, ~-szendvicsköltemény, ~-szerű és ~-veszélyes, de vannak egybeírt, kisbetűs összetételei is: vanessakaját, vanessahusi és ennek tárgyesete. Ragozott formái: vanessai és Vanessaként, az -á végű tővel pedig -ba, -ban, -ból, -hoz, -juk, -kat, -n, -nak, -nál, -ra, -ról, -t, -tok, -tól, -val, -vá, -é, -éból, -ék, -ékat, -ékhoz, -éknak, -éknál, -ékra, -én, -éra, -ért, -éról, -ét, -éval. Amik pedig aligha bukkannak föl a programok ragozó algoritmusaiban: vanessásan, vanessászati, vanessázzon.
  Variációk a shindy szóra: alanyesetben 438-szor fordul elő, továbbá shindame, shindame-nak, shindesse, shindológiai, shindy-e, shindy-Nimby, shindyadagja, ~adatbázisba, ~babákat, ~be, ~ben, ~bicskázás, ~bulihoz, ~bulit, ~búb, ~ből, ~csapatot, ~csapda, ~d, ~den, ~ek, ~eket, ~ekhez, ~ekkel, ~eknek, ~ekt, ~elhárító, ~es, ~et, ~é, ~én, ~fejek, ~fogáshoz, ~fogásokat, ~fogó, ~fészek, ~fül, ~gyanús, ~gyanúsat, ~had, ~hadsereget, ~hez, ~invázió, ~je, ~jeink, ~jeinket, ~jeinknek, ~jének, ~jét, ~jével, ~jük, ~jüket, ~jükkel, ~jüknek, ~k, ~kalandjaikat, ~kalandokba, ~karmoknak, ~kbe, ~ken, ~ket, ~ketrecek, ~ketrecet, ~kkel, ~klub, ~klubban, ~klubnak, ~klubon, ~klubot, ~knek, ~kre, ~kről, ~ktől, ~kéit, ~kért, ~m, ~macskák, ~macskákat, ~macskákkal, ~macskás, ~martalék, ~megfigyelés, ~megsemmisítő, ~met, ~n, ~nek, ~nk, ~nket, ~nyit, ~nyöszörgést, ~nél, ~orr, ~ölés, ~re, ~recepteket, ~riasztás, ~riasztásokat, ~riasztást, ~ről, ~s, ~skedik, ~skedni, ~skedéshez, ~kedéstől, ~szagot, ~szerepben, ~szezon, ~sztéket, ~ség, ~ségből, ~ségek, ~ségekre, ~séget, ~séggel, ~ségért, ~t, ~találkozóról, ~tek, ~teket, ~termés, ~termésünket, ~törmelékké, ~történetek, ~től, ~ügy, ~ügyet, ~üldözéshez, ~üldöző, ~vadászat (ennek változatai: -a, -ait, -ban, -hoz, -on, -ot, -tal, -ok, -ós), ~vel, ~vermeket, ~verés, ~verésekre, ~verést, ~veszély, ~veszélyre, ~vé, ~védő, ~vér, ~vérben, ~vérre, ~vért, valamint ál~, centi~s, centi~t, centi~vel, deci~vel, gyakorló~je, hat~s, kilo~, kilo~nk, kilo~s, kisegér~, kölyök~, kölyök~jei, kölyök~ket, milli~t, mindenkészindulhatunkholashindy (hadarás), mű~nk, mű~t és szuper~nk. 171-féle szóban szerepel a shindy, amik összesen 1171-szer fordulnak elő – predikciós algoritmusú billentyűzettel egy ilyentől hülyét lehet kapni.
  249-féle szót képeztünk a mond igéből, köztük olyanokat is, mint ammegmondom, bemondhatják, elmondhatnátok, jövendőmondással, megmondhatója, mondanivalója, mondatszerkezeteket, mondókává és hasonlók.
  132-féle szót alkottunk a macska változataiként, olyanokat, mint atommacska, bébi-macskakajájából, kismacska-bébiholmik, macskadivatlap, macskahajigálás, macskakalandjairól, macskamenekülési, macskapofikat, Macskoha.
  És 480-féle szó keletkezett az egér ragozásaiból és összetételeiből, amik között szerepel Egér-Franciaország, egérangyalka, egérbuli, egérburger, egérfegyelem, egérhimnusz, egérkongresszus, egérkülönítmény, egérmatrica, egérszínvonalú, kamraegér, kisegértörzs, plüssegér, tüskösegér, egeresdi, egerészölyv, kisegereskedett, s a könyv alighanem legfontosabb szava, bárha ez is csak egyszer fordul elő, a kisegér-romantika.

Kíváncsi lettem, milyen érték az, hogy én egy-egy szót átlagosan 8,78-szor használok föl, hogy viszonyul más regények szókincséhez. Jelentem, van még mit fejlődnöm. Szalay Lenke a Mogyoró és a Fiúban több mint tizenhatezer különböző szót használ, és csak hatvanezer szavas a regény, vagyis csak három és félszer veszi elő ugyanazt a szót. A szavak 26%-a unikum. B. Siklós Márta, Lisa Alther Eredendő bűnök című regényének fordítója 4,6-szer vesz elő egy-egy szót, 35 százalékuk egyedi. Kádas Mária Kurgáni naplójában 4,5-szer fordulnak elő a szavak, és negyven százalékuk egyedi.
  Még megnéztem néhány könyvet, de nem találtam olyat, ami megközelítette volna a Kissy értékeit: hogy egy-egy szó 8,78-szor ismétlődik, illetve hogy a szavak hatvan százaléka csak egyszer fordul elő. Ebből azt a következtetést vonom le, hogy a Kissyben óriási szókincset használok ugyan, de nagyon sok az ismétlődő szó. Ötvenhét szavunk ezernél többször fordul elő, a legalább százszor előfordulók pedig közel hétszázan vannak.
  Mindezekből nem vonok le olyan következtetést, hogy másképpen kellene folytatni a könyvet, netán többféle ragozásban szerepeltetni a szavakat. Egy regény tartalmát nem a szavak sokfélesége határozza meg – de ez egy érdekes, tanulságos statisztikai mutató.

»»»»»»