Valami nem stimmel a statisztikával

Nemrég kiszámítottuk, hogy a Kissy 76 829-féle szót tartalmaz, beleértve a ragozott alakokat is, hiszen egyelőre nincsen technikánk egér, egerek, egérrel, egereidnek azonos eredetének gépi felismertetésére.
  Most viszont azt olvasom, hogy ugyanezen számot 59 697-nek találták Arany János verseiben, és magasan megverte a magyar költészet öt további legnagyobbját. Innentől nem értem. Nekem nem lehet nagyobb az aktív szókincsem, mint Arany Jánosé – igen, azóta nagyszámú fogalom született, s a Kissy néhány saját szóalkotást is tartalmaz, persze. Meg vannak benne morzejelek, számok, és elég sok idegen tulajdonnév. De Arany meg elég sok tájszót és azóta régiessé vált formát használt. Ha a Kissyben levő „fura szavak” összesen a készlet tíz százalékát kitennék, akkor már eléggé meg lennék lepve, márpedig ha levonunk tíz százalékot, még mindig 69 146 szó marad, tízezerrel több, mint Aranynál.
  Persze a korpusz is nagyobb, tudom én. Arany 287 ezer szóval hozott össze közel hatvanezerfélét, vagyis szavainak egyötöde egyedi. A Kissy 675 ezer szó, tehát csak 11,3% egyedi. De akkor se írhattam le, akármekkora terjedelmen belül, közel harminc százalékkal többféle szót, mint amennyit Arany János használt, szintén akármekkora terjedelmen belül. Az ember nem tud olyan szavakat ragozni, amiket nem ismer. Amit ismer, azt kellően nagy korpuszon belül statisztikailag ugyanannyiféleképpen ragozza. Mondjuk a Kissyben elég sokféle ragozásban szerepel az egér, de a patvar egyetlen alakban sem. Arany nem ismerhetett olyan szavakat, mint merevlemez – én nem használok olyan szavakat, mint fülemile, megárulni, tüszköl, összehorgolnak, csak találomra előkapva egy versét és belenézve. De lehet, hogy a Tetemre hívás még több régies szót tartalmaz, egypár tulajdonnevet is, amik nálunk biztosan nem szerepelnek, hisz nincsenek is a Kissyben magyar nevek.
  Csak a statisztika lehet rossz. Valamelyik.

»»»»»»