@t[Utómunkák 3.]~~META:date created = 2011-12-03~~

Igazából a fett is végtelenül egyszerűnek bizonyult, csak át kellett gondolni a lehetséges eseteket.
Időközben megoldottam még egy feladatot: a felső indexeket. Nagyvonalúan antikva számokat használtam felső index helyett, gondolván, hogy pillanatok alatt ki lehet cserélni a végén. Hát annál azért kicsit tovább tartott, főleg mert rengeteg speciális esetet kellett észrevenni és helyesen lekezelni.
A következő és feltehetően utolsó lépés már tegnap óta folyik, és még napokba telhet, mert a programok iszonyú lassúak. A menetrend a következő. A szócikkek három bekezdésre oszlanak, amiknek jellemző szerkezete van, egymással nem összetéveszthetők. Ezért a három bekezdést kiraktam három különböző file-ba; egy negyedikbe került a fennmaradó anyagrész, a bevezetők és a Mutató. A négy file-t külön-külön fölvágom szavakra és ábécébe rendeztetem. A harmadik bekezdésnél, a forrásanyagnál már megvan; háromszázhatvanezer szó van benne, ebből huszonnégyezer maradt, amikor az e célra írt programom kiszűrte az egyformákat. Aztán írtam egy programot, ami elkészítette a file-ban szereplő karakterek rendezett listáját, ebből készítettem egy leírófile-t a rendezőprogramom számára, és most van egy rendezett listám huszonnégyezer szóról, amik a szócikkek harmadik bekezdésében találhatók.
Az első és a második bekezdésben egyenként egymillió szóval nyitunk, úgyhogy azokhoz majd átírom a programot, hogy ki lehessen menteni és másnap folytatni, mert az nem lesz kész egy nap alatt, egymilliárd összehasonlítás. Ha kész a szűrés és a rendezés, akkor szépen végignézem a rendezett listákat, és gyanús dolgokat fogok találni. Ez fix, mert az elsőbe már belenéztem és egy csomót találtam. Majd írok még egy programot, aki megkeresi a gyanús dolgokat az eredeti szövegben, és eldönthetem, hogy az ott jó-e. (Nem lesz jó, hát azért gyanús.)

@blogf[! programozás szkennelés TESZ]