Upload failed. Maybe wrong permissions?

User Tools

Site Tools


I. ALAPOK

1. Miért digitalizálok könyvet?

Író vagyok, az írott szó embere. Mindig szerettem olvasni, ám nem mindig olvashattam azt, amit szeretnék. Néhány kezdeti kísérlet után könyvtári könyveket kezdtem digitalizálni, amiket szerettem volna máskor is olvasni. Csakhamar tendenciózus digitalizálója lettem néhány kedvenc szerzőm műveinek, amiket mindig a közelemben akartam tudni.
  Így kezdődött. Egy idő után olyan gyakorlatot szereztem, olyan módszereket fejlesztettem ki, amikkel egyre kisebb erőfeszítéssel tudtam bedigitalizálni egy könyvet. Mindmáig „önző módon” válogatok: azért, mert nekem van szükségem az illető műre számítógépen, nem pedig azért, hogy mások olvashassák azt. De ez csak az induló motiváció, nem a végeredmény: minden bedigitalizált kötetet átadok a Magyar Elektronikus Könyvtárnak is, amelynek munkatársai közzéteszik azokat. (Ha módjukban áll – de erről majd később.) „Önző szempontjaim” tehát csak a művek kiválasztásában játszanak szerepet.
  Amikor e sorokat írom, harminckét mű van, ami munkám eredményeképpen bárki számára ingyen elérhető az Interneten. Mindig örömmel olvasom a hírt arról, hogy egy-egy bedigitalizált művet közzétett a MEK – ám azt az ötvenkilencet is nagyon szeretem, amik még nem juthattak el a nyilvánossághoz. Nekem megvannak, én elolvashatom őket – ennyit megérdemlek, azt hiszem.
  Megdolgoztam érte.

2. Mi az, hogy „könyvdigitalizálás”?

A szóösszetétel első tagja nem sok magyarázatra szorul; annyit érdemes megjegyezni, hogy „könyv” alatt az elektronikus könyvtárak esetében nemcsak azokat a műveket értjük, amik papíron megjelentetve rendesen könyv formáját öltik, hanem bármilyen írásművet, ami önállóan létezik és megállja a helyét. Így például a MEK katalógusában is találhatóak olyan művek, amik egyetlen versből állanak, mert valamikor valaki elkészítette ezeket. Ezek is könyvnek számítanak. Jómagam eddig egyetlen alkalommal tettem meg, hogy egy könyvnek csak egy részletét digitalizáltam, minden más alkalommal a teljes könyvet dolgoztam fel.
  Ennyit a könyvről, lássuk a digitalizálást. A szó eredete a latin digitus, „ujj” főnév, amiből először is egy melléknév keletkezett: digitális, azaz „számjegyekből álló, számjegyekkel kifejezett”, majd pedig egy ige: digitalizál – „digitálissá, számjegyekből állóvá tesz”. (Az ujj és a számjegy összefüggése alkalmasint az ujjakon való számlálásból ered.)
  Digitálisnak nevezzük azt az órát, amely váltakozó számjegyekkel fejezi ki az időt körbe-körbe sétáló mutatók helyett. Digitálisnak nevezzük a CD-lemezt, amin a zene számjegyekkel van leírva, ellentétben a hagyományos hanglemezzel, ahol a barázdákban haladó tű mechanikus rezgése alakul át hangrezgéssé.
  A digitális könyv (gyakoribb szóval: elektronikus könyv) olyan könyv, amit számítógépen tárolnak. Mai világunkban a megjelenő könyvek, sajtótermékek gyakorlatilag egytől egyig számítógépen készülnek, a kilencvenes évek első felében ez a technika kiszorította a nyomdaipar hagyományos technológiáit. Ám a számítógépen elkészített könyvet az esetek legnagyobb részében kinyomtatják, s ettől kezdve nem digitális többé: az információt a papíron futó tintanyomok szeszélyes kacskaringói hordozzák.
  Amikor az olvasó megír egy levelet számítógépen, digitális írásművet hoz létre. Amikor kinyomtatja levelét, a digitális műből analóg, vagyis „számjegyek nélkül kifejezett” művet hoz létre, meglehetősen egyszerűen, egyetlen parancs kell csak hozzá.A digitalizálás ennek a műveletnek a fordítottja: a nyomtatottból, a papíron olvashatóból elektronikusat, számítógépen olvashatót hozunk létre. A technika mai állása mellett – sajnos – ez korántsem olyan egyszerű, mint digitálisból analógot csinálni. Sokkal munkaigényesebb és hosszadalmasabb.

3. Miért olvassunk számítógépen?

Egyáltalán nem mondtam, hogy olvassunk számítógépen. Igen, a digitalizálás eredménye olyan könyv, amit számítógépen lehet olvasni, ez tagadhatatlan; ám ez nem jelenti, hogy ott is kell. Az, hogy én szoktam számítógépen olvasni, semmire sem kötelezi az olvasót, ez az én privát bolondériám. Megjegyzem, összehasonlíthatatlanul szívesebben olvasok papírra nyomott könyvet, méghozzá a leginkább olyat, amit szépen bekötöttek, és lehetőleg még jó öreg könyvszaga is van, mert én is a papírra nyomott könyvek világában nevelkedtem, és sokszorta kényelmesebb is. De azért szoktam olvasni számítógépen is, mert ha valamilyen írásműhöz úgy jutok hozzá, akkor nem tudom máshogyan olvasni – senki se győzné tintával, papírral és a nyomtató idejével, hogy mindent kinyomtasson.
  Könyvet nem azért digitalizálok, hogy utána számítógépen olvassák az emberek. Azért digitalizálom, hogy én számítógépen olvashassam, és hogy aki akarja, szintén olvashassa számítógépen, avagy kinyomtathassa, ha ahhoz van kedve. Vagy kinyomtathasson belőle részleteket. Vagy a számítógép képességeit fölhasználva keresni tudjon a szövegben, idézni tudjon belőle, vagy amit akar. Könyvet azért digitalizálok, hogy aki használni akarja valamire, használhassa – arra, amire akarja.
  Valamint – és még inkább – azért, mert az elektronikus könyv minőségvesztés nélkül másolható, roppant gyorsasággal szállítható bármilyen távolságra, és nem kell lemondanom a saját példányomról, ha meg akarom osztani valakivel.
  A nyomtatott könyvet nem adhatom oda az összes barátomnak, csak ha drága pénzen, hosszas munkával lefénymásoltatom, avagy ha még drágább pénzen annyi példányt veszek. Az elektronikus könyvet betehetem egy emailbe és elküldhetem nekik, ahányan vannak, annyi példányban. Ingyen. A nyomtatott könyvet csak komoly postaköltség árán, napok alatt juttathatom el az ország túlsó végében vagy más kontinensen élő barátomhoz. Az elektronikus könyv percek alatt ott van akár a glóbusz legtávolabbi pontján, csak legyen ott is Internet.
  És gondoljon az olvasó arra is: nemcsak digitalizálok könyveket, írok is. Éppen egy olyan könyvet tart a kezében (a monitorján), amit én írtam. Kicsike, de azért könyv. Mibe kerülne nekem, ha ezt ki akarnám adatni nyomtatásban? Ha nagyon szerencsés vagyok, talán egymillióból megúsznám, és lenne belőle néhány ezer példány. Ha nem fogy el, akkor veszteséges üzletet csináltam, nem jön vissza az ára. Ha elfogy, akkor viszont egy későbbi jelentkezőnek nem tudom odaadni, ámbár lehet, hogy az lenne a leglelkesebb olvasóm, az előzőleg eladott példányok háromnegyed részét pedig esetleg soha nem is olvasták, csak megvették, mert mondjuk szép volt a kötése, vagy ajándékba valakinek, akit nem érdekel.
  Az elektronikus könyvnek azonban nincs se nyomdaköltsége, se példányszáma. Ingyen van és kifogyhatatlan. Persze ha az olvasó ki akarja nyomtatni, az már pénzbe kerül, tintát és papírt emészt föl. De az legyen az olvasó gondja, az olvasónak csak egyetlen példányt kell kinyomtatnia, és ha sokallja a költségeket, olvashatja a monitoron is.
  Avagy olvashatja olyan kis masinával, ami egy könyvnyi méretű képernyőből áll, és bele lehet tölteni akármilyen könyvet. Egyre többféle van, és lassan már megfizethetőek. Beletölt egy könyvet, és szép kényelmesen elolvassa az ágyban vagy a vonaton. Aztán ha kiolvasta, beletölt egy másik könyvet. Nincs többé szemfárasztó monitor, nincs többé helyhez kötött asztali számítógép vagy táskányi notebook, nincs zúgó ventillátor, csak egy kézben tartható, kicsiny készülék van, rajta szépen ott sorakoznak a szerző szavai.
  Hiszen bármilyen eszközt használunk, a végeredmény mégiscsak az, hogy kettesben marad az olvasó és az írott szó.

4. Mi kell a könyvdigitalizáláshoz?

A munkának három fő eszköze van, mindhárom nélkülözhetetlen hozzá:
  – szkenner,
  – OCR program,
  – szövegszerkesztő.
  (No meg persze a könyvről se feledkezzünk meg!)
  A szkenner vagy lapolvasó egy berendezés, amit néhány tízezer forintért meg lehet venni bármelyik elektronikai üzletben. Nem sokban különbözik egy félbemaradt fénymásolótól. A fénymásológép gyakorlatilag egy szkennerből és egy nyomtatóból áll; a szkenner tehát egy nyomtatójától megfosztott fénymásoló. Könyvdigitalizáláshoz síkágyas (flatbed) szkennerre van szükség, vagyis olyanra, aminek van egy vízszintes üveglapja, amire rá lehet fektetni a könyvlapot. Ma már a legtöbb szkenner ilyen. Régebben voltak kéziszkennerek is, amiket végig kellett húzni a papíron, de ez sokszorta lassúbb és fárasztóbb, s az eredmény is sokkal gyengébb minőségű. A szkenner elve nem sokban különbözik a fényképezőgépétől: a látványt (a könyvlapot) lefényképezi, s a képet átadja nekünk. A szkenner által készített kép a számítógép képernyőjén jelenik meg, ott tudjuk további feldolgozásnak alávetni.
  Az OCR program olyan program, ami olvasni tud. Az OCR az Optical Character Recognition, „optikai karakterfelismerés” rövidítése, amiből az optikai azt jelenti, hogy látvány alapján, a karakter pedig a számítástechnikában azt jelenti, „betű, számjegy, írásjel, az írásban használatos bármiféle jel”. Az OCR programok tehát betűk felismerésére képesek: a program végignézi a szkenner által előállított képet, megkeresi rajta a betűket, és kisilabizálja, hogy melyik betű micsoda. „Nézzük csak, egy függőleges vonal, a felső végétől elindul jobbra, félkörívben visszakanyarodik a vonal közepéhez, akkor ez egy P betű! De vajon kicsi vagy nagy? Nagynak kell lennie, mert a mögötte álló betű kisebb nála.” Valahogy így dolgozik. Gyorsabban olvas, mint az ember, egy könyvoldallal fél perc alatt is el tud készülni – viszont sokkal többször téved. A szövegszerkesztővel az olvasó már sokszor találkozhatott. Ez az a program, amiben írni tudunk, betűket tudunk egymás után sorakoztatni, hogy abból valami értelmes (vagy értelmetlen) kerekedjék ki. Könyvdigitalizálás közben azért lesz rá szükség, hogy az OCR program által előállított szöveget ki tudjuk javítani. Mert mint mondtam, a program nagyon sokat téved.

5. Szkennelés vagy digitalizálás?

A könyvdigitalizálást másképpen könyvszkennelésnek is mondják; ha az olvasó megnézi honlapomon a Szkennelt könyvek rovatot, ott is arról beszélek, hogy mennyire szeretek könyveket szkennelni. Nem digitalizálni? De, azt. A kettő gyakorlatilag ugyanaz. A szkennelés a szkenner használatát jelenti, ezt azonban még követi a karakterfelismerés (az OCR program használata) és a szöveg kijavítása a szövegszerkesztőben. De az ebéd készítése is több műveletből áll, a hozzávalókat meg kell tisztítani, föl kell darabolni, betenni a fazékba, megfőzni, majd föltálalni – mégis csak úgy szoktuk mondani röviden: „ebédet főzök”. Egy részművelet nevét használjuk az egész műveletsorra. Ebben a művecskében inkább digitalizálásnak nevezem a nyomtatott könyv elektronikussá való átalakítását, hogy a szkennelés szóval annak egyik részműveletére utalhassak.

6. Milyen könyv digitalizálható?

Alapjában véve bármilyen könyvet lehet digitalizálni, ha a megfelelő eszközeink megvannak. Bármilyen szkenner, bármilyen OCR program és bármilyen szövegszerkesztő elég ahhoz, hogy bedigitalizálhassunk egy átlagos könyvet, amiben semmilyen különlegesség nincsen. Amiben van, az már további követelményeket is támaszt. Általában két csoportba oszthatók az ilyen problémák:
  – nyelvek,
  – illusztrációk.
  Nyelvi problémát jelent az olyan könyv, amit részben vagy egészben idegen nyelven írtak, és ehhez idegen betűket vagy írásjeleket használtak. Ha ezek nincsenek túl sokan, akkor beérhetjük az egyetlen nyelven értő OCR programunkkal – majd javítás közben betesszük a kívánt jeleket. Ha azonban az idegen jelek száma vagy sokfélesége túllép egy határt, akkor már utána kell nézni, meg tudjuk-e tanítani OCR programunknak ezeket a jeleket, mert gazdaságosabb lesz egy órácskát tanítani, mint egyenként berakosgatni őket.
  Illusztrációs problémát jelent az olyan könyv, amiben illusztrációk vannak. Az illusztrációkat két csoportra oszthatjuk: „díszítő” és „fontos” illusztrációkra. „Díszítő” illusztráció az, amikor egy regény néhány pontjához képet rajzoltatott a kiadó; ezek az illusztrációk általában csak egyetlen kiadásban találhatók meg, más kiadásokból hiányoznak vagy más illusztrációk vannak helyettük, tehát nélkülözhetőek. Nem létszükséglet, hogy reprodukáljuk őket, a könyv nélkülük is élvezhető. A „fontos” illusztráció viszont szükséges a könyv megértéséhez. Például egy kalózregényben az elásott kincs helyét mutató térkép, amire számtalanszor hivatkoznak a könyvben. Az ilyen illusztrációkat reprodukálnunk kell, ehhez pedig szükségünk lesz valamilyen grafikai programra, amivel a szkennelt könyvlapról kiemelhetjük és „fogyasztásra alkalmassá” alakíthatjuk a képet. Néha előfordulnak színes illusztrációk is, olyanok, amiknél a színek nélkülözhetetlenek a mondandó megértéséhez vagy a művészi élvezethez: térképek vagy fényképek, amelyeket bármilyen okból nem célszerű vagy csak nem szeretnénk fekete-fehérben reprodukálni. Ilyenkor színes szkennerre van szükség; ma már a legtöbb szkenner az.
  Mind a színes, mind a többféle árnyalatot tartalmazó fekete-fehér illusztrációknál számolnunk kell azzal, hogy oldalanként egy külön szkennelési műveletet rá kell szánnunk a képekre. A szöveget ugyanis kétszínű módban érdemes szkennelni (látni fogja az olvasó, hogy miért), ilyenkor azonban csak két színünk van, fekete és fehér; minden más színből, a szürke árnyalataiból is vagy fekete lesz, vagy fehér. Ez a vonalas rajzokhoz megfelelő, az árnyalatokat is tartalmazó képekhez nem. Azokat külön be kell szkennelni olyan üzemmódban, ami reprodukálásukhoz megfelelő. Ez tehát azt jelenti, hogy a szöveget és árnyalatos képet egyaránt tartalmazó oldalt kétszer kell majd betennünk a szkennerbe. (Ha sok ilyen oldalunk van, esetleg a könyv túlnyomó része ilyen, akkor érdemes megfontolni, hogy minden oldalt a képek számára megfelelő üzemmódban szkenneljünk, és külön átalakítsuk őket az OCR program számára.)
  A nyelvi és illusztrációs problémák speciális keverékét jelentik az olyan esetek, amikor például matematikai, fizikai, kémiai képletet, táblázatot, egyéb diagramot tartalmaz a könyv. A mai fejlett szövegszerkesztők ugyanis képesek ilyen elemek létrehozására is. El kell tehát döntenünk, hogy a szövegszerkesztőben készítjük el ezeket, avagy képként reprodukáljuk. Az első megoldás hosszadalmasabb, mert az OCR programok általában nem képesek ezeket egy az egyben visszaadni, nekünk kell begépelni őket a képlet- vagy táblázatszerkesztő funkció használatával – a második megoldás viszont helyigényesebb és a könyv gyakorlati használata szempontjából általában nehézkesebb.

7. Milyen hűséggel reprodukáljunk?

A kezünkben tartott nyomtatott könyv számos külalaki elemet tartalmazhat: illusztrációkat, különféle betűtípusokat, speciális jeleket, kisebb szövegrészek újságszerű elrendezését, a szöveg oldalakra és sorokra osztását. Ezek egy részét muszáj reprodukálnunk, más részét teljesen fölösleges, a kettő között pedig van egy csoport, amiről nekünk kell eldöntenünk, megpróbálkozzunk-e a visszaadásával. Egy átlagos mű, például regény esetében teljesen elegendő, ha magát a szöveget reprodukáljuk oly módon, hogy az összes betű és írásjel meglegyen, a bekezdések ott kezdődjenek és ott érjenek véget, mint az eredetiben, a címek címek legyenek, a kiemelt (kiemelt, kiemelt, kiemelt) szövegrészek ki legyenek emelve, s ezzel kész is. Semmi szükség nincsen arra, hogy ugyanazzal a betűtípussal írjuk a szöveget, mint az eredetiben; hogy ugyanakkora betűvel írjuk a címeket, mint az eredetiben; és legkevésbé arra, hogy visszaadjuk az eredetiben meglevő sorvégi elválasztást és jelöljük, hol értek véget az oldalak. Magát a szöveget kell visszaadnunk, és bőven elég, ha egy adott bekezdésről megállapítható, hogy az egy cím, teljesen fölösleges utánozni az eredeti cím külalakját. Megtehetjük éppen, ha kedvünk van hozzá, nem tiltja meg senki, de ha nem tesszük meg, azzal se lesz kevesebb a mű.
  Tudományos műveknél gyakran előfordul, hogy többféle szintű címet alkalmaznak. Ez a könyvecske is ilyen: van egy római számmal jelölt, félkövér, csupa nagybetűvel írt cím, amit középre igazítottam, és alatta van egy arab számmal ellátott, dőlt, balra igazított cím, amit nem írtam csupa nagybetűvel. A címek külalakja jelzi, hogy az első fajta cím fontosabb a második fajtánál, az első fajta címek tagolják a könyvet fő részeire, és a második fajtájúak finomítják ezt a felosztást. Tudományos művekben gyakori, hogy három vagy több címfajtát használnak. Például A magyar helyesírás szabályai című akadémiai kiadvány, amit valaha bedigitalizáltam, négyféle címet használ (nem számítva a könyv legelején a főcímet), ilyenformán:

SZABÁLYZAT
  A KIEJTÉS SZERINTI ÍRÁSMÓD
  A szótövek írása

  Az alakváltozatok

A Szabályzat olyan cím, ami teljesen különálló oldalra nyomtattak, semmi más nincsen azon az oldalon. A kiejtés szerinti írásmód eggyel alacsonyabb rangú cím, ugyanazzal a betűtípussal van, de nem került külön oldalra. A szótövek írása harmadrendű cím, ezt érzékelteti, hogy már nem kapott csupa nagybetűt, viszont ehelyett dőlt betűs és még mindig középen áll. A negyedrendű cím, Az alakváltozatok már nem is áll középen, és sem csupa nagybetű, sem dőlt betűs írás nem dukál neki.
  Mennyit reprodukáljunk ebből? Annyit feltétlenül, hogy a különböző szintű címeket különböztessük meg. Vagy reprodukáljuk az összes cím külalaki sajátságait, vagy alakítsunk ki egy saját rendszert a címek szintjének megkülönböztetésére. Ha például háromféle cím van a könyvben, és az eredeti megoldás nem tetszik nekünk vagy túl bonyolultnak találjuk, akkor döntsük el, hogy – teszem azt – az elsőrendű cím 24 pontos lesz, a másodrendű 18 pontos, a harmadrendű 12 pontos.
  Verseknél természetesen reprodukáljuk azt, hogy hol vannak a sorvégek, de általában nem reprodukáljuk a vers középre igazítását. Ez elég nehéz is volna, ugyanis ehhez a vers egészét kell középre állítani, vagyis a leghosszabb sort középre, és az összes többi sor ugyanott kezdődik, mint a leghosszabb. Erre a szövegszerkesztők nem tudnak beépített parancsot, kézzel kell versenként beállítgatni. Ha csak számítógépen való, illetve kinyomtatás utáni olvasgatásra szánjuk a művet, akkor ez teljesen fölösleges. (Ez a könyv nem azoknak szól, akik azért reprodukálnak egy könyvet, hogy azt kinyomtassák, bekössék és eladják. Az egy szakma, amit nem könyvdigitalizálásnak, hanem nyomdászatnak hívnak.)
  Általában nekünk kell eldöntenünk, mi az, ami fontos egy műben, aminek a reprodukálása megéri a ráfordítandó munkát. Ezt reprodukáljuk – ne többet és ne kevesebbet.

II. SZKENNELÉS

8. Milyen szkennert használjunk?

Arról már szó volt, hogy síkágyas szkennert, másképpen lapszkennert használjunk. Kéziszkennerrel is meg lehet próbálni, de több lesz vele a bosszúság, mint az eredmény.
  A szkennernek három műszaki paramétere van, ami munkánk szempontjából fontossággal bír:
  – méret,
  – felbontás,
  – sebesség.
  A méret azt jelenti, hogy mekkora a szkenner üveglapja. A legtöbb szkenner A/4-es, ami azt jelenti, hogy egy A/4-es lapot (szabványos írógéppapírt) rá lehet tenni, és némi hely még marad körülötte. Ennek megfelelően egy A/5-ös méretű könyvet rá tudunk tenni a szkennerre úgy, hogy egyszerre két oldal látható. (Az A/5-ös méret ugyanis az A/4-es fele. A legnagyobb papírméret az A/0-s, ez 84,1·118,9 cm-nek felel meg, s az A/1-től A/6-ig növekvő méretek azt jelentik, hogy az A/0-s papírt hányszor feleztük el.)
  A felbontást dpi-ben mérik, ami a dot per inch, pont per hüvelyk rövidítése. A mai szkennerek legnagyobb teljesítménye általában ezer dpi fölött van, de könyvdigitalizálás céljára teljesen fölösleges ekkora felbontást használni. Ezer dpi azt jelenti, hogy a papír egyhüvelyknyi (két és fél centiméternyi) csíkját ezer darabra osztja a szkenner. Egy találomra választott könyvön lemértem egy hüvelyket függőlegesen: hat sor fér bele. Ha hat sort ezer pici vízszintes vonalkára osztunk, akkor egy sort 166 vonalkára. Ez elképesztően sok egy betű ábrázolásához.
  Amikor könyvet szkennelek, 300 dpi-s felbontást szoktam használni, ám ennek nem az az oka, hogy ez az optimális. Az a program, amivel a szkennelést végzem – a Recognita – csak ezt az értéket hajlandó felkínálni mint „választási lehetőséget”. Nem tudom, az olvasó szkennerével és programjával is ez-e a helyzet; ha igen, a 300 dpi-s felbontást bátran használhatja. Ám a gyakorlatban 100 dpi is bőven elég. Az emberi szem számára még az 50 dpi-s felbontás is jól olvasható (kísérletképpen átalakítottam egy találomra választott könyvoldalt 50 dpi-be), de a programoknak már nehézséget okoz.
  A túl kicsi felbontás tehát rosszul olvasható szöveget eredményez. A túl nagy felbontás egyetlen hátránya az, hogy nagyon nagyok lesznek a képeink, lassan dolgoznak majd a programok, sok helyet foglal a képanyag. Ha az olvasó számítógépét ez nem zavarja, ezer dpi-s vagy akár nagyobb felbontást is nyugodtan használhat. Kárt nem okoz vele.
  A sebesség nagyon egyszerű dolog: mennyi időbe telik egy könyvet beszkennelni? Időmilliomosok mégsem vagyunk. Érdemes megmérni, szkennerünk mennyi idő alatt olvas be egy oldalt, beleszámítva persze a lámpa visszatérésének idejét is. Ezt szorozzuk be az oldalak számával: minimálisan ennyi időre lesz szükség a könyv beszkenneléséhez.
  Minimálisan, mert egy-két dolog nekünk is időbe fog telni. Ha a szkenner elég gyors, akkor nem biztos, hogy lesz elég időnk lapozni és a következő oldalt szépen az üvegre helyezni, mialatt a lámpa visszaér. Ez esetben a szkenner vár miránk, nem megfordítva, s ennyivel nő a könyv beszkennelésének időtartama.
  Nem célszerű a szkennelést és a felismertetést egyszerre végeztetni, legfeljebb egészen rövid műveknél. A legtöbb OCR programnak van olyan parancsa, hogy „szkenneld be és ismerd föl azonnal”, ez azonban azt jelenti, hogy amíg a program a felismerést végzi, a szkennernek – tehát az embernek is – várnia kell. A felismerés pedig vagy elkészül azalatt, amíg a lámpa visszaér, vagy nem. A Recognita egy egyszerű, jó minőségben beszkennelt oldallal el szokott készülni, mialatt a HP ScanJet Plus lámpája visszaér. Az ABBYY Finereader olyan lassan olvas, hogy gyanúm szerint azalatt a világ minden szkennerének visszaér a lámpája. Ezért a felismerést külön műveletként célszerű elvégeztetni.

9. Hogyan szkenneljünk gyorsan?

A szkennelésnek van egy minimális időigénye: az az időtartam, amíg a lámpa végighalad a szöveg alatt, majd visszatér kiinduló állásába. Ezt semmiképpen sem tudjuk gyorsítani (legfeljebb gyorsabb szkenner vásárlásával, ha van olyan). Megtehetjük viszont, hogy kiiktatunk minden kiiktatható műveletet, hogy a könyv szkennelése ne tartson sokkal tovább, mint ameddig a lámpa mozog; más szóval, hogy a lámpa lehetőleg szinte állandóan mozogjon. (Miért fontos ez? Gondoljuk meg: oldalanként tíz másodperc időveszteség egy ezeroldalas könyv esetében tízezer másodpercet, vagyis két és háromnegyed órát jelent.)
  Olyan programot használjunk, ami két oldal beszkennelése között a lehető legkevesebbet pepecsel. Az a program, amiből minden oldalt külön ki kell menteni, órákat rabol el az életünkből – nem beszélve arról, hogy idegtépő és a zűrzavar veszélyével jár, ha minden kép kimentésekor kézzel kell beírni a sorszámot. „Jó, akkor ez a 329-es… vagy a 330-as? Hol is tartottam?”
  Én ezért használom szkennelésre a Recognitát (4-es verzió). Ez minden beszkennelt képet betesz egy Recognita-dokumentumba, és tőlünk pusztán annyit kérdez, hogy akarunk-e újabb képet szkennelni, igen vagy nem. Nekem tehát nincs más dolgom, mint lapozás után megnyomni a szóközt vagy az Entert, és már indul is a lámpa. Amikor a könyv utolsó oldalát is beszkenneltem, parancsot adok a képek kimentésére, megadom, hogy minden képet külön file-ba mentsen, és hátradőlve nézem, ahogy létrejön a több száz képfile.
  Érdemes itt megjegyezni, hogy a lámpát nem érdekli, le van-e csukva a szkenner teteje vagy sem. Én szkennelés közben mindig nyitva tartom; a HP ScanJet Plus teteje levehető és félretehető, az LG ScanWorks teteje biztonságosan megáll felnyitott állapotban. Nem létszükséglet tehát folyton nyitogatni-csukogatni, ezzel is időt takarítunk meg.
  A szkennelőprogramok által biztosított preview funkciót felejtsük el. Semmi szükség rá, ez arra kell, hogy az ember lássa, milyen minőségű lesz az oldal, de olyan kicsiben úgyse látja; valamint arra, hogy ha csak a képmező egy részét akarjuk szkennelni, akkor azt kijelölhessük. Mi azonban mindig az egész képmezőt akarjuk szkennelni, mert ez a leggyorsabb. Az OCR programot nem fogja érdekelni, hogy van-e ötcentis fekete csík a szövegoldal körül.
  Majd elfeledem, az sem fogja érdekelni, hogy a könyv milyen állásban van az üvegen. Nyugodtan elforgathatjuk kilencven fokkal, ha úgy fér el vagy kényelmesebb.

10. Hogyan szkenneljük más könyvét?

A kérdés első hallásra furcsán hangzik: hát nem mindegy a szkennernek, hogy kié a könyv? De igen, a szkennernek teljesen mindegy. A tulajdonosnak nem mindegy, hogy milyen állapotban kapja vissza a könyvét!
  Jómagam legnagyobbrészt könyvtári könyveket szkennelek, amikkel nem bánhatok tetszésem szerint, a könyvtár még használható állapotban szeretné visszakapni őket. Kíméletesen kell bánnom velük. Ez azonban sokszor nehezen egyeztethető össze azzal a kívánalommal, hogy az OCR programnak emészthető képeket adjak.
  Ha a könyv nem a saját tulajdonom, akkor nem szedhetem szét. Ha nem szedhetem szét, akkor kérdéses, hogy mennyire tudom kinyitni a könyvet. Nagyon sok könyvet nem lehet annyira kinyitni, hogy a két oldal egyetlen síkba feküdjön ki, hanem a kötésnél behajlanak. Mivel a papír itt nem tökéletesen fekszik rá az üveglapra, a rövidlátó szkenner már nem látja, ehelyett fekete csíkot hoz itt létre. Ez nem baj, ha a fekete csík nem olyan vastag, hogy takarja a betűket. Gyakori azonban, hogy megteszi. Nem mindegy persze, hogy mennyit tesz olvashatatlanná a szövegből; ha soronként csak néhány betűt, az még nem tragédia.
  A fekete csík minél vékonyabbá tétele érdekében célszerű lenyomni a szkenneren kinyitva fekvő könyv gerincét. Én videókazettákat vagy könyveket szoktam rátenni. Időnként az sem árt, ha némi erőkifejtéssel bírjuk a könyvet jobb belátásra: egy rendesen bekötött könyvnek semmi baja nem lesz, ha néhányszor nagyra nyitjuk, az első borítót a hátsóhoz közelítve feszegetjük a kötést. Ragasztott papírkötésű könyv persze szétesik az ilyesmitől. Legyünk óvatosak.

11. Hogyan szkenneljük saját könyvünket?

Ha a könyv saját tulajdonú, akkor már módunk van dönteni, mi a fontosabb: a nyomtatott példány testi épsége vagy a digitalizálás minősége. Ha a nyomtatott példányt nem szeretnénk túlságosan megrongálni, akkor ugyanúgy szkenneljük, mintha másé volna. Ha azonban a digitalizálás minősége fontosabb, akkor akár szét is szedhetjük a könyvet.
  A szövegfelismerésnek nem feltétele, hogy az oldalpárok közül eltűnjön a fekete csík. Ha pusztán ez a gondunk, akkor nem érdemes szétszedni a könyvet. Ugyanakkor viszont mérlegelendő, hogy a szakszerűen szétszedett könyvet újra lehet köttetni, s olyan lesz, mint az új. A könyvet a következő esetekben érdemes, illetve muszáj szétszedni:
  – ha a kinyitott könyv nem fér rá a szkennerre, de egy-egy oldal igen (A/4-es formátumú könyv A/4-es szkennerrel);
  – ha a könyvet képtelenség annyira kinyitni, hogy a fekete csík eltűnjön középről, ugyanakkor ezen a részen fontos képrészletek vannak, amiket a csík takar.
  Kellemetlen, ha a könyv akkora, hogy egy-egy oldala (és nem oldalpárja) fér csak rá a szkennerre, mert ez azt jelenti, hogy száz oldalhoz nem ötvenszer, hanem százszor kell majd szkennelnünk, ráadásul folyton hajtogatnunk kell majd a papírt. De ha a könyv ekkora, nincs más választásunk.

12. Hogyan kell szétszedni egy könyvet?

Ha az olvasó kézbe vesz egy könyvet és tanulmányozni kezdi, észreveheti, hogy részekből áll. Lapozza föl például a 48. oldalt, majd anélkül, hogy itt becsukná, keresse meg a 64. oldalt. Tartsa úgy a könyvet, hogy csak ezen a két helyen legyen kinyitva, majd az elkülönített tizenhat oldalnyi részen hajtsa föl a papír alsó sarkát a belső (kötés felőli) oldalon. Azt fogja tapasztalni, hogy ez a rész hajlandó elválni az előtte és mögötte levő lapoktól, mintha egy kis füzet lenne beillesztve a könyvbe.
  Ez egy ív. A nyomtatott könyv tizenhat oldalas ívekből áll. Minden ív négy papírlapot tartalmaz, amiket egymásra tettek és így, együtt középen félbehajtottak. Az íveket ragasztó és vékony fonal erősíti egymáshoz, ami gyengéd erőszak hatására enged. Ha azonban nem egy egész ívet próbál kiemelni a könyvből, akkor papírt kell szakítania, márpedig szinte biztos, hogy a papír nem ott fog szakadni, ahol szeretné. Az eltépett lapokat pedig többé nem lehet úgy bekötni, hogy ne látsszon az egykori sérülés. Ezért alapszabályként le kell szögeznünk: papírt szakítani tilos, mindig egész íveket kell kivenni.
  Az ívhatárokat könnyű megtalálni. Az ív utolsó oldalának száma mindig tizenhattal osztható. Az első ív első oldala egyben a könyv első oldala; ez persze nem visel oldalszámot, de az első számozott oldaltól visszaszámolva megtaláljuk. Egyébként az első olyan oldal lesz, amin nyomtatás van. Az első ív elejét és az utolsó ív végét általában egy olyan papírlap köti össze a borítóval, aminek egyik felét a borító belső oldalára ragasztották, másik fele pedig könyvoldal (többnyire, de nem mindig üres). Ezt ne próbáljuk meg leválasztani a borítóról, mert csak céltalan rongálás lesz az eredmény. Ha van valami fontos ezeken a lapokon, szkenneljük be úgy, hogy a borító hozzájuk van erősítve.
  A különválasztott íveket már könnyű szkennelni, hiszen szépen kiterülnek az üveglapon. (Mindenesetre szebben, mint maga az egész könyv.) Ha egyenként kell szkennelnünk az oldalakat, akkor az oldalpár „passzív” tagját hajtsuk át az ív másik oldalára.

13. Hogyan tároljuk az oldalak képeit?

Úgy, hogy az az OCR programnak megfeleljen. A Recognita és az ABBYY Finereader kedvence a kétszínű TIFF formátum, ennek legtöbb változatát elfogadják. Minden oldalpárt tegyünk külön képfile-ba, amiket sorrendben számozzunk be. (Lásd följebb, a Hogyan szkenneljünk gyorsan? kérdésnél.) A TIFF azért is jó, mert ha például Recognitával szkennelünk és ABBYY-vel ismertetjük fel, akkor a kettő között semmilyen konverzióra nincsen szükség. A Recognita Save Image As parancsánál válasszuk a Standard G4 TIFF képformátumot, majd (az Advanced gomb megnyomása után) jelöljük be a teljes képek kimentését: Save Whole Image(s), valamint hogy minden oldalt külön file-ba mentsen: One File per Page, végül pedig a Pages to Save kérdésnél adjuk meg a kimentendő oldalakat: minden oldal. Ha például 123 oldalunk van, akkor ezt írjuk be: 1-123. Ez az összes oldalt jelenti majd. Végül adjunk meg egy file-nevet és nyomjuk meg az OK-t.
  Mindennek eredménye az lesz, hogy kapunk 123 darab képet, ha például névként egy s betűt adtunk meg, akkor s0001.tif, s0002.tif… s0123.tif neveken, mindegyikben egy-egy oldal (oldalpár) képével, szépen sorban. (Célszerű előzőleg létrehozni egy könyvtárat és oda tenni a képeket.)

14. Mi a teendő, ha kész a szkennelés?

Ha kész a szkennelés, vagyis a könyv minden oldalát beszkenneltük és kimentettük, akkor célszerű ellenőrizni, hogy tényleg így is van-e. Számtalanszor előfordult már, hogy hiányzott egy-egy oldalpár a könyvből; ez akkor szokott történni, amikor az ember lapoz, ráteszi a könyvet a szkennerre, közben valami eltereli a figyelmét, és amikor visszafordul munkájához, akkor megint fölveszi a könyvet és lapoz ahelyett, hogy a szkennert indítaná el. Tehát ellenőrizzük, hogy minden oldalpár megvan-e.
  Erre a célra az ACDSee-t használom, ami igen gyors és kényelmes képnéző. Egy könyvtár tartalmát úgy lehet végignézni benne, hogy közben csak a Page Down gombot kell nyomogatni. Érdemes pár dolgot beállítani (Tools, Options, Viewer): kapcsoljuk be a Shrink to fit window/screen és Zoom to fit window/screen, valamint a Full-screen és a View all images in folder jelölőnégyzeteket. (Ne felejtsük utána a Save settings gombot megnyomni.) Ennek eredményeként a könyvtárlistából Enterrel vagy dupla kattintással kiválasztott képek teljes képernyős módban jelennek meg, pontosan akkorára szabva, hogy a képernyőre ráférjenek, és a Page Up/Down gombokkal végig lehet lépkedni a könyvtár összes képén.
  Nézzük tehát végig az oldalpárokat és ellenőrizzük, hogy minden oldal megvan-e. Ha nem, pótoljuk a hiányt. Az utólag beszkennelt képeket például így lehet elnevezni: ha az előző kép neve s0097.tif volt, akkor az új kép neve lehet s0097a.tif. A Total Commander segítségével az ilyen képsorokat újra lehet számozni, de a felismeréshez ez nem szükséges, az OCR programnak csak a sorrend számít.

III. FELISMERTETÉS

15. Milyen OCR programot használjunk?

A neten körülnézhetünk ilyen programok iránt, de csak különböző „futottak még” kategóriájú, amatőr szintű szoftvereket fogunk találni, amik többsége nem tud magyarul. (Ha mégis talál az olvasó valami jó programot, ugye elmondja nekem is?) Használható szövegfelismerésre csak két program képes: a Recognita és az ABBYY Finereader. Mindkettő kereskedelmi szoftver, de vannak ingyenesen kipróbálható változataik.
  A Recognitát onnantól kezdve érdemes használni, hogy windowsos. (A korai verziók DOS alatt futottak.) Én a 4-essel dolgoztam sokat. A program a legtöbb európai nyelven ért, jókora latin betűs jelkészletből lehet válogatni. (Az 5-ös verzió a cirill betűket is ismeri.)
  Az ABBYY Finereader (röviden AFR) meglehetősen fiatal, én 2001 nyara óta tudok róla. Jelenleg a 6-os verziónál tart. Szintén nagyon sok nyelven ért, köztük számos cirill betűs nyelven, ugyanis orosz gyártmány. (A Recognita magyar eredetű.)
  Mivel művem nem arról szól, hogyan digitalizáltam könyveket, hanem hogy miképpen digitalizálok könyveket, a Recognita használatára most nem térek ki. 2001 nyara óta ezt a programot nem használom karakterfelismerésre; kizárólag arra a célra szolgál, hogy a szkennert kezelje, ugyanis az AFR eléggé lassúnak és nehézkesnek bizonyult magának a szkennelésnek a lebonyolításában.
  A válasz tehát a kérdésre: ABBYY Finereadert használjunk, mert ez ma a legokosabb OCR program. Legyünk figyelemmel arra, hogy miután a programot letöltöttük, töltsük le a szükséges nyelvi bővítéseket is, mert ezek nélkül csak angolul tud. A bővítéseket a program után kell telepíteni.

16. Hogyan dolgozzunk AFR-ben?

Az AFR-ben batch („köteg”) nevű dokumentumokkal dolgozunk. A batch oldalakból áll, akár több száz oldalból is. Minden oldalnak két fő összetevője van: a kép és a szöveg. A kép kétféleképpen kerülhet a batchbe: úgy, hogy megnyitjuk vagy úgy, hogy beszkenneljük. A szöveg úgy kerül a batchbe, hogy a képet felismertetjük.
  Amikor elkezdjük a munkát egy képpel, hozzunk létre új batchet a File menü New Batch parancsával. A batch külön könyvtárba kerül, amelynek helyét meg kell adnunk. Ezután célszerű a Tools menü Options parancsát választani és beállítani néhány főbb paramétert. (Amit itt nem említek, annak beállítása nem lényeges.) Recognition fül. Állítsuk be felismerési nyelvként (Recognition language) a magyart (Hungarian). Ha ez nem jelentkezik, töltsük le a magyar bővítést és telepítsük föl. Kapcsoljuk be a következőket: Autodetect layout (az oldal szerkezetének automatikus fölismerése), Clear background noise (a háttérzaj, vagyis a papír szemcsézettségéből vagy a nyomtatás hibájából eredő pöttyök eltüntetése), Print type: Autodetect (a nyomtatás technikájának automatikus fölismerése), Do not use user patterns (ne használjon felhasználó által létrehozott mintákat) és Use built-in patterns (használja a beépített mintákat). (A mintákat itt nem magyarázom el, majd később lesz róluk szó.) Formatting fül. Kapcsoljuk be, hogy Retain font and font size (a betűtípusok és -méretek megtartása), és kapcsoljuk ki a Keep pictures (képek megtartása) jelölőnégyzetet. Scan/Open Image fül. Kapcsoljuk be a Split dual pages (oldalpárok szétválasztása) és Detect image orientation (képállás felismerése) kapcsolót. Ezek nagyon fontosak. Az oldalpárok szétválasztása azt jelenti, hogy az egyetlen képként beszkennelt oldalpárt az AFR két képre vágja, amikor betölti a képet. Az eredeti kép nem változik, de a batchbe két külön oldalként kerül a kép két fele. Nagyon ritkán téved. A másik kapcsoló arra szolgál, hogy a program észrevegye, ha egy képet elforgatva kap, és helyes irányba állítsa.
  Ha mindez megvan, érdemes a General fülön található Save gombbal elmenteni a beállításokat, későbbi könyveknél csak vissza kell tölteni az alatta levő Load gombbal (a batch létrehozása után, de a képek megnyitása előtt, hogy az oldalpárok szétvágása már be legyen kapcsolva, amikor megnyitjuk a képeket).
  Most már megnyithatjuk a képeket. A File menü Open Images parancsával kikereshetjük a kívánt könyvtárat és kijelölhetjük az összes képet. Egy darabig eltart, amíg a program megnyitja őket, hiszen ketté kell vágnia az oldalpárokat, ellenőriznie kell a képek irányát, el kell tüntetnie a háttérzajt és le is kell adminisztrálnia a műveleteket.
  Ha elkészült, baloldalt megtaláljuk a batch tartalomjegyzékét, benne a képekkel. Meg tudjuk nézni őket, ki tudjuk nagyítani, el tudjuk forgatni, tükrözni stb. Általában azonban csak egyetlen műveletre lesz szükségünk: a Process menü Read All Pages parancsára, amelynek hatására a program szépen végigolvassa az összes oldalt. (Készüljünk föl rá, hogy ez oldalanként egy-két percbe, egy teljes könyvnél több órába is beletelik. De bármikor abba lehet hagyni. A művelet eredményét nem lehet, nem is kell kimenteni, a program minden fölismert szöveget azonnal beír a batchbe.)
  Ha a felismerés kész, nincs más teendőnk, mint kimenteni a szöveget. Válasszuk a File menü Save Text As parancsát. A megjelenő ablakban válasszuk ki az MS Word Document formátumot. Jelöljük be, hogy All pages (az összes oldalt menteni akarjuk), Create a single file for all pages (az összes oldalt egyetlen file-ba akarjuk menteni) és Retain font and font size (meg kívánjuk tartani a betűtípusokat és -méreteket). Kapcsoljuk ki a Keep pictures (képek megtartása) jelölőnégyzetet, és nyomjuk meg a Formats Settings gombot.
  A megjelenő ablak RTF/DOC fülén kapcsoljuk ki a Keep page breaks (oldaltörések megtartása) és Keep line breaks (sortörések megtartása) kapcsolókat, viszont kapcsoljuk be a Retain text color (szövegszín megtartása), Remove optional hyphens (feltételes kötőjelek eltávolítása) és Highlight uncertain characters – With text color (bizonytalan karakterek jelölése – szövegszínnel) kapcsolókat. A With text color alatt egy színes téglalap fog megjelenni; ennek megnyomásával tetszőleges színt választhatunk, a lényeg az, hogy emlékezzünk rá, mi volt az a szín. Nálam sötétzöld.
  Ha mindez kész, nyomjunk OK-t, a Save Text As ablakban pedig Save-et (ugye nem felejtettünk el nevet adni a dokumentumnak?). Némi procedúra után megkapjuk a dokumentumunkat, amit immár megnyithatunk a szövegszerkesztőben. A könyvoldalból szerkeszthető számítógépes dokumentum lett.

17. Hogyan tudjon jobban magyarul?

Érdemes némileg utánajárni a program nyelvtudásának, egész pontosan az írásjelek kezelésének. A Tools menüben van egy Language Editor nevű parancs, amivel a program által ismert nyelvek adatait lehet megnézni, megváltoztatni, sőt új nyelvet is lehet tanítani neki.
  Keressük meg a nyelvszerkesztőben a Main languages alatt a Hungariant, illetve ha más nyelvű szövegekkel dolgozunk, akkor azt. Jelöljük ki és nyomjuk meg az Edit gombot. Ekkor megkapjuk a Simple Language Properties ablakot. Itt az Alphabetnél találjuk a nyelv ábécéjét, amit a jobboldalt látható, három ponttal jelölt gombbal lehet megváltoztatni. A megjelenő táblázatban a Unicode egy részletét vagy egy kódlap tartalmát tekinthetjük meg, aszerint, hogy jobboldalt felül mit választunk. A Unicode subrange alatti választások végigpörgetésével megnézhetjük, milyen jeleket ismer a program. (Latin, görög, cirill, héber írás, és az írásjelek egy része.) A táblázatban kattintással kapcsolhatjuk ki-be, hogy az adott jel része legyen-e az illető nyelv ábécéjének.
  A magyar nyelvnél a betűkön kívül csak a kötőjelet és a pontot hagytam meg. Ha ez megvan, az előző ablak (Simple Language Properties) sarkában az Advanced gombot is érdemes megnyomni. Itt azt adjuk meg, milyen írásjelek szerepelhetnek bizonyos helyzetekben. Mindegyiknél a három ponttal jelölt gombra jelentkezik a karakterlista, ahol kiválogathatjuk a karaktereket.
  A következőkben a jelek megtalálási helyénél a dőlt betűs kifejezéseket (például Basic Latin) a Unicode subrange listájából kell kiválasztani. Punctuation marks adjoining to the beginning of word – a szó elejével egybeírható írásjelek. Itt a következőket adjuk meg:
  – nyitó ( [ { zárójelek (Basic Latin, a H betű fölött és a Z, illetve z mellett);
  – nyitó idézőjel (helyes nyomdai formája: „ – General Punctuation, és a legfelső sor utolsó előtti kockájában);
  – kötőjel (Basic Latin, az M fölött);
  – nyitó belső idézőjel (helyes nyomdai formája: » – Latin-1 Supplement, a második sorban jobbról az ötödik);
  – három pont (ezt soha nem úgy írjuk, hogy háromszor lenyomjuk a pont gombot, mert akkor esetleg elválasztja a szövegszerkesztő, hanem General Punctuation, a második sorban balról a hetedik a … jel).
  Semmi másra nincsen szükség, a túl sok jel megtartása csak olvasási bizonytalanságokat eredményez.
  Punctuation marks adjoining to the end of word – a szó végével egybeírható írásjelek. A következőket adjuk meg:
  – elemi írásjelek, nevezetesen felkiáltójel, százalékjel, vessző, kötőjel, pont, kettőspont, pontosvessző és kérdőjel (mindegyik megvan a Basic Latin első sorában);
  – bezáró ) ] } zárójelek (Basic Latin, nyitó párjaik mellett eggyel, illetve kettővel jobbra);
  – bezáró idézőjel (nyomdai alakja: ” – General Punctuation, első sorban jobbról a harmadik);
  – bezáró belső idézőjel (nyomdai alakja: « – Latin-1 Supplement, a második sorban a nagy É betűtől kettővel jobbra);
  – a három pont karakter (lásd fönt);
  – a csillag (lábjegyzet számára, Basic Latin, első sor).
  Standalone punctuation marks – önállóan előforduló írásjelek:
  – paragrafusjel (Latin-1 Supplement, második sor);
  – copyrightjel (ugyanott);
  – a három pont karakter (lásd fönt);
  – a nyomdászok által félkvirtmínusznak nevezett gondolatjel (a General Punctuation első sorában egymás után elhelyezkedő három vízszintes vonal közül a bal szélső).
  Characters ignored if in words – szavak belsejében figyelmen kívül hagyott karakterek. Ezzel, bevallom, még nem kísérleteztem, de érdemes lenne kipróbálni, vajon mi történik, ha megadjuk például a pontot és a vesszőt. Gyakori ugyanis, hogy a nyomás apró maszatjait pontnak vagy vesszőnek veszi a program, és a szó belse.jében előfor,duló írásjel lesz belőlük. Elképzelhető, hogy ezáltal törlődnek.
  Prohibited characters – tiltott karakterek. Itt felsorolhatjuk azokat a karaktereket, amik szövegben soha nem fordulhatnak elő, viszont az AFR hajlamos felismerni őket. (A „soha nem fordulhat elő” meredek állításnak tűnik, hisz ki tudja, milyen könyvekkel lesz még dolgunk, de gondoljon arra az olvasó, hogy például a ® jel nagyon ritka dolog szépirodalmi és tudományos szövegben egyaránt, de a programok hajlamosak beleképzelni mindenféle maszatba. Majd ha előfordul, betesszük kézzel; ha olyan mű kerül a kezünkbe, amiben hemzseg ez a jel, majd levesszük róla a tiltást.)
  Tiltott karakterként érdemes megjelölni
  – a „macskakörmöt”, vagyis a számítástechnikai " idézőjelet, valamint az ugyanilyen ' aposztrófot (Basic Latin, első sor);
  – a kvirtmínuszt (hosszú gondolatjel, a föntebb említett félkvirtmínusz mellett jobbra);
  – a logikai nem jelét (így néz ki: ¬ – elgondolhatjuk, milyen könnyű összetéveszteni egy picit elmaszatolódott kötőjellel –; Latin-1 Supplement, második sor);
  – a fokjelet (ugyanott; előfordul szövegekben, de sokkal ritkábban, mint ahogy a programok fölismerni vélik);
  – a pluszmínusz jelet (ugyanott; imádják a programok beleképzelni mindenfélébe);
  – a font, jen, dollár jelét (ugyanott, illetve a dollár Basic Latin, első sor);
  – a _ | ~ # jeleket (Basic Latin, első sor).
  Az így kistafírozott AFR remélhetőleg egy kicsit kevesebb szeméttel szórja majd tele dokumentumainkat.

18. Hogyan tanítsunk neki jeleket?

Az első kérdés persze az lenne, hogy mikor tanítsunk neki jeleket, de erre egyszerű a válasz: ha szükségét érezzük. Korábban (a Milyen könyv digitalizálható? kérdésnél) volt szó a nyelvi problémákról. Ha egy könyvben előfordul négy darab kínai írásjegy, azért nem érdemes tanítani a programot. Ha azonban ez a négy írásjegy összesen háromezerszer fordul elő, hol ez, hol az, akkor már érdemes tanítani. Persze kínaiul nem tud az AFR, de megtehetjük, hogy megtanítjuk neki: ha ez az írásjegy fölbukkan, tegyél a szövegbe egy ilyen jelet – ha az az írásjegy bukkan föl, egy amolyan jelet. A helyettesítőként választott jelek bármik lehetnek, például idegen ékezetes betűk, amik egyébként nem fordulnak elő a szövegben.
  Tanításra lehet szükség rossz minőségű eredeti esetén is, vagy ha olyan különleges betűtípussal írták, amivel az AFR nem boldogul. (Ilyen betűtípussal még nem volt dolgom.) Tanítással elvileg még akár kézírást is fölismerhet, de azért ne tápláljunk vérmes reményeket ez irányban. A tanítást úgy kezdjük, hogy a Tools menü Options parancsát kiadva kiválasztjuk a Recognition fület, és bejelöljük, hogy Train user pattern (felhasználói minta tanulása). A „felhasználói minta” egy file, ami sok-sok megtanulandó jelet tartalmazhat. Hozzuk ezt nyomban létre a Pattern Editorban a New gombbal.
  Ezután kezdjük meg a felismertetést ugyanúgy, mint máskor. Egyszer csak meg fog jelenni egy Pattern Training nevű ablak, ami a szövegünk egy kis részletét tartalmazza szürkével, benne egy karakter feketével, bekeretezve. Ez a problémás jel.
  Ha nem a kívánt jelet látjuk, hanem annak csak egy részletét, avagy belelóg a szomszéd karakter is, akkor a << vagy >> gombokkal változtassunk a határokon. Ha a kívánt karaktert látjuk, akkor az Enter the character enclosed by the frame (írja be a bekeretezett karaktert) dobozba írjuk be, hogy mi ez a karakter voltaképpen. (A három pont gombbal megkapjuk a jelkészletet.) Ha akarjuk, megadhatjuk, hogy a jel milyen kiemelést visel (bold – félkövér, italic – dőlt, superscript – felső index, subscript – alsó index). Végül nyomjuk meg a Train gombot. Ekkor a jelünket az AFR megtanulta.
  Ha a továbbiakban ezt a rajzot látja, akkor a megadott karaktert (vagy karaktereket, mert többet is be lehet írni, „fj” vagy „@@”) fogja a felismert szövegbe helyezni.

IV. JAVÍTÁS

19. Mivel kezdjük?

Jómagam Word 6-ban dolgozom, de a verziószám nem lényeges. Mindenképpen profi szövegszerkesztőt használjunk, amiben el lehet készíteni a könyvet.
  Az AFR sajátossága, hogy MS Word Document gyanánt RTF file-okat hoz létre, amik sokszorta nagyobbak a Word-dokumentumoknál, és hosszas konvertálgatást igényelnek. Legjobb, ha mindenekelőtt kimentjük a szöveget Word-dokumentumként.
  Mindenekelőtt végezzünk némi előkészítést. Az AFR fehérrel beárnyékolja az egész szöveget, ezt vegyük le róla: Formátum, Szegély és árnyékolás, Árnyékolás, Nincs jelölés.
  Ezt követően szoktam lefuttatni szövegszkennelés-előkészítő makrómat. A makró feladata, hogy eltüntesse a szövegből a nemkívánatos elemeket, egységes formátumot alakítson ki és beszínezze a szöveget. Javítás közben ennek nagyon nagy haszna lesz. A színekhez kommentárként meg kell jegyezni, hogy én fekete háttéren fehér (pontosabban világosszürke) betűkkel használom a Windowst. Ha az olvasó nem, a világos színeket cserélje ki sötétekre. De melegen tudom ajánlani ezt a színelosztást, sokkal kevésbé fárasztja a szemet, mint a fehér háttér.
  Magát a makrót nem mellékelem, mert más szövegszerkesztőben nem működne, ehelyett elmondom lépésről lépésre, mit csinál. Az olvasó reprodukálhatja saját programjában.
  1. A fekete karaktereket „automatikus” színűre cseréli. Ezt akkor is érdemes megtartani, ha az olvasó fehér háttéren dolgozik. Az „automatikus” színű szöveg rugalmasabb, minden háttéren olvashatóan jelenik meg.
  2. A sötétzöld karaktereket világoszöldre cseréli. Ezek az AFR által bizonytalannak minősített jelek.
  3. Kijelöli az egész szöveget és megformázza 12 pontos Times New Roman CE betűtípussal. (Én a Wordben kétszeres nagyítással dolgozom, a 12 pontos szöveg 24 pontosnak látszik. 640·480-as felbontással, teljes képernyős módban tizenkét sor látszik a képernyőn. Ez bőven elég; sokkal fontosabb, hogy jó nagyok legyenek a karakterek és könnyű legyen fölismerni, megkülönböztetni őket.)
  4. Minden bekezdést megformáz úgy, hogy se balról, se jobbról ne legyen behúzás, ne legyen előttük-utánuk térköz, szimpla legyen a sorköz és balra legyen igazítva a szöveg.
  5. A dupla szóközöket szimplára cseréli. (Ezt többször kellene végrehajtani, mert ezzel a módszerrel nyolc egymást követő szóköz helyén még mindig négy marad, de első előkészítésnek ennyi is megteszi.)
  6. A szóköz–kötőjel–szóköz jelsorozatokat szóköz–gondolatjel–szóköz jelsorozatokra cseréli. (Gondolatjel: lásd a félkvirtmínuszt a Hogyan tudjon jobban magyarul? kérdésnél.)
  7. A szóköz–kötőjel–vessző jelsorozatokat szóköz–gondolatjel–vessző jelsorozatokra cseréli.
  8. A szóköz–vessző, szóköz–pont, szóköz–pontosvessző, szóköz–kettőspont, szóköz–kérdőjel és szóköz–felkiáltójel párokat vesszőre, pontra stb. cseréli, tehát eltávolítja előlük a szóközt.
  9. A pont–pont–pont jelsorozatokat a három pont karakterre cseréli (lásd a Hogyan tudjon jobban magyarul? kérdésnél).
  10. Törli a tabulátorokat, a sortöréseket, a kézi oldaltöréseket, a nem törhető elválasztójeleket, a nem törhető szóközöket, a feltételes elválasztójeleket és a szakasztöréseket.
  11. Az aposztrófokat aposztrófra cseréli. (A Wordben az Eszközök, Automatikus javítás, ’Írógép idézőjelek’ helyett nyomdai jelek kapcsolóval automatikussá lehet tenni, hogy nyomdai aposztrófok és idézőjelek kerüljenek a szövegekbe például csere alkalmával. Nálam ez be van kapcsolva, tehát elég a sima aposztrófot ugyanolyan aposztrófra cserélni, a többi az ő dolga.)
  12. Törli a fordított aposztrófokat és az aláhúzásjeleket.
  13. A nagy I betűket pirosra színezi.
  14. A kis hosszú í, ő és ű betűket ciánkékre színezi.
  15. A pont és kettőspont jeleket, valamint az 1-es számjegyeket sárgára.
  16. Az Enter–kötőjel jelsorozatokat Enter–gondolatjel jelsorozatra cseréli.
  17. A " idézőjeleket „ idézőjelekre cseréli.
  18. A kötőjel–kötőjel jelsorozatokat gondolatjelre.
  19. A ~ jeleket piros @-ra cseréli. (Ez az AFR-ben a föl nem ismert jeleket jelzi. A piros @ feltűnőbb.)
  20. A pontosvesszőket pirosra színezi.
  21. A „cscs” betűsort „ccs”-re cseréli, egyúttal bepirosítva. (Ha ugyanis sor végén el volt választva, például locs-csan, akkor az AFR ebből a locscsan alakot hozza ki [kivéve, amikor még a kötőjelet is benne hagyja, de hát ő se tökéletes], ezért kicseréljük loccsan formára, de pirossal be is jelöljük, hogy felfigyeljünk majd rá, amikor ugyanettől a kulcscsomó is átváltozik kulccsomóvá.) Hasonlóképpen a „gygy”, „lyly”, „nyny”, „szsz”, „tyty” és „zszs” átváltozik piros „ggy”, „lly”, „nny”, „ssz”, „tty” és „zzs” betűkké.
  22. Világos fehérre színezi a „gv”, „lv”, „nv” és „tv” betűkapcsolatokat. (Gyakori, hogy az y-nak lemarad az alsó szára, ezért figyelmeztet minket arra, hogy nézzük meg ezeket a kapcsolatokat.)
  23. A „gy”, „ly”, „ny” és „ty” betűkapcsolatokat „g@@”, „l@@”, „n@@”, illetve „t@@” jelsorozatokra cseréli. (Magyarázat később.)
  24. Az y betűket világoslilára színezi.
  25. A „@@” jelpárokat „automatikus” színű y betűre színezi. (A 23–25. lépés eredménye az, hogy világoslila lesz minden olyan y, ami nem része gy, ly, ny vagy ty betűnek, tehát például a cy, dy stb. betűkapcsolatok ipszilonjai. Mivel magyar szövegben az y csak e négy kettősbetű részeként fordul elő, az egyéb eseteket figyelemfelhívólag beszínezzük.)
  26. Törli a szorzópontokat.
  27. Az Enter jeleket „Enter–szóköz–szóköz” jelsorozatokra cseréli. (A bekezdések elején levő behúzást ezzel szoktam csinálni.)
  28. A kvirtmínuszokat félkvirtmínuszokra cseréli. (Lásd Hogyan tudjon jobban magyarul?)
  29. A nagy magyar hosszú ékezetes betűket (Á, É, Í, Ó, Ú, Ő, Ű) világoszöldre színezi.
  30. A nagy rövid Ö és Ü betűket sárgára.
  31. A szó végén elhelyezkedő „án” és „én” betűpárokat világoslilára színezi. (Az AFR sajátossága, hogy ilyen szavakat ad: pontosán, helyesén, amik nyelvtanilag helyesek, ezért a Word helyesírás-ellenőrzője sem akad fenn rajtuk. Nekünk kell észrevenni őket.)
  Nem tagadom, makróm eléggé rendezetlen. Több év alatt formálódott ilyenre, ahogy hozzáírogattam, bővítgettem.

20. Hogyan javítsunk?

A javítás egyszerű dolog, de gyorsnak nem mondható. Végig kell olvasni a könyvet és minden hibát kijavítani. A gyakorlatban persze ez nem ilyen egyszerű, a hibákat észre is kell venni. Ha az olvasó eljutott idáig, már több segítsége is van a hibák észrevételéhez:
  – a szöveg színezése felhívja figyelmét a problémás jelekre, jelcsoportokra;
  – a kétszeres nagyítástól 24 pontossá vált szöveg nagyon könnyen felismerhető;
  – a fekete alapon világosszürke betűs szöveg kevésbé fárasztja a szemet.
  (Egyes hibák persze már el is tűntek a szövegből az előkészítő makró hatására.)
  Tegyük ehhez még hozzá, hogy érdemes az Eszközök, Egyebek, Megjelenítés, Nem nyomtatható jelek – Bekezdésjelek jelölőnégyzet bekapcsolásával láthatóvá tenni a bekezdésjeleket, amiket „söröskrigli” jel (¶) fog jelölni.
  Javítás közben persze az eredetit is látnunk kell. Ezt legkönnyebben az ACDSee-ben tehetjük meg. A képet akkorára nagyítjuk a tízes billentyűzet + és – gombjai segítségével, hogy a szöveget jól tudjuk olvasni és kiférjenek a sorok a képernyőre. A nyilakkal tudunk mozogni az oldalon. Az Alt-Tab segítségével váltogathatjuk a Wordöt és az ACDSee-t.
  Amikor elkészülök egy oldalpárral, én általában azonnal le is törlöm a képet, így mindig a könyvtárban levő legelső kép az, ahol folytatnom kell a javítást. Persze előzőleg elteszek egy archivált másolatot az összes képről.
  A képet nem kell gyakran megnézni, csak ott, ahol nem sikerült a felismerés és érthetetlen jelkombinációk kerültek a szövegbe; ilyenkor átlépünk a képre, megnézzük, minek kell ott lennie és betesszük. Ha magunktól is tudjuk, mi kellene a szövegbe (például a „terméQQetesen” szó elég egyértelműen javítható), akkor persze nem kell a képre nézni.
  Érdemes odafigyelni arra, hogy az AFR gyakran eltéveszti a bekezdések kezdetét és végét. Ha például egy sor gondolatjellel kezdődik, azt hajlamos bekezdés kezdetének venni, akkor is, ha ott valójában az előző sorban megnyitott gondolatjel párja van. Ha a mondat vége és a sor vége egybeesik, hajlamos a következő sort már új bekezdésnek venni, főleg ha ráadásul az oldal vége is ugyanitt van. Ezért célszerű a bekezdéshatárokat egyeztetni a képekkel.

21. Milyen utómunkákat végezzünk?

Ha a javítás kész, a teljes szöveget „automatikus” színűvé teszem és hozzálátok az utómunkához. Ehhez először is létrehozok egy másik file-t (előtte kimentem a szöveget!), ami a könyvet „csak szöveg sortöréssel” formátumban tartalmazza. Majd lefuttatok két segédprogramot és egy DOS-parancsot.
  1. Words programom szétszedi a „csak szöveg”-ként kimentett könyvet, minden szót külön sorba téve:
  és
  lőn
  este
  és
  lőn
  reggel,
  harmadik
  nap.
  2. A DOS sort parancsával ábécébe rendeztetem a Words program által készített file-t:
  és
  és
  este
  harmadik
  lőn
  lőn
  nap.
  reggel,
  3. Wordone programom a rendezés eredményeként kapott file-ból kidobja a szóismétléseket:
  és
  este
  harmadik
  lőn
  nap.
  reggel,
  (Azért kellett ábécébe rendezni, hogy az ismétlődő szavak egymást kövessék, másképpen a program nem találja meg az ismétléseket.)
  Ha mindez kész, akkor van egy file-om, ami a szöveg összes szavát tartalmazza, de csak egyszer. Ez volt a művelet célja.
  Most a Wordben megnyitom a rendes, Word formátumú könyvet, s mellette az így létrehozott szólistát is. Utóbbit megformázom az Eszközök, Nyelv paranccsal magyar nyelvűnek, és ráküldöm a Word helyesírás-ellenőrzőjét. Ha hibás szót talál, átmegyek a másik ablakba, ott megkeresem a szót és kijavítom. (Vigyázat: a szó minden előfordulását ki kell javítani, hiszen többször is szerepelhet!)
  Miért nem küldöm a helyesírás-ellenőrzőt az eredeti, cincálatlan szövegre? Mert eluntam, hogy állandóan megakad az ismétlődő idegen neveken. Egy példa: Arthur Ransome Fecskék és Fruskák című könyvében 588-szor fordul elő a Titty név. És persze nem lehet azt mondani a helyesírás-ellenőrzőnek, hogy tanulja meg, mert van Tittyé, Tittynek, Tittyéknek, Tittytől stb. Vagy vegyük Botond-Bolics György Idegen bolygón született című könyvét, ahol 385-ször fordul elő a különleges vénuszi fém, a pantagonit neve, -nak, -ot, -tal, -ról, -ra, -ból stb. ragokkal kiegészítve, nem beszélve a vele képzett összetételekről. Ezeket mind megtanítani fáradságos és időrabló feladat. Az ábécébe rendezett listában azonban ezek egymás alatt sorakoznak, s amikor a program a legelső ilyen szónál jelez, akkor megállítom az ellenőrzést, és az ismeretlen név vagy szó különböző toldalékolásainak hosszú sora után folytatom megint. Persze azért azt is átnézem, mert lehet benne hiba. (Elvem, hogy a helyesírás-ellenőrző a lehető legritkábban álljon meg. Ha ugyanis folyton megáll, egy idő után az ember elfárad és kezdi automatikusan továbbküldeni a programot. Csak akkor álljon meg, ha tényleg oka van rá.)
  Ha a helyesírás-ellenőrzés ily módon elkészült, akkor kész a könyv. Nincs más teendőm, mint archiválni Word-dokumentumomat és beleírni erről szóló listámba: ezt a könyvet is beszkenneltem.

V. PUBLIKÁLÁS

22. Hogyan publikáljuk?

Minden kész tehát, a könyv sikeresen bedigitalizáltatott – az olvasó hátradőlhet és élvezheti babérjait. Azaz mégsem. Csak a könyvet élvezheti, babérok nincsenek, hiszen a világ semmit sem tud munkájáról. Értesíteni kellene.
  Jómagam erre a MEK-et használom kezdettől fogva. A beszkennelt művekről értesítem őket és a műveket föltöltöm a MEK szerverére. A többi a könyvtárosok dolga. Ők rendezik a könyv jogi helyzetét, megszerzik a szerző vagy jogutód engedélyét a netes publikálásra. Mármint ha tudják. Ha nem tudják, akkor a könyvet beteszik a könyvtár nem nyilvános raktárába, ahol majd az utókor megtalálja.
  Persze azt is lehet, hogy az ember előre megkérdezi a könyvtárosokat, publikálhatónak tartanak-e egy bizonyos könyvet, és csak igenlő válasz esetén kapcsolja be szkennerét. Ha az olvasó mielőbb látni szeretné munkája eredményét a MEK nyilvános polcain, tegye ezt. Jómagam azonban, mint mondtam, saját céljaimra digitalizálok, s nem különösebben fontos számomra, hogy mikor jelenik meg a mű a nyilvános polcokon. A publikum amúgy is tudhat munkám eredményéről, hiszen a digitalizált könyvek címjegyzéke megjelenik honlapomon is.

LINKEK