Könyv digitalizálás

2017-07-30

2017-06-17

 

Az elmúlt napokban a weben megint belegabalyodtam a könyv digitalizálás témába. Foglalkoztam vele már korábban is:

Repro keret - 2011-12-31

Repro fotózás - 2010-07-14

Az embereket két részre lehet osztani. Fej - tor - potroh. Ja nem. Szóval van aki a könyvet papír formába szereti a kezébe venni, lapozgatni, olvasni, és a másik csoport, aki a könyveket elektornikus formában, számítógépen, e-book reder-en, tableten, vagy mobil telefonon olvassa. Sok könyv hozzáférhető az Interneten keresztül, de persze van ami nem, de ott van a könyvespolcunkon. Alapvető probléma, hogy általában a könyvet nem szeretnénk széttépni. Széthajtva rátehetjük a scannerre, de a lapok tartalma a ragasztott felüknél görbül, nem lesz szép az eredmény, az OCR programok is belezavarodnak.

Akit érdekel a téma, rákereshet a könyv digitalizálás, scan-nelés támára akár Google-n akár az Youtube-on. Még jobb ha book scanner-t próbálunk keresni. Akit az otthon megvalósítható dologok érdekelnek, annak diy book scanner-t kell keresnie. Alapvetően sok dolgot találtam, azután jórészt elvetettem. Nagy részük nagyon komplikált... rosszindulatúan kategóriákba soroltam őket. Vannak az asztalosok, mindent fából csinálnak, jó ha van faipari gépparkuk, ha utánuk akarjuk építeni a készülékünket. Vannak a lakatosok, kovácsok, ha utánuk akarjuk csinálni, nem baj ha van egy CNC megmunkáló központunk a gardróbban. Vannak a japánok, nem túl bonyolult megoldásaik vannak, de nagyon precízen el van készítve, nem tudom hogyan csinálják. És akkor jövök én a minimalista panellakó, aki abból dolgozik, amije van.

A legtöbb DIY eszközben egy V alakú ágyba fektetik be a könyvet, majd jobbról/balról két fényképezőgéppel exponálnak. Ehhez ugye kell építani egy mechanikát, azután kell hozzá két egyforma gép. Nyilván lehet ezt olcsóbban is csinálni, egy géppel egyszerre csak egy lapot fényképezni, azután a a könyvet forgatni/lapozni. Ez a megoldás alapvetően tetszett. Kicsit tovább gondolva, a könyvet falhoz állítottam, pontosabban egy kimustrált UPS-hez, de lehetett volna simán a PC háza is, majd oldalról fotóztam.

A fenti képen is látható, hogy általába mindkét kezünkre szükségünk van. Ezért készítettem a CANON gépemhez egy lábkapcsolót. A kapcsolót 600HUF ért vettem, szerencsére korábbról volt még egy 2,5 mmm-es jack dugóm. Egyébként találtam egy szédületes videót ennek mechanikus megoldására is, amikor az elkövető egy labdát nyomkodott, ami egy gumi csövön keresztül egy tölcsérben elhelyezet labdába pumpálta a levegőt, ami egy kis kart mozgatott, ami elkattintotta a gépet... így is lehet.

A bekötés az alábbi írásom alapján készült:

Canon EOS távirányító - 2008-02-12

Az volt a problémám, hogy a lap ha nem is nagyon deformálódott a fotón, de a könyv lapja sokszor nem volt fókuszban. Persze ehhez az is hozzátartozik, hogy az objektívet manuális fókuszra állítottam, mivel ugye a könyvet szándékom szerint nem mozgattam. Sajnos amilyen vastag papírra nyomtatják ma a könyveket (30-50mm), átlapozás közben is ki tudunk kerülni a fókuszból. Az is előfordult, hogy lapozgatás közben annyira elcsúsztattam a könyvet, hogy a lap kilógott a képből. Az Interneten látható legtöbb eszköznél egy üveglappal szorítják le a könyvlapokat, én is ebbe az irányba fordultam. Csak persze nem úgy mint mások. Az üveglapot az asztalomhoz rögzítettem,és a könyvet alulról kézzel szorítottam hozzá. Persze rá is lehett volna tenni mint egy scanner-re, de annyiban kényelmetlen lett volna, hogy akkor a lámpákat is az asztal alá kellett volna tennem, és munka közben nem látom mit fotózok. Előnye is lett volna, a könyv lapot egyszerűen a gravitáció rásimította volna, és talán egyszerűbb lett volna gépet is rögzíteni. Szóval előkerestem a döglött scannerből kiépített üveglapomat, amit már korábban is használtam:

Nagy negatív küzdelem - 2014-05-19

Mivel nélkülöznöm kell a jól felszerelt műhelyt, egyszerűen egy szorítóval, egy darab parkettával és egy darab újságpapírral segítségével rögzítettem az üveglapot az asztalom szélén. Nem kell félni, az üveg nem is annyira törékeny, másrész nagyon fixen tartott a leszorítás. Használat előtt az üveget denaturált szesszel áttöröltem.

Itt látható a végleges elrendezés. Sokat segített, hogy anno olyan Manfrotto háromlábat választottam, aminek a függőleges oszlapát ki lehet billenteni vizszintesen. Persze a gép súlyától el akart billenni, ezért egy ellensúlyt kellet akasztanom a kar monitor felöli végére. Ez a rész eléggé sötétben maradt, de gondolom valahogy mindekinek sikerülni fog a gép felfüggesztését megoldani. Én két lámpát használtam, meleg fényű kopakt fénycsővel, de elég lehet egy is. Célszerű a CANON távirányító programjával a képernyőn (nagyobb méret) beállítani a gépet, poziciót, fókuszt... A könyv itt az üveglapon van, tekintve, hogy valahogy le kellet fotóznom. A munkához a lapjait az üveglaphoz alúlról felfelé szorítottam hozzá.

Én ezeket a beállításokat használtam. A zoom objektívem függőlegesen lefelé mindig kicsúszott. Már majdnem szigetelő szalaggal rögzítettem, amikor eszembe jutott a 35mm 1:2 obim, amit végül is használtam. A mélységélesség csökkentése érdekében egy kicsit lerekeszeltem az objektívet. Így ugye kevesebb fényt kap a gép, amiért az érzékenységét megemeltem. Szerintem nagyjából bármilyen fényképezőgép alkalmas a feladatra, ha eléggé megvilágítjuk a lapokat. Lehet olcsóbb kompakt gépet is használni. Egy olyan megoldást láttam, ahol a kis gépnek nem volt távirányítási lehetősége, a házát megpontották, és az exponáló gomb érintkezőihez forrasztották a távkapcsoló vezetékét.

Itt látható egy lap sarka. Kihasználtam az üveglap sarkát, a könyv sarkát ehhez ütköztettem, hogy a könyv lapja fix helyen legyen a képen. Ezt a képet az eredetiből vágtam ki, a felbontását a felére csökkentettem. Sajnos még nincsenek robotjaink, rabszolgát meg már nem illik tartani... szóval magad uram, ha szolgád nincsen. Egy 400 oldalas könyvvel kb. 50 perc alatt végeztem. Az eredmény nagyjából 1,5 GB fotó.

Előbb a páros oldalakat kattingattam végig, azután megfordítottam a könyvet, és a páratlan oldalakat. Külön mappába tettem őket, és a Total Commander Csopoortos átnevezés menüpontjával módosítottam a képek nevét, az alábi screen shot szerint. Azután egy mappába kerültek az oldalak, és már csak egy könyvet kellet volna csinálni belőlük.

Nem a fotózás a legidőígényesebb művelet, hanem az utómunka. Következő kérdés, hogy mit szeretnénk? Talán a legegszerűbb, ha az egészet megetetjük egy OCR programmal. Az én tippem az ABBYY FINEREADER. Fájdalmas, hogy 60 kHUF-ba kerül. Viszon a fotókkal csak annyit kell csinálnunk, hogy betápláljuk a proginak. Szépen beforgatja őket, feltérképezi az olvasható területeket, persze ehhez idő kell neki. Ezután manuálisan be lehet avatkozni, a nem kívánt területeket lehet törölni, ki lehet javítani amiben a program bizonytalan. Kimeneti formátumok tekintetében választhatunk az MS Office és az OpenOffice (LibreOffice) formátumai között, de kérhetünk PDF, DJVU, vagy plan text kimenő file-t is. A programnak nem csak a felülete magyar, hanem a magyar helyesírásban is eligazodik. Érdekes, hogy kérhetünk OCR-ezett PDF-t, amikor a kimenő file-ban a lapok úgy néznek ki mint a képeken, a szöveget meg erre az alapra ráteszi, ki lehet jelölni, illetve ki lehet másolni. Azután szeretném még felhívni a figyelmet a DJVU formátumra, ami talán nem annyira elterjedt mint a PDF, de számos szakkönyv hozzáférhető benne. Az az érdekessége, hogy a könyv tulajdonképpen bitmap-ben van rögzítve, de jól optimalizált esetben pl egy 368 oldalas könyv elfér 6.8 MB-ban. Az általánosan használt Adobe Acrobat Reader helyett javaslom a Sumatra PDF Reader -t. Kissebb, megbízhatóbb mint az Adobe terméke, megbírkózik a PDF, DJVU, EPUB, MOBI, meg még más formátumokkal is. A repro/bitmap jellegű másolatokhoz taláható programok közül talán hármat szeretnék kimelni.

Booksorber

Ez egy ígéretes program, ehhez még annyi sem kell, mint amit én csináltam, elég a könyv fölé állítanunk a gépet, és a könyvet lapozgatni. Sajnos a letölthető demo verziója nem sokat csinált, nem tudtam megismerni a valódi képességeit.

Yet Another Scan Wizard

Ez a program GNU, vagyis ingyenes. Szép, korrekt eredményt érhetünk el vele, de minden oldalt külön be kell állítanunk. Első sorban repro jellegű munkához ajánlanám.

ScanTailor

Ez a program is ingyenes. Könyebben be lehet állítani az oldalakat, de talán inkább olyan munkához alkalmas, amikor nem a könyv eredetijére, hanem inkább csak a tartalmára van szükségünk.



2017-07-30

Időközben eltel másfél hónap, és szokásomhoz híven igyekeztem belemenni az összes zsákutcába. Jó Apám mondogatta, hogy a szamár a saját kárán tanul, szóval legyen mindenki az én példámon okosabb, kiegészítem az írásomat a tapasztalataimmal. Itt látjátok, hogy az üveglapot két nagyobb műanyag szorítóval is rá lehet az asztalra erősíteni. Azután látható, hogy az üveglap szélére montage szalaggal (kétoldalas ragasztó) felragasztottam két sarokvasat, azokra keresztbe meg egy vonalzót. Ez azért célszerű, mert ha a kezünkkel tartjuk a lapokat, előfordulhat (nekem előfordult), hogy a kezünk belelóg a fotóba. Utólag nagyon boszantó, hogy a sérült lapot vagy újra kell fotózni, vagy be kell gépelni a hiányzó szöveget.

A másik ötletem az volt, hogy a fotó állványom melső lábait a padlóra támasztottam le, így a gép már nem tudta előre dönteni, nem kellet az ellensúly.

Itt látható amint munkát imitálok. Rejtő Jenő nagy kedvencem, de a művei hivatalosan letölthetők az Internetről, ezért valójában nem futottam neki a digitalizálásának. A fotókat leggyorsabban és legegyszerűbben a ScanTailor programmal lehet feldolgozni, előkészíteni OCR, DJVU vagy PDF-hez. Igyekezzünk a gépet pontosan könyv lapjának közepe fölé állítani, mert nekem az volt a tapasztalatom, hogy a trapéz torzítással a program nem nagyon tudott megküzdeni. A pontos szép felvételek megkönnyítik az OCR program dolgát, nagyon nem mindegy mennyi hibát kell javítanunk a feldolgozott szövegben. A túl bagy felbontás is lassítja a munkát, de fentebb írtam az ajánlott beállításokról.