Cześć! Mimo, że w pierwszym poście napisałem „Jak to się wszystko zaczęło” to cały czas z tyłu głowy siedzi mi myśl, że przeznaczenie i zawartość strony może nie być dla wszystkich dobrze zrozumiała (a może po prostu sam jeszcze nie wszystko przemyślałem?). Dlatego postanowiłem, że opiszę Wam kilka historii, które wydarzyły się w NAC. Zapraszam.
Historia I
Mój kolega musiał bardzo często przetwarzać spisy zespołów, które były przekazywane do NAC w celu ich konwersji. Te spisy przychodziły w dość różnej formie chociaż najczęściej były to arkusze kalkulacyjne (pliki Microsoft Excel) gdzie każdy zespół był w osobnym wierszu. Owszem wygodna forma, jednak na podstawie tych spisów mój kolega musiał również stworzyć pismo i żeby ograniczyć ilość stron tego pisma, zespoły zapisywał w postaci zakresów. O ile przy kilku zespołach raczej nie było problemów to jednak w większości przypadków tych zespołów było dużo, a ich numery nie zawsze następowały po kolei. Zaproponowałem mu więc, że napiszę program, który utworzy dla niego te zakresy automatycznie po wklejeniu zawartości spisu, który dostawał z innych archiwów. Tak powstał program Range Finder. Do jednego okna wkleja się nr zespołów jeden po drugim (skopiowane ze spisu) i po wciśnięciu przycisku, w drugim oknie wyświetlają się zakresy, zarówno jeden pod drugim lub po przecinku. Później trochę zmodyfikowałem Range Findera tak żeby można było pobrać listę zespołów czy tez sygnatur bezpośrednio z dysku i przetworzyć w sposób, który opisałem wyżej. Pomyślałem sobie, że mi też coś takiego się przyda przy pisaniu sprawozdań z wykonanej pracy :). Z Range Findera korzystali również stażyści w ANK, wypełniali za jego pomocą informacje o zapisanych (bądź niezapisanych) stronach na metryczkach. Przynajmniej tak słyszałem
Historia II
Pewnego dnia do NAC trafiły skany z jakiegoś prywatnego archiwum, które owszem stosowało system przechowywania tych plików jednak był on dość dziwny, skomplikowany, a już na pewno niezgodny z tym, który mamy w Archiwach Państwowych. To stanowiło spory problem, bo wręcz niemożliwe było wpisanie ich w ZoSIA ani udostępnienie. Trzeba było zrobić z nimi porządek i jakoś „przetłumaczyć” system z prywatnego archiwum na nasz. Początkowo było to przerażające zadanie, bo tych plików było całkiem sporo i nie do końca rozumiałem system nazewnictwa. Gdy uzyskałem niezbędne informacje od kolegi, który przedstawił mi problem i doszedłem już co w nazwie pliku jest sygnaturą, co zespołem, a co serią zabrałem się za pracę. Stworzyłem program, który najpierw zmieniał oryginalne nazwy plików tak aby wyłuskać z nich zespoły, serie i podserie i jednostki, a z tak wydobytych klocków budował prawidłową (wg. naszych standardów) strukturę katalogów i nazwy plików. Tu muszę szczerze przyznać, że akurat przypadek z tej historii to jednorazowa rzecz i pisanie programu to mógł być przerost formy nad treścią, bo napisany przeze mnie program był użyty tylko raz do tego konkretnego zadania i do żadnego innego się nie nada. Oczywiście można było robić to ręcznie, ale po co skoro można stworzyć do tego automat? ;).

Niestety w chwili pisania tego tekstu nie mam dostępu do mojego programu i nie mogę wstawić obrazka. Zresztą z zewnątrz to nie było nic widowiskowego, program działał w tle i trzeba było go tylko uruchomić i czekać, aż skończy. Mogę wam za to pokazać program, który napisałem żeby sobie ułatwić rozpracowanie algorytmu, który budowałby nowe nazwy ;).
W każdym razie jest to dobry przykład tego o co będziecie mogli pytać na tej stronie. Nawet jeśli jest to jednorazowy problem i są bardzo nikłe szanse, że się w przyszłości powtórzy to i tak śmiało pytajcie (no chyba, że zależy Wam na czasie, ja niestety muszę mieć czas żeby napisać program). Może przyda się komuś innemu.
Historia III
Zanim opowiem tą historię to tak na szybciora chciałbym przedstawić specyfikę skanowania mikrofilmów w NAC, bo pomoże to zrozumieć przedstawiany problem. Otóż skanowanie mikrofilmów jest znacznie szybsze niż skanowanie dokumentacji aktowej czy fotografii. Generuję znacznie więcej plików. Aktualnie moja norma tygodniowa to 20 000 skanów. Bardzo często są to dziesiątki różnych zespołów i setki sygnatur (a jak AP było łaskawe to również dziesiątki serii), które trzeba w konkretny sposób uporządkować na dysku. Pliki muszą być umieszczone w konkretnej strukturze, w odpowiednim katalogu i posiadać konkretną nazwę. Właśnie w związku z tymi ilościami tworzonych kopii cyfrowych i ilością zespołów i sygnatur jest to dość mozolna praca i łatwo o pomyłkę, szczególnie, że w NAC skanujemy mikrofilmy ze wszystkich AP w Polsce. Pod tym względem skanowanie materiału aktowego jest łatwiejsze, bo w większości przypadków programy do skanerów aktowych posiadają odpowiednie funkcje, dzięki którym można te pliki podzielić już na etapie przygotowania do skanowania. Pracownik bierze księgę czy też teczkę, wie co to za archiwum (tym bardziej, że skanuje własny zasób), jaki zespół, seria i sygnatura i może stworzyć odpowiednią strukturę katalogów i schemat nazwy plików. Kończy skanowanie i wszystko gotowe. W przypadku mikrofilmów byłoby to znacznie bardziej uciążliwe, a w przypadku niektórych skanerów wręcz niemożliwe. Bo albo musiałbym wypatrywać (postaram się dodać filmik pokazujący prędkość skanera) i zatrzymywać skanowanie w odpowiednim momencie (robiłem tak kiedyś 🙄 ), albo skanować całość bez przerywania i tworzyć ręcznie* setki katalogów, aby poprzerzucać do nich odpowiednie pliki, których nazwy później trzeba zmienić. To naprawdę sporo roboty i wierzcie mi, że segregowanie plików zajmowało mi kilka razy więcej czasu niż ich zeskanowanie. Bardzo tego nie lubiłem.

Początkowo posługiwałem się kilkoma ogólnie dostępnymi programami, które ułatwiały mi generowanie odpowiedniej, ale pustej struktury katalogów (Excel i Text2Folders). Później i tak ręcznie musiałem przerzucać pliki do utworzonych katalogów, a na koniec jeszcze zmienić ich nazwy na odpowiednie (AntRenamer). Było to łatwiejsze niż robienie wszystkiego zupełnie ręcznie, ale nadal mnie bardzo absorbowało, a przecież mógłbym w tym czasie skanować kolejną partię materiału.
Zacząłem się więc zastanawiać, co mogę zrobić żeby było mi łatwiej? Z jakich narzędzi skorzystać? Jak mogę wykorzystać to co daje mi oprogramowanie skanera? Pomyślałem sobie:
– Fajnie by było mieć program, w którym mógłbym wskazać katalog zawierający zeskanowane klatki mikrofilmu, a ten sam by mi je odpowiednio podzielił i ponazywał… Ale przecież nie ma takiego programu, który byłby użyteczny przy tak specyficznych zalecaniach przechowywania plików kopii wzorcowych w Archiwach Państwowych :(.
– Tylko niby jak on miałby to zrobić? Skąd by wiedział jakie nazwy nadać i do jakiego katalogu je wrzucić? Przecież sam z siebie program komputerowy nie jest wstanie zrobić czegoś takiego, bez żadnych danych z zewnątrz? Jak mam mu to dostarczyć? Z dysku sam wszystkiego nie odczyta…
– ZOSIA! Mam przecież ZOSIE! Tam mogę znaleźć spis jednostek 🙂 Będę tylko musiał znaleźć sposób jak pobrać te informacje. – to okazało się proste mimo, że nikt dostępu do bazy danych ZoSIA mi nie dał ;).
– No dobra… wiem skąd wziąć nazwy katalogów i plików, ale… skąd program ma wiedzieć ile plików przypada na daną sygnaturę?
– Ee, to akurat mogę załatwić za pomocą oprogramowania do skanera, które wyświetla mi podgląd plików i widze na nim gdzie się kończy i zaczyna dana sygnatura. Mogę w nim też oznaczyć poczatek sygnatury, a program sam podzieli mi pliki na katalogi (bez odpowiedniej nazwy, ale jednak je rozdzieli.
Miałem więc wszystkie klocki, które musiałem poskładać razem w aplikacje komputerową, która odpowiednio przetwarza dane i gotowe. Tak w telegraficznym skrócie powstała pierwsza wersja QFR-a (Quick File Renamer). Od tamtego czasu QFR dość mocno wyewoluował i wprowadziłem do niego rozwiązania, które wcześniej miałem tylko w programach o których wspomniałem wyżej czyli dodałem funkcję z AntRenamera i Text2Folders, dzięki czemu w QFRze można tworzyć nazwy plików na podstawie katalogów, w których się znajdują i tworzyć strukturę katalogów na podstawie nazwy plików. 🙂
Historia IV

Ta historia jest nieco podobna do poprzedniej, ale nie dotyczy już mikrofilmów tylko stykówek. Otóż jedna z pracownic NAC dostała zadanie zeskanowania ok. 5000 stykówek, które również należało podzielić na odpowiednie katalogi. Niby oprogramowanie skanera umożliwia to w dość łatwy sposób jednak, trzeba mieć na uwadze, że stykówka w 99% przypadków będzie się składała z dwóch skanów awers i rewers. Tworzenie nowego projektu skanowania (taka specyfika pracy na tym skanerze) aby utworzyć nowy katalog co dwa skany to w tym przypadku 2500 projektów. Do zrobienia, ale bardzo uciążliwe. Bo przecież znacznie szybciej byłoby zeskanować wszystko do jednego wora (katalogu). Tylko jak to później podzielić? No łatwo, po dwa pliki na katalog… Ale z drugiej strony, ręcznie tworzyć 2500 katalogów? Trochę nudne. Zaproponowałem więc, że napisze program, który bierze z listy wszystkich plików po dwa i automatycznie wrzuca je do katalogu po czym bierze kolejne dwa i wrzuca do następnego itd. itd.. No super to łatwe. Ale w między czasie okazało się, że jest ten 1% stykówek, które składają się z więcej niż 2 skanów. Wtedy mój program nie bardzo by się sprawdzał. Wprowadziłem więc szybko modyfikacje, polegającą na dodaniu funkcji umożliwiającej ręczne wprowadzenie numeru sygnatury, po czym program automatycznie przenumerowuje dalsze sygnatury poniżej tak, aby zachowana była ciągłość. Pomyślałem sobie też, że wygodnie byłoby gdyby dało się te skany jakoś podejrzeć bez konieczności szukania ich na dysku aby sprawdzić czy wszystko się zgadza. Dodałem więc przeglądarkę graficzną. Proste i przyjemne rozwiązanie. Użytkownik na poczatku pracy wybiera tylko od którego numeru zacząć sygnaturę, a później w razie potrzeby za pomocą jednego klawisza przegląda wybrane sygnatury i dokonuje ewentualnych poprawek, a nawet jeśli wtedy się pomyli to nic nie szkodzi bo program ma funkcję odtwarzania oryginalnego stanu plików sprzed zmian. Tak narodziła się Gruszka (Pear, bo po angielsku brzmi podobnie do pair czyli para tzn. dwie sztuki 😉 ).
Poniżej animacja pokazująca co i jak. Wybieram folder ze stykówkami, pliki są wpisywane na listę i domyślnie grupowane po 2, mogę ręcznie zmienić przypisanie skanu do danej sygnatury, a reszta zostanie automatycznie przypisana do innych sygnatur zgodnie z ustawieniami :). Na koniec tylko klikam przycisk podziel i otrzymuje folder ze skanami odpowiednio podzielonymi na katalogi sygnatur. Taka ciekawostka, stykówki zostały wygenerowane przez sztuczną inteligencje specjalnie na potrzeby tej animacji 🙂
Ok, myślę, że wystarczy już historii, tym bardziej, że w stosunkowo niedalekiej przyszłości zamierzam napisać jeszcze o kilku rzeczach, które stworzyłem żeby ułatwić sobie pracę. Pamiętajcie to są tylko przykłady, a rozwiązanie nie zawsze musi się wiązać z tworzeniem czy wyszukiwaniem jakiegoś programu narzędziowego (chociaż dość często tak się kończy :)). To może być również problem:
- z oprogramowaniem skanera – coś nie działa tak jak chcesz albo nie wiesz dlaczego działa tak jak działa
- z mozolnym pisaniem raportów
- przetwarzaniem dokumentów z jednej formatu w drugi
- itp.
Pozdrawiam
T.
Obrazek wyróżniający :