Hazánk sok évtized után 2019-ben kapta meg Oroszországtól a magyar hadifoglyok és civil elhurcoltak adatait. A mintegy 682 000 személy adatainak feldolgozását követően idén február 25-én nyílt meg a Magyar Nemzeti Levéltár által üzemeltetett adatbázis.
Az adatbázis teljesnek tekinthető, így jelentős forrás a kutatás számára. Emellett nagyon fontos a nagyközönség számára is, hiszen az érdeklődők megismerhetik a rendelkezésre álló információkat, megtalálhatják a szovjet táborokat megjárt családtagokat, rokonokat. A cirill betűs adatbázis magyarra történő automatizált átültetését az ELKH Nyelvtudományi Kutatóközpont (NYTK) kutatói végezték Sass Bálint vezetésével.
A Magyar Nemzeti Levéltár 2019-ben közel 200 millió forintért vásárolta meg az Orosz Állami Hadilevéltártól a mintegy 682 000 magyar hadifogoly és elhurcolt civil személy alapvető adatait tartalmazó kartonok digitalizált, szkennelt képét, valamint az ebből készített adatbázist. Ez az adott személyekhez köthető legfontosabb információkat tartalmazza: a fogolyként nyilvántartottak vezeték- és keresztnevét, orosz szokásnak megfelelően az apai keresztnevet, a rendfokozatot, a születés helyét és idejét, a fogságba esés helyét és idejét, a távozás idejét és az elbocsátó tábort, valamint – amennyiben az illető személy elhunyt – az elhalálozás időpontját.
A kartonokon természetesen minden cirill betűkkel szerepel, tehát nemcsak az orosz nyelvű, hanem a magyar nyelvű adatok is: a vezetéknév, a keresztnév, illetve a földrajzi helyek – születés és fogságba esés helye – egyes elemei. A feldolgozás során az jelentette a nyelvi problémát, hogy a magyar foglyok által bediktált magyar nyelvű személyes adatok cirill betűs formában álltak rendelkezésre, mégpedig úgy, ahogyan azt az adatokat felvevő – általában orosz – katona hallás után éppen leírta. Ráadásul az adatok tovább torzultak, amikor a 2010-es évek során az orosz kollégák a kartonok alapján elkészítették az adatbázist: ekkor a 70 évvel korábbi kézírás alapján rögzítették az általuk nem értett magyar nyelvű, de cirill betűkkel leírt szövegeket.
Nem lehetett automatikusan átírni
Az adatok automatikus orosz–magyar átírását, helyreállítását az NYTK munkatársai végezték Sass Bálint vezetésével. A feladat tehát a „Ковач Йожеф – Kovács József” jellegű transzkripció megvalósítása volt. A nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást. Tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például: Цилбауер – Zielbauer, Дейло – Béla, Саотморской – Szatmár, Гонграмеде – Csongrád, vagy Кишкупфьилстьгаза – Kiskunfélegyháza. Sok esetben több egyenrangú lehetséges megoldás is adódik, amelyek közül már nem lehet vagy nem érdemes automatizált módon választani, például: Эрин – Ernő; Ervin; Erik.
A munkálatok részleteiről az idei Magyar Számítógépes Nyelvészeti Konferencián elhangzott előadásból, illetve a kapcsolódó publikációból, továbbá a magyar tudomány ünnepén 2020-ban elhangzott előadásból lehet tájékozódni. Az automatikus átíró-helyreállító eszköz megtalálható a github-on.
A 2021. február 25-én, a kommunizmus áldozatainak emléknapján megnyílt, szabadon kereshető, nyilvános adatbázis a Magyar Nemzeti Levéltár oldalán érhető el.
(Index nyomán)
Forrás:kuruc.info
Tovább a cikkre »