Una dintre cele mai mari colecții de documente istorice din lume, Arhiva Secretă a Vaticanului, ar putea deveni accesibilă online cu ajutorul unui sistem de procesare în care AI-ul joacă un rol important.
Pe cât de bogată în document istorice, Arhiva Secretă a Vaticanului este pe atât de greu accesibilă: 85 de mii de kilometrii de rafturi cu date vechi de peste 12 secole care nu pot fi accesate de cercetători decât în urma aprobării și consultării la fața locului.
Un procent foarte mic din documente este disponibila online. Și asta nu doar datorită secretomaniei Vaticanului, cât a dificultății trecerii în digital a numeroaselor manuscrise scrise de mână în latină.
Pentru rezolvarea acestei probleme, Vaticanul a inițiat ceea ce numește proiectul In Codice Ratio, o combinație de OCR (recunoaștere optică a caracterelor), cu inteligență artificială și contribuție umană.
Cercetătorii de la Universitatea Roma Tre împreună cu experții de la Vatican au pus la cale o nouă tehnică de recunoaștere optică care împarte literele scrise de mână în segmente selectate în funcție de grosimea liniei de cerneală lăsate de stilou.
Sistemele OCR tradiționale sunt ineficiente când vine vorba de scris de mână, acestea având nevoie de spațiu între litere pentru a recunoaște caracterele și a forma cuvintele corecte.
Segmentele în care sunt separate caracterele sunt apoi „lipite” la loc în litere de tipar de un sistem de inteligență artificială. La început, și AI-ul a avut mari dificultăți în înțelegerea și unirea corectă a segmentelor.
Acesta a fost antrenat cu ajutorul unui grup de 24 de studenți italieni care s-au logat online pe server-ul care găzduia datele și au alcătuit manual, imagine cu imagine și click cu click, cele 22 de litere din alfabetul latin din fragmentele de litere.
În timp, cu ajutorul studenților, AI-ul a devenit expertul și a început să aibă nevoie din ce în ce mai puțin de ajutorul studenților.
Primul test a fost realizat pe 18.000 de pagini din Arhiva Secretă a Vaticanului și a avut rezultate mixte. Deși AI-ul a interpretat literele corect în 96% din cazuri, o treime din textele digitale conțineau greșeli din cauza interpretării eronate a sistemului OCR.