Un exemple d’això és el canvi que Amazon va fer amb els seus formats de llibre electrònic. Encara que diferents agents desenvoluparen ePUB com a format estàndard per a llibres electrònics (Garrish, 2011), Amazon va impulsar els seus propis formats: MOBI i AZW (McIlroy, 2012). Si els projectes i les editorials volien que els seus textos digitals es pogueren llegir en el Kindle d’Amazon, el lector de llibres electrònics més venut, havien de publicar els textos en aquest format. En 2023, Amazon va anunciar que algunes de les funcions del Kindle deixarien d’executar-se en els arxius MOBI (Mandal, 2023). Així, és possible que en uns anys Amazon no done suport per a obrir aquests arxius. Fins i tot, pot ser que cap programa permeta obrir arxius MOBI. Així, un projecte que només haja conservat les seues edicions en MOBI podria convertir-se en un cementeri digital.
Aquesta situació de possible col·lapse en la infraestructura també afecta aquells projectes que han publicat les seues edicions digitals en les seues pròpies pàgines web. Segons una enquesta recent, aquesta opció continua sent la preferida entre la comunitat d’investigació hispanoparlant (Del Rio Riande i Allés-Torrent, 2023). Encara que les tecnologies estàndard darrere les pàgines web (HTML, CSS, MySQL, JavaScript, PHP, etcètera) tenen una base de desenvolupament molt més ampla que MOBI, aquestes tecnologies van evolucionant, les funcionalitats es declaren obsoletes i deixen de funcionar, les quotes dels servidors s’han de pagar anualment, etcètera. Com més vistós siga el nostre portal, com més tecnologies utilitzem per a desenvolupar-lo, com més innovador siga, probablement més ràpidament deixarà de funcionar. Quantes d’aquestes pàgines amb edicions digitals de literatura estaran encara accessibles en Internet d’ací a deu, vint, cinquanta o cent anys?
FAIR i repositoris: problema solucionat?
En part per a contrarestar aquesta situació d’obsolescència digital, en els últims anys, la recerca digital ha assumit com una de les guies més importants els principis FAIR (Wilkinson et al., 2016). FAIR és un acrònim format per les paraules en anglès findable (‘trobable’), accesible (‘accesible’), interoperable (‘interoperable’) i reusable (‘reutilitzable’). D’acord amb aquests principis, els investigadors han de fer-se preguntes i prendre decisions sobre com fer les seues dades més FAIR. Cadascuna de les lletres pot desglossar-se al seu torn en diversos principis més concrets i cadascun d’aquests pot aplicar-se a nombrosos aspectes de les dades i les edicions. FAIR és entès com un conjunt de principis i no com a criteris, ja que en la pràctica no és possible dir si un conjunt de dades és o no és FAIR, sinó, més bé, argumentar sobre si és més FAIR que un altre o de quina manera. Diferents publicacions dels últims anys estan debatent de manera explícita el paper d’aquests criteris en les humanitats, com ara un número especial de la revista RIDE sobre ressenyes d’edicions i corpus literaris digitals (Gengnagel et al., 2023).
Alguns dels punts dels criteris FAIR tenen més a veure amb la manera en què les dades es posen a disposició de la comunitat. Per exemple, les dades han de tenir assignat un identificador únic i persistent (com ara un DOI); el protocol pel qual es publiquen les dades ha de ser obert; ha d’haver-hi un sistema d’identificació d’usuaris quan siga necessari o, com a mínim, les metadades han d’estar disponibles a llarg termini. Ningú espera que projectes individuals o persones concretes gestionen els seus propis DOI o que es preocupen pel tipus de protocol tècnic a implementar. Es dona per descomptat que els projectes han d’usar infraestructures ja creades que donen resposta a aquestes preguntes.
Quins tipus d’infraestructures exactament haurien de donar resposta als problemes dels DOI, dels protocols o de l’arxiu a llarg termini? Els repositoris de dades, és a dir, plataformes en què investigadores i investigadors puguin publicar les seues dades perquè hi romanguin a llarg termini. Alguns d’aquests repositoris són Zenodo, el repositori de dades del consorci Madroño, TAPAS, TextGrid o GAMS. Aquests repositoris no haurien d’estar solament finançats mitjançant projectes d’investigació temporals; en aquest cas, pot ser que els passi el mateix que a l’eina EVI-LINHD (González-Blanco et al., 2017), una eina per a editar i publicar textos que va ser abandonada després d’uns quants anys, una vegada el projecte amb què s’havia finançat va acabar.
 |
| Fins ara, el risc real de pèrdua de dades en les
biblioteques era relativament secundari, però en l’actualitat les dades
digitals són part central de la nostra societat. És d’esperar que
l’obsolescència tecnològica afecte cada vegada més àrees. |
Haurem solucionat amb els repositoris el problema de l’obsolescència digital? No, de cap manera. En primer lloc, perquè avui dia els repositoris es responsabilitzen de les dades per un període de deu anys que es pot estendre. En segon lloc, perquè continuem tenint el problema de l’obsolescència de les tecnologies associades a les dades. Vegem un exemple hipotètic per a entendre-ho millor: en 2023, podem publicar un corpus de llibres electrònics en format MOBI en algun repositori. Podem esperar que una persona pugui descarregar-se aquest corpus en 2033, però potser aleshores ja no podrà obrir cap d’aquests documents. És a dir, els repositoris mantindran dades en formats obsolets i les persones podran descarregar-se ferralla digital. Les dades no s’han perdut per complet, però continuen sent inútils.
Lamentablement, la lluita contra l’obsolescència digital no se soluciona simplement col·locant dades en un repositori. És necessari també que aquestes dades es troben en formats que al seu torn seguisquen els principis FAIR. Per a les humanitats en general, però més concretament per als estudis de literatura i lingüística, TEI (Text Encoding Initiative) és un dels formats més rellevants. Desgraciadament, el desenvolupament de TEI en la comunitat de parla hispana es va truncar per una sèrie de decisions des dels anys 2000 que llastren la comunitat d’humanitats digitals fins avui (Allés-Torrent i del Rio Riande, 2019). A més del format, diferents aspectes en relació amb les metadades són centrals per als principis FAIR: les metadades han d’estar estandarditzades, per a la qual cosa cal utilitzar vocabularis controlats, sistemes de classificació o arxius d’autoritat, que, en el millor dels casos, han d’estar publicats en obert i en línia.
Pot semblar exagerat el panorama del futur que estic dibuixant, però el problema és més actual del que pareix. Des de mitjan segle XX, les biblioteques treballen amb una pluralitat de formats i suports que van més enllà de l’imprès o el manuscrit. Aneu a la vostra biblioteca amb fons històrics de confiança, busqueu algú que treballi amb microfilms i pregunteu a aquesta persona si tots els fons de microfilms de la institució estan digitalitzats. Si no ho estan, pregunteu-li què passarà amb les dades tancades en els microfilms quan el material es descompongui amb el temps.
Fins ara, el risc real i conegut en les biblioteques de perdre dades és relativament secundari, ja que els microfilms representen un percentatge petit dels materials de la majoria d’institucions. Tanmateix, com he dit a l’inici del text, el digital és part central de la nostra societat. És d’esperar que l’obsolescència tecnològica afecte cada vegada més àrees. D’acord amb Rockwell, també és esperable que el temps entre la generació de les dades i la seua obsolescència s’acurti. El que amb els microfilms era un cicle de més de cinquanta anys, amb els formats digitals podria acurtar-se a un de deu o de vint anys. Ens sembla acceptable que una persona perdi les dades sobre la seua salut unes quantes vegades durant la seua vida?
La perspectiva crítica de les humanitats, els mètodes quantitatius computacionals
En el títol havia promès una possible esperança a aquest panorama digitalment lúgubre. Fins avui, les humanitats digitals s’han centrat més a aplicar el digital a les humanitats. Potser és el moment de reorientar-se i aplicar la perspectiva de les humanitats al digital. Al cap i a la fi, la majoria de les humanitats treballen amb materials històrics, a diferència de moltes altres disciplines de les ciències o enginyeries. Algunes àrees específiques de les humanitats (com el treball d’edició filològica o històrica, la traducció o la lexicografia) s’encarreguen de la identificació, preparació, actualització i publicació de materials històrics per a les necessitats actuals. El qüestionament teòric i la metareflexió, tan característics de les humanitats, són aspectes que poden ser d’ajut perquè el digital esdevingui més sostenible en el temps.
Perquè aquesta crítica humanística al digital pugui ser entesa pels nostres col·legues en les enginyeries i en les institucions de finançament de la investigació, les humanitats farien bé de no només utilitzar la seua tradicional crítica teòrica. Si es fa així, el missatge no serà escoltat ni entès pel públic a qui es vol arribar. La crítica hauria de sostenir-se sobre metodologies quantitatives i computacionals que puguin ser enteses i que puguin convèncer investigadors i persones en llocs de decisió sobre la recerca. És a dir, aquesta crítica al digital l’haurien de fer les humanitats digitals. D’aquesta manera, argumenti a favor que les humanitats digitals compaginen l’entusiasme pel digital (tot intentat convèncer els companys de departament que això de les humanitats digitals té sentit) amb la crítica d’aquells aspectes del digital que no donen respostes acceptables a les humanitats.
Aquesta crítica humanística amb metodologies quantitatives cap a elements digitals és el que hem fet en un treball recent. Volíem cridar l’atenció sobre el fet que en l’arxiu d’autoritats de la zona de parla germana (GND) que usen les biblioteques en la seua catalogació hi ha un biaix (comprensible fins a cert punt) a favor d’autors i obres provinents de la zona germana (Calvo Tello et al., 2023). Més concretament, les nostres hipòtesis eren que en el GND hi ha més autors i obres de la zona germana que d’altres llengües, i que aquestes entitats estan descrites amb més informació que les d’altres llengües. Per a aquest estudi, vam comparar el GND amb altres recursos comparables (VIAF i Wikidata) i vam analitzar uns quants centenars d’obres literàries en quinze llengües europees provinents del corpus ELTeC (Burnard et al., 2021; Schöch et al., 2021). Els resultats sostenen les nostres hipòtesis pel que fa a obres i quantitat d’informació sobre persones, encara que la quantitat d’autors que es troben en el GND tant de parla germana com de certes llengües europees era similar. D’aquesta manera, ara podem discutir sobre possibles biaixos d’informació en les biblioteques i no fer-ho de forma teòrica, sinó d’acord a resultats quantitatius.
Pose aquest exemple provinent del camp de les biblioteques perquè aquestes institucions tenen un paper fonamental en aquesta fase del digital. Les biblioteques són una de les institucions relacionades amb la investigació en què la mirada històrica i les preguntes de conservació i durabilitat estan més presents. No en va, en molts casos són les biblioteques les que sostenen els repositoris de dades d’investigació. Com a serveis públics, les biblioteques són centrals per a assegurar que les dades poden ser guardades i descarregades de manera gratuïta. D’aquesta forma, no només mantenen la seua funció social i democràtica, sinó que l’amplien en l’àmbit digital. La seua experiència i maneig de metadades en el catàleg i en arxius d’autoritat poden ajudar la investigació a millorar l’estatus FAIR de les seues dades, i així fer-les més trobables, accessibles, interoperables i reutilitzables. Les noves funcions de les biblioteques en el paradigma digital també haurien d’estendre’s a la conversió entre formats. D’una manera similar a com les biblioteques s’encarreguen de la reparació o substitució de volums quan aquests ja no poden consultar-se, en algun moment serà necessari que les biblioteques es pregunten si han d’encarregar-se també de la conversió de certs formats digitals en altres de més actuals perquè les dades que hi contenen puguin consultar-se d’ací a vint, cinquanta o cent anys.
Tornem a la pregunta que llançava amb el títol de l’article: que serà de les humanitats digitals en cent anys? Probablement en deu anys, la majoria dels joves investigadors que utilitzen tecnologia per a analitzar aspectes de les humanitats no emprarà l’etiqueta d’humanitats digitals. D’ací a vint anys, les humanitats digitals hauran quedat en el passat, superades per noves etiquetes i enfocaments d’acord amb els temps. Però al marge de les etiquetes, què en quedarà en cinquanta o cent anys, del treball digital que hem anat fent en les humanitats digitals en les últimes dècades? Cap de les eines funcionarà, i si alguna encara ho fa, serà d’una manera distinta i amb una tecnologia molt diferent de la que ara usa.
Quant a les dades (edicions, bases de dades, corpus, etcètera), moltes d’aquestes seran inutilitzables: algunes no les trobarem i ens preguntarem si alguna vegada van existir; d’altres les trobarem, però no podrem obrir-les; d’altres podrem obrir-les, però no sabrem com utilitzar-les; d’altres estaran en formats tan desfasats que o ens vencerà la peresa en tractar de treballar-hi o demanarem nous projectes per a actualitzar-les i fer-les útils de nou.
Tanmateix, alguns recursos sí que hauran envellit bé, podrem trobar-los, obrir-los i treballar-hi de forma raonable. Quin serà l’avenir de cadascun dels recursos actuals? Quins desapareixeran, quins seran inútils i quins útils? Encara que no podem predir completament quines dades o tecnologies aguantaran l’accelerat desenvolupament actual, faríem bé de conjuminar el millor d’ambdós mons: de les humanitats i les biblioteques, la seua perspectiva crítica i històrica com a brúixola que ens assenyali la destinació. Del computacional, els mètodes que aconsegueixen avançar d’una manera explícitament qualitativa a una escala quantitativa. Les generacions futures ens ho agrairan. I nosaltres mateixos, d’ací a uns anys, també.
Sem comentários:
Enviar um comentário