sábado, 28 de março de 2026

Què serà de les humanitats digitals en cent anys?

L’accelerament en el desenvolupament tecnològic comporta certs reptes i dubtes sobre el manteniment de les eines i les dades. Hem d’acceptar que aquestes deixaran de ser útils en algunes dècades? En aquest article es donen algunes solucions concretes com ara l’ús de repositoris, l’aplicació dels principis FAIR o l’ús de formats estàndard com XML-TEI. De forma més general, però, s’argumenta a favor de mantenir la mirada històrica de les humanitats i les biblioteques i dur a terme una crítica humanística i quantitativa dels aspectes digitals.

ChatGPT és la tecnologia que està rebent més atenció en el moment d’escriure aquest article, però en el context actual açò pot canviar en molt poc de temps.
Escrit per José Calvo Tello

Humanitats digitals, una àrea no tan nova

Encara que la integració de la tecnologia en les humanitats com a àrea d’investigació és un avanç recent, el fet és que la intersecció entre ambdues àrees fa molts anys que dona fruits (Sahle, 2015). Fa ja unes quantes dècades que la lingüística de corpus està creant col·leccions de textos cada vegada més grans i anotats de manera més detallada. Aquests corpus s’han convertit en la base per a la construcció de diccionaris i eines lingüístiques. Al seu torn, aquestes eines són les predecessores de les actuals aplicacions d’aprenentatge automàtic, que passen veu a text escrit i viceversa, que tradueixen d’un idioma a un altre, que generen imatges a partir d’una descripció… El digital ha passat a formar part integral d’àrees com la salut, la cultura, la burocràcia, l’educació, la investigació o la indústria.

En el desenvolupament de la interacció entre humanitats i tecnologia, les etiquetes que s’han utilitzat per a designar-la també han anat canviant. Abans de l’any 2000, i en paral·lel al desenvolupament de la lingüística de corpus, en certes àrees de la investigació es parlava de humanities computing o computer philology. Després de l’any 2000, el terme humanitats digitals (en anglès, digital humanities) es va convertir en l’etiqueta més acceptada, etiqueta que va passar a formar part del nom d’associacions nacionals i internacionals, projectes i publicacions. Alguns podrien argumentar que avui dia és difícil quedar-se al marge d’aquesta nova realitat digital. Curiosament, des de fa uns quants anys, algunes de les persones més actives en les humanitats digitals han decidit abandonar l’adjectiu i començar a usar computational. Això s’observa en conferències com a computational humanities o computational literary studies, en un moviment per mostrar proximitat a la lingüística computacional.

Avui dia, una persona interessada en la intersecció entre humanitats i tecnologia podria preguntar-se si ha d’interessar-se més per les humanitats digitals o passar-se a les humanitats computacionals. Si ha d’aprendre el format TEI (Text Encoding Initiative) o millor JSON (JavaScript Object Notation). Si hauria de buscar un petit corpus o un gran conjunt de dades amb les quals entrenar un algoritme d’intel·ligència artificial. Davant l’enorme quantitat d’eines i la velocitat de desenvolupament de les tecnologies, el ritme de la recerca es va accelerant. Una tesi doctoral sol ocupar un mínim de tres anys; per a la majoria, més de quatre. No obstant això, en quina tecnologia es pot especialitzar l’investigador que encara puga ser rellevant en cinc anys?

Des de la meua perspectiva actual, ChatGPT és avui la tecnologia que més atenció està rebent. Quan algú llegirà aquest article d’ací a uns anys, una altra eina més potent i amb una millor campanya de màrqueting ocuparà el tron mediàtic i per a la lectora o lector probablement ChatGPT serà un record llunyà. Fa un parell d’anys, semblava que BERT (Devlin et al., 2019), un model de llenguatge de processament del llenguatge natural entrenat per Google, perduraria en el temps. Abans d’això, mètodes com les xarxes neuronals convolutives (convolutional neural networks) eren els mètodes a escollir (O’Shea i Nash, 2015). Anteriorment, el model temàtic (topic modelling) (Blei, 2012) quasi prometia aconseguir informació semàntica del text sense haver de llegir-lo. En 2014, Ted Underwood va escriure el seu informe per al HathiTrust sobre la classificació del gènere literari (Underwood, 2014). Hi assenyalava que havien usat la regressió logística com a algoritme i que usar mètodes més avançats no semblava donar millors resultats. Des d’aleshores han passat deu anys i durant aquesta dècada han sorgit diverses generacions de tecnologia i, fins a cert punt, han sigut superades.

El problema: l’obsolescència digital

Aquest procés accelerat de desenvolupament tecnològic porta a paradoxes com la que Rockwell va formular en una xarrada poc després de la publicació d’Hermeneutica (Rockwell i Sinclair, 2016), i és el fet que en molts projectes d’humanitats digitals (o altres àrees entre la tecnologia i les humanitats) es treballa a desenvolupar eines que quedaran obsoletes o hauran deixat de funcionar quan el projecte s’acabi. Encara que aquesta opinió pot semblar exageradament pessimista, el fet és que pocs recursos digitals assoleixen els cinc anys de vida funcional. Quan compleixen els deu anys, els recursos solen considerar-se avis digitals a què mostrar respecte: se’ls visita i se’ls cita de tant en tant, però es considera que estan jubilats. Rockwell mateix ha participat en el desenvolupament de Voyant Tools (Sinclair i Rockwell, 2016). Aquesta eina no només és una d’aquestes aplicacions que anys després continua sent accessible, sinó que en els últims anys ha sabut evolucionar a Spyral, un entorn similar al que ofereixen els Jupyter Notebooks.

Semblaria que aquesta fugacitat és una característica intrínseca de la tecnologia i que no hi ha res a criticar. No obstant això, en moltes altres àrees de la recerca, considerem la fugacitat inadmissible. Imaginem una biblioteca que haguera decidit desfer-se dels llibres deu anys després que es publicaren. Imaginem que els nostres títols de doctorat caducaren al cap d’una dècada. Imaginem que una revista acadèmica que haja arribat als deu anys s’haja d’abandonar per obsoleta. Imaginem que no poguérem citar una edició impresa d’un text literari publicada fa més d’una dècada. Aquests exemples, que ens resulten absurds, poden reflectir millor alguns aspectes ben dèbils del món digital en general, i de les humanitats digitals en particular.

Perquè no només es tracta d’un problema d’eines, sinó d’un problema de dades. Les dades digitals sempre necessiten estar codificades en formats digitals. Per a obrir, llegir i visualitzar aquests formats calen certes eines. És a dir, qualsevol dada digital necessita certes eines per a ser utilitzada. Si les eines digitals deixen de funcionar, les dades digitals esdevenen obsoletes, ferralla digital.

Un dels problemes a què s’enfronten les humanitats digitals és l’obsolescència digital. Pocs recursos digitals arriben als cinc anys de vida. Aquest problema s’estén a les pàgines web que allotgen els projectes. Com més vistós i innovador siga el nostre portal web, més probabilitats tindrà de deixar de funcionar a curt o mitjà termini.

Un exemple d’això és el canvi que Amazon va fer amb els seus formats de llibre electrònic. Encara que diferents agents desenvoluparen ePUB com a format estàndard per a llibres electrònics (Garrish, 2011), Amazon va impulsar els seus propis formats: MOBI i AZW (McIlroy, 2012). Si els projectes i les editorials volien que els seus textos digitals es pogueren llegir en el Kindle d’Amazon, el lector de llibres electrònics més venut, havien de publicar els textos en aquest format. En 2023, Amazon va anunciar que algunes de les funcions del Kindle deixarien d’executar-se en els arxius MOBI (Mandal, 2023). Així, és possible que en uns anys Amazon no done suport per a obrir aquests arxius. Fins i tot, pot ser que cap programa permeta obrir arxius MOBI. Així, un projecte que només haja conservat les seues edicions en MOBI podria convertir-se en un cementeri digital. 

Aquesta situació de possible col·lapse en la infraestructura també afecta aquells projectes que han publicat les seues edicions digitals en les seues pròpies pàgines web. Segons una enquesta recent, aquesta opció continua sent la preferida entre la comunitat d’investigació hispanoparlant (Del Rio Riande i Allés-Torrent, 2023). Encara que les tecnologies estàndard darrere les pàgines web (HTML, CSS, MySQL, JavaScript, PHP, etcètera) tenen una base de desenvolupament molt més ampla que MOBI, aquestes tecnologies van evolucionant, les funcionalitats es declaren obsoletes i deixen de funcionar, les quotes dels servidors s’han de pagar anualment, etcètera. Com més vistós siga el nostre portal, com més tecnologies utilitzem per a desenvolupar-lo, com més innovador siga, probablement més ràpidament deixarà de funcionar. Quantes d’aquestes pàgines amb edicions digitals de literatura estaran encara accessibles en Internet d’ací a deu, vint, cinquanta o cent anys?   

FAIR i repositoris: problema solucionat?  

En part per a contrarestar aquesta situació d’obsolescència digital, en els últims anys, la recerca digital ha assumit com una de les guies més importants els principis FAIR (Wilkinson et al., 2016). FAIR és un acrònim format per les paraules en anglès findable (‘trobable’), accesible (‘accesible’), interoperable (‘interoperable’) i reusable (‘reutilitzable’). D’acord amb aquests principis, els investigadors han de fer-se preguntes i prendre decisions sobre com fer les seues dades més FAIR. Cadascuna de les lletres pot desglossar-se al seu torn en diversos principis més concrets i cadascun d’aquests pot aplicar-se a nombrosos aspectes de les dades i les edicions. FAIR és entès com un conjunt de principis i no com a criteris, ja que en la pràctica no és possible dir si un conjunt de dades és o no és FAIR, sinó, més bé, argumentar sobre si és més FAIR que un altre o de quina manera. Diferents publicacions dels últims anys estan debatent de manera explícita el paper d’aquests criteris en les humanitats, com ara un número especial de la revista RIDE sobre ressenyes d’edicions i corpus literaris digitals (Gengnagel et al., 2023).   

Alguns dels punts dels criteris FAIR tenen més a veure amb la manera en què les dades es posen a disposició de la comunitat. Per exemple, les dades han de tenir assignat un identificador únic i persistent (com ara un DOI); el protocol pel qual es publiquen les dades ha de ser obert; ha d’haver-hi un sistema d’identificació d’usuaris quan siga necessari o, com a mínim, les metadades han d’estar disponibles a llarg termini. Ningú espera que projectes individuals o persones concretes gestionen els seus propis DOI o que es preocupen pel tipus de protocol tècnic a implementar. Es dona per descomptat que els projectes han d’usar infraestructures ja creades que donen resposta a aquestes preguntes.   

Quins tipus d’infraestructures exactament haurien de donar resposta als problemes dels DOI, dels protocols o de l’arxiu a llarg termini? Els repositoris de dades, és a dir, plataformes en què investigadores i investigadors puguin publicar les seues dades perquè hi romanguin a llarg termini. Alguns d’aquests repositoris són Zenodo, el repositori de dades del consorci Madroño, TAPAS, TextGrid o GAMS. Aquests repositoris no haurien d’estar solament finançats mitjançant projectes d’investigació temporals; en aquest cas, pot ser que els passi el mateix que a l’eina EVI-LINHD (González-Blanco et al., 2017), una eina per a editar i publicar textos que va ser abandonada després d’uns quants anys, una vegada el projecte amb què s’havia finançat va acabar. 
Fins ara, el risc real de pèrdua de dades en les biblioteques era relativament secundari, però en l’actualitat les dades digitals són part central de la nostra societat. És d’esperar que l’obsolescència tecnològica afecte cada vegada més àrees.
Haurem solucionat amb els repositoris el problema de l’obsolescència digital? No, de cap manera. En primer lloc, perquè avui dia els repositoris es responsabilitzen de les dades per un període de deu anys que es pot estendre. En segon lloc, perquè continuem tenint el problema de l’obsolescència de les tecnologies associades a les dades. Vegem un exemple hipotètic per a entendre-ho millor: en 2023, podem publicar un corpus de llibres electrònics en format MOBI en algun repositori. Podem esperar que una persona pugui descarregar-se aquest corpus en 2033, però potser aleshores ja no podrà obrir cap d’aquests documents. És a dir, els repositoris mantindran dades en formats obsolets i les persones podran descarregar-se ferralla digital. Les dades no s’han perdut per complet, però continuen sent inútils.  

Lamentablement, la lluita contra l’obsolescència digital no se soluciona simplement col·locant dades en un repositori. És necessari també que aquestes dades es troben en formats que al seu torn seguisquen els principis FAIR. Per a les humanitats en general, però més concretament per als estudis de literatura i lingüística, TEI (Text Encoding Initiative) és un dels formats més rellevants. Desgraciadament, el desenvolupament de TEI en la comunitat de parla hispana es va truncar per una sèrie de decisions des dels anys 2000 que llastren la comunitat d’humanitats digitals fins avui (Allés-Torrent i del Rio Riande, 2019). A més del format, diferents aspectes en relació amb les metadades són centrals per als principis FAIR: les metadades han d’estar estandarditzades, per a la qual cosa cal utilitzar vocabularis controlats, sistemes de classificació o arxius d’autoritat, que, en el millor dels casos, han d’estar publicats en obert i en línia.  

Pot semblar exagerat el panorama del futur que estic dibuixant, però el problema és més actual del que pareix. Des de mitjan segle XX, les biblioteques treballen amb una pluralitat de formats i suports que van més enllà de l’imprès o el manuscrit. Aneu a la vostra biblioteca amb fons històrics de confiança, busqueu algú que treballi amb microfilms i pregunteu a aquesta persona si tots els fons de microfilms de la institució estan digitalitzats. Si no ho estan, pregunteu-li què passarà amb les dades tancades en els microfilms quan el material es descompongui amb el temps.   

Fins ara, el risc real i conegut en les biblioteques de perdre dades és relativament secundari, ja que els microfilms representen un percentatge petit dels materials de la majoria d’institucions. Tanmateix, com he dit a l’inici del text, el digital és part central de la nostra societat. És d’esperar que l’obsolescència tecnològica afecte cada vegada més àrees. D’acord amb Rockwell, també és esperable que el temps entre la generació de les dades i la seua obsolescència s’acurti. El que amb els microfilms era un cicle de més de cinquanta anys, amb els formats digitals podria acurtar-se a un de deu o de vint anys. Ens sembla acceptable que una persona perdi les dades sobre la seua salut unes quantes vegades durant la seua vida? 

La perspectiva crítica de les humanitats, els mètodes quantitatius computacionals  

En el títol havia promès una possible esperança a aquest panorama digitalment lúgubre. Fins avui, les humanitats digitals s’han centrat més a aplicar el digital a les humanitats. Potser és el moment de reorientar-se i aplicar la perspectiva de les humanitats al digital. Al cap i a la fi, la majoria de les humanitats treballen amb materials històrics, a diferència de moltes altres disciplines de les ciències o enginyeries. Algunes àrees específiques de les humanitats (com el treball d’edició filològica o històrica, la traducció o la lexicografia) s’encarreguen de la identificació, preparació, actualització i publicació de materials històrics per a les necessitats actuals. El qüestionament teòric i la metareflexió, tan característics de les humanitats, són aspectes que poden ser d’ajut perquè el digital esdevingui més sostenible en el temps.  

Perquè aquesta crítica humanística al digital pugui ser entesa pels nostres col·legues en les enginyeries i en les institucions de finançament de la investigació, les humanitats farien bé de no només utilitzar la seua tradicional crítica teòrica. Si es fa així, el missatge no serà escoltat ni entès pel públic a qui es vol arribar. La crítica hauria de sostenir-se sobre metodologies quantitatives i computacionals que puguin ser enteses i que puguin convèncer investigadors i persones en llocs de decisió sobre la recerca. És a dir, aquesta crítica al digital l’haurien de fer les humanitats digitals. D’aquesta manera, argumenti a favor que les humanitats digitals compaginen l’entusiasme pel digital (tot intentat convèncer els companys de departament que això de les humanitats digitals té sentit) amb la crítica d’aquells aspectes del digital que no donen respostes acceptables a les humanitats.  

Aquesta crítica humanística amb metodologies quantitatives cap a elements digitals és el que hem fet en un treball recent. Volíem cridar l’atenció sobre el fet que en l’arxiu d’autoritats de la zona de parla germana (GND) que usen les biblioteques en la seua catalogació hi ha un biaix (comprensible fins a cert punt) a favor d’autors i obres provinents de la zona germana (Calvo Tello et al., 2023). Més concretament, les nostres hipòtesis eren que en el GND hi ha més autors i obres de la zona germana que d’altres llengües, i que aquestes entitats estan descrites amb més informació que les d’altres llengües. Per a aquest estudi, vam comparar el GND amb altres recursos comparables (VIAF i Wikidata) i vam analitzar uns quants centenars d’obres literàries en quinze llengües europees provinents del corpus ELTeC (Burnard et al., 2021; Schöch et al., 2021). Els resultats sostenen les nostres hipòtesis pel que fa a obres i quantitat d’informació sobre persones, encara que la quantitat d’autors que es troben en el GND tant de parla germana com de certes llengües europees era similar. D’aquesta manera, ara podem discutir sobre possibles biaixos d’informació en les biblioteques i no fer-ho de forma teòrica, sinó d’acord a resultats quantitatius.  
Les biblioteques tenen un paper fonamental en la fase digital actual. En molts casos són les que sostenen els repositoris de dades d’investigació, i com a serveis públics han d’assegurar que aquestes puguin ser guardades i descarregades.
Pose aquest exemple provinent del camp de les biblioteques perquè aquestes institucions tenen un paper fonamental en aquesta fase del digital. Les biblioteques són una de les institucions relacionades amb la investigació en què la mirada històrica i les preguntes de conservació i durabilitat estan més presents. No en va, en molts casos són les biblioteques les que sostenen els repositoris de dades d’investigació. Com a serveis públics, les biblioteques són centrals per a assegurar que les dades poden ser guardades i descarregades de manera gratuïta. D’aquesta forma, no només mantenen la seua funció social i democràtica, sinó que l’amplien en l’àmbit digital. La seua experiència i maneig de metadades en el catàleg i en arxius d’autoritat poden ajudar la investigació a millorar l’estatus FAIR de les seues dades, i així fer-les més trobables, accessibles, interoperables i reutilitzables. Les noves funcions de les biblioteques en el paradigma digital també haurien d’estendre’s a la conversió entre formats. D’una manera similar a com les biblioteques s’encarreguen de la reparació o substitució de volums quan aquests ja no poden consultar-se, en algun moment serà necessari que les biblioteques es pregunten si han d’encarregar-se també de la conversió de certs formats digitals en altres de més actuals perquè les dades que hi contenen puguin consultar-se d’ací a vint, cinquanta o cent anys.  

Tornem a la pregunta que llançava amb el títol de l’article: que serà de les humanitats digitals en cent anys? Probablement en deu anys, la majoria dels joves investigadors que utilitzen tecnologia per a analitzar aspectes de les humanitats no emprarà l’etiqueta d’humanitats digitals. D’ací a vint anys, les humanitats digitals hauran quedat en el passat, superades per noves etiquetes i enfocaments d’acord amb els temps. Però al marge de les etiquetes, què en quedarà en cinquanta o cent anys, del treball digital que hem anat fent en les humanitats digitals en les últimes dècades? Cap de les eines funcionarà, i si alguna encara ho fa, serà d’una manera distinta i amb una tecnologia molt diferent de la que ara usa.   

Quant a les dades (edicions, bases de dades, corpus, etcètera), moltes d’aquestes seran inutilitzables: algunes no les trobarem i ens preguntarem si alguna vegada van existir; d’altres les trobarem, però no podrem obrir-les; d’altres podrem obrir-les, però no sabrem com utilitzar-les; d’altres estaran en formats tan desfasats que o ens vencerà la peresa en tractar de treballar-hi o demanarem nous projectes per a actualitzar-les i fer-les útils de nou.  

Tanmateix, alguns recursos sí que hauran envellit bé, podrem trobar-los, obrir-los i treballar-hi de forma raonable. Quin serà l’avenir de cadascun dels recursos actuals? Quins desapareixeran, quins seran inútils i quins útils? Encara que no podem predir completament quines dades o tecnologies aguantaran l’accelerat desenvolupament actual, faríem bé de conjuminar el millor d’ambdós mons: de les humanitats i les biblioteques, la seua perspectiva crítica i històrica com a brúixola que ens assenyali la destinació. Del computacional, els mètodes que aconsegueixen avançar d’una manera explícitament qualitativa a una escala quantitativa. Les generacions futures ens ho agrairan. I nosaltres mateixos, d’ací a uns anys, també.

Referències

Allés-Torrent, S., & del Rio Riande, G. (2019). The switchover: Teaching and learning the text encoding initiative in Spanish. Journal of the Text Encoding Initiative, 12. https://doi.org/10.4000/jtei.2994
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84. https://doi.org/10.1145/2133806.2133826
Burnard, L., Schöch, C., & Odebrecht, C. (2021). In search of comity: TEI for distant reading. Journal of the Text Encoding Initiative, 14. https://doi.org/10.4000/jtei.3500
Calvo Tello, J., Rißler-Pipka, N., & Barth, F. (2023). GND und Normdaten für europäische Literatur? Personen und Werke in donen multilingualen Korpora von ELTeC. En A. Busch & P. Trilcke (Eds.), Open Humanities, Open Culture, 2023. Konferenzabstracts (p. 160–165). https://doi.org/10.5281/zenodo.7688631
Del Rio Riande, G., & Allés-Torrent, S. (2023). ¿Quién conforma la comunidad de la TEI en español? Análisis de los datos de una encuesta. Journal of the Text Encoding Initiative, 16. https://doi.org/10.4000/jtei.4927
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv, 1810.04805 [Cs]. http://arxiv.org/abs/1810.04805
Garrish, M. (2011). What is EPUB 3? O’Reilly Media. http://shop.oreilly.com/product/0636920022442.do
Gengnagel, T., Neuber, F., & Schulz, D. (2023). FAIR enough? Evaluating digital scholarly editions and the application of the FAIR data principles. RIDE, 16. https://doi.org/10.18716/RIDE.A.16.0
González-Blanco, E., Cantón, C. M., del Rio Riande, G., Ros, S., Pastor, R., Robles-Gómez, A., Caminero, A., Díez Platas, M. L., del Olmo, Á., & Urízar, M. (2017). EVI-LINHD, a virtual research environment for the Spanish-speaking community. Digital Scholarship in the Humanities, 32(suppl_2), ii171–ii178. https://doi.org/10.1093/llc/fqx025
Mandal, S. (2023, 2 de febrer). Amazon’s send to Kindle feature still supports sending MOBI file. Good E-Reader. https://goodereader.com/blog/kindle/amazons-send-to-kindle-feature-still-supports-sending-mobi-file
McIlroy, T. (2012). Ebook formats are a mess–here’s why. Learned Publishing, 25(4), 247–250.
O’Shea, K., & Nash, R. (2015). An introduction to convolutional neural networks. arXiv, 1511.08458. https://doi.org/10.48550/arXiv.1511.08458
Rockwell, G., & Sinclair, S. (2016). Hermeneutica: Computer-assisted interpretation in the humanities. The MIT Press.
Sahle, P. (2015). Digital humanities? Gibt’s doch gar nicht! ZfdG. https://doi.org/10.17175/sb001_004
Schöch, C., Erjavec, T., Patras, R., & Santos, D. (2021). Creating the European Literary Text Collection (ELTeC): Challenges and perspectives. Modern Languages Open, 1. https://doi.org/10.3828/mlo.v0i0.364
Sinclair, S., & Rockwell, G. (2016). Voyant Tools [Programari]. http://voyant-tools.org/
Underwood, T. (2014). Understanding genre in a collection of a million volumes, Interim Report. https://figshare.com/articles/Understanding_Genre_
in_a_Collection_of_a_Million_Volumes_Interim_Report/1281251
Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3. https://doi.org/10.1038/sdata.2016.18

[Imatges de frimufilms en Freepik - font: www.metode.cat]




Sem comentários:

Enviar um comentário