Velké jazykové modely (LLM) naplno pronikly do našich životů – pomáhají nám s psaním e-maily, abstraktů či programového kódu, sumarizují texty do přehledných shrnutí a vytváří poutavé audionahrávky, některá jejich využití dokonce hraničí s věšteckou praxí (například otázky typu „kterou stranu mám volit, když…?“). V tomto zamyšlení navazujeme na náš příspěvek z roku 2022 „Can artificial intelligence read medieval inquisition records?“, neboť se domníváme, že právě nyní nastal čas, abychom jako historici začali uvažovat o přímém využívání LLM ve výzkumu.
Nechme stranou často diskutované a problematické způsoby využití LLM ke generování odborných textů, které někdy komplikují výuku či hodnocení akademických textů, a zaměřme se spíše na mimořádně slibný potenciál těchto modelů pro zrychlení získávání dat. Nedávno se tomuto tématu věnoval Andres Karjus v článku „Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence“ publikovaném v časopise Humanities and Social Science Communications. Jedním z největších přínosů LLM je jejich mimořádná schopnost interpretovat text v různých jazycích a vyextrahovat z něj strukturované informace, díky čemuž se mohou stát výbornými anotátory. Tato dovednost může pomoci překonat řadu problémů souvisejících s nedostatkem pracovních sil v chronicky podfinancované oblasti humanitních a sociálních věd i s postupným a rozhodně politováníhodným úpadkem kompetencí studentů v oblasti cizích a zejména pramenných jazyků (za nímž však možná stojí i proměny studijních plánů?).
Samozřejmě existují lepší i horší způsoby, jak LLM využít k extrakci informací. Pokud od nich pouze chceme, aby „shrnovaly“ historické prameny, a jejich výstupy přijímáme bez ověřování, vynecháváme klíčový krok každého zpracování dat – křížovou validaci. A právě ta je (a pravděpodobně i zůstane) nejspolehlivější, pokud ji provádějí lidští odborníci. V rámci projektu DISSINET jsme začali LLM využívat k extrakci informací z textů, přičemž vždy zároveň ručně anotujeme vzorek dat podle stejných proměnných a instrukcí, jaké dostal i model. Díky tomu dokážeme formálně stanovit přesnost anotace, a tím i odhadnout, nakolik se na výsledky LLM dá spolehnout.
Pokud se používají správně, dokážou LLM zachytit jemné významové nuance sémantické informace, které běžné vyhledávání podle klíčových slov nezvládne. Sami jsme s zatím vyzkoušeli několik úloh zaměřených na extrakci informací z historických dokumentů pro naše aktuální studie, například:
- rozpoznání mužů a žen (na základě jmen, zájmen apod.);
- klasifikace žánru dokumentu;
- identifikace přítomnosti či nepřítomnosti určitých témat a jejich variant v jednotlivých notářských nebo inkvizičních záznamech – například náboženské víry či zpochybňování církevní autority;
- případně specializovanější a z hlediska interpretace složitější úlohy, jako je rozpoznání, zda je výrok prezentován jako skutečný, nebo hypotetický či jinak irreálný (pracujeme tedy s modalitou textu), zda se vztahuje k době konání procesu (např. dialog inkvizitora s vyslýchaným), nebo naopak představuje svědectví o minulém dění (např. rozhovor vyslýchaného s jiným podezřelým).
Pod vedením Tomáše Hampejse jsme dokonce začali s extrakcí datových struktur srovnatelných s naším komplexním modelem CASTEMO, a dosahujeme přitom překvapivě dobrých výsledků. I když nás čekají ještě roky práce, už nyní se zdá, že budoucnost patří AISTEMO – Artificial Intelligence Semantic Text Modelling. Nastává doba, v níž budou celé texty převáděny do historicky přesných, sémanticky bohatých a strukturovaných datových modelů. To ale neznamená, že ruční přístup zanikne. Naopak – díky LLM budeme moci klást ambicióznější otázky a analyzovat mnohem rozsáhlejší korpusy, ale lidská kontrola a křížová validace zůstanou klíčové pro posouzení kvality dat a věrohodnosti výsledků. Práce historiků a sociálních vědců se nepochybně promění – částečně se přesune od sekvenčního čtení textů k anotaci náhodně vybraných výpovědí – ale zůstane nepostradatelnou součástí výzkumného procesu.