Extrakce dat z historických pramenů s využitím velkých jazykových modelů

Velké jazykové modely (LLM) mají velkou budoucnost v extrakci strukturovaných dat z textů. Pokud jsou využívány obezřetně a jejich výsledky jsou porovnány s manuálně anotovaným vzorkem dat, mohou výrazně urychlit výzkumný proces a umožnit badatelům dosáhnout smělejších cílů v kvantitativních kulturních dějinách, které by při ručním sběru dat nebyly myslitelné.

3. 10. 2025

Image generated by AI image generator DALL-E 3 on the prompt "Ai explaining inquisitorial records to historians".

Velké jazykové modely (LLM) naplno pronikly do našich životů – pomáhají nám s psaním e-maily, abstraktů či programového kódu, sumarizují texty do přehledných shrnutí a vytváří poutavé audionahrávky, některá jejich využití dokonce hraničí s věšteckou praxí (například otázky typu „kterou stranu mám volit, když…?“). V tomto zamyšlení navazujeme na náš příspěvek z roku 2022 Can artificial intelligence read medieval inquisition records?, neboť se domníváme, že právě nyní nastal čas, abychom jako historici začali uvažovat o přímém využívání LLM ve výzkumu.

Nechme stranou často diskutované a problematické způsoby využití LLM ke generování odborných textů, které někdy komplikují výuku či hodnocení akademických textů, a zaměřme se spíše na mimořádně slibný potenciál těchto modelů pro zrychlení získávání dat. Nedávno se tomuto tématu věnoval Andres Karjus v článku Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence publikovaném v časopise Humanities and Social Science Communications. Jedním z největších přínosů LLM je jejich mimořádná schopnost interpretovat text v různých jazycích a vyextrahovat z něj strukturované informace, díky čemuž se mohou stát výbornými anotátory. Tato dovednost může pomoci překonat řadu problémů souvisejících s nedostatkem pracovních sil v chronicky podfinancované oblasti humanitních a sociálních věd i s postupným a rozhodně politováníhodným úpadkem kompetencí studentů v oblasti cizích a zejména pramenných jazyků (za nímž však možná stojí i proměny studijních plánů?).

Samozřejmě existují lepší i horší způsoby, jak LLM využít k extrakci informací. Pokud od nich pouze chceme, aby „shrnovaly“ historické prameny, a jejich výstupy přijímáme bez ověřování, vynecháváme klíčový krok každého zpracování dat – křížovou validaci. A právě ta je (a pravděpodobně i zůstane) nejspolehlivější, pokud ji provádějí lidští odborníci. V rámci projektu DISSINET jsme začali LLM využívat k extrakci informací z textů, přičemž vždy zároveň ručně anotujeme vzorek dat podle stejných proměnných a instrukcí, jaké dostal i model. Díky tomu dokážeme formálně stanovit přesnost anotace, a tím i odhadnout, nakolik se na výsledky LLM dá spolehnout.

Pokud se používají správně, dokážou LLM zachytit jemné významové nuance sémantické informace, které běžné vyhledávání podle klíčových slov nezvládne. Sami jsme s zatím vyzkoušeli několik úloh zaměřených na extrakci informací z historických dokumentů pro naše aktuální studie, například:

  • rozpoznání mužů a žen (na základě jmen, zájmen apod.); 
  • klasifikace žánru dokumentu
  • identifikace přítomnosti či nepřítomnosti určitých témat a jejich variant v jednotlivých notářských nebo inkvizičních záznamech – například náboženské víry či zpochybňování církevní autority;
  • případně specializovanější a z hlediska interpretace složitější úlohy, jako je rozpoznání, zda je výrok prezentován jako skutečný, nebo hypotetický či jinak irreálný (pracujeme tedy s modalitou textu), zda se vztahuje k době konání procesu (např. dialog inkvizitora s vyslýchaným), nebo naopak představuje svědectví o minulém dění (např. rozhovor vyslýchaného s jiným podezřelým).

Pod vedením Tomáše Hampejse jsme dokonce začali s extrakcí datových struktur srovnatelných s naším komplexním modelem CASTEMO, a dosahujeme přitom překvapivě dobrých výsledků. I když nás čekají ještě roky práce, už nyní se zdá, že budoucnost patří AISTEMOArtificial Intelligence Semantic Text Modelling. Nastává doba, v níž budou celé texty převáděny do historicky přesných, sémanticky bohatých a strukturovaných datových modelů. To ale neznamená, že ruční přístup zanikne. Naopak – díky LLM budeme moci klást ambicióznější otázky a analyzovat mnohem rozsáhlejší korpusy, ale lidská kontrola a křížová validace zůstanou klíčové pro posouzení kvality dat a věrohodnosti výsledků. Práce historiků a sociálních vědců se nepochybně promění – částečně se přesune od sekvenčního čtení textů k anotaci náhodně vybraných výpovědí – ale zůstane nepostradatelnou součástí výzkumného procesu.


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info