Extrakce dat z historických pramenů s využitím velkých jazykových modelů

Velké jazykové modely (LLM) mají velkou budoucnost v extrakci strukturovaných dat z textů. Pokud jsou využívány obezřetně a jejich výsledky jsou porovnány s manuálně anotovaným vzorkem dat, mohou výrazně urychlit výzkumný proces a umožnit badatelům dosáhnout smělejších cílů v kvantitativních kulturních dějinách, které by při ručním sběru dat nebyly myslitelné.

3. 10. 2025

Image generated by AI image generator DALL-E 3 on the prompt "Ai explaining inquisitorial records to historians".

Velké jazykové modely (LLM) naplno pronikly do našich životů – pomáhají nám s psaním e-maily, abstraktů či programového kódu, sumarizují texty do přehledných shrnutí a vytváří poutavé audionahrávky, některá jejich využití dokonce hraničí s věšteckou praxí (například otázky typu „kterou stranu mám volit, když…?“). V tomto zamyšlení navazujeme na náš příspěvek z roku 2022 „Can artificial intelligence read medieval inquisition records?“, neboť se domníváme, že právě nyní nastal čas, abychom jako historici začali uvažovat o přímém využívání LLM ve výzkumu.

Nechme stranou často diskutované a problematické způsoby využití LLM ke generování odborných textů, které někdy komplikují výuku či hodnocení akademických textů, a zaměřme se spíše na mimořádně slibný potenciál těchto modelů pro zrychlení získávání dat. Nedávno se tomuto tématu věnoval Andres Karjus v článku „Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence“ publikovaném v časopise Humanities and Social Science Communications. Jedním z největších přínosů LLM je jejich mimořádná schopnost interpretovat text v různých jazycích a vyextrahovat z něj strukturované informace, díky čemuž se mohou stát výbornými anotátory. Tato dovednost může pomoci překonat řadu problémů souvisejících s nedostatkem pracovních sil v chronicky podfinancované oblasti humanitních a sociálních věd i s postupným a rozhodně politováníhodným úpadkem kompetencí studentů v oblasti cizích a zejména pramenných jazyků (za nímž však možná stojí i proměny studijních plánů?).

Samozřejmě existují lepší i horší způsoby, jak LLM využít k extrakci informací. Pokud od nich pouze chceme, aby „shrnovaly“ historické prameny, a jejich výstupy přijímáme bez ověřování, vynecháváme klíčový krok každého zpracování dat – křížovou validaci. A právě ta je (a pravděpodobně i zůstane) nejspolehlivější, pokud ji provádějí lidští odborníci. V rámci projektu DISSINET jsme začali LLM využívat k extrakci informací z textů, přičemž vždy zároveň ručně anotujeme vzorek dat podle stejných proměnných a instrukcí, jaké dostal i model. Díky tomu dokážeme formálně stanovit přesnost anotace, a tím i odhadnout, nakolik se na výsledky LLM dá spolehnout.

Pokud se používají správně, dokážou LLM zachytit jemné významové nuance sémantické informace, které běžné vyhledávání podle klíčových slov nezvládne. Sami jsme s zatím vyzkoušeli několik úloh zaměřených na extrakci informací z historických dokumentů pro naše aktuální studie, například:

rozpoznání mužů a žen (na základě jmen, zájmen apod.);
klasifikace žánru dokumentu;
identifikace přítomnosti či nepřítomnosti určitých témat a jejich variant v jednotlivých notářských nebo inkvizičních záznamech – například náboženské víry či zpochybňování církevní autority;
případně specializovanější a z hlediska interpretace složitější úlohy, jako je rozpoznání, zda je výrok prezentován jako skutečný, nebo hypotetický či jinak irreálný (pracujeme tedy s modalitou textu), zda se vztahuje k době konání procesu (např. dialog inkvizitora s vyslýchaným), nebo naopak představuje svědectví o minulém dění (např. rozhovor vyslýchaného s jiným podezřelým).

Pod vedením Tomáše Hampejse jsme dokonce začali s extrakcí datových struktur srovnatelných s naším komplexním modelem CASTEMO, a dosahujeme přitom překvapivě dobrých výsledků. I když nás čekají ještě roky práce, už nyní se zdá, že budoucnost patří AISTEMO – Artificial Intelligence Semantic Text Modelling. Nastává doba, v níž budou celé texty převáděny do historicky přesných, sémanticky bohatých a strukturovaných datových modelů. To ale neznamená, že ruční přístup zanikne. Naopak – díky LLM budeme moci klást ambicióznější otázky a analyzovat mnohem rozsáhlejší korpusy, ale lidská kontrola a křížová validace zůstanou klíčové pro posouzení kvality dat a věrohodnosti výsledků. Práce historiků a sociálních vědců se nepochybně promění – částečně se přesune od sekvenčního čtení textů k anotaci náhodně vybraných výpovědí – ale zůstane nepostradatelnou součástí výzkumného procesu.

Více článků

Přehled všech článků

Extrakce dat z historických pramenů s využitím velkých jazykových modelů

Více článků

OP JAK CoRe nabízí výzkumné rezidenční pobyty

Reading a heresy trial, one clause at a time

Medieval anti-heretical hate speech: Support in submitting a Marie Skłodowska-Curie postdoc application (MSCA-PF), expression of interest by 16 March 2026

Medieval anti-heretical hate speech: Funded Ph.D. opportunity, preliminary deadline 15 April 2026