Z chaosu přehledná data. Student vytvořil nástroj pro zastupitelstva - Tiskový servis

Z chaosu přehledná data. Student vytvořil nástroj pro zastupitelstva

Studentské nápady můžou nastartovat kariéru nebo sloužit veřejnosti, to dobře ví na Fakultě informačních technologií Vysokého učení technického v Brně, která pořádá soutěž Excel@FIT. Letos se studentská přehlídka konala již po dvanácté. Projekty se věnovaly nepřebernému množství témat. Veřejné správě se rozhodl pomoci Martin Janeček s aplikací, která efektivně zpřístupňuje data a programové body ze zasedání zastupitelstev.

Martin Janeček vytvořil oceněnou aplikaci pro zastupitelstva. Foto: archiv Martina Janečka
Martin Janeček vytvořil oceněnou aplikaci pro zastupitelstva. Foto: archiv Martina Janečka

V čem je problém s daty zastupitelstev, kterými jste se zabýval?

Data zastupitelstev jsou velmi různorodá. V České republice máme hodně municipalit a každá z nich vytváří různé typy dokumentů, ať už jde o Word, PDF, HTML, nebo další formáty, které nemají standardizovanou strukturu. Pro nás, dataře, je složité je jednotně zpracovat. Musel jsem vytvořit systém, který z této různorodosti udělá jednotnou strukturu, s níž se dá pracovat v dalších systémech. Jiný problém s těmi dokumenty je, že nejsou tematicky zařazené. Není možné vyhledat třeba jenom sport nebo multifunkční halu v Brně – ta se řešila na několika zastupitelstvech a je velmi složité ty materiály najít a zorientovat se v nich. Něco jako fulltextové vyhledávání neexistuje. A tohle řeší můj projekt.

Co se tedy přesně skrývá pod názvem Automatická klasifikace bodů programu zastupitelstva obcí ČR?

Původní motivace byla dát jednotnou strukturu a kontext dokumentům ze zasedání zastupitelstev – konkrétně se jedná o Zastupitelstvo města Brna, ale cílem je mít nachystanou síť pro všechna města. Vytvořil jsem si tedy vlastní datovou sadu, která obsahuje body z programu zasedání, usnesení a všechny důležité informační prvky z dokumentů. Na základě těchto dat probíhá velký proces čištění všeho, co tam nechceme a co vytváří šum. Jedná se o druh předzpracování textu, což byla velká část mojí práce. Následně jsem přešel ke klasifikaci. Využil jsem jazykový model jménem RobeCzech, který umí pracovat s češtinou, a mým úkolem bylo ho dotrénovat přímo na datech čistě pro zastupitelstvo. Dělá se to na základě anotovaných dat a pak model dokáže automaticky klasifikovat každý bod programu do štítků, které jsem předem definoval. Jde třeba o majetek, kulturu, finance a další témata. Aplikace je nasazená v živém demu, člověk může veřejně procházet záznamy a může v nich filtrovat, hledat kontext nebo vyhledávat ve fulltextu.

Překvapilo vás během práce něco? Je nějaký aspekt, který jste nečekal?

Asi mě překvapilo, jak moc je to nestrukturované prostředí. Konkrétně podkladový materiál k bodům programu je napříč municipalitami strašně rozdílný. Každé město nebo obec si to vyrábí jinak a soubory obsahují jiné informace, proto je velmi náročné navrhnout jednotný datový model. Toto je výzkumná část mé práce – procházel jsem velké množství dokumentů z různých měst a snažil se v nich najít společné vzory a na jejich základě potom vytvořit model, ale je to prostě obrovsky rozdílné.

Komu by mohla aplikace pomoci?

Aplikace je využitelná pro každého, kdo si chce zjistit informace o zasedáních včetně Zastupitelstva města Brna. Dále ji využijí novináři a novinářky, protože jim to zjednoduší získání relevantních dat. Nebudou muset vyhledávat ve stovkách dokumentů, ale jednoduše si vyfiltrují, co je zajímá. Chci také zmínit veřejnost, která má zájem o dění v Brně. A věřím, že to pomůže i lidem na magistrátu.

Máte ambici v projektu pokračovat?

Rád bych aplikaci rozvíjel do budoucna. Ačkoli moje specializace je trochu jiná, ukázalo se, že téma strojového učení a jazykových modelů mě baví a chtěl bych se mu věnovat i nadále. V aplikaci bychom mohli doplnit další datové sady pro jiná města – připraven je třeba Most. Dalším velkým tématem je sumarizace, což znamená zpracování krátkého shrnujícího článku z každého zastupitelstva, kde by se člověk rychle seznámil s děním. To vše by mohl připravovat jazykový model.

Co pro vás znamenala účast v projektové soutěži Excel@FIT?

Byla pro mě hlavně motivací, řekl bych. Je příjemné být oceněný už během práce na diplomce. Důležitou součástí je také networking a socializace s odborníky mimo obor i z oboru. To pro mě byly velké podněty k přihlášení. A musím říct, že to bylo splněno. Dostal jsem se na zajímavá místa, potkal jsem mnoho zajímavých lidí, třeba i kolegy z praxe, firmy, získal jsem ocenění, takže pro mě bylo naprosto všechno splněno.

Další články z rubriky

Nejnovější články