Descrição
O diário oficial é o principal instrumento de publicação sobre as ações dos governos federal, estadual e municipal. No entanto, apesar de ser uma fonte rica de informação, o formato em que esses dados são publicados dificulta o acompanhamento e a fiscalização da sociedade. Além disso, o formato textual dificulta a automatização de rotinas de análise por meio de computadores.
Sendo assim, o projeto propõe o uso de técnicas de processamento de linguagem natural para a análise de dados a partir dos textos publicados nos diários oficiais dos municípios. Extrair, caracterizar e relacionar essas informações contribuem para uma maior fiscalização por parte da sociedade civil.
Uma destas informações publicadas nos diários são as dispensas de licitações em contratos municipais. Esse tipo de compra não passa pelo processo tradicional de licitação, o que pode dificultar a fiscalização. Desta forma, esse projeto tem como objetivo mapear informações referentes às dispensas de licitações a partir dos textos de diários oficiais publicados pelos municípios.
Para isso, são propostos dois planos de trabalhos que fazem uso de técnicas de processamento de linguagem natural para atingir os objetivos. O primeiro plano será focado no estudo, construção e aplicação de modelos de processamento de linguagem natural para a extração de relacionamentos e entidades nomeadas presentes nos textos. Modelos de machine learning treinados permitem identificar, a partir do contexto, entidades nomeadas e relacioná-las com as informações dos textos. Desta forma, é possível identificar órgãos, empresas, pessoas e valores relacionados a contratos de dispensa de licitação.
O segundo plano de trabalho vai focar em construir modelos de representação textual para os algoritmos de machine learning. Para a aplicação destes algoritmos, é necessário que os textos sejam mapeados para representações numéricas adequadas para os modelos.Essa representação contribui para obter modelos mais assertivos e buscar relações entre os textos mapeados.
Como base de dados, a proposta é trabalhar com o projeto Querido Diário (QD) – projeto apoiado e mantido pela Open Knowledge Brasil que tem como proposta utilizar inteligência artificial para classificar, contextualizar e expandir informações contidas nos diários oficiais. Atualmente, o QD possui 33 municípios com textos totalmente extraídos e disponíveis a partir de sua plataforma e em formato acessível para uso neste projeto. Além disso, outras 2420 cidades já tiveram os diários coletados, mas sem o texto extraído. A pesquisa desenvolvida nesse projeto vai permitir extrair, desta base, informações relevantes e de extrema importância para o controle e fiscalização dos gastos públicos por meio da sociedade civil.