15/07/2023 . Notícia
Está no ar a versão 1.5 da Plataforma de Ciência de Dados aplicada à Saúde (PCDaS), ambiente online que permite análise visual, mineração de dados, análise preditiva e aprendizagem colaborativa para estudo e visualização de informações úteis a partir de grandes ou complexas bases de dados de saúde coletiva.
O pesquisador do Laboratório de Informação em Saúde (Lis) Marcel Pedroso, coordenador da plataforma, explica o porquê dessa numeração. “Nesse momento, a nova versão traz melhor navegabilidade e experiência para o usuário, incluindo tutoriais de uso para a ferramenta, atualização de algumas das bases de dados indexadas pela Plataforma (relativas aos anos de 2015 e 2016)”, detalha.
As principais fontes de dados são o Sistema de Informações de Mortalidade (SIM/Datasus), com a incorporação de mais 2,5 milhões de registros, e o Sistema de Informações sobre Nascidos Vivos (Sinasc), com mais 5,9 milhões de registros. Além disso, o Cadastro Nacional de Estabelecimentos de Saúde (CNES) foi recentemente indexado e passou a ser disponibilizado, trazendo 300 mil novos registros.
Outra novidade é a integração da PCDaS com o Comprehensive Knowledge Archive Network (CKAN), plataforma internacional de dados abertos, possibilitando a disseminação de dados e metadados de registros informacionais.
A versão 2.0 será lançada logo mais, no segundo semestre, trazendo algumas alterações estruturais no back-end [a parte que inclui a programação necessária para seu funcionamento], com melhorias em relação à atual versão, como a incorporação de funcionalidades como a autenticação unificada de usuários e integração com o Google Colab.
Equipe de desenvolvimento (parcial) da PCDaS, da esquerda para direita: Dionísio, Igor, Rebecca, Jefferson, Marcel, Pedro, Lucas (celular), Raphael (celular) e Valentim. Foto: Divulgação
Experiências com dados
Em seu terceiro ano de funcionamento, a PCDaS vem atraindo usuários de diferentes áreas de pesquisa, que tem à sua disposição toda a estrutura de processamento de grandes volumes de dados, além de livre acesso a diversos grupos de dados já tratados e disponibilizados pelos sistemas citados acima.
“Já cadastramos diversos grupos de pesquisa, que além de usuários, se tornam parceiros da Plataforma, por meio da seção chamada Data Science Lab, um módulo de aprendizagem e compartilhamento de experiências em ciência de dados”, explica Pedroso.
Dentre eles, o Observatório de Epidemiologia Nutricional, da Universidade Federal do Rio de Janeiro, vem utilizando a plataforma para análise de indicadores relativos à saúde e alimentação de bebês e crianças em fase de introdução alimentar. Nessa mesma temática, o BASIS (Breastfeeding Information System) utiliza os métodos de ‘big data’ para avaliar indicadores de todos os 62.950.321 nascidos vivos do Brasil, de 1996 a 2016.
Outros projetos que rodam na plataforma são o Observatório em Ciência, Tecnologia e Inovação em Saúde, que estuda registros de patentes e outros dados relativos à inovação tecnológica no campo da saúde e o Arca – Repositório Institucional da Fiocruz, que criou visualizações customizadas sobre seu acervo e usuários.
Além disso, pesquisadores em projetos acadêmicos também tem recorrido à plataforma para realização de estudos em nível de mestrado e doutorado. “Para mim, foi um grande benefício usar a plataforma, onde pude realizar a análise exploratória e de divergência”, explica Laís Baroni, estudante do CEFET-RJ, para realização de um estudo sobre a malária na Amazônia Legal. “Também facilitou o acesso aos dados e uso do software estatístico. Não daria para rodá-los na memória de um computador pessoal”, exemplificou.
Coordenadores da PCDaS Fábio Porto (DEXL/LNCC) e Marcel Pedroso (LIS/ICICT) junto ao cluster de máquinas no LNCC em Petrópolis. Foto: Divulgação
Pizza de Dados
A iniciativa conta com a parceria estratégica do Extreme Data Lab (DEXL) do Laboratório Nacional de Computação Científica (LNCC), que abriga fisicamente o cluster de computadores dedicados à PCDaS em Petrópolis. Em abril (25), a equipe se reuniu para comemorar a instalação dos servidores com a realização de um seminário, no Icict, reunindo os desenvolvedores, parceiros e usuários.
O evento contou com a presença do apresentador do podcast Pizza de Dados, Gustavo Coelho. De maneira descontraída, ele conduziu um mini-episódio do programa, em que discute periodicamente temas relacionados à ciência de dados. “Somos muito influenciados pelos valores da comunidade Python. Ela agrega pessoas de muitas áreas e é bastante ativa e diversa”, apresentou.
Ele saudou a PCDaS e as diversas experiências que vem sendo realizadas na interface entre saúde e ciência de dados. “Também temos buscado esse desafio de receber pessoas de outras áreas, trocar experiências e conhecimentos entre a ciência de dados e outros campos, como profissionais de jornalismo, agora também com profissionais da saúde. Também seguimos muito a ideia de ciência aberta. Sempre brincamos que a gente gosta é de pizza, e não de calzone, brincou.
Gustavo Coelho do podcast Pizza de Dados. Foto: Rodrigo Méxas – Icict/Fiocruz