Sistema de Informação sobre Mortalidade - SIM¶

Neste notebook, iremos demonstrar como acessar os dados do Sistema de Informações de Mortalidade (SIM) indexados pela Plataforma de Ciência de Dados aplicada à Saúde (PCDaS) através do R.

Os dados do SIM estão disponíveis em um índice do ElasticSearch (ES), que contém todos os registros individuais das declarações de óbito.

Pacotes necessários¶

Primeiro definimos uma função auxiliar para carregar os pacotes necessários à execução deste tutorial e instalar algum pacote caso este não esteja disponível.

loadlibrary <- function(x){
  if (!require(x,character.only = TRUE)) {
    install.packages(x, dep=TRUE)
    if(!require(x,character.only = TRUE)) stop("Package not found")
  }
}

O acesso ao índice no ES é realizado através do pacote elastic.

loadlibrary("elastic")

Vamos também utilizar outras bibliotecas do R para facilitar a manipulação dos dados obtidos e um último comando para ajustar os tamanhos dos gráficos gerados.

packages <- c("dplyr", "curl", "jsonlite", "ggplot2", "getPass")
lapply(packages, loadlibrary)

options(repr.plot.width=15, repr.plot.height=10)

Acesso ao ElasticSearch¶

O primeiro passo é informar ao R os parâmetros de conexão com o índice no ES.

Nos parâmetros es_user e es_pwd, informe o mesmo usuário e senha que você usar para acessar a plataforma.

Observação: As funções "readline()" e "getPass()" abrem uma caixa de texto para digitar seu login e senha

es_host <- "dados-pcdas.icict.fiocruz.br"
es_port <- 443
es_transport_schema <- "https"
es_user <- readline("Digite seu login da PCDaS: ")
es_pwd <- getPass("Digite sua senha da PCDaS: ")

Digite seu login da PCDaS: loginteste
Digite sua senha da PCDaS: ··········

Em seguida, criamos um objeto (es_sim) para acesso ao índice do ES contendo os dados do SIH.

es_sim <- elastic::connect(host = es_host,
                           port = es_port,
                           transport_schema = es_transport_schema,
                           user = es_user,
                           pwd = es_pwd)

Podemos testar a conexão pedindo algumas informações básicas sobre o Elasticsearch.

print(es_sim)

<Elasticsearch Connection> 
  transport:  https 
  host:       dados-pcdas.icict.fiocruz.br 
  port:       443 
  path:       NULL 
  username:   loginteste 
  password:   <secret> 
  errors:     simple 
  headers (names):   
  cainfo:  NULL 
  ignore ES version?:  FALSE

Fazendo buscas nos dados¶

Podemos executar buscas nos dados e ver os documentos (registros) do índice (banco do SIM) com os comandos count e Search.

Para fins de deixar as buscas mais intuitivas agora no início desse tutorial serão criadas 2 funções, uma para pesquisas agregadas e outra para buscas generalizadas. Ambas as funções teram como retorno um objeto no formato data.frame.

Como exemplo do comando count pegaremos a contagem total de registros no índice do SIH. Em seguida faremos queries com as funções criadas.

elastic::count(es_sim, "datasus-sim")

getColnames <- function(colunas){
    colunas <- lapply(X = colunas, FUN = function(t) gsub(pattern = "_source.", replacement = "", x = t, fixed = TRUE))
    return(colunas)
}
convertSearchToDF <- function(size=100, index, connection, elastic_query){
    search_result <- elastic::Search(conn=connection, index=index, body=elastic_query, asdf=TRUE,size=size)
    df <- search_result$hits$hits
    df[c("_index", "_type", "_id", "_score")] <- NULL
    rownames(df) <- NULL
    colnames(df) <- getColnames(colnames(df))
    return(df)
}       
convertAggsToDF <- function(index, connection, size=100, elastic_query){
    search_result <- elastic::Search(conn=connection, index=index, size=size, body=elastic_query,  asdf = TRUE)$aggregations
    outputList <- list()
    outputList <- c(outputList, search_result)
    records <- lapply(outputList, "[[", "buckets")
    df <- records$a1
    return(df)
}

Logo abaixo criaremos a query tudo para pegarmos todos os registros completos do índice, de acordo com o parâmetro size pré definido na função ele retornará um total de 100 registros podendo ser aumentado até 10.000. Vamos ver mais a frente que dificilmente iremos precisar mais do que isso, pois iremos trabalhar com agregações.

tudo <- '{
  "query": {
    "match_all": {}
  }
}'

df <- convertSearchToDF(size=100, index="datasus-sim", connection=es_sim, elastic_query=tudo)
head(df)

Agregando resultados¶

Se quisermos gerar tabelas mais complexas de contagens, podemos usar uma forma específica para pedir agregações de resultados.

Por exemplo, qual a quantidade de internações por estado? Podemos obter este resultado especificando uma agregação.

Uma agregação para o ES precisa ser escrita seguindo um padrão. Veja abaixo:

agg_uf <- '{
  "aggs": {
    "a1": {
      "terms": {
        "field": "res_SIGLA_UF",
        "size": 27
      }
    }
  }
}'

FemininoEstamos criando um objeto chamado agg_uf no R, que será usado na consulta ao ES. O que significa cada linha desse objeto?

aggs: esse comando declara ao ES que você está requerindo uma agregação;
a1: nome da agregação, você pode modificar esse nome;
terms: isso declara ao ES que você quer fazer a agregação a partir de uma variável categórica, resultando na contagem de documentos. Não modifique essa linha;
field: esse será o campo que você deseja fazer a agregação, no nosso caso, por sigla de UF. Você pode modificar esta linha para outra variável categórica;
size: esse é o limite de resultados da agregação. O limite deste parâmetro é 10.000.

Para buscarmos essa agregação no ES faremos uso da função criada anteriormente para trazê-la em formado de data.frame:

df_agg_uf <- convertAggsToDF(size=27, index="datasus-sim", connection=es_sim, elastic_query=agg_uf)
head(df_agg_uf)

Perceba que estamos realizando contagens em mais de 20 milhões registros. Fazer este tipo de contagem em um computador comum poderia durar horas ou dias. Utilizando a nossa infraestrutura, isso é feito em menos de 1 segundo.

O comando abaixo retorna um gráfico de barras gerado com base nos dados em df.

#Basic barplot
ggplot(data = df_agg_uf, aes(x = reorder(key, doc_count), y = doc_count)) +
  geom_bar(stat = "identity") +
  labs(x = "UF", y = "Obitos") +
  theme(axis.text.x = element_text(angle = 60))

Agregando com filtros¶

Na busca acima, temos o total de óbitos por estado para todos os anos e todas as doenças, sem filtros. Podemos tornar essa busca mais precisa incluindo um filtro.

filter_ano <- '{
    "query": {
        "bool": {
          "must": [
            {
              "range": {
                    "ano_obito": { "from" : 2010, "to" : 2012 }
              }
            }
          ]
        }
    }'

Com o código acima, estamos criando um objeto chamado filter_ano no R, que será usado na consulta ao ES. O que significa cada linha desse objeto?

query: como visto anteriormente, esse comando declara ao ES que você está requerindo uma busca;
bool: essa cláusula permite a construção de filtros que tenham múltiplos campos. Não modifique essa linha;
range: declara que o campo que trabalharemos será um range, nesse caso de anos delimitado inferiormente pela cláusula "from" e superiormente por "to";
ano_obito: Campo a ser filtrado.

Com o filtro definido podemos criar a combinação do filtro de anos e uma agregação por codigo da UF da seguinte forma:

agg_uf_ano <- '{
    "query": {
        "bool": {
          "must": [
            {
              "range": {
                    "ano_obito": { "from" : 2010, "to" : 2012 }
              }
            }
          ]
        }
    },
    "aggs": {
        "a1": {
            "terms": {
                "field": "res_SIGLA_UF",
                "size": 27
            }
        }
    }
}'

df_uf_ano <- convertAggsToDF(size = 27, index="datasus-sim", connection=es_sim, elastic_query=agg_uf_ano)
head(df_uf_ano)

Podemos agora fazer uma outra busca, dessa vez agregando por municípios e filtrando pelo campo res_SIGLA_UF= "MG" AND def_sexo = Feminino. Vejamos o resultado.

agg_mun_filtro_uf_sexo <- '{
    "query": {
        "bool": {
          "must": [
            {
              "query_string": {
                "query": "res_SIGLA_UF:MG AND def_sexo:Feminino"
              }
            }
          ]
        }
    },
    "aggs": {
        "a1": {
            "terms": {
                "field": "res_MUNNOME",
                "size": 6000
            }
        }
    }
}'

df_agg_mun_uf_sexo <- convertAggsToDF(size=50, connection=es_sim, index='datasus-sim', elastic_query = agg_mun_filtro_uf_sexo)
head(df_agg_mun_uf_sexo)

Fim do tutorial

	CONTADOR	ORIGEM	TIPOBITO	DTOBITO	HORAOBITO	NATURAL	CODMUNNATU	DTNASC	IDADE	idade_obito_anos	⋯	res_coordenadas	ocor_coordenadas	data_obito	dia_semana_obito	ano_obito	data_nasc	dia_semana_nasc	ano_nasc	idade_obito	idade_obito_calculado
	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	⋯	<list>	<list>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>
1	13713	1	2	01122017	0845	843	430890	18011937	480	80.0	⋯	-49.066, -26.919	-49.066, -26.919	2017-12-01	sex	2017	1937-01-18	seg	1937	80	80.0
2	13714	1	2	01122017	0805	842	420240	10061974	443	43.0	⋯	-49.066, -26.919	-49.066, -26.919	2017-12-01	sex	2017	1974-06-10	seg	1974	43	43.0
3	640294	1	2	01052019	2000	842	421870	31121932	486	86.0	⋯	-49.007, -28.467	-49.007, -28.467	2019-05-01	qua	2019	1932-12-31	sab	1932	86	86.0
4	13716	1	2	02122017	NA	842	421510	01071956	461	61.0	⋯	-49.066, -26.919	-49.066, -26.919	2017-12-02	sab	2017	1956-07-01	dom	1956	61	61.0
5	640296	1	2	22042019	NA	842	421870	05091989	429	29.0	⋯	-49.007, -28.467	-49.007, -28.467	2019-04-22	seg	2019	1989-09-05	ter	1989	29	29.0
6	640297	1	2	26042019	1213	842	421950	02081975	443	43.0	⋯	-49.007, -28.467	-49.007, -28.467	2019-04-26	sex	2019	1975-08-02	sab	1975	43	43.0

	key	doc_count
	<chr>	<int>
1	SP	6212222
2	RJ	2973449
3	MG	2757074
4	RS	1823539
5	BA	1728333
6	PR	1522804

	key	doc_count
	<chr>	<int>
1	SP	805750
2	RJ	380892
3	MG	368530
4	RS	237589
5	BA	234694
6	PR	204204

	key	doc_count
	<chr>	<int>
1	Belo Horizonte	156556
2	Juiz de Fora	40797
3	Uberlândia	32035
4	Contagem	29948
5	Uberaba	21547
6	Montes Claros	18488