Após reportagem do iG, a SABESP informou quais são os locais isentos de rodízio e que contam com abastecimento prioritário em caso de falta d’água. O formato de publicação escolhido foi o PDF, que é usado para garantir que um documento seja visualizado da mesma maneira em diferentes plataformas, mas, apesar de bastante útil para a distribuição de documentos, não é adequado a dados estruturados.
Um conjunto de dados só pode ser considerado aberto, segundo diferentes definições, se estiver em um formato legível por máquina, pois assim poderá ser importado a bancos de dados ou aberto em programas de edição. Quando um dado é publicado exclusivamente em PDF, a única possibilidade de extração de dados é via raspagem de dados. Traduzido do termo inglês data scraping, é a técnica de extração de dados a partir de documentos legíveis a humanos. Uma excelente ferramenta de extração de arquivos PDF é o Tabula, que tem código aberto.
Após importar um PDF ao programa, é possível marcar as áreas onde estão posicionadas as tabelas que serão processadas, como na imagem:
O Tabula não pode extrair automaticamente dados de todas as páginas do arquivo distribuído pela SABESP, então o processo de raspagem foi repetido para cada uma delas. O programa exporta em formato CSV, adequado a dados estruturados e legível por praticamente todos software de edição e linguagens de programação.
Links para os dados: