Boa noite pessoal, tudo bem com vocês? Estou buscando trabalhar com os dados de um dos processos seletivos da UnB (Universidade de Brasília) para gerar planilhas mostrando as notas de cada participante da última edição em cada uma das provas do processo seletivo bem como a posição que eles ocuparam dentro do curso desejado. Ao fim de cada edição, eles disponibilizam um arquivo PDF contendo uma lista com as notas de todos os candidatos. Quando desejo obter as notas de apenas um candidato, o procedimento é bem simples e dá certo: eu apenas copio os valores desse candidato, colo em uma célula do calc e vou na opção texto para colunas utilizando os separadores adequados. No entanto, quando o objetivo é obter uma planilha contendo as notas de vários candidatos, o processo fica bem mais complicado. Eu só posso copiar uma página por vez diretamente do arquivo PDF, uma vez que, se copiasse várias, a numeração de cada página também seria copiada e atrapalharia a conversão de texto para colunas. Além disso, há um problema na conversão dos números: se a nota do aluno foi 89.570 (eles utilizam o ponto como separador decimal), ao utilizar esse procedimento, o valor que aparece na planilha é 89750. Em síntese, essa prática é pouco eficaz.
Refletindo um pouco e fazendo algumas pesquisas, ficou nítido para mim que o sistema da universidade provavelmente utiliza um arquivo CSV, transformando-o para PDF no intuito de torná-lo público. Nesse sentido, a separação entre diferentes candidatos utiliza a barra como símbolo, e a separação entre os dados de um mesmo candidato (nome, número de inscrição, notas) utiliza a vírgula como símbolo. Eu de fato sou leigo no assunto e estou indo na base da tentativa e erro e das pesquisas na internet. Com isso, decidi transformar o arquivo PDF disponibilizado em um arquivo no formato CSV. A conversão deu certo e consegui abrir o arquivo no Calc. No entanto, mesmo fazendo a seleção das opções de separadores, a divisão nas colunas não dá certo. O print abaixo mostra como é o PDF ao qual me refiro.
O print abaixo mostra a tela de importação do arquivo CSV obtido a partir da conversão do PDF. Reparem que, nessa tentativa, utilizam a barra como separador.
Por fim, este print mostra o resultado obtido
Algumas informações adicionais.
Nas primeiras tentativas de importar o CSV, eu não estava atento ao conjunto de caracteres. Depois de testar todos, percebi que o único sistema no qual a visualização não fica comprometida é o Unicode 8 e, por isso, supus que este deveria ser selecionado. Mesmo com essa mudança, não obtive êxito.
Eu já fiz algumas outras tentativas utilizando a vírgula como separador ou a vírgula e a barra como separadores. Obtive o mesmo resultado colocado no print. O meu intuito seria primeiramente separar por barras, para obter células com os dados de cada candidato e, em seguida, utilizar o colar especial com a opção “transpor”, tendo como objetivo fazer cada candidato ocupar uma linha. E, por fim, utilizar a opção texto para colunas com a vírgula como separador, conseguindo obter, então, uma linha para cada candidato e colunas específicas para cada tipo de dado.
Eu sou um pouco leigo nos assuntos relacionados, mas estou muito disposto a aprender e espero que vocês possam me ajudar! Desde já, muito obrigado a todos.
Edição (21/11):
Coloco abaixo o link para o arquivo PDF disponibilizado pela universidade