Ir para conteúdo
  • 0

PDF - Texto com quebra em coluna e linha


karinahiga

Pergunta

  • Alunos

Bom dia, tenho um PDF que estou tentando extrair as informações dele com o Power Query.

Porém quando realizo o tratamento na minha lógica um dos campos que eu preciso esta ficando embaralhado (Contraste Pontos Fortes)

Esse aqui é o texto do PDF e esta nessa ordem as linhas

PDF.PNG.410d93ccbb8b23d67ff39bd59a8e4b50.PNG

 

quando eu subo ele direto pra primeira etapa ele fica assim, a parte em amarela na primeira imagem é quebrada em colunas e linhas
quebracolunaelinha.PNG.cddd87a26e12b051a24c00f5a91b9612.PNG

Realizado os tratamentos e ele fica assim fora de ordem (usei o _ para ver onde estava cada quebra) olhando na 4 linhas ele junta o "vem se desenvolvendo" com a linha debaixo "direcionamento".. sendo que deveria ser vem se desenvolvendo 

1333415500_extrao.PNG.c5134d4a0c48f1d8727ae54df5707aab.PNG

Criei um PDF fictício e que acontece a mesma coisa dos prints acima 

Importar_PDF - arquivo que eu fiz o tratamento
PowerQuery_PDF - como eu preciso que fique a tabela
Laudo.docx - Arquivo caso precise fazer alteração no PDF
Laudo.pdf - o arquivo que eu preciso tratar

 

Desde já agradeço a atenção.

Importar_PDF.xlsm Laudo Karina da Silva Higa3.docx Laudo Karina da Silva Higa3.pdf PowerQuery_PDF.xlsx

Link para o comentário
Compartilhar em outros sites

2 respostass a esta questão

Posts Recomendados

  • 0
  • Alunos
Em 23/12/2022 em 14:07, karinahiga disse:

Bom dia, tenho um PDF que estou tentando extrair as informações dele com o Power Query.

Porém quando realizo o tratamento na minha lógica um dos campos que eu preciso esta ficando embaralhado (Contraste Pontos Fortes)

Esse aqui é o texto do PDF e esta nessa ordem as linhas

PDF.PNG.410d93ccbb8b23d67ff39bd59a8e4b50.PNG

 

quando eu subo ele direto pra primeira etapa ele fica assim, a parte em amarela na primeira imagem é quebrada em colunas e linhas
quebracolunaelinha.PNG.cddd87a26e12b051a24c00f5a91b9612.PNG

Realizado os tratamentos e ele fica assim fora de ordem (usei o _ para ver onde estava cada quebra) olhando na 4 linhas ele junta o "vem se desenvolvendo" com a linha debaixo "direcionamento".. sendo que deveria ser vem se desenvolvendo 

1333415500_extrao.PNG.c5134d4a0c48f1d8727ae54df5707aab.PNG

Criei um PDF fictício e que acontece a mesma coisa dos prints acima 

Importar_PDF - arquivo que eu fiz o tratamento
PowerQuery_PDF - como eu preciso que fique a tabela
Laudo.docx - Arquivo caso precise fazer alteração no PDF
Laudo.pdf - o arquivo que eu preciso tratar

 

Desde já agradeço a atenção.

Importar_PDF.xlsm 38 kB · 3 downloads Laudo Karina da Silva Higa3.docx 46.78 kB · 2 downloads Laudo Karina da Silva Higa3.pdf 196.99 kB · 3 downloads PowerQuery_PDF.xlsx 211.32 kB · 2 downloads

Galera será que alguém saberia como me ajudar nessa situação? 

Link para o comentário
Compartilhar em outros sites

  • 0
  • Alunos

Suave @karinahiga?

Infelizmente o Power Query não é muito otimizado para ler PDFs já que ele tenta sempre buscar por tabelas e qualquer quebra de linha pode gerar confusão nesse processo:

https://learn.microsoft.com/en-us/powerquery-m/pdf-tables

https://learn.microsoft.com/en-us/power-query/connectors/pdf?source=recommendations

A melhor solução no teu caso seria primeiro transformar o PDF em texto usando alguma ferramenta ou script externo (e.g.: Python, VBA, conversor online) e logo depois importar o resultado já em texto diretamente no Power Query. Fiz um teste aqui usando um conversor online PDF>TXT e saiu perfeito:

https://www.pdf2go.com/pdf-to-text

image.png.960ce7e3221d5e822115a149bfdf6c11.png

Se essa resposta te ajudou, não se esqueça de marcar como melhor solução 😉

Abs!

Link para o comentário
Compartilhar em outros sites

Faça login para comentar

Você vai ser capaz de deixar um comentário após fazer o login



Entrar Agora
×
×
  • Criar Novo...