🧾 RPA Challenge - Automação de Extração de Faturas com OCR

Este projeto automatiza o processo de extração de dados de faturas disponíveis no site RPA Challenge - OCR utilizando Selenium, OCR com Tesseract, e geração/envio de arquivo CSV.

🚀 Funcionalidades

Acessa automaticamente o site do desafio.
Obtém as faturas com vencimento atual ou anterior.
Baixa os arquivos de imagem (JPG) das faturas.
Executa OCR para extrair dados relevantes:
- Invoice Number
- Invoice Date
- Company Name
- Total Due
Gera um CSV com os dados extraídos.
Faz upload do CSV de volta ao site.
Limpa arquivos JPG temporários após execução.

🧰 Requisitos

Python 3.8+
Google Chrome + ChromeDriver compatível
Tesseract OCR instalado

Instalação das bibliotecas

pip install selenium pillow pytesseract requests

🗂 Estrutura do Projeto

.
├── main.py                 # Script principal de execução
├── browser.py             # Inicialização e navegação no site
├── invoice_downloader.py  # Download de faturas via Selenium
├── ocr_processor.py       # Extração de texto com OCR (Tesseract)
├── csv_generator.py       # Geração do arquivo CSV
├── upload_csv.py          # Upload do CSV no site
├── cleanup.py             # Limpeza de arquivos temporários .jpg
├── utils.py               # Função para filtrar faturas vencidas (não incluído)
└── invoices.csv           # CSV gerado (output)

⚙️ Como Executar

Configure o caminho do Tesseract (em ocr_processor.py):

# Caminho para a instalação do Tesseract (ajuste se necessário)
tesseract_path = r"C:\Program Files\Tesseract-OCR"
pytesseract.pytesseract.tesseract_cmd = os.path.join(tesseract_path, "tesseract.exe")

# Caminho para a pasta tessdata
os.environ["TESSDATA_PREFIX"] = os.path.join(tesseract_path, "tessdata")

Execute o script principal:

python main.py

📤 Exemplo de Saída do CSV

ID,DueDate,InvoiceNo,InvoiceDate,CompanyName,TotalDue
1077,2023-07-04,INV-001,2023-06-01,Example Inc,185.50

📌 Observações

O código considera que as faturas estejam em até 3 páginas.
Os arquivos .jpg são apagados ao inicio da execução.
A função get_due_invoices(driver) está em utils.py, necessário para funcionamento completo.

👨‍💻 Autor

Desenvolvido como exercício prático de automação com foco em OCR e web scraping usando Python.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧾 RPA Challenge - Automação de Extração de Faturas com OCR

🚀 Funcionalidades

🧰 Requisitos

Instalação das bibliotecas

🗂 Estrutura do Projeto

⚙️ Como Executar

📤 Exemplo de Saída do CSV

📌 Observações

👨‍💻 Autor

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.idea		.idea
__pycache__		__pycache__
README.md		README.md
browser.py		browser.py
cleanup.py		cleanup.py
csv_generator.py		csv_generator.py
invoice_downloader.py		invoice_downloader.py
invoices.csv		invoices.csv
main.py		main.py
ocr_processor.py		ocr_processor.py
output.csv		output.csv
requirements.txt		requirements.txt
upload_csv.py		upload_csv.py
utils.py		utils.py

Folders and files

Latest commit

History

Repository files navigation

🧾 RPA Challenge - Automação de Extração de Faturas com OCR

🚀 Funcionalidades

🧰 Requisitos

Instalação das bibliotecas

🗂 Estrutura do Projeto

⚙️ Como Executar

📤 Exemplo de Saída do CSV

📌 Observações

👨‍💻 Autor

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages