Este projeto tem como objetivo realizar a análise de score de crédito de clientes com base em variáveis categóricas e preditivas. Utilizando algoritmos de Machine Learning, o projeto busca prever o score de crédito para novos clientes a partir de um conjunto de dados pré-existente.
- Python: Linguagem de programação principal.
- Pandas: Biblioteca para manipulação e análise de dados.
- Scikit-learn: Biblioteca para algoritmos de Machine Learning.
- LabelEncoder: Método de codificação de variáveis categóricas.
- RandomForestClassifier: Algoritmo de aprendizado supervisionado usado para classificação.
- KNeighborsClassifier: Algoritmo de aprendizado supervisionado baseado em vizinhos mais próximos.
-
Leitura e Análise de Dados
- O projeto lê um arquivo CSV (
clientes.csv) contendo dados de clientes, e exibe informações sobre o conjunto de dados, como colunas e tipos de variáveis.
- O projeto lê um arquivo CSV (
-
Codificação de Variáveis Categóricas
- As variáveis categóricas como profissão, mix de crédito e comportamento de pagamento são transformadas em valores numéricos usando a técnica de codificação
LabelEncoder.
- As variáveis categóricas como profissão, mix de crédito e comportamento de pagamento são transformadas em valores numéricos usando a técnica de codificação
-
Divisão dos Dados
- Os dados são divididos em variáveis dependentes (
score_credito) e independentes, excluindo a colunaid_cliente. - O conjunto de dados é dividido em dados de treino (70%) e dados de teste (30%) utilizando a função
train_test_splitdo Scikit-learn.
- Os dados são divididos em variáveis dependentes (
-
Treinamento de Modelos
- Dois modelos de aprendizado de máquina são treinados para prever o score de crédito:
- RandomForestClassifier: Um modelo de floresta aleatória.
- KNeighborsClassifier: Um modelo baseado em vizinhos mais próximos.
- Dois modelos de aprendizado de máquina são treinados para prever o score de crédito:
-
Avaliação dos Modelos
- Após o treinamento, as previsões são feitas com base no conjunto de dados de teste.
- A acurácia dos modelos é calculada e exibida utilizando a métrica
accuracy_score.
-
Previsão para Novos Clientes
- Um novo conjunto de dados (
novos_clientes.csv) é lido e as variáveis categóricas são codificadas da mesma forma. - O modelo treinado de floresta aleatória é utilizado para prever o score de crédito dos novos clientes.
- Um novo conjunto de dados (
- Certifique-se de ter o Python instalado em sua máquina.
- Instale as bibliotecas necessárias:
pip install pandas scikit-learn
- Execute o script principal
python script.py
- clientes.csv: Contém os dados de clientes, incluindo informações como profissão, mix de crédito, comportamento de pagamento e score de crédito.
- novos_clientes.csv: Contém os dados de novos clientes para os quais as previsões de score de crédito serão feitas.
- Leitura e pré-processamento de dados
- Treinamento de modelos de Machine Learning
- Avaliação de modelos
- Previsão para novos clientes
Os modelos RandomForestClassifier e KNeighborsClassifier são treinados para prever o score de crédito com base nos dados fornecidos. A acurácia dos modelos é avaliada e o modelo com maior precisão é utilizado para fazer previsões sobre novos clientes.
Sinta-se à vontade para contribuir com melhorias no código ou novas funcionalidades!
Kaio Vitor - GitHub