Este repositório contém os exercícios relacionados à disciplina de IoT, incluindo análise e redução de dimensionalidade utilizando PCA.
Para obter uma cópia local do projeto, utilize o comando abaixo:
git clone https://github.com/codecrazes/CP1_IOT.git- Caroline Assis Silva (RM557596)
- Enzo de Moura Silva (RM556532)
- Luis Henrique Gomes Cardoso (RM558883)
Para executar os exercícios, você precisará instalar as seguintes bibliotecas Python:
pip install pandas numpy matplotlib seaborn scikit-learn statsmodels- pandas – manipulação de dados
- numpy – operações numéricas
- matplotlib.pyplot – visualização de dados
- seaborn – visualização estatística
- sklearn.preprocessing.MinMaxScaler – normalização de dados
- sklearn.preprocessing.StandardScaler – padronização de dados
- sklearn.cluster.KMeans – clustering
- sklearn.decomposition.PCA – redução de dimensionalidade
- sklearn.linear_model.LinearRegression – regressão linear
- sklearn.linear_model.LogisticRegression – regressão logística
- sklearn.ensemble.RandomForestRegressor / RandomForestClassifier – modelos de Random Forest
- sklearn.preprocessing.PolynomialFeatures – regressão polinomial
- sklearn.model_selection.train_test_split – divisão de dados em treino e teste
- sklearn.metrics – métricas como MSE, R², acurácia, precisão, recall, F1, ROC AUC, matriz de confusão
- statsmodels.tsa.seasonal.seasonal_decompose – decomposição de séries temporais
- statsmodels.graphics.tsaplots.plot_acf – autocorrelação
- pandas.plotting.autocorrelation_plot – plot de autocorrelação rápida
Os exercícios utilizam datasets que não estão incluídos no repositório devido ao tamanho. Você deve baixar os arquivos e colocá-los na pasta DataSet/:
- Dataset 1 (df1): Individual Household Electric Power Consumption
- Dataset 2 (df2): Appliances Energy Prediction
- O parâmetro
caminho_arquivoé utilizado no exercício 1. - O parâmetro
caminho_arquivo_2é utilizado no exercício 26.
Para este exercício, utilizamos o software Orange para realizar análise de clustering e visualização de dados. O dataset utilizado foi o Individual Household Electric Power Consumption, que contém informações detalhadas sobre o consumo elétrico de uma residência.
A análise incluiu:
- Amostragem de 1% do dataset para análise exploratória.
- Observação da distribuição de consumo.
- Verificação de correlação entre variáveis como Voltage e Global_intensity.
- Aplicação de k-Means para identificar padrões de consumo doméstico.
- 2075259
- Sim, a distribuição da amostra de 1% é semelhante à da base completa, concentrada em valores baixos com poucos registros de alto consumo.
- O consumo é concentrado em valores baixos, com poucos registros de alto consumo.
- Não existe correlação visível clara entre Voltage e Global_intensity; os pontos se concentram em baixa intensidade, enquanto a tensão permanece estável.
- Sim, cada cluster representa um padrão distinto de consumo doméstico — desde momentos de baixo consumo, passando por uso específico de um ambiente/aparelho, até picos de consumo mais altos.