Machine_learning/DataEncoding.py at main · gouri1694/Machine_learning · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
import scipy.stats as stat
import pylab
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.preprocessing import OneHotEncoder,LabelEncoder, OrdinalEncoder

# # One-Hot Encoding
# df=pd.DataFrame({'color':['red','blue','green','green','red','blue']})
# print(df.head())
# # create instance of one hot encoder
# encoder=OneHotEncoder()
# cat2num=encoder.fit_transform(df[['color']]).toarray()
# # print(cat2num)
# dfnew=pd.DataFrame(cat2num,columns=encoder.get_feature_names_out())
# print(dfnew)
# df1=pd.concat([df,dfnew],axis=1).reset_index(drop=True)
# print(df1)
# # problem 2
# df=sns.load_dataset('tips')
# print(df.head())
# # create instance of one hot encoder
# encoder=OneHotEncoder()
# cat2num=encoder.fit_transform(df[['sex','smoker','day','time']]).toarray()
# dfnew=pd.DataFrame(cat2num,columns=encoder.get_feature_names_out())
# print(dfnew)
# df1=pd.concat([df,dfnew],axis=1).reset_index(drop=True)
# print(df1)

# # # Label Encoding
# df=pd.DataFrame({'color':['red','blue','green','green','red','blue']})
# print(df.head())
# lblenc=LabelEncoder()
# cat2num=lblenc.fit_transform(df[['color']])
# dfnew=pd.DataFrame(cat2num,columns=['colorenum'])
# print(dfnew)
# df1=pd.concat([df,dfnew],axis=1).reset_index(drop=True)
# print(df1)

# Ordinal Encoding
# df=pd.DataFrame({'size':['small','medium','large','medium','small','large']})
# print(df)
# # create an instance of ordinal encoder and perform
# encoder=OrdinalEncoder(categories=[['small','medium','large']])
# cat2num=encoder.fit_transform(df[['size']])
# dfnew=pd.DataFrame(cat2num,columns=['sizeenum'])
# print(dfnew)
# df1=pd.concat([df,dfnew],axis=1).reset_index(drop=True)
# print(df1)


# TargetGuided Ordinal Encoding
# df=pd.DataFrame({'city':['New York','London','Paris','Tokyo','New York','Paris'],
#                  'price':[200,150,300,250,180,320]})
# print(df)
# meanprice=df.groupby('city')['price'].mean().to_dict()
# print(meanprice)
# df['cityencoded']=df['city'].map(meanprice)
# print(df)
df=sns.load_dataset('tips')
print(df.head())
meantime=df.groupby('time')['total_bill'].mean().to_dict()
print(meantime)
df['timeencoded']=df['time'].map(meantime)
print(df['timeencoded'].value_counts())