import pandas as pd
import numpy as np
from tqdm.notebook import tqdm


df = pd.read_csv('ad_clicks_100k.csv')


# Number of instances
df.shape[0]*df.shape[1]

2400000


# Check for duplicates
if len(df.id.unique()) == df.shape[0]:
    print('There are no duplicates')
else:
    print('There are duplicates')

There are no duplicates


df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 24 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   id                100000 non-null  float64
 1   click             100000 non-null  int64  
 2   hour              100000 non-null  int64  
 3   C1                100000 non-null  int64  
 4   banner_pos        100000 non-null  int64  
 5   site_id           100000 non-null  object 
 6   site_domain       100000 non-null  object 
 7   site_category     100000 non-null  object 
 8   app_id            100000 non-null  object 
 9   app_domain        100000 non-null  object 
 10  app_category      100000 non-null  object 
 11  device_id         100000 non-null  object 
 12  device_ip         100000 non-null  object 
 13  device_model      100000 non-null  object 
 14  device_type       100000 non-null  int64  
 15  device_conn_type  100000 non-null  int64  
 16  C14               100000 non-null  int64  
 17  C15               100000 non-null  int64  
 18  C16               100000 non-null  int64  
 19  C17               100000 non-null  int64  
 20  C18               100000 non-null  int64  
 21  C19               100000 non-null  int64  
 22  C20               100000 non-null  int64  
 23  C21               100000 non-null  int64  
dtypes: float64(1), int64(14), object(9)
memory usage: 18.3+ MB


df.describe()


# Visualization Imports
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px
from plotly.offline import iplot, init_notebook_mode
init_notebook_mode()


fig = px.pie(names=df['click'].value_counts()[:].index.tolist(), 
           values=df['click'].value_counts()[:].tolist(), hole=.5,
                 title=f'Distribution of Target Variable ` click `')
fig.show()


print('Current dataset shape ->> ', df.shape)
shape_inital = df.shape
initial_columns = df.columns.to_list()
df.head(2)

Current dataset shape ->>  (100000, 24)


import datetime as dt
df['hour'] = df['hour'].apply(lambda x: dt.datetime.strptime(str(x), '%y%m%d%H'))


df.hour.describe(datetime_is_numeric=True)

count                           100000
mean     2014-10-25 22:20:44.375999744
min                2014-10-21 00:00:00
25%                2014-10-23 04:00:00
50%                2014-10-26 01:00:00
75%                2014-10-28 14:00:00
max                2014-10-30 23:00:00
Name: hour, dtype: object


df.groupby('hour')['click'].sum().values

array([ 63,  56,  67,  68, 101, 104, 100,  84,  72, 108,  93,  99,  72,
        95,  84,  73,  86,  76,  61,  45,  38,  40,  49,  33,  29,  46,
        34,  63,  80, 109,  99, 103, 115, 158, 159, 133, 136, 105,  91,
        93,  93,  93,  78,  72,  62,  59,  41,  44,  43,  50,  65,  87,
       102,  93,  58,  74, 111, 100,  74,  81,  92,  79,  82, 117,  75,
        67,  80,  69,  50,  39,  55,  54,  45,  54,  64,  51,  76,  71,
        78,  91,  95,  71,  69,  56,  90,  91,  93, 103, 114,  85,  68,
        20,   7,   6,   5,  11,  39,  44,  14,  22,  39,  44,  24,  72,
        79,  81,  66,  89, 109, 128, 119, 114,  88,  81,  69,  42,  52,
        36,  34,  35,  38,  24,  41,  50,  82,  81,  84,  88,  88,  89,
        83,  94, 106, 104, 106, 105, 100,  71,  72,  53,  52,  45,  39,
        44,  22,  31,  48,  57,  60,  78,  69,  58,  70,  75,  48,  49,
        78,  94,  46,  43,  88, 117,  91,  58,  39,  22,  46,  38,  44,
        48,  68,  46,  65,  80,  72,  77,  87,  95,  98,  84, 116, 159,
       136, 104, 114, 104,  84,  73,  50,  72,  43,  33,  27,  40,  58,
       104,  50,  39,  69,  96,  76,  57,  84,  59,  60,  76,  87,  99,
        65,  59,  42,  41,  47,  32,  43,  53,  55,  42,  38,  63,  88,
        85,  76,  67,  69,  93,  93, 106, 105, 104, 111,  87,  91,  76,
        85,  58,  37,  46,  46,  38], dtype=int64)


px.line(x=df.groupby('hour')['click'].sum().index, 
        y=df.groupby('hour')['click'].sum().values,
        title='Distribution of Clicks per hour over 10 days',
        labels={'y':'Number of Clicks', 'x':'Days'})


aux_data = pd.DataFrame(df.groupby(['hour','click'])['id'].count()).reset_index().rename(columns={'id':'count'})
aux_data['click'] = pd.Categorical(aux_data.click)


px.bar(aux_data, x='hour', y='count', color='click')


df['hour_of_day'] = df['hour'].map(lambda x: x.hour)
aux_data1 = pd.DataFrame(df.groupby(['hour_of_day','click'])['id'].count()).reset_index().rename(columns={'id':'count'})
aux_data1['click'] = pd.Categorical(aux_data1.click)


px.bar(aux_data1, x='hour_of_day', y='count', color='click', barmode='overlay', text='count',
       title = f"""Agregated click per hour of the day over 10 days. The maximum number of clicks is {aux_data1.loc[(aux_data1['click'] == 1)]['count'].max()}""")


by_click = aux_data1.loc[aux_data1['click'] == 1].copy()
px.bar(by_click, x='hour_of_day', y='count', color='click', barmode='overlay', text='count',
       title = f"""Agregated click per hour of the day over 10 days. The maximum number of clicks is {by_click['count'].max()}""")


by_click.reset_index(inplace=True)
by_click.drop(columns='index', inplace=True)


total_hour_clicks = pd.DataFrame(aux_data1.groupby('hour_of_day')['count'].sum()).reset_index().rename(columns={'count':'total_clicks'})
by_click['total_clicks'] = total_hour_clicks['total_clicks']
by_click['CTR_hour'] = (by_click['count']/by_click['total_clicks'])


by_click['hour_of_day'] = pd.Categorical(by_click['hour_of_day'])


fig = px.bar(by_click, x='hour_of_day', y='CTR_hour', barmode='relative', color='hour_of_day',
       text = 'CTR_hour',#[str(round(i,2))+'%' for i in list(by_click['CTR_hour'])],
       title = f"""Agregated click per hour of the day over 10 days. The maximum CTR is {round(by_click['CTR_hour'].max(),3)}%""")
fig.update_traces(texttemplate='%{text:.1%}', textposition='outside')
fig.update_layout(showlegend=False)
fig.show()


by_click.sort_values(by='CTR_hour', ascending=False).head(5)


df['day'] = df['hour'].apply(lambda x: x.day)
aux_df = pd.DataFrame(df.groupby(['day', 'click'])['id'].count()).reset_index().rename(columns={'id':'count'})
by_day = aux_df.loc[aux_df['click'] == 1].copy()


by_day.reset_index(inplace=True)
by_day.drop(columns='index', inplace=True)


total_day_clicks = pd.DataFrame(aux_df.groupby('day')['count'].sum()).reset_index().rename(columns={'count':'total_clicks'})
by_day['total_clicks'] = total_day_clicks['total_clicks']
by_day['CTR_day'] = (by_day['count']/by_day['total_clicks'])
by_day.sort_values(by='CTR_day').head(5)


by_day['day'] = pd.Categorical(by_day['day'])


fig = px.bar(by_day, x='day', y='CTR_day', barmode='relative', color='day',
       text = 'CTR_day',
       title = f"""Agregated click per day. The maximum CTR is {round(by_day['CTR_day'].max(),3)}%""")
fig.update_traces(texttemplate='%{text:.1%}', textposition='outside')
fig.update_layout(showlegend=False)
fig.show()


df['weekday'] = df['hour'].apply(lambda x: x.day_name())
week_df = pd.DataFrame(df.groupby(['weekday', 'click'])['id'].count()).reset_index().rename(columns={'id':'count'})
categories = "Monday Tuesday Wednesday Thursday Friday Saturday Sunday".split()
week_df['weekday'] = pd.Categorical(week_df['weekday'], categories=categories)
week_df['click'] = pd.Categorical(week_df.click)
week_df.head()


fig = px.bar(week_df.sort_values('weekday'), x='weekday', y='count', barmode='group', color='click',
       text = 'count',
       title = f"Agregated total clicks per day of the week.")
fig.update_traces(texttemplate='%{text:.1}', textposition='outside')
fig.update_layout(showlegend=True)
fig.show()


df['weekday'] = df['hour'].apply(lambda x: x.day_name())
week_df = pd.DataFrame(df.groupby(['weekday', 'click'])['id'].count()).reset_index().rename(columns={'id':'count'})
by_weekday = week_df.loc[week_df['click'] == 1].copy()

by_weekday.reset_index(inplace=True)
by_weekday.drop(columns='index', inplace=True)

total_weekday_clicks = pd.DataFrame(week_df.groupby('weekday')['count'].sum()).reset_index().rename(columns={'count':'total_clicks'})
by_weekday['total_clicks'] = total_day_clicks['total_clicks']
by_weekday['CTR_weekday'] = (by_day['count']/by_day['total_clicks'])
by_weekday.sort_values(by='CTR_weekday').head(5)

categories = "Monday Tuesday Wednesday Thursday Friday Saturday Sunday".split()
by_weekday['weekday'] = pd.Categorical(by_weekday['weekday'], categories=categories)


fig = px.bar(by_weekday.sort_values('weekday'), x='weekday', y='CTR_weekday', barmode='relative', color='weekday',
       text = 'CTR_weekday',
       title = f"""Agregated click per day. The maximum CTR is {round(by_weekday['CTR_weekday'].max()*100,1)}%""")
fig.update_traces(texttemplate='%{text:.1%}', textposition='outside')
fig.update_layout(showlegend=False)
fig.show()


print("Initial shape ->> ", shape_inital)
print("These are the new features added from EDA", [i for i in df.columns.to_list() if i not in initial_columns])
print("Current shape ->> ", df.shape)
df.head(2)

Initial shape ->>  (100000, 24)
These are the new variables added from EDA ['hour_of_day', 'day', 'weekday']
Current shape ->>  (100000, 27)


# Get All C# features 
C_columns = [i for i in list(df.columns) if 'C' in i]


new_data = {}
dataframes = []
for j in C_columns:
    C = df[j].unique()
    ctr = []
    count = df.groupby(j)[j].count().to_list()
    for i in C:
        ctr_mean = df.loc[df[j] == i, 'click'].mean()  # since this is 0 or 1 the mean will be the CTR
        ctr.append(ctr_mean)
    new_data = {j: C, 'count_'+j: count, 'CRT_'+j: ctr}
    dataframes.append(pd.DataFrame(new_data))


dataframes[0].sort_values('count_C1', ascending=False)[0:10]


for i in range(0,9):
    fig, ax = plt.subplots(1,2, figsize=(15,5))
    n = 10 # Plot the Top 10 largest (as in number of times they appear) categories inside each feature 
            
    dataframes[i].sort_values(dataframes[i].columns[1], ascending=False, inplace=True)
    
    sns.barplot(data=dataframes[i], x=dataframes[i][dataframes[i].columns[0]].to_list()[:n], 
                y=dataframes[i][dataframes[i].columns[1]].to_list()[:n], 
                ax=ax[0], palette='viridis', order=dataframes[i][dataframes[i].columns[0]].to_list()[:n])
    ax[0].set_title(f'TOP 10 largest categories of {dataframes[i].columns[0]}')
    ax[0].set_ylim(0,100000)
    sns.barplot(data=dataframes[i], x=dataframes[i][dataframes[i].columns[0]].to_list()[:n], 
                y=dataframes[i][dataframes[i].columns[2]].to_list()[:n], 
                ax=ax[1], palette='viridis', order=dataframes[i][dataframes[i].columns[0]].to_list()[:n])
    ax[1].set_title(f'CTR per category of {dataframes[i].columns[0]}')
    ax[1].set_ylim(0,1)
    fig.tight_layout()
    plt.show()


# Before plotting:
website_feat = ['banner_pos', 'site_id', 'site_domain', 'site_category']
for i in website_feat:
    size = len(list(df[i].unique()))
    print(f'- "{i}" has {size} unique variables')

- "banner_pos" has 7 unique variables
- "site_id" has 1461 unique variables
- "site_domain" has 1333 unique variables
- "site_category" has 19 unique variables


web_data = {}
web_df = []
for j in website_feat:
    C = df[j].unique()
    ctr = []
    count = df.groupby(j)[j].count().to_list()
    for i in C:
        ctr_mean = df.loc[df[j] == i, 'click'].mean()  # since this is 0 or 1 the mean will be the CTR
        ctr.append(ctr_mean)
    web_data = {j: C, 'count_'+j: count, 'CRT_'+j: ctr}
    web_df.append(pd.DataFrame(web_data))


for i in range(0,len(web_df)):
    fig, ax = plt.subplots(1,2, figsize=(15,5))
    n = 10 # Plot the Top 10 largest (as in number of times they appear) categories inside each feature
            
    web_df[i].sort_values(web_df[i].columns[1], ascending=False, inplace=True)
    
    sns.barplot(data=web_df[i], x=web_df[i][web_df[i].columns[0]].to_list()[:n], 
                y=web_df[i][web_df[i].columns[1]].to_list()[:n], 
                ax=ax[0], palette='viridis', order=web_df[i][web_df[i].columns[0]].to_list()[:n])
    ax[0].set_title(f'TOP 10 largest categories of {web_df[i].columns[0]}')
    ax[0].set_ylim(0,100000)
    
    sns.barplot(data=web_df[i], x=web_df[i][web_df[i].columns[0]].to_list()[:n], 
                y=web_df[i][web_df[i].columns[2]].to_list()[:n], 
                ax=ax[1], palette='viridis', order=web_df[i][web_df[i].columns[0]].to_list()[:n])
    ax[1].set_title(f'CTR per category of {web_df[i].columns[0]}')
    ax[1].set_ylim(0,1)
    fig.tight_layout()
    plt.show()


# Before plotting:
app_feat = ['app_id', 'app_domain', 'app_category']
for i in app_feat:
    size = len(list(df[i].unique()))
    print(f'- "{i}" has {size} unique categories')

- "app_id" has 1296 unique variables
- "app_domain" has 93 unique variables
- "app_category" has 23 unique variables


# Before plotting:
app_feat = ['app_id', 'app_domain', 'app_category']
for i in app_feat:
    size = len(list(df[i].unique()))
    print(f'- "{i}" has {size} unique categories')

- "app_id" has 1296 unique variables
- "app_domain" has 93 unique variables
- "app_category" has 23 unique variables


app_df[0].sort_values(by=['count_app_id'], ascending=False).head(10)


for i in range(0,len(app_df)):
    fig, ax = plt.subplots(1,2, figsize=(15,5))
    n = 10 # Plot the Top 10 largest (as in number of times they appear) categories inside each feature
            
    app_df[i].sort_values(app_df[i].columns[1], ascending=False, inplace=True)
    
    sns.barplot(data=app_df[i], x=app_df[i][app_df[i].columns[0]].to_list()[:n], 
                y=app_df[i][app_df[i].columns[1]].to_list()[:n], 
                ax=ax[0], palette='viridis', order=app_df[i][app_df[i].columns[0]].to_list()[:n])
    ax[0].set_title(f'TOP 10 largest categories of {app_df[i].columns[0]}')
    ax[0].set_ylim(0,100000)
    
    sns.barplot(data=app_df[i], x=app_df[i][app_df[i].columns[0]].to_list()[:n], 
                y=app_df[i][app_df[i].columns[2]].to_list()[:n], 
                ax=ax[1], palette='viridis', order=app_df[i][app_df[i].columns[0]].to_list()[:n])
    ax[1].set_title(f'CTR per Category of {app_df[i].columns[0]}')
    ax[1].set_ylim(0,1)
    fig.tight_layout()
    plt.show()


# Before plotting:
device_feat = ['device_id', 'device_ip', 'device_model', 'device_type', 'device_conn_type']
for i in device_feat:
    size = len(list(df[i].unique()))
    print(f'- "{i}" has {size} unique categories')

- "device_id" has 16837 unique variables
- "device_ip" has 77833 unique variables
- "device_model" has 3167 unique variables
- "device_type" has 4 unique variables
- "device_conn_type" has 4 unique variables


device_data = {}
device_df = []
for j in tqdm(device_feat):
    C = df[j].unique()
    ctr = []
    count = df.groupby(j)[j].count().to_list()
    for i in C:
        ctr_mean = df.loc[df[j] == i, 'click'].mean()  # since this is 0 or 1 the mean will be the CTR
        ctr.append(ctr_mean)
    device_data = {j: C, 'count_'+j: count, 'CRT_'+j: ctr}
    device_df.append(pd.DataFrame(device_data))


device_data = {}
device_df = []
for j in tqdm(device_feat):
    C = df[j].unique()
    ctr = []
    count = df.groupby(j)[j].count().to_list()
    for i in C:
        ctr_mean = df.loc[df[j] == i, 'click'].mean()  # since this is 0 or 1 the mean will be the CTR
        ctr.append(ctr_mean)
    device_data = {j: C, 'count_'+j: count, 'CRT_'+j: ctr}
    device_df.append(pd.DataFrame(device_data))


for i in range(0,len(device_df)):
    fig, ax = plt.subplots(1,2, figsize=(15,5))
    n = 10 # Plot the Top 10 largest (as in number of times they appear) categories inside each feature
            
    device_df[i].sort_values(device_df[i].columns[1], ascending=False, inplace=True)
    
    sns.barplot(data=device_df[i], x=device_df[i][device_df[i].columns[0]].to_list()[:n], 
                y=device_df[i][device_df[i].columns[1]].to_list()[:n], 
                ax=ax[0], palette='viridis', order=device_df[i][device_df[i].columns[0]].to_list()[:n])
    ax[0].set_title(f'TOP 10 largest categories of {device_df[i].columns[0]}')
    ax[0].set_ylim(0,100000)
    
    sns.barplot(data=device_df[i], x=device_df[i][device_df[i].columns[0]].to_list()[:n], 
                y=device_df[i][device_df[i].columns[2]].to_list()[:n], 
                ax=ax[1], palette='viridis', order=device_df[i][device_df[i].columns[0]].to_list()[:n])
    ax[1].set_title(f'CTR per Category of {device_df[i].columns[0]}')
    ax[1].set_ylim(0,1)
    fig.tight_layout()
    plt.show()


print("Current Shape ->> ", df.shape)
df.head(2)

Current Shape ->>  (100000, 27)


# Save Treated dataset
df.to_csv("ad_clicks_100k_Treated.csv")


import pandas as pd
import numpy as np
# allow multiple outputs per cell
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"


df = pd.read_csv("ad_clicks_100k_Treated.csv")
df.drop(columns="Unnamed: 0", inplace=True)
df.head()
df.shape

(100000, 27)


print(f'Shape after EDA ---->> {df.shape}')
df.drop(columns=['id','hour','device_ip','device_id','day'], inplace=True)
df.head()
print(f'Shape after feature drop ---->> {df.shape}')

Shape after EDA ---->> (100000, 27)

Shape after feature drop ---->> (100000, 22)


from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import make_column_transformer


# Split into features type "O" and already encoded features
categorical_columns = [i for i in list(df.columns) if df[i].dtypes in ["O"] and i not in ['id','hour','hour_of_day','click']]
encoded_categorical_columns = [i for i in list(df.columns) if df[i].dtypes not in ["O"] and i not in ['id','hour','hour_of_day','click']]
print(f'Features with dtype "O" {categorical_columns}')
print(f'Categorical Features (already with discrete values) {encoded_categorical_columns}')

Features with dtype "O" ['site_id', 'site_domain', 'site_category', 'app_id', 'app_domain', 'app_category', 'device_model', 'weekday']
Categorical Features (already with discrete values) ['C1', 'banner_pos', 'device_type', 'device_conn_type', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21']


# Transform features type "O" with label encoder
for i in categorical_columns:
    if i == 'weekday':
        # Ordinal Encode Weekday
        categories = [['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday']]
        #Instantiate ordinal encoder
        ordinal_encoder = OrdinalEncoder(categories=categories)
        #Fit ordinal encoder
        ordinal_encoder.fit(df[['weekday']])
        # transform the data
        df['weekday'] = ordinal_encoder.transform(df[['weekday']])
    label_encoder = []
    le = LabelEncoder()
    le.fit(df[i])    
    label_encoder.append(le)
    df[i] = le.transform(df[i])

all_features = categorical_columns + encoded_categorical_columns
print(all_features)

LabelEncoder()

LabelEncoder()

LabelEncoder()

LabelEncoder()

LabelEncoder()

LabelEncoder()

LabelEncoder()

OrdinalEncoder(categories=[['Monday', 'Tuesday', 'Wednesday', 'Thursday',
                            'Friday', 'Saturday', 'Sunday']])

LabelEncoder()

['site_id', 'site_domain', 'site_category', 'app_id', 'app_domain', 'app_category', 'device_model', 'weekday', 'C1', 'banner_pos', 'device_type', 'device_conn_type', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21']


data = df.copy()
one_hot = []
label_enc = []
target_enc = []
for i in all_features:
    if len(df[i].unique()) <= 7:
        # One hot encoding
        one_hot.append(i)
        data = pd.concat([data, pd.get_dummies(df[i], prefix=i)],axis=1)
        # Drop the original column
        data.drop(columns=[i], inplace=True)
    elif 100 >= len(df[i].unique()) > 7:
        # Label encoding
        label_enc.append(i)
    elif len(df[i].unique()) > 100:
        # Mean encoding
        target_enc.append(i)

print('Previus Dataset Shape ->> ', df.shape)
print('Shape After Encoding  ->> ', data.shape, '\n')
print(f'One Hot Encoding the following features: {one_hot}')
print(f'Label Encoding the following features: {label_enc}')
print(f'Selected for Target Encoding: {target_enc}')
data.head()

Previus Dataset Shape ->>  (100000, 22)
Shape After Encoding  ->>  (100000, 49) 

One Hot Encoding the following features: ['weekday', 'C1', 'banner_pos', 'device_type', 'device_conn_type', 'C18']
Label Encoding the following features: ['site_category', 'app_domain', 'app_category', 'C15', 'C16', 'C19', 'C21']
Selected for Target Encoding: ['site_id', 'site_domain', 'app_id', 'device_model', 'C14', 'C17', 'C20']


data.columns

Index(['click', 'site_id', 'site_domain', 'site_category', 'app_id',
       'app_domain', 'app_category', 'device_model', 'C14', 'C15', 'C16',
       'C17', 'C19', 'C20', 'C21', 'hour_of_day', 'weekday_0', 'weekday_1',
       'weekday_2', 'weekday_3', 'weekday_4', 'weekday_5', 'weekday_6',
       'C1_1001', 'C1_1002', 'C1_1005', 'C1_1007', 'C1_1008', 'C1_1010',
       'C1_1012', 'banner_pos_0', 'banner_pos_1', 'banner_pos_2',
       'banner_pos_3', 'banner_pos_4', 'banner_pos_5', 'banner_pos_7',
       'device_type_0', 'device_type_1', 'device_type_4', 'device_type_5',
       'device_conn_type_0', 'device_conn_type_2', 'device_conn_type_3',
       'device_conn_type_5', 'C18_0', 'C18_1', 'C18_2', 'C18_3'],
      dtype='object')


from sklearn.model_selection import train_test_split

X = data.drop(columns=['click'])
y = data['click']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)
X_train.shape
y_train.shape
X_test.shape
y_test.shape

(80000, 48)

(80000,)

(20000, 48)

(20000,)


# Effect of Target encoding for train set
pd.options.mode.chained_assignment = None  # default='warn
X_train_encoding_example = X_train.copy()
for i in target_enc:
    data_train = pd.concat([X_train_encoding_example, y_train], axis=1)
    target_encoder = data_train.groupby([i])["click"].mean()
    X_train_encoding_example[i] = X_train_encoding_example[i].map(target_encoder)
    # Transform the test set based on the train
pd.options.mode.chained_assignment = 'warn'  # default='warn

print('------- Mean Encoding changes -------')
for i,v in enumerate(target_enc):
    print(f'{v} now would have {[len(X_train_encoding_example[i].unique()) for i in target_enc][i]} categories vs {len(X_train[v].unique())} before')

------- Mean Encoding changes -------
site_id now would have 186 categories vs 1342 before
site_domain now would have 155 categories vs 1219 before
app_id now would have 120 categories vs 1174 before
device_model now would have 350 categories vs 2939 before
C14 now would have 357 categories vs 1661 before
C17 now would have 239 categories vs 394 before
C20 now would have 103 categories vs 154 before


print("""Check if the example transformation above changed X_train in any way: 
How many unique X_train.device_model categories? """, len(X_train.device_model.unique()))
if len(X_train.device_model.unique()) > len(X_train_encoding_example.device_model.unique()):
    print("------>>> There was no change in the X_train set")
else: 
    print("------>>> WARNING: THERE IS DATA LEAKAGE")

Check if the example transformation above changed X_train in any way: 
How many unique X_train.device_model categories?  2939
------>>> There was no change in the X_train set


# Imports
from imblearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
from imblearn.over_sampling import SMOTE
from imblearn.over_sampling import RandomOverSampler
from sklearn.linear_model import LogisticRegression
from imblearn.under_sampling import RandomUnderSampler
import numpy as np
from category_encoders.target_encoder import TargetEncoder

from sklearn.model_selection import train_test_split
from imblearn.pipeline import make_pipeline 
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, f1_score, make_scorer, accuracy_score, precision_score, recall_score, roc_auc_score
from sklearn.model_selection import cross_validate
from sklearn.metrics import plot_confusion_matrix, confusion_matrix, plot_roc_curve
from sklearn.model_selection import LeaveOneOut

# Plotting
import matplotlib.pyplot as plt
import seaborn as sns

# Ensemble methods
from sklearn.tree import DecisionTreeClassifier 
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import VotingClassifier
from sklearn.neighbors import KNeighborsClassifier

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier

# Boosting 
from catboost import CatBoostClassifier

# Stats (util)
from scipy.stats import randint as sp_randInt
from scipy.stats import uniform as sp_randFloat


pipe = Pipeline([('sampling', RandomOverSampler(random_state=42)), 
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()), 
                 ('classifier', KNeighborsClassifier())])
param_grid = [
    {'classifier': [KNeighborsClassifier()], 
     'scaler': [StandardScaler()],
     'transformer': [TargetEncoder(cols=target_enc)],
     'sampling': [RandomUnderSampler(random_state=42), RandomOverSampler(random_state=42), SMOTE(random_state=42)],
     'classifier__n_neighbors': [3, 5, 7, 9],
     'classifier__weights': ['uniform', 'distance']}, 
]
knn_grid = GridSearchCV(pipe, param_grid, cv=10, scoring = 'f1')
knn_grid.fit(X_train, y_train)
knn_model = knn_grid.best_estimator_
print("Best cross-validation score: {:.2f}".format(knn_grid.best_score_))
print("Best params:\n{}\n".format(knn_grid.best_params_))

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('sampling',
                                        RandomOverSampler(random_state=42)),
                                       ('transformer',
                                        TargetEncoder(cols=['site_id',
                                                            'site_domain',
                                                            'app_id',
                                                            'device_model',
                                                            'C14', 'C17',
                                                            'C20'])),
                                       ('scaler', StandardScaler()),
                                       ('classifier', KNeighborsClassifier())]),
             param_grid=[{'classifier': [KNeighborsClassifier(n_neighbors=9)],
                          'classifier__n_neighbors': [3, 5, 7, 9],
                          'classifier__weights': ['uniform', 'distance'],
                          'sampling': [RandomUnderSampler(random_state=42),
                                       RandomOverSampler(random_state=42),
                                       SMOTE(random_state=42)],
                          'scaler': [StandardScaler()],
                          'transformer': [TargetEncoder(cols=['site_id',
                                                              'site_domain',
                                                              'app_id',
                                                              'device_model',
                                                              'C14', 'C17',
                                                              'C20'])]}],
             scoring='f1')

Best cross-validation score: 0.37
Best params:
{'classifier': KNeighborsClassifier(n_neighbors=9), 'classifier__n_neighbors': 9, 'classifier__weights': 'uniform', 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


pipe = Pipeline([('sampling', RandomOverSampler(random_state=42)), 
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()), 
                 ('classifier', KNeighborsClassifier())])
param_grid = [
    {'classifier': [KNeighborsClassifier()], 
     'scaler': [StandardScaler()],
     'transformer': [TargetEncoder(cols=target_enc)],
     'sampling': [RandomUnderSampler(random_state=42)],
     'classifier__n_neighbors': [i for i in range(7, 52, 2)],
     'classifier__weights': ['uniform']}, 
]
knn_rand = RandomizedSearchCV(pipe, param_grid, cv=10, n_iter=10, scoring = 'f1')
knn_rand.fit(X_train, y_train)
knn_new_neigh_model = knn_rand.best_estimator_
print("Best cross-validation score: {:.2f}".format(knn_rand.best_score_))
print("Best params:\n{}\n".format(knn_rand.best_params_))

RandomizedSearchCV(cv=10,
                   estimator=Pipeline(steps=[('sampling',
                                              RandomOverSampler(random_state=42)),
                                             ('transformer',
                                              TargetEncoder(cols=['site_id',
                                                                  'site_domain',
                                                                  'app_id',
                                                                  'device_model',
                                                                  'C14', 'C17',
                                                                  'C20'])),
                                             ('scaler', StandardScaler()),
                                             ('classifier',
                                              KNeighborsClassifier())]),
                   param_distributions=[{'classifier': [KNeighborsClassifier(n_neighbors=43)],
                                         'classifier__n_neighbors': [7, 9, 11,
                                                                     13, 15, 17,
                                                                     19, 21, 23,
                                                                     25, 27, 29,
                                                                     31, 33, 35,
                                                                     37, 39, 41,
                                                                     43, 45, 47,
                                                                     49, 51],
                                         'classifier__weights': ['uniform'],
                                         'sampling': [RandomUnderSampler(random_state=42)],
                                         'scaler': [StandardScaler()],
                                         'transformer': [TargetEncoder(cols=['site_id',
                                                                             'site_domain',
                                                                             'app_id',
                                                                             'device_model',
                                                                             'C14',
                                                                             'C17',
                                                                             'C20'])]}],
                   scoring='f1')

Best cross-validation score: 0.39
Best params:
{'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20']), 'scaler': StandardScaler(), 'sampling': RandomUnderSampler(random_state=42), 'classifier__weights': 'uniform', 'classifier__n_neighbors': 43, 'classifier': KNeighborsClassifier(n_neighbors=43)}


print('Knn -->> {:0.5f}'.format(knn_grid.best_score_))
print('Knn Opt -->> {:0.5f}'.format(knn_rand.best_score_))

Knn -->> 0.37069
Knn Opt -->> 0.38588


pipe = Pipeline([('sampling', RandomOverSampler(random_state=42)), 
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()), 
                 ('classifier', RandomForestClassifier(random_state=42))])
param_grid = [
    {'classifier': [RandomForestClassifier(random_state=42)], 
     'scaler': [StandardScaler()],
     'transformer': [TargetEncoder(cols=target_enc)],
     'sampling': [None, RandomUnderSampler(random_state=42), RandomOverSampler(random_state=42), SMOTE(random_state=42)]}
]
rfc_simple_grid = GridSearchCV(pipe, param_grid, cv=10, scoring = 'f1')
rfc_simple_grid.fit(X_train, y_train)
rfc_model = rfc_simple_grid.best_estimator_
print("Best cross-validation score: {:.2f}".format(rfc_simple_grid.best_score_))
print("Best params:\n{}\n".format(rfc_simple_grid.best_params_))

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('sampling',
                                        RandomOverSampler(random_state=42)),
                                       ('transformer',
                                        TargetEncoder(cols=['site_id',
                                                            'site_domain',
                                                            'app_id',
                                                            'device_model',
                                                            'C14', 'C17',
                                                            'C20'])),
                                       ('scaler', StandardScaler()),
                                       ('classifier',
                                        RandomForestClassifier(random_state=42))]),
             param_grid=[{'classifier': [RandomForestClassifier(random_state=42)],
                          'sampling': [None,
                                       RandomUnderSampler(random_state=42),
                                       RandomOverSampler(random_state=42),
                                       SMOTE(random_state=42)],
                          'scaler': [StandardScaler()],
                          'transformer': [TargetEncoder(cols=['site_id',
                                                              'site_domain',
                                                              'app_id',
                                                              'device_model',
                                                              'C14', 'C17',
                                                              'C20'])]}],
             scoring='f1')

Best cross-validation score: 0.37
Best params:
{'classifier': RandomForestClassifier(random_state=42), 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


pipe = Pipeline([('sampling', RandomOverSampler(random_state=42)), 
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()), 
                 ('classifier', RandomForestClassifier(random_state=42))])
param_grid = [
    {'classifier': [RandomForestClassifier(random_state=42)], 
     'scaler': [StandardScaler()],
     'transformer': [TargetEncoder(cols=target_enc)],
     'sampling': [RandomUnderSampler(random_state=42), RandomOverSampler(random_state=42), SMOTE(random_state=42)],
     'classifier__n_estimators': sp_randInt(100, 1000),
     'classifier__max_depth': sp_randInt(1, 50),
     'classifier__min_samples_split': sp_randInt(1, 50),
     'classifier__min_samples_leaf': sp_randInt(1, 50)}, 
]
rfc_rand = RandomizedSearchCV(pipe, param_grid, cv=10, scoring = 'f1', n_iter=5, random_state=42)
rfc_rand.fit(X_train, y_train)
rfc_model_opt = rfc_rand.best_estimator_
print("Best cross-validation score: {:.2f}".format(rfc_rand.best_score_))
print("Best params:\n{}\n".format(rfc_rand.best_params_))

RandomizedSearchCV(cv=10,
                   estimator=Pipeline(steps=[('sampling',
                                              RandomOverSampler(random_state=42)),
                                             ('transformer',
                                              TargetEncoder(cols=['site_id',
                                                                  'site_domain',
                                                                  'app_id',
                                                                  'device_model',
                                                                  'C14', 'C17',
                                                                  'C20'])),
                                             ('scaler', StandardScaler()),
                                             ('classifier',
                                              RandomForestClassifier(random_state=42))]),
                   n_iter=5,
                   param_distributions=[{'classifier': [RandomForestClass...
                                         'classifier__n_estimators': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A00096A700>,
                                         'sampling': [RandomUnderSampler(random_state=42),
                                                      RandomOverSampler(random_state=42),
                                                      SMOTE(random_state=42)],
                                         'scaler': [StandardScaler()],
                                         'transformer': [TargetEncoder(cols=['site_id',
                                                                             'site_domain',
                                                                             'app_id',
                                                                             'device_model',
                                                                             'C14',
                                                                             'C17',
                                                                             'C20'])]}],
                   random_state=42, scoring='f1')

Best cross-validation score: 0.40
Best params:
{'classifier': RandomForestClassifier(max_depth=39, min_samples_leaf=29, min_samples_split=15,
                       n_estimators=206, random_state=42), 'classifier__max_depth': 39, 'classifier__min_samples_leaf': 29, 'classifier__min_samples_split': 15, 'classifier__n_estimators': 206, 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


pipe = Pipeline([('sampling', RandomOverSampler(random_state=42)), 
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()), 
                 ('classifier', RandomForestClassifier(random_state=42))])
param_grid = [
    {'classifier': [RandomForestClassifier(random_state=42)], 
     'scaler': [StandardScaler()],
     'transformer': [TargetEncoder(cols=target_enc)],
     'sampling': [RandomUnderSampler(random_state=42)],# RandomOverSampler(random_state=42), SMOTE(random_state=42)],
     'classifier__n_estimators': sp_randInt(150, 1000),
     'classifier__max_depth': sp_randInt(20, 60),
     'classifier__min_samples_split': sp_randInt(10, 60),
     'classifier__min_samples_leaf': sp_randInt(20, 80)}, 
]
rfc_rand_2 = RandomizedSearchCV(pipe, param_grid, cv=5, scoring = 'f1', n_iter=10, random_state=42)
rfc_rand_2.fit(X_train, y_train)
rfc_model_opt_2 = rfc_rand_2.best_estimator_
print("Best cross-validation score: {:.2f}".format(rfc_rand_2.best_score_))
print("Best params:\n{}\n".format(rfc_rand_2.best_params_))

RandomizedSearchCV(cv=5,
                   estimator=Pipeline(steps=[('sampling',
                                              RandomOverSampler(random_state=42)),
                                             ('transformer',
                                              TargetEncoder(cols=['site_id',
                                                                  'site_domain',
                                                                  'app_id',
                                                                  'device_model',
                                                                  'C14', 'C17',
                                                                  'C20'])),
                                             ('scaler', StandardScaler()),
                                             ('classifier',
                                              RandomForestClassifier(random_state=42))]),
                   param_distributions=[{'classifier': [RandomForestClassifier(max_...
                                         'classifier__min_samples_split': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A0008CB910>,
                                         'classifier__n_estimators': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A0030E8E80>,
                                         'sampling': [RandomUnderSampler(random_state=42)],
                                         'scaler': [StandardScaler()],
                                         'transformer': [TargetEncoder(cols=['site_id',
                                                                             'site_domain',
                                                                             'app_id',
                                                                             'device_model',
                                                                             'C14',
                                                                             'C17',
                                                                             'C20'])]}],
                   random_state=42, scoring='f1')

Best cross-validation score: 0.40
Best params:
{'classifier': RandomForestClassifier(max_depth=27, min_samples_leaf=40, min_samples_split=48,
                       n_estimators=271, random_state=42), 'classifier__max_depth': 27, 'classifier__min_samples_leaf': 40, 'classifier__min_samples_split': 48, 'classifier__n_estimators': 271, 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


pipe = Pipeline([('sampling', RandomOverSampler(random_state=42)), 
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()), 
                 ('classifier', RandomForestClassifier(random_state=42))])
param_grid = [
    {'classifier': [RandomForestClassifier(random_state=42)], 
     'scaler': [StandardScaler()],
     'transformer': [TargetEncoder(cols=target_enc)],
     'sampling': [RandomUnderSampler(random_state=42)],# RandomOverSampler(random_state=42), SMOTE(random_state=42)],
     'classifier__n_estimators': sp_randInt(150, 1000),
     'classifier__max_depth': sp_randInt(20, 60),
     'classifier__min_samples_split': sp_randInt(10, 60),
     'classifier__min_samples_leaf': sp_randInt(20, 80),
     'classifier__class_weight': ['balanced'],
     'classifier__criterion': ['gini','entropy']}
]
rfc_rand_3 = RandomizedSearchCV(pipe, param_grid, cv=5, scoring = 'f1', n_iter=10, random_state=42)
rfc_rand_3.fit(X_train, y_train)
rfc_model_opt_3 = rfc_rand_3.best_estimator_
print("Best cross-validation score: {:.2f}".format(rfc_rand_3.best_score_))
print("Best params:\n{}\n".format(rfc_rand_3.best_params_))

RandomizedSearchCV(cv=5,
                   estimator=Pipeline(steps=[('sampling',
                                              RandomOverSampler(random_state=42)),
                                             ('transformer',
                                              TargetEncoder(cols=['site_id',
                                                                  'site_domain',
                                                                  'app_id',
                                                                  'device_model',
                                                                  'C14', 'C17',
                                                                  'C20'])),
                                             ('scaler', StandardScaler()),
                                             ('classifier',
                                              RandomForestClassifier(random_state=42))]),
                   param_distributions=[{'classifier': [RandomForestClassifier(clas...
                                         'classifier__min_samples_split': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A0008D8910>,
                                         'classifier__n_estimators': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A0035EED30>,
                                         'sampling': [RandomUnderSampler(random_state=42)],
                                         'scaler': [StandardScaler()],
                                         'transformer': [TargetEncoder(cols=['site_id',
                                                                             'site_domain',
                                                                             'app_id',
                                                                             'device_model',
                                                                             'C14',
                                                                             'C17',
                                                                             'C20'])]}],
                   random_state=42, scoring='f1')

Best cross-validation score: 0.40
Best params:
{'classifier': RandomForestClassifier(class_weight='balanced', max_depth=58,
                       min_samples_leaf=37, min_samples_split=13,
                       n_estimators=750, random_state=42), 'classifier__class_weight': 'balanced', 'classifier__criterion': 'gini', 'classifier__max_depth': 58, 'classifier__min_samples_leaf': 37, 'classifier__min_samples_split': 13, 'classifier__n_estimators': 750, 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


print('Random Forest Opt 1 -->> {:0.5f}'.format(rfc_rand.best_score_))
print('Random Forest Opt 2 -->> {:0.5f}'.format(rfc_rand_2.best_score_))
print('Random Forest Opt 3 -->> {:0.5f}'.format(rfc_rand_3.best_score_))

Random Forest Opt 1 -->> 0.39671
Random Forest Opt 2 -->> 0.39576
Random Forest Opt 3 -->> 0.39559


catb = Pipeline([('sampling', RandomUnderSampler(random_state=42)),
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()),
                 ('classifier', CatBoostClassifier(verbose=False, auto_class_weights='Balanced', early_stopping_rounds=10, random_seed=42))])

param_grid= [
        {'classifier': [CatBoostClassifier(verbose=False, auto_class_weights='Balanced', early_stopping_rounds=10, random_seed=42)],
         'scaler': [StandardScaler()],
         'transformer': [TargetEncoder(cols=target_enc)],
         'sampling': [RandomUnderSampler(random_state=42), RandomOverSampler(random_state=42), SMOTE(random_state=42)],
         'classifier__learning_rate': sp_randFloat(0, 1),
         'classifier__depth': sp_randInt(1, 10),
         'classifier__l2_leaf_reg': sp_randInt(1,10)}]

catb_rand = RandomizedSearchCV(catb, param_grid, cv=10, scoring = 'f1', n_iter=10, random_state=42)
catb_rand.fit(X_train, y_train)
catb_model = catb_rand.best_estimator_
print("Best cross-validation score: {:.2f}".format(catb_rand.best_score_))
print("Best params:\n{}\n".format(catb_rand.best_params_))

RandomizedSearchCV(cv=10,
                   estimator=Pipeline(steps=[('sampling',
                                              RandomUnderSampler(random_state=42)),
                                             ('transformer',
                                              TargetEncoder(cols=['site_id',
                                                                  'site_domain',
                                                                  'app_id',
                                                                  'device_model',
                                                                  'C14', 'C17',
                                                                  'C20'])),
                                             ('scaler', StandardScaler()),
                                             ('classifier',
                                              <catboost.core.CatBoostClassifier object at 0x000002A0008C3A60>)]),
                   param_distributions=[{'classifier': [<cat...
                                         'classifier__learning_rate': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A071C6FBE0>,
                                         'sampling': [RandomUnderSampler(random_state=42),
                                                      RandomOverSampler(random_state=42),
                                                      SMOTE(random_state=42)],
                                         'scaler': [StandardScaler()],
                                         'transformer': [TargetEncoder(cols=['site_id',
                                                                             'site_domain',
                                                                             'app_id',
                                                                             'device_model',
                                                                             'C14',
                                                                             'C17',
                                                                             'C20'])]}],
                   random_state=42, scoring='f1')

Best cross-validation score: 0.39
Best params:
{'classifier': <catboost.core.CatBoostClassifier object at 0x000002A0008C3340>, 'classifier__depth': 9, 'classifier__l2_leaf_reg': 7, 'classifier__learning_rate': 0.013264961159866528, 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


catb = Pipeline([('sampling', RandomUnderSampler(random_state=42)),
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()),
                 ('classifier', CatBoostClassifier(verbose=False, auto_class_weights='Balanced', early_stopping_rounds=10, random_seed=42))])

param_grid= [
        {'classifier': [CatBoostClassifier(verbose=False, auto_class_weights='Balanced', early_stopping_rounds=10, random_seed=42)],
         'scaler': [StandardScaler()],
         'transformer': [TargetEncoder(cols=target_enc)],
         'sampling': [RandomUnderSampler(random_state=42)],
         'classifier__learning_rate': sp_randFloat(0, 0.05),
         'classifier__depth': [9], #sp_randInt(5, 20),
         'classifier__l2_leaf_reg': [7]}] #sp_randInt(5, 10)}]

catb_rand_2 = RandomizedSearchCV(catb, param_grid, cv=5, scoring = 'f1', n_iter=5, random_state=42)
catb_rand_2.fit(X_train, y_train)
catb_model_2 = catb_rand_2.best_estimator_
print("Best cross-validation score: {:.2f}".format(catb_rand_2.best_score_))
print("Best params:\n{}\n".format(catb_rand_2.best_params_))

RandomizedSearchCV(cv=5,
                   estimator=Pipeline(steps=[('sampling',
                                              RandomUnderSampler(random_state=42)),
                                             ('transformer',
                                              TargetEncoder(cols=['site_id',
                                                                  'site_domain',
                                                                  'app_id',
                                                                  'device_model',
                                                                  'C14', 'C17',
                                                                  'C20'])),
                                             ('scaler', StandardScaler()),
                                             ('classifier',
                                              <catboost.core.CatBoostClassifier object at 0x000002A07274BE80>)]),
                   n_iter=5,
                   param_distributions=[{'classifie...
                                         'classifier__depth': [9],
                                         'classifier__l2_leaf_reg': [7],
                                         'classifier__learning_rate': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A0035EE5E0>,
                                         'sampling': [RandomUnderSampler(random_state=42)],
                                         'scaler': [StandardScaler()],
                                         'transformer': [TargetEncoder(cols=['site_id',
                                                                             'site_domain',
                                                                             'app_id',
                                                                             'device_model',
                                                                             'C14',
                                                                             'C17',
                                                                             'C20'])]}],
                   random_state=42, scoring='f1')

Best cross-validation score: 0.39
Best params:
{'classifier': <catboost.core.CatBoostClassifier object at 0x000002A07274B040>, 'classifier__depth': 9, 'classifier__l2_leaf_reg': 7, 'classifier__learning_rate': 0.007800932022121826, 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


knn_grid.best_estimator_
knn_rand.best_estimator_
rfc_simple_grid.best_estimator_
rfc_rand.best_estimator_
rfc_rand_2.best_estimator_
rfc_rand_3.best_estimator_
catb_model
catb_model_2

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier', KNeighborsClassifier(n_neighbors=9))])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier', KNeighborsClassifier(n_neighbors=43))])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier', RandomForestClassifier(random_state=42))])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier',
                 RandomForestClassifier(max_depth=39, min_samples_leaf=29,
                                        min_samples_split=15, n_estimators=206,
                                        random_state=42))])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier',
                 RandomForestClassifier(max_depth=27, min_samples_leaf=40,
                                        min_samples_split=48, n_estimators=271,
                                        random_state=42))])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier',
                 RandomForestClassifier(class_weight='balanced', max_depth=58,
                                        min_samples_leaf=37,
                                        min_samples_split=13, n_estimators=750,
                                        random_state=42))])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier',
                 <catboost.core.CatBoostClassifier object at 0x000002A00093D910>)])

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier',
                 <catboost.core.CatBoostClassifier object at 0x000002A0008F1400>)])


estimators = [('knn_optimized', knn_new_neigh_model), 
              ('forest_optimized',rfc_model_opt_3), 
              ('catboost_optmized', catb_model_2)]
    
voting = VotingClassifier(estimators, voting='soft')
voting.fit(X_train, y_train)

list_of_estimators = [('knn_new_neighbors', knn_new_neigh_model),
                      ('forest_optimized_3',rfc_model_opt_3), 
                      ('catboost_opt_2', catb_model_2), ('voting', voting)]
                      
for  label, model in list_of_estimators:
    cv_scores = cross_validate(model, X_train, y_train, cv=10, scoring=('f1','roc_auc'))
    print(f"F1-score: {cv_scores['test_f1'].mean():0.4f} (+/- {cv_scores['test_f1'].std():0.4f}) | ROC-AUC: {cv_scores['test_roc_auc'].mean():0.4f} (+/- {cv_scores['test_roc_auc'].std():0.4f}) [{label}]")

VotingClassifier(estimators=[('knn_optimized',
                              Pipeline(steps=[('sampling',
                                               RandomUnderSampler(random_state=42)),
                                              ('transformer',
                                               TargetEncoder(cols=['site_id',
                                                                   'site_domain',
                                                                   'app_id',
                                                                   'device_model',
                                                                   'C14', 'C17',
                                                                   'C20'])),
                                              ('scaler', StandardScaler()),
                                              ('classifier',
                                               KNeighborsClassifier(n_neighbors=43))])),
                             ('forest_optimized',
                              Pipeline(steps=[('sampling',
                                               Rand...
                                                                      n_estimators=750,
                                                                      random_state=42))])),
                             ('catboost_optmized',
                              Pipeline(steps=[('sampling',
                                               RandomUnderSampler(random_state=42)),
                                              ('transformer',
                                               TargetEncoder(cols=['site_id',
                                                                   'site_domain',
                                                                   'app_id',
                                                                   'device_model',
                                                                   'C14', 'C17',
                                                                   'C20'])),
                                              ('scaler', StandardScaler()),
                                              ('classifier',
                                               <catboost.core.CatBoostClassifier object at 0x000002A0008F1400>)]))],
                 voting='soft')

F1-score: 0.3859 (+/- 0.0041) | ROC-AUC: 0.7101 (+/- 0.0049) [knn_new_neighbors]
F1-score: 0.3970 (+/- 0.0051) | ROC-AUC: 0.7233 (+/- 0.0043) [forest_optimized_3]
F1-score: 0.3938 (+/- 0.0047) | ROC-AUC: 0.7136 (+/- 0.0041) [catboost_opt_2]
F1-score: 0.3939 (+/- 0.0048) | ROC-AUC: 0.7217 (+/- 0.0044) [voting]


best_pipe = Pipeline([('sampling', RandomUnderSampler()),
                 ('transformer', TargetEncoder(cols=target_enc)),
                 ('scaler', StandardScaler()),
                 ('classifier', KNeighborsClassifier())])

param_grid= [#{key: [value] for (key, value) in knn_grid.best_params_.items()}, 
             {key: [value] for (key, value) in knn_rand.best_params_.items()},
             #{key: [value] for (key, value) in rfc_simple_grid.best_params_.items()},
             {key: [value] for (key, value) in rfc_rand.best_params_.items()},
             {key: [value] for (key, value) in rfc_rand_2.best_params_.items()},
             {key: [value] for (key, value) in rfc_rand_3.best_params_.items()},
             #{key: [value] for (key, value) in catb_rand.best_params_.items()},
             {key: [value] for (key, value) in catb_rand_2.best_params_.items()},
             {'sampling': [None], 'transformer': [None], 'scaler': [None], 'classifier': [voting]}]

originalclass = []
predictedclass = []
# Create Custom Scorig function
def classification_report_with_accuracy_score(y_true, y_pred):
    originalclass.extend(y_true)
    predictedclass.extend(y_pred)
    return accuracy_score(y_true, y_pred)

scorers = {
    'f1_score': make_scorer(f1_score),
    'precision_score': make_scorer(precision_score),
    'recall_score': make_scorer(recall_score),
    'accuracy_score': make_scorer(accuracy_score),
    'roc_auc_score': make_scorer(roc_auc_score),
    'custom_score': make_scorer(classification_report_with_accuracy_score)
}

grid_best = GridSearchCV(
        estimator=best_pipe,
        param_grid=param_grid,
        scoring=scorers,
        cv=10,
        refit='f1_score'
)
grid_best.fit(X_train, y_train)
best_model = grid_best.best_estimator_
print("Best cross-validation score: {:.2f}".format(grid_best.best_score_))
print("Best params:\n{}\n".format(grid_best.best_params_))

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('sampling', RandomUnderSampler()),
                                       ('transformer',
                                        TargetEncoder(cols=['site_id',
                                                            'site_domain',
                                                            'app_id',
                                                            'device_model',
                                                            'C14', 'C17',
                                                            'C20'])),
                                       ('scaler', StandardScaler()),
                                       ('classifier', KNeighborsClassifier())]),
             param_grid=[{'classifier': [KNeighborsClassifier(n_neighbors=43)],
                          'classifier__n_neighbors': [43],
                          'cl...
                          'sampling': [None], 'scaler': [None],
                          'transformer': [None]}],
             refit='f1_score',
             scoring={'accuracy_score': make_scorer(accuracy_score),
                      'custom_score': make_scorer(classification_report_with_accuracy_score),
                      'f1_score': make_scorer(f1_score),
                      'precision_score': make_scorer(precision_score),
                      'recall_score': make_scorer(recall_score),
                      'roc_auc_score': make_scorer(roc_auc_score)})

Best cross-validation score: 0.40
Best params:
{'classifier': RandomForestClassifier(class_weight='balanced', max_depth=58,
                       min_samples_leaf=37, min_samples_split=13,
                       n_estimators=750, random_state=42), 'classifier__class_weight': 'balanced', 'classifier__criterion': 'gini', 'classifier__max_depth': 58, 'classifier__min_samples_leaf': 37, 'classifier__min_samples_split': 13, 'classifier__n_estimators': 750, 'sampling': RandomUnderSampler(random_state=42), 'scaler': StandardScaler(), 'transformer': TargetEncoder(cols=['site_id', 'site_domain', 'app_id', 'device_model', 'C14',
                    'C17', 'C20'])}


scores_best_models = pd.DataFrame(grid_best.cv_results_)[['param_classifier','mean_test_f1_score','std_test_f1_score','rank_test_f1_score']]
scores_best_models.sort_values(by='rank_test_f1_score')


mean_test_scores = ['mean_test_'+sc for sc in scorers.keys()]
pd.DataFrame(grid_best.cv_results_)[['param_classifier']+mean_test_scores+['rank_test_f1_score']].sort_values(by='rank_test_f1_score')


print("-------------- Average CV Classification Report --------------\n", 
      classification_report(originalclass, predictedclass))

-------------- Average CV Classification Report --------------
               precision    recall  f1-score   support

           0       0.91      0.60      0.72    398412
           1       0.27      0.73      0.39     81588

    accuracy                           0.62    480000
   macro avg       0.59      0.66      0.56    480000
weighted avg       0.80      0.62      0.67    480000


# Reset again the output for only the last expression
InteractiveShell.ast_node_interactivity = 'last_expr'


from sklearn.inspection import permutation_importance
perm = permutation_importance(best_model, X_train, y_train, scoring = 'f1', n_repeats=10, random_state=42)


fi = perm.importances_mean
fig, ax = plt.subplots(figsize=(20, 5))
ax.bar(range(len(fi)), fi, align="center")
ax.set(xticks=range(len(fi)), xticklabels=X_train.columns)
plt.setp(ax.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor")
plt.show()


best_model.fit(X_train, y_train)
y_pred = best_model.predict(X_test)
print(best_model)

Pipeline(steps=[('sampling', RandomUnderSampler(random_state=42)),
                ('transformer',
                 TargetEncoder(cols=['site_id', 'site_domain', 'app_id',
                                     'device_model', 'C14', 'C17', 'C20'])),
                ('scaler', StandardScaler()),
                ('classifier',
                 RandomForestClassifier(class_weight='balanced', max_depth=58,
                                        min_samples_leaf=37,
                                        min_samples_split=13, n_estimators=750,
                                        random_state=42))])


print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.60      0.72     16567
           1       0.27      0.73      0.40      3433

    accuracy                           0.62     20000
   macro avg       0.59      0.67      0.56     20000
weighted avg       0.81      0.62      0.67     20000


cf_matrix = confusion_matrix(y_test, y_pred)

# Names, counts and Percentage
group_names = ['True Neg','False Pos','False Neg','True Pos']
group_counts = ["{0:0.0f}".format(value) for value in cf_matrix.flatten()]
group_percentages = ["{0:.2%}".format(value) for value in cf_matrix.flatten()/np.sum(cf_matrix)]

# Join the above into text
labels = [f"{v1}\n{v2}\n{v3}" for v1, v2, v3 in zip(group_names,group_counts,group_percentages)]
labels = np.asarray(labels).reshape(2,2)
categories = ['Not Click (0)','Click (1)']
sns.heatmap(cf_matrix, annot=labels, fmt='', cmap='Blues',xticklabels=categories,yticklabels=categories)
plt.title('Best Model')
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.show()


plot_roc_curve(best_model, X_test, y_test) 
plt.plot([0, 1], [0, 1],'r--')
plt.title('Best Model')

plt.show()


# Imports
from sklearn.inspection import permutation_importance
import shap


row = 67
data_for_prediction = X_test.iloc[row]   
data_for_prediction_array = data_for_prediction.values.reshape(1, -1)

def model_predict(data_asarray):
    data_asframe =  pd.DataFrame(data_asarray, columns=X_train.columns.to_list())
    return best_model.predict_proba(data_asframe)

explainer = shap.KernelExplainer(model_predict, X_test.iloc[0:100], link='identity')
shap_values = explainer.shap_values(data_for_prediction)

shap.initjs()
shap.force_plot(explainer.expected_value[0], shap_values[0], data_for_prediction)


row = 1
data_for_prediction = X_test.iloc[row]   
data_for_prediction_array = data_for_prediction.values.reshape(1, -1)

def model_predict(data_asarray):
    data_asframe =  pd.DataFrame(data_asarray, columns=X_train.columns.to_list())
    return best_model.predict_proba(data_asframe)

explainer = shap.KernelExplainer(model_predict, X_test.iloc[0:100], link='identity')
shap_values = explainer.shap_values(data_for_prediction)

shap.initjs()
shap.force_plot(explainer.expected_value[0], shap_values[0], data_for_prediction)


random_sample = X_test.sample(200, random_state=42)
shap_values = explainer.shap_values(random_sample)


shap.summary_plot(shap_values, X_test, plot_type="bar")


shap.summary_plot(shap_values[0], random_sample , plot_type='dot')


from pdpbox import pdp


features_to_plot = ['device_model', 'site_id']

inter1  =  pdp.pdp_interact(model=best_model, dataset=X_test, model_features=X_test.columns, features=features_to_plot)

pdp.pdp_interact_plot(pdp_interact_out=inter1, feature_names=features_to_plot, plot_type='contour', x_quantile=True, plot_pdp=True)
plt.show()

	id	click	hour	C1	banner_pos	device_type	device_conn_type	C14	C15	C16	C17	C18	C19	C20	C21
count	1.000000e+05	100000.000000	1.000000e+05	100000.000000	100000.000000	100000.000000	100000.000000	100000.000000	100000.000000	100000.000000	100000.000000	100000.000000	100000.000000	100000.00000	100000.000000
mean	9.236817e+18	0.170310	1.410256e+07	1004.969200	0.288640	1.015190	0.332260	18845.372740	318.852520	60.216420	2113.509950	1.432660	227.585890	53116.13077	83.498460
std	5.333002e+18	0.375907	2.964051e+02	1.090561	0.503994	0.524959	0.853341	4963.742483	21.153502	47.740899	609.604505	1.325988	351.782614	49963.28370	70.365391
min	1.460373e+14	0.000000	1.410210e+07	1001.000000	0.000000	0.000000	0.000000	375.000000	120.000000	20.000000	112.000000	0.000000	33.000000	-1.00000	1.000000
25%	4.615234e+18	0.000000	1.410230e+07	1005.000000	0.000000	1.000000	0.000000	16920.000000	320.000000	50.000000	1863.000000	0.000000	35.000000	-1.00000	23.000000
50%	9.267732e+18	0.000000	1.410260e+07	1005.000000	0.000000	1.000000	0.000000	20346.000000	320.000000	50.000000	2323.000000	2.000000	39.000000	100048.00000	61.000000
75%	1.385993e+19	0.000000	1.410281e+07	1005.000000	1.000000	1.000000	0.000000	21894.000000	320.000000	50.000000	2526.000000	3.000000	171.000000	100086.00000	108.000000
max	1.844666e+19	1.000000	1.410302e+07	1012.000000	7.000000	5.000000	5.000000	24043.000000	1024.000000	1024.000000	2757.000000	3.000000	1839.000000	100248.00000	255.000000

	hour_of_day	click	count	total_clicks	CTR_hour
0	0	1	405	2161	0.187413
1	1	1	435	2337	0.186136
16	16	1	914	4970	0.183903
23	23	1	383	2099	0.182468
15	15	1	938	5164	0.181642

	day	click	count	total_clicks	CTR_day
7	28	1	1952	13100	0.149008
8	29	1	1463	9400	0.155638
1	22	1	2095	13217	0.158508
9	30	1	1759	10377	0.169509
0	21	1	1767	10209	0.173083

	app_id	count_app_id	CRT_app_id
1195	c6ed9835	63960	0.000000
746	90d7ba56	3850	0.000000
1144	5c27485f	2878	0.000000
794	f3a35279	1895	0.000000
1290	7e8c4294	1879	0.000000
582	c6e52c21	1543	0.000000
842	1c9ce06b	1217	0.000000
1069	5a9ca415	1104	0.000000
524	e36e1baa	967	0.500000
418	ec4ffa92	915	0.076923

	param_classifier	mean_test_f1_score	std_test_f1_score	rank_test_f1_score
3	RandomForestClassifier(class_weight='balanced'...	0.396958	0.005089	1
1	RandomForestClassifier(max_depth=39, min_sampl...	0.396706	0.003284	2
2	RandomForestClassifier(max_depth=27, min_sampl...	0.396676	0.005481	3
5	VotingClassifier(estimators=[('knn_optimized',...	0.393913	0.004823	4
4	<catboost.core.CatBoostClassifier object at 0x...	0.393792	0.004650	5
0	KNeighborsClassifier(n_neighbors=43)	0.385879	0.004114	6

	id	click	hour	C1	banner_pos	site_id	site_domain	site_category	app_id	app_domain	...	device_type	device_conn_type	C14	C15	C16	C17	C18	C19	C20	C21
0	6.448465e+18	0	14102806	1005	0	d6137915	bb1ef334	f028772b	ecad2386	7801e8d9	...	1	0	19771	320	50	2227	0	935	-1	48
1	1.342805e+19	0	14102307	1002	0	85f751fd	c4e18dd6	50e219e0	9a08a110	7801e8d9	...	0	0	21676	320	50	2495	2	167	-1	23

	weekday	click	count
0	Friday	0	6758
1	Friday	1	1514
2	Monday	0	6449
3	Monday	1	1425
4	Saturday	0	6868

	id	click	hour	C1	banner_pos	site_id	site_domain	site_category	app_id	app_domain	...	C15	C16	C17	C18	C19	C20	C21	hour_of_day	day	weekday
0	6.448465e+18	0	2014-10-28 06:00:00	1005	0	d6137915	bb1ef334	f028772b	ecad2386	7801e8d9	...	320	50	2227	0	935	-1	48	6	28	Tuesday
1	1.342805e+19	0	2014-10-23 07:00:00	1002	0	85f751fd	c4e18dd6	50e219e0	9a08a110	7801e8d9	...	320	50	2495	2	167	-1	23	7	23	Thursday

	C1	count_C1	CRT_C1
2	1010	91963	0.095692
1	1002	5426	0.211758
5	1008	2205	0.266667
6	1001	292	0.052632
3	1012	80	0.181507
0	1005	19	0.169764
4	1007	15	0.012500

	site_id	site_domain	site_category	app_id	app_domain	app_category	device_model	C14	C15	...	device_conn_type_0	device_conn_type_2	C18_0	C18_2	C18_3
0	1215	998	17	1195	41	0	1956	19771	320	...	1	0	1	0	0
1	770	1043	5	783	41	0	36	21676	320	...	1	0	0	1	0
2	890	535	17	1195	41	0	2936	21837	300	...	1	0	0	0	1
3	167	1261	1	1195	41	0	1476	15706	320	...	1	0	1	0	0
4	770	1043	5	842	67	3	2746	23224	320	...	0	1	1	0	0

	param_classifier	mean_test_f1_score	mean_test_precision_score	mean_test_recall_score	mean_test_accuracy_score	mean_test_roc_auc_score	mean_test_custom_score	rank_test_f1_score
3	RandomForestClassifier(class_weight='balanced'...	0.396958	0.272905	0.727902	0.624088	0.665365	0.624088	1
1	RandomForestClassifier(max_depth=39, min_sampl...	0.396706	0.272687	0.727755	0.623750	0.665103	0.623750	2
2	RandomForestClassifier(max_depth=27, min_sampl...	0.396676	0.272557	0.728491	0.623337	0.665148	0.623337	3
5	VotingClassifier(estimators=[('knn_optimized',...	0.393913	0.269787	0.729667	0.618337	0.662603	0.618337	4
4	<catboost.core.CatBoostClassifier object at 0x...	0.393792	0.270544	0.723417	0.621450	0.661993	0.621450	5
0	KNeighborsClassifier(n_neighbors=43)	0.385879	0.263337	0.721797	0.609475	0.654135	0.609475	6

INDEX¶

The Business Problem¶

The problem and methodologies¶

Methodologies¶

Describing the Dataset¶

The Dataset Features¶

User Identifier:¶

Target Variable:¶

Website Features:¶

App Features:¶

Device Features:¶

Hour/Time Features:¶

Anonymised Categorical Features¶

Data Analysis and Exploration¶

Target Variable¶

Checkpoint - Initial shape of the dataset¶

Hour/Time Feature¶

Defining our evaluation metric - CTR (Click Through Rate)¶

Checkpoint - Evaluate the transformations on the dataset¶

Anonymised Categorical Features¶

Using the CTR metric to understand relationships between features and the target¶

Website features¶

App Features¶

Device Features¶

The cell below takes around 12 minutes to run given the 77.833 unique categories of the site id - Charts will still be displayed before running the notebook.¶

Checkpoing - Before Exporting EDA to csv for easier modeling¶

Load Treated dataset from EDA¶

Drop features that will not go into the model¶

Pre-processing:¶

Apply¶

Split the Dataset¶

Lets take a closer look at the high cardinality features¶

Effect of implementing Target Encoding¶

Modeling¶

Choosing an Evaluation Metric - F1_score¶

Modeling Pipeline¶

Pipeline¶

KNN Classifier¶

KNN - Further Narrowing the Hyper-parameter Search¶

RANDOM FOREST¶

Simple Random Forest¶

Hyper-parameter Tunning of Random Forest¶

Random Forest - Further Narrowing the hyper-parameter search¶

Random Forest - Further Hyper-parameter Research (adding other parameters)¶

CATBOOST¶

CatBoost - Further Hyper-parameter research¶

Stacking Classifier¶

Selecting the Best Model¶

Feature Importance¶

Test Best Model¶

Confusion matrix¶

Interpretability¶

SHAP (SHapley Additive exPlanations)¶

SHAP Feature Importance Plot¶

SHAP Summary Plot¶

PDP¶

Conclusion¶

`Pipeline`¶