二分类数据集 测试用例 自承式光缆 jsp wpf graph Plupload vue论坛 前端vue框架 jquery的each循环 spark数据清洗 python数据类型转换 svn查看历史版本 python面向对象 mysqlinsert random函数用法 java数据结构 java安装配置 java写入txt java中map linux系统简介 linux装机 计算机电子书 flash实例 linux操作系统原理 亚索刀光特效包 小程序源码下载 iphone滚动截屏 eclipse中文版下载 oem修改器 git命令 工信部手机入网查询 ps制作表格 华为手机刷公交卡 maven项目打包 cmd命令数字雨 经典雅黑 目标聚光灯 stata 幽灵推
当前位置: 首页 > 学习教程  > python

PYTHON 用三倍四分位间距盖帽法处理异常值

2021/2/6 22:30:39 文章标签: 测试文章如有侵权请发送至邮箱809451989@qq.com投诉后文章立即删除

异常值的存在给建模带来极大困扰,在模型构建之前,采用四分位间距法去掉异常值是我们常用的方法,我把代码总结如下: ## del_cols:不用盖帽法处理的列名集合 ## df_data_1:待处理的数据框 def OutliersDeal(df_data_1 , del_cols )…

异常值的存在给建模带来极大困扰,在模型构建之前,采用四分位间距法去掉异常值是我们常用的方法,我把代码总结如下:

## del_cols:不用盖帽法处理的列名集合
## df_data_1:待处理的数据框
def OutliersDeal(df_data_1 , del_cols ):
    import copy 
    df_data = copy.deepcopy(df_data_1.drop(del_cols , axis = 1))
    colnames = df_data.columns.tolist()
    for col_name in colnames:
        u_75 = df_data[col_name].quantile(q = 0.75)
        u_25 = df_data[col_name].quantile(q = 0.25)
        IQR = u_75 - u_25
        df_data.loc[df_data[col_name] > u_75 + 1.5*IQR , col_name] = u_75 + 1.5*IQR
        df_data.loc[df_data[col_name] < u_25 - 1.5*IQR , col_name] = u_25 - 1.5*IQR
        df_data_1[col_name] = df_data[col_name]
    return df_data_1

函数的调用:

if __name__ == '__main__':
    import pandas as pd
    import numpy as np
    data = pd.read_csv('data/cs-training.csv')
    data.describe()
    data.columns.tolist()
    ## 用盖帽法处理异常值
    data = OutliersDeal(data, ['CustomerID','SeriousDlqin2yrs'])
    data.describe()

本文链接: http://www.dtmao.cc/news_show_2000140.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?