【pandas小技巧】--缺失值的列

在实际应用中，数据集中经常会存在缺失值，也就是某些数据项的值并未填充或者填充不完整。缺失值的存在可能会对后续的数据分析和建模产生影响，因此需要进行处理。

(相关资料图)

pandas提供了多种方法来处理缺失值，例如删除缺失值、填充缺失值等。删除缺失值可能会导致数据量减少，填充缺失值则能够尽量保留原始数据集的完整性，从而提高数据分析和建模的准确性和可靠性。

当数据集中存在缺失值时，我们通常需要进行以下操作：

检查缺失值的数量和分布情况，了解缺失值对数据的影响程度。根据数据的类型和业务需求，选择合适的缺失值处理方法，并对缺失值进行处理。在处理缺失值的同时，要注意保持数据集的一致性和完整性。处理完缺失值后，可以进行后续的数据分析和建模，从而得出更准确和可靠的结论。1. 缺失值统计

首先我们随机创建一个包含缺失值的测试数据集，这里用到之前介绍过的创建测试数据的技巧。

import pandas as pddef get_random_missing_data():    df = pd.util.testing.makeMissingDataframe()    return df[df.isna().any(axis=1)]df = get_random_missing_data()df

这里我封装了一个简单的函数get_random_missing_data，通过这个函数，可以创建一个每行至少有一个缺失值的数据集。注意：这是随机创建的数据集，所以每次运行的结果会不一样。

统计缺失值很简单，首先通过isna函数找出所有缺失的值，然后可以使用sum或者mean来统计缺失的数量和比例。

df.isna().sum()

sum函数返回的是每一列缺失值的数量。

df.isna().mean()

mean函数返回的值可以看做每一列缺失值占的比例。

2. 删除缺失值

处理缺失值时，有些场景为了保证数据的完整性，只能删掉有缺失的数据。删除缺失值有2个重要的参数：how 和 axis。

how有2个可选值：

any：这是默认值，表示行数据或者列数据中有一个缺失值，就删除此行或此列all：表示行数据或者列数据中所有值都缺失时，才删除此行或此列

axis也有2个可选值：

0 或 index：按行判断是否有缺失值1 或 columns：按列判断是否有缺失值

how="any"，axis=0的情况：每行数据中只要有一个缺失值就删除该行。

df = pd.DataFrame(    {        "A": [1, 2, 3, np.nan],        "B": [1, np.nan, 3, 4],        "C": [1, 2, np.nan, 4],        "D": [1, 2, 3, 4],    })df.dropna(how="any", axis=0)

how="all"，axis=0的情况：每行数据中，全部值都缺失的行才删除。

df = pd.DataFrame(    {        "A": [1, np.nan, 3, np.nan],        "B": [1, np.nan, 3, 4],        "C": [1, np.nan, np.nan, 4],        "D": [1, np.nan, 3, 4],    })df.dropna(how="all", axis=0)

how="any"，axis=1的情况：每列数据中只要有一个缺失值就删除该列。

df = pd.DataFrame(    {        "A": [1, 2, 3, np.nan],        "B": [1, np.nan, 3, 4],        "C": [1, 2, np.nan, 4],        "D": [1, 2, 3, 4],    })df.dropna(how="any", axis=1)

how="all"，axis=1的情况：每列数据中,全部值都缺失的列才删除。

df = pd.DataFrame(    {        "A": [np.nan, np.nan, np.nan, np.nan],        "B": [1, np.nan, 3, 4],        "C": [1, 2, np.nan, 4],        "D": [1, np.nan, 3, 4],    })df.dropna(how="all", axis=1)

3. 填充缺失值

填充缺失值一般使用fillna函数指定填充什么样的值。比如：

df = pd.DataFrame(    {        "A": [1, 2, 3, np.nan],        "B": [1, np.nan, 3, 4],        "C": [1, 2, np.nan, 4],        "D": [1, 2, 3, 4],    })df.fillna(-1)

这里是用 -1 来填充的，根据实际情况可以使用任意合适的值来填充。

除了 fillna函数之外，还有一个interpolate函数，能够更加合理的填充缺失值。

df = pd.DataFrame(    {        "A": [1, 3, 4, np.nan],        "B": [2, np.nan, 2, 4],        "C": [3, 3, np.nan, 3],        "D": [4, 1, np.nan, 4],    })df.interpolate()

每个缺失值都是它上下两行的值的平均值。

如果只有上面行的值，那就直接用上面行的值。这里有个注意的地方：如果是第一行有缺失的话，那么是无法填充的。比如：

df = pd.DataFrame(    {        "A": [np.nan, 3, np.nan, np.nan],        "B": [2, np.nan, 2, 4],        "C": [3, 3, np.nan, 3],        "D": [4, 1, np.nan, 4],    })df.interpolate()

第一行的缺失值没有上一行可以参照，还是维持原来缺失的状态。所以使用 interpolate进行填充时，注意第一行的缺失值状态，可以用 fillna先处理第一行。

【pandas小技巧】--缺失值的列

本次强降雨造成吉林省舒兰市14人遇难 1人失联

多产品进入收获期+估值历史底部，四环医药（00460）迎投资良机

热刺主帅：球队的比赛方式会对凯恩有所帮助，他是受益者

促进民营经济发展 国家税务总局发布28条便民办税举措

被乌克兰女歌唱家顶替，俄罗斯女高音起诉美歌剧院诽谤毁约

Ampere：预计2023年Netflix原创内容上支出将达到76亿美元

iQOO Neo8 Pro 充电一整晚没事吧

JDG夺冠！英雄联盟即将进入“亚运时间”

夺隼！野人偷小孩啦！——B站游隼上脚环视频不完整收录

涿州归来，说说我看到的救灾现场

8月7号开始好运加身，鸿运当头，3生肖正财偏财齐旺

科华控股：半年报业绩实现扭亏为盈

世界聚焦大运会丨国际大体联秘书长：以赛为媒 成都大运会促进世界青年交流与互鉴

有效期2年！咸宁出台奖补实施办法

进口榴莲掀起降价风：京东超市泰国金枕榴莲卖产地批发价 全网最低价

上海农商银行长宁支行在全区街镇开展“小小金融家”财商系列课程

形容烧烤美味的句子有哪些（形容烧烤美味的句子）

宝塔之战怎么玩

2023年8月6日云南省山药批发价格行情

多地震感明显 山东平原县 5.5 级地震：华为小米等手机可提前预警

邮票图片儿童画简单？

山东平原地震记录到余震56次，其中3.0级及以上1次

夏天地面上的热浪是什么现象 南半球多地惊现“冬季热浪” 基本情况讲解

旧手机当监控摄像头怎么办（旧手机当监控摄像头）

世界冠军带你探访2023全军院校“强军杯”乒乓球赛

刘邦战胜项羽的真实故事 关于刘邦与项羽身世的神话传说）

女篮夺大运冠军！刘禹彤搂住韩旭，宋珂昕熊抱队友，日本面露绝望

世界奶业大会开幕 国家乳业技术创新中心落成启用

大运会推动文明互鉴、美美与共

“迈开步 动出彩”暨河南体彩快乐周末体育消夏活动启动

新动力属于什么概念？新动力市值是多少？（8月5日）

中方将派团出席在沙特吉达举行的乌克兰问题国际会议

2023年暑期档总票房（含预售）突破140亿

暑假不想写作业怎么办？吴京杭州路演变身知心大哥

墨玉为什么总有白斑

惠达卫浴捐赠100万元物资支援灾后重建工作

30门重炮开火仅5分钟后就被锁定，火力覆盖下400炮兵一个没跑掉

北京治疗阳痿哪个医院好 好的男科医院是哪家

上半年完成交通固定资产投资1.83万亿元

我国海洋产业融合发展势头良好

晨读计划丨小心挨罚，五一商圈严查！长沙这条路封闭管制、公交调整

鸿蒙4将接入盘古大模型，可以帮用户生成文案、快速摘要资讯

中国国家发改委追加下达1亿元投资支持河北、天津灾后应急恢复重建

礼贤下士的典故颇多（礼贤下士的典故）

开发者更新 - 2022年9月15日

每日优鲜再度触发熔断，此前暴涨269%，签署两份融资协议并收购MejoyInfinite

苏一工院拟向银行申请3000万贷款 实际控制人黄健及其配偶郭海云提供自然人连带责任担保

北京-伦敦短片节正式启动

变速器规格（变速带的规格参数？）

8月4日惠发食品（603536）龙虎榜数据：游资作手新一上榜

南京：对购买新建商品住房实施补贴 对集体土地房屋征收推行房票安置

加德纳尔月亮井（加德纳尔月亮井在）

女足世界杯：16强全部诞生，德国队步巴西队后尘被淘汰

88元抵扣8888元购车款，比亚迪护卫舰07限时钜惠惊喜上线

煮意粉最忌讳的四件事 如何煮意粉好吃窍门

上半年我国钢铁产量出口量实现双增长

爱玩更爱看：《博德3》Twitch热度大涨 超48万人观看

人民银行：推动银企供需对接 加强金融支持民营企业

李泽铭：AI概念仍有上升空间 未来聚焦下游投资标的丨就市论市

光影逐梦，“苏”写影视工业“诗和远方”

意媒：托马斯成为尤文引援目标，但阿森纳超过2000万欧要价过高

违规发放土地储备贷款，太原农村商业银行被罚60万元

多方合力促消费 一揽子政策扩内需

张艺谋导演电影《坚如磐石》定档：演员阵容豪华 9月28日上映

广发期货早知道：大金融强力拉涨，A股主要指数回升。

看守所关过半年有案底吗

监管发声点名“绕道减持”行为 “关键少数”不得以离婚等方式规避减持限制

致敬高温工作者，郑州太古可口可乐启动“一瓶水的接力”公益活动

会计证年审和继续教育上哪个网站 会计上岗证继续教育

阿里纳斯谈KD：你不能怪他追逐冠军 奥尼尔总拿巴克利无冠说事

通行宝(301339) 上半年业绩高速增长 出行复苏主业回升

日下面一个立（下面硬了）

蔡文熙(关于蔡文熙简述)

成都大运会｜赛程过半 竞赛组织工作运行平稳

98年崇明姑娘回到家乡，爱上土布，守护土布！

教以共进，研以致远！潍坊市奎文区樱园幼儿园7月园本教研活动

出身农村，勉强财富自由

最新公布！漳州26人！

全视通助力西安市第九医院绘制智慧医院发展新蓝图

促进民营经济发展国家税务总局发布28条便民办税举措

世界聚焦大运会丨国际大体联秘书长：以赛为媒成都大运会促进世界青年交流与互鉴

进口榴莲掀起降价风：京东超市泰国金枕榴莲卖产地批发价全网最低价

多地震感明显山东平原县 5.5 级地震：华为小米等手机可提前预警

夏天地面上的热浪是什么现象南半球多地惊现“冬季热浪” 基本情况讲解

刘邦战胜项羽的真实故事关于刘邦与项羽身世的神话传说）

世界奶业大会开幕国家乳业技术创新中心落成启用

“迈开步动出彩”暨河南体彩快乐周末体育消夏活动启动

北京治疗阳痿哪个医院好好的男科医院是哪家

苏一工院拟向银行申请3000万贷款实际控制人黄健及其配偶郭海云提供自然人连带责任担保

南京：对购买新建商品住房实施补贴对集体土地房屋征收推行房票安置

煮意粉最忌讳的四件事如何煮意粉好吃窍门

爱玩更爱看：《博德3》Twitch热度大涨超48万人观看

人民银行：推动银企供需对接加强金融支持民营企业

李泽铭：AI概念仍有上升空间未来聚焦下游投资标的丨就市论市

多方合力促消费一揽子政策扩内需

会计证年审和继续教育上哪个网站会计上岗证继续教育

阿里纳斯谈KD：你不能怪他追逐冠军奥尼尔总拿巴克利无冠说事

通行宝(301339) 上半年业绩高速增长出行复苏主业回升

成都大运会｜赛程过半竞赛组织工作运行平稳

南宁韩贞植发怎么样医院技术水平解析

永定河水势总体平稳大清河洪水预计8日前后子牙新河洪水预计7日前后

学校体育场地开放开得了还要开得好

成都大运会：女子200米仰泳决赛柳雅欣夺得金牌