许可优化
许可优化
产品
产品
解决方案
解决方案
服务支持
服务支持
关于
关于
软件库
当前位置:服务支持 >  软件文章 >  Pandas五、数据类型和丢失值初窥:Pandas入门(五):数据类型与缺失值处理

Pandas五、数据类型和丢失值初窥:Pandas入门(五):数据类型与缺失值处理

阅读数 5
点赞 0
article_banner

读入数据:

import pandas as pd reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)

1、查看 数据集  中评分列的数据类型

dtype = reviews.points.dtypedtype'''dtype('int64')'''

2、创建一个Series,其数据来自评分(points)中的项数,要求把这些项数转换成字符串型。提示:在python中string 是 “str

point_strings = reviews.points.astype(str)

3、有时候价格(price)列是空的,那么我们怎么统计有多少空值?

# 第一种missing_price_reviews = reviews[reviews.price.isnull()]len(missing_price_reviews)# 第二种n_missing_prices = reviews.price.isnull().sum()# 第三种n_missing_prices = pd.isnull(reviews.price).sum()'''8996'''

4、创建一个序列Series,它能够统计在region_1中的值出现的次数。需要注意的是用Unknown替换丢失的值,并降序排序。输出应有下面的样子:

'''Unknown 21247Napa Valley 4480 ... Bardolino Superiore 1Primitivo del Tarantino 1Name: region_1, Length: 1230, dtype: int64'''

我们先来处理空值,使用pandas的fillna能够让我们替代空值。下面我们用Unknown替换Nan丢失的值。

reviews_per_region = reviews.region_1.fillna('Unknown')reviews_per_region'''0 Etna1 Unknown2 Willamette Valley3 Lake Michigan Shore4 Willamette Valley5 Navarra6 Vittoria7 Alsace8 Unknown9 Alsace10 Napa Valley11 Alsace12 Alexander Valley ...'''

蓝后再统计有多少这样的这些项。这里要用到value_counts()这个函数。

reviews_per_region = reviews.region_1.fillna('Unknown').value_counts()type(reviews.region_1.fillna('Unknown'))reviews_per_region'''pandas.core.series.SeriesUnknown 21247Napa Valley 4480Columbia Valley (WA) 4124Russian River Valley 3091California 2629Paso Robles 2350Mendoza 2301Willamette Valley 2301Alsace 2163Champagne 1613Barolo 1599Finger Lakes 1565 ...'''

最后再进行降序排序:

reviews_per_region = reviews.region_1.fillna('Unknown').value_counts().sort_values(ascending=False)# type(reviews.region_1.fillna('Unknown'))reviews_per_region'''Unknown 21247Napa Valley 4480Columbia Valley (WA) 4124Russian River Valley 3091California 2629Paso Robles 2350Mendoza 2301Willamette Valley 2301Alsace 2163Champagne 1613Barolo 1599'''

注明:

以上数据来自kaggle learn


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删



相关文章
技术文档
QR Code
微信扫一扫,欢迎咨询~
customer

online

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 board-phone 155-2731-8020
close1
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

姓名不为空

姓名不为空
手机不正确

手机不正确

手机不正确
公司不为空

公司不为空

公司不为空