Skip to content

Joyful-Pandas

IMPORTANT

本项目地址已由原先的 joyfulpandas.datawhale.club 更换至 https://inter.joyfulpandas.datawhale.club

基于Joyful Pandas教程编写的纸质版书籍已在各大网络平台上线,欢迎选购。本书使用新版的1.4.0,对网页版教程(基于1.2.0)内容作了大量修订,包括内容增改以及习题更新,同时增加了数据可视化、特征工程和性能优化三个章节的内容。本书设计练一练共计121题,章后习题共计41题,各章节分布与目录见后文。有关本书籍和pandas的任何问题可以在本仓库提issue,或者加最后的二维码进讨论群提问。

购买链接:

在写作期间,本书作者积极参与pandas的开发工作和社区建设,点击此处查看开源贡献。同时,Joyful Pandas也被pandas官方增选为社区推荐教程,在此对pandas核心开发组多年来的长期维护和社区建设表示感谢!

纸质版

  • 数据集:下载(提取码:9e8r)
  • 参考答案:链接
  • 勘误修订:链接
  • 练一练与习题
章节练一练(题数)习题(*为纸质版新增)
第一章 预备知识15一、利用列表推导式实现矩阵乘法
二、计算卡方统计量
* 三、统计某商店的月度销量情况
第二章 pandas基础8* 一、整理某服装店的商品情况
* 二、汇总某课程的学生总评分数
三、实现指数加权窗口
第三章 索引6* 一、实现sample()函数
二、公司员工数据的索引操作
三、巧克力评价数据的索引操作
第四章 分组10一、汽车数据的分组分析
* 二、某海洋物种在三大海域的分布研究
三、实现transform()函数
第五章 变形9* 一、某连锁店的库存统计
* 二、整理某地区的化石燃料数据
三、特殊的wide_to_long()方法
第六章 连接5一、合并员工信息表
二、实现join()函数
* 三、条件连接
第七章 缺失数据6* 一、缺失数据筛选
二、K近邻填充
* 三、条件近邻插值
第八章 文本数据3一、房屋数据的文本提取
* 二、巴洛克作曲家的年龄统计
* 三、汇总显卡测试的结果
第九章 分类数据2一、统计未出现的类别
二、钻石数据的类别构造
* 三、有序类别下的逻辑斯蒂回归
第十章 时间序列数据10一、太阳辐射数据的时序分析
二、水果销量分析
* 三、使用Prophet进行时序预测
第十一章 数据观测15* 一、图片绘制
* 二、数据观测实战
* 三、基于PyOD库的异常检测
第十二章 特征工程12* 一、卡方分箱
* 二、基于标签的特征构造
* 三、信用卡诈骗数据的特征工程
第十三章 性能优化20* 一、DNA链的碱基序列处理
* 二、捕捉电信号的激活态区间
* 三、药物靶点的关联性分析
* 四、物质浓度的指标检测
* 五、设计滑窗类
  • 新增的三个章节目录
第十一章 数据观测11.1 可视化方法11.1.1 基本绘图
11.1.2 元素控制
11.1.3 子图控制
11.2 数据观测方法11.2.1 数据类型
11.2.2 数据统计量
11.2.3 数据分布
11.2.4 基于数据报告的观测
11.3 习题/
第十二章 特征工程12.1 单特征构造12.1.1 特征变换
12.1.2 文本数据特征
12.1.3 时间序列数据特征
12.1.4 单特征构造的一般方法
12.2 多特征构造12.2.1 分组技术
12.2.2 特征降维
12.3 特征选择12.3.1 基于统计量的选择
12.3.2 基于模型的选择
12.4 习题/
第十三章 性能优化13.1 pandasic代码要义/
13.2 多进程加速13.2.1 多进程和多线程
13.2.2 多进程的陷阱
13.2.3 异步进程
13.2.4 进程中的数据共享
13.2.5 在pandas中使用多进程
13.3 利用Cython加速13.3.1 初识Cython
13.3.2 优化策略
13.3.3 多线程加速
13.3.4 Cython类及其应用
13.3.5 模块构建
13.4 利用Numba加速13.4.1 noPython模式
13.4.2 ufunc与向量化
13.4.3 jitclass及其应用
13.5 习题/

网页版

http://inter.joyfulpandas.datawhale.club/

文件内容

  • data:网页版教程数据集
  • ebook:网页版教程电子版
  • notebook:网页版教程notebook

参考资料

交流群

关注Datawhale公众号,回复关键词“熊猫”获得二维码