Skip to main content

CP15PAE知识点总结

阅读:-


经过了 14 道题目的训练,大家对 python 提供的数据容器,(dict,list,set),以及 DF 有了进一步的理解,这都是做报表分析的好帮手,我们再总结一下吧。

15 组件总结

15.1 知识树总览

15.1.1 模型分析

1587443714882

图 15-1现实世界与计算机内存关联图

从上图可见,现实世界中的事物与计算机内存中的流是可以相互转换的,应用计算机语言自动化解决现实世界的问题。

1587443751759

15-2 内存中的数据容器

从上图可见,列举了本章常用的四个主要容器,根据不同的场景选择合适的容器解决问题,可以极大的提升应用效率降低开发成本。

1587443788438

15-2数据处理的层次图

从上图可见,建造一个 IT 系统,基本上需要处理四个层面的问题,就是:

1.首先数据能够存储。

2.其次是利用工具可以查看到数据

3.第三是能够对数据进行各种各样的加工,产生信息。

4.第四是能够在信息中加以提炼,找出正确的内容,形成情报。

一般来说,越上层的结果,对客户的价值越大,越底层的内容,对客户的价值不大。

15.1.2 表格视图

编号一级名称二级名称意涵使用频次
0Osos.path文件操作
1IOBytesIO流转换
StringIO流转换
2Timedatetime时间管理
3Csvcsv 文件读写
4Excelxlrd文件读写
xlwt文件读写
xlutils文件读写
openpyxl文件读写
5Pandas高效的数据分析
6XmlElementTreexml 解析
Saxxml 解析
domxml 解析
7shutil文件操作,移动和复制
8zipfile压缩和解压缩
9psycopg2数据库连接
10sqlalchemy数据库连接
11多进程和多线程Multiprocessing多进程
Threading多线程
12协程Asyncio/ aiopgpython 内置组件
Gevent协程
pyftpdlibftp 链接下载
14socketsocketserver多机通信
15uuid唯一识别码

15.2 Python 知识点

15.2.1 模型分析

1587444280551

15-3集合关系图

1587444320560

15-4列表关系图

1587444364869

15-5字典关系图

从上图可见,使用python原生组件提供的数据容器,解决问题,需要从storage到data到information到storage等几个层次。我们在每个层次针对不同的问题选择合适的方法去解决,以达到高效低成本已于理解已于变化的综合方案。

1587444483895

15-6流转换的组件

从上图可见,借助数据容器,我们可以非常轻松的完成流转换的操作。

15.3 Pandas 知识点

15.3.1 模型分析

1587444842562

15-7 pandas 模型分析

由上图可见,Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。熟练掌握 pandas 是我们学习数据分析的一条捷径。

15.3.2 表格视图

组件名称内置函数应用效果
生成基本数据格式import numpy as np引入 numpy 组件
import pandas as pd引入 pandas 组件
pd.Series([1, 3, 5, np.nan, 6, 8])生成 Series 一维数组
pd.date_range(‘20130101’, periods=6)生成日期 DatetimeIndex
pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list(‘ABCD’))生成 datafrom 一维数组
查看数据df2.dtypes查看每列数据类型
df.head()查看数据头部
df.tail(3)查看数据指定几行
df.to_numpy()输出底层数据的 NumPy 对象。DataFrame 的列由多种数据类型组成时,该操作耗费系统资源较大,这也是 Pandas 和 NumPy 的本质区别:NumPy 数组只有一种数据类型,DataFrame 每列的数据类型各不相同。调用 DataFrame.to_numpy() 时,Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。还有一种数据类型是 object,可以把 DataFrame 列里的值强制转换为 Python 对象。
df.describe()快速查看数据的统计摘要:
df.T转置数据
df.sort_index(axis=1, ascending=False)按轴排序:
df.sort_values(by=‘B’)按值排序:
.at、.iat、.loc 和 .iloc。Pandas 数据访问方法
获取数据df[‘A’]选择单列,产生 Series,与 df.A 等效
df[0:3][ ] 切片行:
df.loc[dates[0]]用标签提取一行数据:
df.iloc[3]用整数位置选择
df.iloc[3:5, 0:2]用整数切片
df.iloc[[1, 2, 4], [0, 2]]用整数按位置切片
df.iloc[:, 1:3]显式整列切片
df.iloc[1, 1]显式提取值
运算df.mean()描述性统计
s = pd.Series([‘A’, ‘B’, ‘C’, ‘Aaba’, ‘Baca’, np.nan, ‘CABA’, ‘dog’, ‘cat’])字符串方法
合并pd.concat()结合
pd.merge(left, right, on=‘key’)连接
df.append()追加
分享到微博
Starter
MicroServ
Tutorials
Report
Blog