Pandas数据分析 普林大数据学院 普 林 大 数 据 学 院 P R I N C E T E C H S B I G D A T A C O L L E G E 2 3 目录 第一部分 文件读写 第二部分 变量离散化 第三部分 缺失值填补 普林大数据学院 普 林 大 数 据 学 院 P R I N C E T E C H S B I G D A T A C O L L E G E 第四部分 数据标准化 第五部分 数据合并 第六部分 数据组合 第七部分 数字编码 第八部分 OneHot编码
《Python for Data Analysis》
GroupBy
分组运算:split-apply-combine(拆分-应用-合并)
DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用到各个分组并产生新值。最后,所有这些函数的执行结果会被合并到最终的结果对象中去。
GroupBy的size方法可以返回一个含有分组大小的Series。
对分组进行迭代
for (k1,k2), group in df.groupby(['key1','key2'
有时候我们想要的数据合并结果是数据的轴向连接,在pandas中这可以通过concat来实现。操作的对象通常是Series。
Ipython中的交互代码如下:
In [17]: from pandas import Series,DataFrame
In [18]: series1 = Series(range(2),index = ['a','b'])
In [19]: series2 = Series(range(3),index = ['c','d','e'])
In [20]: seri