查看“Pandas”的源代码
←
Pandas
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
Python Data Analysis Library ==数据结构== *https://www.cnblogs.com/songxiaohua/p/9445087.html ===DataFrame=== *参见 https://blog.csdn.net/u014281392/article/details/75331570 df = pd.DataFrame([[1, 2, 3],[4, 5, 6]], columns=['col1','col2','col3'], index=['a','b']) * 表格方式定义,行是 index, 列是columns *调用行 df.loc(['a']),调用列 df['col1'] ===Series=== *每一项称为items,比较像字典,又分为index和values *默认的index是range(),所以可以从ndarray转换而来 *可以从字典装换而来,key是变成index sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000} ser3 = Series(sdata) * 不同Series对象可以根据索引进行匹配计算。 * 根据索引进行检索:ser3.loc['Ohio'] * Series.describe() #看这个序列数值的基本统计量 * 缺失值处理 Series.isnull(), Series.notnull(), Series.fillnull() ===Index=== *比较像集合set,但是元素可以重复 ==io== *read_csv import pandas as pd data=pd.read_csv('cGs_for_LAMOST.csv',comment='#') data.columns ra=data['ra'] dec=data['dec] *现在推荐read_csv 读普通表格了,默认总是把第一行做表头,如果没有表头用header=None *详见 https://blog.csdn.net/brucewong0516/article/details/79092579 :comment='#' :sep=' '(或者'\s' ;sep='\t'(分隔符是Tab键) *read_table :读普通的ascii文件 file=pd.read_table(path+'test1.spectrum',skiprows=range(0,6),\ delim_whitespace=True, names=('A', 'B', 'C'), dtype={'A': np.int64, 'B': np.float64, 'C': np.float64}) ==hdf5== *复杂数据结构可以组合成一个hdf5结构 [https://www.cnblogs.com/feffery/p/11135082.html] *写入 store = pd.HDFStore('store.h5') #生成一个1亿行,5列的标准正态分布随机数表 df = pd.DataFrame(np.random.rand(100000000,5)) store['df'] = df ####压缩格式存储 h5 = pd.HDFStore('store_comp.h5','w', complevel=4, complib='blosc') h5['data'] = df *读入 store = pd.HDFStore('Omet_CEM.h5') store.keys() ==[[pickle]]== *使用DataFrame的to_pickle属性就可以生成pickle文件对数据进行永久储存 df = pd.DataFrame(np.arange(20).reshape(4,5)) df.to_pickle('foo.pkl') pd.read_pickle('foo.pkl')
返回至“
Pandas
”。
导航菜单
个人工具
登录
命名空间
页面
讨论
大陆简体
已展开
已折叠
查看
阅读
查看源代码
查看历史
更多
已展开
已折叠
搜索
导航
首页
社群首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息