描述:行标签为日期,列标签为时间,表哥的值是 float 的数值
# 一、 读取 csv 文件df=pd.read_csv("delay_3.csv",encoding = "utf-8")# 二、 默认读取是行索引是 0 开始计数的,datestr 被作为文本读成了单元格数据,将datestr 转换成时间,并建立索引# 2.1 要把 datestr 列转换成时间格式df['datestr'] = pd.to_datetime(df['datestr'])# 2.2 通过 set_index 重新设置新的列df.set_index("datestr", inplace=True)# 三、数据预处理,因为数据本身存在很多 空白数据,空白数据是 - (减号)# 3.1 转换数据为数字类型,转换错误的数据,自动填充为 NANdf=df.apply(pd.to_numeric, errors='coerce')# 3.2 通过填充命令将数据填充 填充的规则是按照前一行,同一列进行填充#print df.isnull().sum()df=df.fillna(method='ffill')‘# 查看下为 仍然为 null 的数据数量#print df.isnull().sum()#四、 通过切片进行访问,切出 这些天,每天的这些时刻的数据df['2018-01-08':'2018-01-15','06:00':'20:00']#五、分行和分列进行聚集操作# 5.1 按列(时段)聚集df.mean()# 5.2 按日期(行)聚集df_new=df.Tdf_new.mean()# 5.3 所有的数据取一个平均值df.mean().mean()