搜索

查看: 3122|回复: 11

[Python] Pandas.DataFrame重置列的行名实现(set_index)

[复制链接]
发表于 2023-5-4 17:21:42 | 显示全部楼层 |阅读模式
Editor 2023-5-4 17:21:42 3122 11 看全部
目录
  • set_index()的使用方法
  • 基本用法
  • 将指定的列保留为数据:参数drop
  • 分配多索引
  • 将索引更改为另一列(重置)
  • 更改原始对象:参数inplace
  • 读取csv文件等时指定索引
  • 使用索引(行名)提取(选择)行和元素pandas.DataFrame中的现有列分配给索引index(行名,行标签)。为索引指定唯一的名称很方便,因为使用loc,at选择(提取)元素时很容易理解。
    将描述以下内容。
    set_index()的使用方法
  • 基本用法
  • 将指定的列保留为数据:参数drop
  • 分配多索引
  • 将索引更改为另一列(重置)
  • 更改原始对象:参数inplace
    读取csv文件等时指定索引
    使用索引(行名)提取(选择)行和元素
    了解如何更改索引的一部分或将整个列表替换为列表等,而不是将现有列分配给索引。
    请参考以下文章,
    Pandas.DataFrame的行名和列名的修改
    以下面的数据为例。
    import pandas as pd
    df = pd.read_csv('./data/22/sample_pandas_normal.csv')
    print(df)
    #       name  age state  point
    # 0    Alice   24    NY     64
    # 1      Bob   42    CA     92
    # 2  Charlie   18    CA     70
    # 3     Dave   68    TX     70
    # 4    Ellen   24    CA     88
    # 5    Frank   30    NY     57
    set_index()的使用方法
    基本用法
    在第一个参数键中指定用作索引的列的列名(列标签)。指定的列设置为索引。
    df_i = df.set_index('name')
    print(df_i)
    #          age state  point
    # name                     
    # Alice     24    NY     64
    # Bob       42    CA     92
    # Charlie   18    CA     70
    # Dave      68    TX     70
    # Ellen     24    CA     88
    # Frank     30    NY     57

    将指定的列保留为数据:参数drop
    默认情况下,如上例所示,从数据列中删除指定的列。如果参数drop = False,则指定的列将设置为index,并且也将保留在data列中。
    df_id = df.set_index('name', drop=False)
    print(df_id)
    #             name  age state  point
    # name                              
    # Alice      Alice   24    NY     64
    # Bob          Bob   42    CA     92
    # Charlie  Charlie   18    CA     70
    # Dave        Dave   68    TX     70
    # Ellen      Ellen   24    CA     88
    # Frank      Frank   30    NY     57

    分配多索引
    如果在第一个参数键中指定了列名列表(列标签),则将多列分配为多索引。
    df_mi = df.set_index(['state', 'name'])
    print(df_mi)
    #                age  point
    # state name               
    # NY    Alice     24     64
    # CA    Bob       42     92
    #       Charlie   18     70
    # TX    Dave      68     70
    # CA    Ellen     24     88
    # NY    Frank     30     57
    使用sort_index()排序时,它可以整齐显示。
    df_mi.sort_index(inplace=True)
    print(df_mi)
    #                age  point
    # state name               
    # CA    Bob       42     92
    #       Charlie   18     70
    #       Ellen     24     88
    # NY    Alice     24     64
    #       Frank     30     57
    # TX    Dave      68     70
    使用sort_values()对行进行排序以进行说明。有关排序的详细信息,请参见以下文章。
    pandas.DataFrame,Series排序(sort_values,sort_index)
    默认情况下,如果在set_index()中指定一列,则原始索引将被删除。
    print(df_i)
    #          age state  point
    # name                     
    # Alice     24    NY     64
    # Bob       42    CA     92
    # Charlie   18    CA     70
    # Dave      68    TX     70
    # Ellen     24    CA     88
    # Frank     30    NY     57
    df_ii = df_i.set_index('state')
    print(df_ii)
    #        age  point
    # state            
    # NY      24     64
    # CA      42     92
    # CA      18     70
    # TX      68     70
    # CA      24     88
    # NY      30     57
    如果将参数append设置为True,则除了原始索引之外,还将将指定的列添加为新的层次结构索引。
    df_mi = df_i.set_index('state', append=True)
    print(df_mi)
    #                age  point
    # name    state            
    # Alice   NY      24     64
    # Bob     CA      42     92
    # Charlie CA      18     70
    # Dave    TX      68     70
    # Ellen   CA      24     88
    # Frank   NY      30     57
    添加的列是最底层。使用swaplevel()切换图层。
    print(df_mi.swaplevel(0, 1))
    #                age  point
    # state name               
    # NY    Alice     24     64
    # CA    Bob       42     92
    #       Charlie   18     70
    # TX    Dave      68     70
    # CA    Ellen     24     88
    # NY    Frank     30     57

    将索引更改为另一列(重置)
    与前面的示例一样,如果使用set_index()指定列,则原始索引将被删除。
    如果要保留原始索引,请使用reset_index(),它会从0开始按顺序对索引重新编号。
    print(df_i)
    #          age state  point
    # name                     
    # Alice     24    NY     64
    # Bob       42    CA     92
    # Charlie   18    CA     70
    # Dave      68    TX     70
    # Ellen     24    CA     88
    # Frank     30    NY     57
    df_ri = df_i.reset_index()
    print(df_ri)
    #       name  age state  point
    # 0    Alice   24    NY     64
    # 1      Bob   42    CA     92
    # 2  Charlie   18    CA     70
    # 3     Dave   68    TX     70
    # 4    Ellen   24    CA     88
    # 5    Frank   30    NY     57
    如果要将索引更改(重置)到另一列,请在reset_index()之后使用set_index()。如果一次性全部编写,将如下所示。
    df_change = df_i.reset_index().set_index('state')
    print(df_change)
    #           name  age  point
    # state                     
    # NY       Alice   24     64
    # CA         Bob   42     92
    # CA     Charlie   18     70
    # TX        Dave   68     70
    # CA       Ellen   24     88
    # NY       Frank   30     57
    请注意,为方便起见,在此示例中将具有重叠值的列设置为索引,但是如果索引值不重叠(每个值都是唯一的),则更容易选择数据。
    另请参见以下有关reset_index()的文章。
    Pandas.DataFrame,重置Series的索引index(reset_index)

    更改原始对象:参数inplace
    默认情况下,set_index()不会更改原始对象并返回新对象,但是如果inplace参数为True,则原始对象将被更改。
    df.set_index('name', inplace=True)
    print(df)
    #          age state  point
    # name                     
    # Alice     24    NY     64
    # Bob       42    CA     92
    # Charlie   18    CA     70
    # Dave      68    TX     70
    # Ellen     24    CA     88
    # Frank     30    NY     57

    读取csv文件等时指定索引
    从csv文件等中读取并生成pandas.DataFrame或pandas.Series时,如果原始文件包含要用作索引的列,则可以在读取时指定该列。
    使用read_csv()读取文件时,在参数index_col中指定一个列号,该列即成为索引。
    df = pd.read_csv('./data/22/sample_pandas_normal.csv', index_col=0)
    print(df)
    #          age state  point
    # name
    # Alice     24    NY     64
    # Bob       42    CA     92
    # Charlie   18    CA     70
    # Dave      68    TX     70
    # Ellen     24    CA     88
    # Frank     30    NY     57
    有关读取csv和tsv文件的详细信息,请参见以下文章。
    Pandas读取csv/tsv文件(read_csv,read_table)

    使用索引(行名)提取(选择)行和元素
    与前面的示例一样,如果在索引(行名,行标签)中指定唯一的字符串,则可以按名称提取(选择)行或元素。
    print(df)
    #          age state  point
    # name                     
    # Alice     24    NY     64
    # Bob       42    CA     92
    # Charlie   18    CA     70
    # Dave      68    TX     70
    # Ellen     24    CA     88
    # Frank     30    NY     57
    print(df.loc['Bob'])
    # age      42
    # state    CA
    # point    92
    # Name: Bob, dtype: object
    print(df.at['Bob', 'age'])
    # 42
    有关loc和at的信息,请参见以下文章。
    Pandas获取和修改任意位置的值(at,iat,loc,iloc)
    到此这篇关于Pandas.DataFrame重置列的行名实现(set_index)的文章就介绍到这了,更多相关Pandas.DataFrame重置列的行名内容请搜索知鸟论坛以前的文章或继续浏览下面的相关文章希望大家以后多多支持知鸟论坛
  • 回复

    使用道具 举报

    发表于 2023-6-28 22:30:31 | 显示全部楼层
    123456809 2023-6-28 22:30:31 看全部
    楼主,我太崇拜你了!我想我是一天也不能离开知鸟论坛
    回复

    使用道具 举报

    发表于 2023-6-28 23:20:02 | 显示全部楼层
    执着等待等wc 2023-6-28 23:20:02 看全部
    楼主,大恩不言谢了!知鸟论坛是最棒的!
    回复

    使用道具 举报

    发表于 2023-6-29 20:04:40 | 显示全部楼层
    我的苦恼冉 2023-6-29 20:04:40 看全部
    楼主发贴辛苦了,谢谢楼主分享!我觉得知鸟论坛是注册对了!
    回复

    使用道具 举报

    发表于 2023-6-29 22:46:07 | 显示全部楼层
    素色流年783 2023-6-29 22:46:07 看全部
    楼主,大恩不言谢了!知鸟论坛是最棒的!
    回复

    使用道具 举报

    发表于 2023-6-30 03:52:24 | 显示全部楼层
    向往草原403 2023-6-30 03:52:24 看全部
    楼主太厉害了!楼主,I*老*虎*U!我觉得知鸟论坛真是个好地方!
    回复

    使用道具 举报

    发表于 2023-6-30 10:42:18 | 显示全部楼层
    冀苍鸾 2023-6-30 10:42:18 看全部
    楼主发贴辛苦了,谢谢楼主分享!我觉得知鸟论坛是注册对了!
    回复

    使用道具 举报

    发表于 2023-6-30 12:07:10 | 显示全部楼层
    永远爱你冰塘 2023-6-30 12:07:10 看全部
    论坛不能没有像楼主这样的人才啊!我会一直支持知鸟论坛
    回复

    使用道具 举报

    发表于 2023-7-3 17:21:19 | 显示全部楼层
    普通人物怨 2023-7-3 17:21:19 看全部
    楼主,我太崇拜你了!我想我是一天也不能离开知鸟论坛
    回复

    使用道具 举报

    发表于 2023-7-4 18:56:57 | 显示全部楼层
    伊索谗言 2023-7-4 18:56:57 看全部
    楼主太厉害了!楼主,I*老*虎*U!我觉得知鸟论坛真是个好地方!
    回复

    使用道具 举报

    • 您可能感兴趣
    点击右侧快捷回复 【请勿灌水】
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则 返回列表

    RSS订阅| SiteMap| 小黑屋| 知鸟论坛
    联系邮箱E-mail:zniao@foxmail.com
    快速回复 返回顶部 返回列表