用Python进行AI数据分析进阶教程24:

pandas库Series和DataFrame的创建与基本操作


关键词:用Python进行AI数据分析进阶教程

摘要:本文介绍了Python中pandas库的两个核心数据结构——Series和DataFrame的创建与基本操作。Series是一种一维数组对象,包含数据及索引,可通过列表、字典等多种方式创建,支持整数索引和标签索引访问数据。DataFrame则是表格型数据结构,含有多列有序数据,每列可包含不同值类型,通过字典、二维数组等创建,具备行索引和列索引,支持数据对齐。文章通过实例展示了Series和DataFrame的创建过程,以及如何通过索引和列名选取数据,为数据处理和分析提供了基础。

👉 欢迎订阅🔗
《用Python进行AI数据分析进阶教程》专栏
《AI大模型应用实践进阶教程》专栏
《Python编程知识集锦》专栏
《字节跳动旗下AI制作抖音视频》专栏
《智能辅助驾驶》专栏
《工具软件及IT技术集锦》专栏


pandas  是 Python 中用于数据处理和分析的重要库, Series  和  DataFrame  是其核心数据结构。以下是它们的创建与基本操作的相关内容:

一、Series

1、概念: 

Series  是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(索引)组成。可以将其看作是一个定长的有序字典,因为它可以通过索引来访问对应位置的数据。

2、关键点:

● 创建方式多样:可以从列表、数组、标量值、字典等创建  Series 。

● 索引: Series  的索引可以是默认的整数索引,也可以是自定义的索引,如字符串索引。索引用于定位和访问数据。

● 数据类型: Series  中的数据可以是各种数据类型,如整数、浮点数、字符串等,但同一  Series  中的数据类型必须一致。

3、注意点:

● 当从字典创建  Series  时,字典的键会成为  Series  的索引,字典的值会成为  Series  的数据。

● 如果索引不唯一,在进行某些操作(如索引取值)时可能会得到意外结果。

4、举例:

Python脚本

# 导入 pandas 库,并将其重命名为 pd,方便后续使用 pandas 中的功能
import pandas as pd
# 导入 numpy 库,并将其重命名为 np,虽然本代码中未直接使用 numpy,
# 但 pandas 依赖 numpy 且后续可能会有扩展使用
import numpy as np
# 使用 pd.Series() 函数创建一个 Pandas 系列 s1
# 该系列包含四个元素 [10, 20, 30, 40],默认索引为从 0 开始的整数
# 打印输出结果如下:
# 0    10
# 1    20
# 2    30
# 3    40
# dtype: int64
s1 = pd.Series([10, 20, 30, 40])
print(s1)
# 定义一个字典 data,包含键值对 'a': 1, 'b': 2, 'c': 3
data = {'a': 1, 'b': 2, 'c': 3}
# 使用 pd.Series() 函数基于字典 data 创建一个 Pandas 系列 s2
# 字典的键将作为系列的索引,值作为系列的数据
# 打印输出结果如下:
# a    1
# b    2
# c    3
# dtype: int64
s2 = pd.Series(data)
print(s2)
# 通过整数索引访问系列 s1 的第一个元素
# 由于 s1 的索引是从 0 开始的整数,所以 s1[0] 访问的是系列中的第一个元素
# 打印输出结果为:10
print(s1[0])
# 通过标签索引访问系列 s2 中索引为 'b' 的元素
# s2 是基于字典创建的,所以可以使用字典的键作为标签索引来访问元素
# 打印输出结果为:2
print(s2['b'])

 以上代码主要展示了如何使用 Pandas 创建系列(Series),以及如何通过不同方式(整数索引和标签索引)访问系列中的元素。

二、DataFrame

1、概念: 

DataFrame  是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。可以将其看作是由多个  Series  组成的字典,这些  Series  共用一个索引。

2、关键点:

● 创建方式:可以从字典(值为列表、数组等)、二维数组、 Series  字典等创建  DataFrame 。

●  索引和列名: DataFrame  既有行索引(index),也有列索引(columns)。行索引用于定位行,列索引用于定位列。

● 数据对齐:在进行运算或合并等操作时, pandas  会自动根据索引进行数据对齐。

3、注意点:

● 从字典创建  DataFrame  时,字典的键会成为列名,值的长度必须一致,否则会报错。

● 对  DataFrame  进行操作时,要注意索引和列名的准确性,避免因索引或列名错误导致的问题。

4、举例:

Python脚本

# 导入 pandas 库,用于数据处理和分析,将其重命名为 pd 方便后续使用
import pandas as pd
# 定义一个字典 data,字典的键代表列名,值是包含对应列数据的列表
# 这里有三列数据,分别是 'name'(姓名)、'age'(年龄)和 'city'(城市)
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'London', 'Paris']
}
# 使用 pd.DataFrame() 函数将字典 data 转换为 Pandas 的 DataFrame 对象 df
# DataFrame 是一个二维的表格型数据结构,类似于 Excel 表格
# 打印 df 的输出结果如下:
#      name  age      city
# 0    Alice   25  New York
# 1      Bob   30    London
# 2  Charlie   35     Paris
df = pd.DataFrame(data)
print(df)
# 通过列名 'name' 从 DataFrame df 中选取 'name' 列的数据
# 选取后返回一个 Pandas 的 Series 对象,包含该列的所有元素
# 打印输出结果如下:
# 0      Alice
# 1        Bob
# 2    Charlie
# Name: name, dtype: object
print(df['name'])
# 使用 loc 索引器根据行标签选取 DataFrame df 中索引为 0 的行的数据
# loc 主要用于通过标签来访问数据,这里行标签是从 0 开始的整数
# 打印输出结果如下:
# name       Alice
# age           25
# city    New York
# Name: 0, dtype: object
print(df.loc[0])

上述代码主要展示了如何使用 Pandas 创建 DataFrame 对象,以及如何通过列名和行标签来选取 DataFrame 中的数据。

        通过以上对  Series  和  DataFrame  的介绍,你可以掌握它们的基本创建方法和操作,为后续的数据处理和分析工作打下基础。

——The END——


🔗 欢迎订阅专栏

序号 专栏名称 说明
1 用Python进行AI数据分析进阶教程 《用Python进行AI数据分析进阶教程》专栏
2 AI大模型应用实践进阶教程 《AI大模型应用实践进阶教程》专栏
3 Python编程知识集锦 《Python编程知识集锦》专栏
4 字节跳动旗下AI制作抖音视频 《字节跳动旗下AI制作抖音视频》专栏
5 智能辅助驾驶 《智能辅助驾驶》专栏
6 工具软件及IT技术集锦 《工具软件及IT技术集锦》专栏

👉 关注我 @理工男大辉郎 获取实时更新

欢迎关注、收藏或转发。
敬请关注 我的
微信搜索公众号:cnFuJH
CSDN博客:理工男大辉郎
抖音号:31580422589

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐