24、pandas库Series和DataFrame的创建与基本操作【用Python进行AI数据分析进阶教程】
摘要:本文介绍了Python中pandas库的两个核心数据结构——Series和DataFrame的创建与基本操作。Series是一种一维数组对象,包含数据及索引,可通过列表、字典等多种方式创建,支持整数索引和标签索引访问数据。DataFrame则是表格型数据结构,含有多列有序数据,每列可包含不同值类型,通过字典、二维数组等创建,具备行索引和列索引,支持数据对齐。文章通过实例展示了Series和D
用Python进行AI数据分析进阶教程24:
pandas库Series和DataFrame的创建与基本操作
关键词:用Python进行AI数据分析进阶教程
摘要:本文介绍了Python中pandas库的两个核心数据结构——Series和DataFrame的创建与基本操作。Series是一种一维数组对象,包含数据及索引,可通过列表、字典等多种方式创建,支持整数索引和标签索引访问数据。DataFrame则是表格型数据结构,含有多列有序数据,每列可包含不同值类型,通过字典、二维数组等创建,具备行索引和列索引,支持数据对齐。文章通过实例展示了Series和DataFrame的创建过程,以及如何通过索引和列名选取数据,为数据处理和分析提供了基础。
👉 欢迎订阅🔗
《用Python进行AI数据分析进阶教程》专栏
《AI大模型应用实践进阶教程》专栏
《Python编程知识集锦》专栏
《字节跳动旗下AI制作抖音视频》专栏
《智能辅助驾驶》专栏
《工具软件及IT技术集锦》专栏
pandas 是 Python 中用于数据处理和分析的重要库, Series 和 DataFrame 是其核心数据结构。以下是它们的创建与基本操作的相关内容:
一、Series
1、概念:
Series 是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(索引)组成。可以将其看作是一个定长的有序字典,因为它可以通过索引来访问对应位置的数据。
2、关键点:
● 创建方式多样:可以从列表、数组、标量值、字典等创建 Series 。
● 索引: Series 的索引可以是默认的整数索引,也可以是自定义的索引,如字符串索引。索引用于定位和访问数据。
● 数据类型: Series 中的数据可以是各种数据类型,如整数、浮点数、字符串等,但同一 Series 中的数据类型必须一致。
3、注意点:
● 当从字典创建 Series 时,字典的键会成为 Series 的索引,字典的值会成为 Series 的数据。
● 如果索引不唯一,在进行某些操作(如索引取值)时可能会得到意外结果。
4、举例:
Python脚本
# 导入 pandas 库,并将其重命名为 pd,方便后续使用 pandas 中的功能
import pandas as pd
# 导入 numpy 库,并将其重命名为 np,虽然本代码中未直接使用 numpy,
# 但 pandas 依赖 numpy 且后续可能会有扩展使用
import numpy as np
# 使用 pd.Series() 函数创建一个 Pandas 系列 s1
# 该系列包含四个元素 [10, 20, 30, 40],默认索引为从 0 开始的整数
# 打印输出结果如下:
# 0 10
# 1 20
# 2 30
# 3 40
# dtype: int64
s1 = pd.Series([10, 20, 30, 40])
print(s1)
# 定义一个字典 data,包含键值对 'a': 1, 'b': 2, 'c': 3
data = {'a': 1, 'b': 2, 'c': 3}
# 使用 pd.Series() 函数基于字典 data 创建一个 Pandas 系列 s2
# 字典的键将作为系列的索引,值作为系列的数据
# 打印输出结果如下:
# a 1
# b 2
# c 3
# dtype: int64
s2 = pd.Series(data)
print(s2)
# 通过整数索引访问系列 s1 的第一个元素
# 由于 s1 的索引是从 0 开始的整数,所以 s1[0] 访问的是系列中的第一个元素
# 打印输出结果为:10
print(s1[0])
# 通过标签索引访问系列 s2 中索引为 'b' 的元素
# s2 是基于字典创建的,所以可以使用字典的键作为标签索引来访问元素
# 打印输出结果为:2
print(s2['b'])
以上代码主要展示了如何使用 Pandas 创建系列(Series),以及如何通过不同方式(整数索引和标签索引)访问系列中的元素。
二、DataFrame
1、概念:
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。可以将其看作是由多个 Series 组成的字典,这些 Series 共用一个索引。
2、关键点:
● 创建方式:可以从字典(值为列表、数组等)、二维数组、 Series 字典等创建 DataFrame 。
● 索引和列名: DataFrame 既有行索引(index),也有列索引(columns)。行索引用于定位行,列索引用于定位列。
● 数据对齐:在进行运算或合并等操作时, pandas 会自动根据索引进行数据对齐。
3、注意点:
● 从字典创建 DataFrame 时,字典的键会成为列名,值的长度必须一致,否则会报错。
● 对 DataFrame 进行操作时,要注意索引和列名的准确性,避免因索引或列名错误导致的问题。
4、举例:
Python脚本
# 导入 pandas 库,用于数据处理和分析,将其重命名为 pd 方便后续使用
import pandas as pd
# 定义一个字典 data,字典的键代表列名,值是包含对应列数据的列表
# 这里有三列数据,分别是 'name'(姓名)、'age'(年龄)和 'city'(城市)
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'London', 'Paris']
}
# 使用 pd.DataFrame() 函数将字典 data 转换为 Pandas 的 DataFrame 对象 df
# DataFrame 是一个二维的表格型数据结构,类似于 Excel 表格
# 打印 df 的输出结果如下:
# name age city
# 0 Alice 25 New York
# 1 Bob 30 London
# 2 Charlie 35 Paris
df = pd.DataFrame(data)
print(df)
# 通过列名 'name' 从 DataFrame df 中选取 'name' 列的数据
# 选取后返回一个 Pandas 的 Series 对象,包含该列的所有元素
# 打印输出结果如下:
# 0 Alice
# 1 Bob
# 2 Charlie
# Name: name, dtype: object
print(df['name'])
# 使用 loc 索引器根据行标签选取 DataFrame df 中索引为 0 的行的数据
# loc 主要用于通过标签来访问数据,这里行标签是从 0 开始的整数
# 打印输出结果如下:
# name Alice
# age 25
# city New York
# Name: 0, dtype: object
print(df.loc[0])
上述代码主要展示了如何使用 Pandas 创建 DataFrame 对象,以及如何通过列名和行标签来选取 DataFrame 中的数据。
通过以上对 Series 和 DataFrame 的介绍,你可以掌握它们的基本创建方法和操作,为后续的数据处理和分析工作打下基础。
——The END——
🔗 欢迎订阅专栏
序号 | 专栏名称 | 说明 |
---|---|---|
1 | 用Python进行AI数据分析进阶教程 | 《用Python进行AI数据分析进阶教程》专栏 |
2 | AI大模型应用实践进阶教程 | 《AI大模型应用实践进阶教程》专栏 |
3 | Python编程知识集锦 | 《Python编程知识集锦》专栏 |
4 | 字节跳动旗下AI制作抖音视频 | 《字节跳动旗下AI制作抖音视频》专栏 |
5 | 智能辅助驾驶 | 《智能辅助驾驶》专栏 |
6 | 工具软件及IT技术集锦 | 《工具软件及IT技术集锦》专栏 |
👉 关注我 @理工男大辉郎 获取实时更新
欢迎关注、收藏或转发。
敬请关注 我的
微信搜索公众号:cnFuJH
CSDN博客:理工男大辉郎
抖音号:31580422589

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)