Python 快速入门：基础语法与数据处理实战

通过本文的学习，你已经掌握了 Python 的基础语法、数据处理技巧以及文件操作方法。这些知识将为你的编程之旅奠定坚实基础，帮助你在人工智能领域迈出重要一步。不断实践和探索，你将逐步成长为一名优秀的 Python 开发者。

赛卡

1055人浏览 · 2025-04-18 08:36:09

赛卡 · 2025-04-18 08:36:09 发布

在人工智能快速发展的今天，Python 作为一门简洁而强大的编程语言，在数据处理和分析领域占据着重要地位。本文将带你从 Python 的基础语法出发，逐步探索数据处理的实用技巧，帮助你在短时间内掌握 Python 的核心知识，为深入学习人工智能技术打下坚实基础。

一、Python 基础语法

（一）变量与数据类型

Python 的变量声明无需指定类型，直接赋值即可。它拥有多种基本数据类型，如整数（int）、浮点数（float）、字符串（str）、列表（list）和字典（dict）等。

# 变量与数据类型示例
integer_num = 10  # 整数
float_num = 3.14  # 浮点数
string_str = "Hello, Python!"  # 字符串
list_list = [1, 2, 3, 4, 5]  # 列表
dict_dict = {"name": "John", "age": 30, "city": "New York"}  # 字典

print(f"integer_num 是整数类型，值为：{integer_num}, 类型：{type(integer_num)}")
print(f"float_num 是浮点数类型，值为：{float_num}, 类型：{type(float_num)}")
print(f"string_str 是字符串类型，值为：{string_str}, 类型：{type(string_str)}")
print(f"list_list 是列表类型，值为：{list_list}, 类型：{type(list_list)}")
print(f"dict_dict 是字典类型，值为：{dict_dict}, 类型：{type(dict_dict)}")

（二）控制结构

Python 提供了灵活的控制结构，包括条件语句（if-elif-else）和循环语句（for、while），用于根据条件执行不同代码块或进行循环迭代。

# 控制结构示例
# if-elif-else 语句
num = 5
if num > 0:
    print(f"{num} 是正数")
elif num == 0:
    print(f"{num} 是零")
else:
    print(f"{num} 是负数")

# for 循环
print("for 循环遍历列表：")
for item in list_list:
    print(item)

# while 循环
print("while 循环输出 0 到 4：")
count = 0
while count < 5:
    print(count)
    count += 1

（三）函数

函数是组织代码和实现功能复用的重要工具。在 Python 中，使用 def 关键字定义函数，并通过 return 语句返回结果。

# 函数示例
def add_numbers(a, b):
    """
    计算两个数的和
    参数：
        a (int/float): 第一个数
        b (int/float): 第二个数
    返回：
        int/float: 两个数的和
    """
    return a + b

result = add_numbers(3, 5)
print(f"3 + 5 = {result}")

二、算术运算符

Python 的算术运算符包括加（+）、减（-）、乘（*）、除（/）、整数除法（//）和取模（%）等。其中，整数除法和取模运算在处理整数数据时尤为常用。

# 算术运算符示例
a = 10
b = 3

integer_division = a // b
print(f"{a} // {b} = {integer_division}")

modulo = a % b
print(f"{a} % {b} = {modulo}")

# 负数的整数除法和取模运算
negative_num = -10
positive_num = 3

neg_integer_division = negative_num // positive_num
neg_modulo = negative_num % positive_num

print(f"{negative_num} // {positive_num} = {neg_integer_division}")
print(f"{negative_num} % {positive_num} = {neg_modulo}")

在 Python 中，负数的整数除法遵循“向下取整”的规则，取模运算的结果的符号与除数相同。

三、数据处理

（一）使用 pandas 和 numpy

Python 的 pandas 和 numpy 库为数据处理提供了强大的支持。pandas 适用于数据读取、清洗和基本分析，而 numpy 擅长数值计算。

import pandas as pd
import numpy as np

# 文件操作 - 读取文本文件并保存为 CSV 格式
with open('example.txt', 'w') as f:
    f.write('Name,Age,Score\nJohn,25,88\nAnna,30,92\nPeter,28,76')

# 文件操作 - 读取 CSV 文件
df = pd.read_csv('example.txt')
print("\n读取 CSV 文件内容：")
print(df)

# 数据处理 - 数据清洗
df['Age'] = df['Age'].apply(lambda x: 30 if x > 30 else x)
print("\n数据清洗后的 DataFrame：")
print(df)

# 数据处理 - 基本统计分析
print("\n基本统计分析：")
print(df.describe())

# 数据处理 - 数值计算
ages = df['Age'].values
scores = df['Score'].values

mean_age = np.mean(ages)
mean_score = np.mean(scores)
std_age = np.std(ages)
std_score = np.std(scores)
correlation = np.corrcoef(ages, scores)[0, 1]

print("\n使用 numpy 进行数值计算：")
print(f"年龄平均值：{mean_age}, 年龄标准差：{std_age}")
print(f"分数平均值：{mean_score}, 分数标准差：{std_score}")
print(f"\nage 和 score 的相关系数：{correlation}")

（二）文件操作

掌握文件的读取、写入和关闭操作是数据处理的基础。Python 提供了简便的文件操作接口，支持处理多种文件类型。

# 文件操作示例
# 写入文件
with open('example.txt', 'w') as f:
    f.write('Hello, Python!')

# 读取文件
with open('example.txt', 'r') as f:
    print("读取文件内容：")
    print(f.read())

# 写入新的 CSV 文件
df.to_csv('cleaned_data.csv', index=False)
print("\n已将清洗后的数据写入 cleaned_data.csv 文件")

四、常见的数据处理库

Python 提供了许多强大的数据处理库，以下是一些常见的数据处理库：

NumPy ：
- 简介：NumPy 是 Python 中用于科学计算的基本库，提供了大量的数学函数和操作，能够高效地处理大规模多维数组和矩阵。
- 特点：其核心数据结构是 ndarray（n - dimensional array），支持各种数值类型和数组操作，如数组的创建、形状变换、索引、切片、广播等。NumPy 还提供了大量的数学函数，如三角函数、指数函数、对数函数等，可以对数组进行快速的数学运算。
- 适用场景 ：适用于数值计算、数组操作以及与数学相关的数据处理任务，例如在机器学习算法中进行矩阵运算、向量化操作等，能够大大提高计算效率。
pandas ：
- 简介：pandas 是基于 NumPy 构建的，用于数据处理和分析的 Python 库，提供了丰富易用的数据结构和函数，能够快速便捷地处理结构化数据。
- 特点：主要数据结构包括 Series（一维数组）和 DataFrame（二维表格）。pandas 支持数据的读取和写入，能够方便地从各种文件格式（如 CSV、Excel 等）或数据源（如数据库、网页等）读取数据，并将数据存储为 DataFrame 或 Series 对象。它提供了强大的数据清洗功能，如处理缺失值、重复值、异常值等，还可以对数据进行筛选、排序、分组、聚合等操作，方便进行数据分析和探索。此外，pandas 还支持时间序列分析，能够处理时间序列数据的索引、重采样、移动窗口计算等。
- 适用场景 ：适用于数据清洗、转换、分析以及时间序列数据处理等任务，在数据科学、金融分析、生物信息学等领域广泛应用。
Matplotlib ：
- 简介：Matplotlib 是 Python 中用于绘制静态、动态、交互式可视化图表的库，可以帮助用户直观地展示数据。
- 特点：提供了多种绘图函数和接口，如 plot、scatter、bar、hist 等，可以创建各种类型的图表，包括线图、散点图、柱状图、直方图、饼图等。用户可以自定义图表的样式、颜色、标签、标题等，还可以对图表进行保存和导出。
- 适用场景 ：适用于数据可视化，能够将复杂的数据以直观易懂的图表形式呈现出来，帮助用户更好地理解和分析数据，在数据分析报告、科研论文、商业展示等方面都有广泛的应用。
SciPy ：
- 简介：SciPy 是一个用于数学、科学和工程领域的 Python 库，建立在 NumPy 之上，提供了许多高级的科学计算功能。
- 特点：包含了优化、线性代数、积分、插值、特殊函数、傅里叶变换、信号处理、图像处理等多个模块，能够解决各种科学计算问题。例如，可以使用 SciPy 进行曲线拟合、求解方程、优化问题、信号滤波等操作。
- 适用场景 ：适用于科学研究、工程计算、数据分析等领域中需要进行复杂数学计算和数值分析的场景。
Scikit - learn ：
- 简介：Scikit - learn 是一个基于 Python 的机器学习库，提供了简单高效的工具，用于数据挖掘和数据分析。
- 特点：涵盖了多种机器学习算法，包括监督学习（如分类、回归）和无监督学习（如聚类、降维）算法，如决策树、支持向量机、K - 近邻算法、K - 均值聚类、主成分分析等。它还提供了数据预处理、模型选择、评估等工具，方便用户进行数据处理和模型训练。
- 适用场景 ：适用于机器学习项目中的数据预处理、模型训练、评估和预测等环节，在数据分析、预测建模、自然语言处理等领域有广泛的应用。
Seaborn ：
- 简介：Seaborn 是基于 Matplotlib 构建的 Python 数据可视化库，提供了更高级的接口和更美观的默认样式，用于绘制统计图表。
- 特点：专注于统计分析的可视化，提供了许多用于展示数据分布、相关性、回归关系等的函数，如 distplot、jointplot、pairplot、heatmap 等。Seaborn 的图表风格简洁美观，色彩搭配合理，能够自动处理数据的分组和聚合，生成具有统计意义的可视化图表。
- 适用场景 ：适用于数据分析中的统计可视化，能够帮助用户更直观地理解数据的分布特征、变量之间的关系等，在数据探索和分析阶段非常有用。

pandas 和 numpy 的区别

数据结构 ：
- NumPy ：主要数据结构是 ndarray，是一个多维数组对象，用于存储同类型的数据元素。数组的形状（shape）定义了每个维度的大小，例如一个形状为 (3, 4) 的数组表示一个 3 行 4 列的二维数组。数组中的元素可以是整数、浮点数等数值类型。
- pandas ：核心数据结构是 Series 和 DataFrame。Series 是一个一维数组，类似于 NumPy 的一维 ndarray，但具有标签化的索引，索引可以是任意类型，如整数、字符串等。DataFrame 是一个二维表格型数据结构，可以看作是由多个 Series 组成的字典，每个列可以有不同的数据类型，如整数、浮点数、字符串等，并且行和列都有标签化的索引。
数据处理方式 ：
- NumPy ：侧重于数值计算和数组操作，提供了大量的数学函数和方法，能够对数组进行高效的数值运算，如加、减、乘、除、矩阵乘法、转置等操作。NumPy 的运算通常是基于整个数组的，可以实现向量化操作，避免使用循环，从而提高计算效率。
- pandas ：更注重数据的处理和分析，提供了丰富的数据清洗、转换、聚合等功能。例如，可以方便地处理缺失值、重复值、异常值，对数据进行筛选、排序、分组、合并等操作。pandas 还支持时间序列数据的处理，能够进行日期时间的解析、索引、重采样等操作。
适用场景 ：
- NumPy ：适用于数值计算密集型任务，如矩阵运算、线性代数计算、傅里叶变换等。在机器学习算法的实现中，NumPy 常用于处理模型的参数矩阵、输入输出数据的矩阵运算等。
- pandas ：适用于结构化数据的处理和分析，如 CSV 文件中的表格数据、数据库中的表数据等。在数据预处理阶段，pandas 可以快速地读取、清洗、转换数据，为后续的数据分析和建模提供方便。
依赖关系 ：
- NumPy ：是 pandas 的基础依赖库之一，pandas 的许多功能都是建立在 NumPy 之上的。pandas 的内部实现大量使用了 NumPy 的数组和计算功能，因此在使用 pandas 时通常也会导入 NumPy 库。
性能方面 ：
- NumPy ：由于其数组操作的高效性和向量化特性，在处理大规模数值数据时通常具有较高的性能，能够快速地完成复杂的数学运算。
- pandas ：虽然在数据处理方面提供了许多方便的功能，但在某些情况下，由于其增加了数据结构的复杂性和额外的功能，可能会比纯 NumPy 操作稍慢一些。不过，对于大多数数据处理任务来说，pandas 的性能已经足够满足需求，并且其易用性和功能强大性往往更为重要。

总之，NumPy 和 pandas 在 Python 的数据处理领域中各有侧重，NumPy 提供了高效的数值计算基础，而 pandas 则在此基础上提供了更丰富的数据处理和分析功能。在实际的数据处理项目中，通常会结合使用这两个库，以充分发挥它们的优势。

五、总结

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐