adminqwq管理员

文章48851
浏览1822827

搜索

« 2025年11月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

数值优化库（人工智能之数据分析 Pandas第九章性能优化）

adminqwq 2025-12-09 社会资讯 42 次浏览 0个评论

人工智能之数据分析 Pandas

第九章性能优化

前言

Pandas 是一个功能强大的 Python 数据分析库，它提供了高效的数据结构和数据分析工具。然而，在处理大规模数据集时，Pandas 的性能可能成为瓶颈。为了优化 Pandas 的性能，本文提供了一些关键策略和技术：

1. 使用合适的数据类型选择更有效的数据类型：例如，将整数类型的列转换为 Int8, Int16, Int32, 或 Int64 类型（取决于你的数据范围），可以减少内存使用。同样，对于分类数据，使用 category 类型而不是 object。

``python df['column'] = df['column'].astype('category') ``

日期时间数据：确保日期时间数据被正确解析为 datetime 类型，这样可以利用 Pandas 对日期时间的内置优化。2. 避免链式赋值

链式赋值（chained assignment）可能导致意想不到的行为，并且通常比直接赋值慢。尽量避免使用如下方式：

df['column']['subcolumn'] = value # 不推荐

取而代之的是直接访问或使用 .loc / .iloc：

df.loc[row_index, 'column'] = value # 推荐3. 向量化操作

尽可能使用向量化操作代替循环。Pandas 和 NumPy 库针对向量操作进行了优化，使得它们比纯 Python 循环更快。

# 不推荐for i in range(len(df)): df.iloc[i]['A'] = df.iloc[i]['B'] + df.iloc[i]['C']# 推荐df['A'] = df['B'] + df['C']4. 利用 apply() 函数

虽然 apply() 比纯循环快，但它仍不如向量化操作高效。当必须使用自定义函数时，优先考虑 apply() 而非循环。

df['new_column'] = df.apply(lambda row: some_function(row['A'], row['B']), axis=1)5. 分块读取大文件

如果需要处理非常大的 CSV 文件，可以使用 chunksize 参数分块读取文件。

chunksize = 10 ** 6for chunk in pd.read_csv('filename.csv', chunksize=chunksize): process(chunk)6. 使用 eval() 和 query()

Pandas 提供了 eval() 和 query() 方法，它们能够对 DataFrame 进行快速的字符串表达式求值。这些方法在内部使用了优化过的计算引擎。

df.query('A > B') # 查询pd.eval('df.A + df.B') # 计算7. 删除不必要的列和行

处理大型数据集时，尽早删除不必要的列和行可以节省大量内存并加快运算速度。

df.drop(['unnecessary_column'], axis=1, inplace=True)8. 设置适当的索引

合理设置索引（Index）可以加速查找和过滤操作。例如，如果你频繁基于某一列进行查询，可以将其设为索引。

df.set_index('column_name', inplace=True)9. 并行处理

虽然 Pandas 本身不支持并行处理，但你可以结合其他库如 Dask 或 Modin 来实现这一点。Dask 提供了与 Pandas 相似的 API，但是支持并行计算和分布式存储。

import dask.dataframe as dddf = dd.read_csv('filename.csv')结论

通过上述技术，在许多情况下可以显著提高 Pandas 的性能。重要的是要理解业务数据以及需要执行的操作，以便选择最适合的技术。

后续

python过渡项目部分代码已经上传至gitee，后续会逐步更新。

资料关注

：咚咚王 gitee：https://gitee.com/wy18585051844/ai_learning

《Python编程：从入门到实践》

《利用Python进行数据分析》

《算法导论中文第三版》

《概率论与数理统计（第四版） (盛骤) 》

《程序员的数学》

《线性代数应该这样学第3版》

《微积分和数学分析引论》

《（西瓜书）周志华-机器学习》

《TensorFlow机器学习实战指南》

《Sklearn与TensorFlow机器学习实用指南》

《模式识别（第四版）》

《深度学习 deep learning》伊恩·古德费洛著花书

《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》

《深入浅出神经网络与深度学习+(迈克尔·尼尔森（Michael+Nielsen）》

《自然语言处理综论第2版》

《Natural-Language-Processing-with-PyTorch》

《计算机视觉-算法与应用(中文版)》

《Learning OpenCV 4》

《AIGC：智能创作时代》杜雨+&+张孜铭

《AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型》

《从零构建大语言模型（中文版）》

《实战AI大模型》

《AI 3.0》

转载请注明来自海坡下载，本文标题：《数值优化库（人工智能之数据分析 Pandas第九章性能优化）》

本文标签：数值优化库

adminqwq 89223篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！

发表评论取消回复

评论列表（暂无评论，42人围观）参与讨论

adminqwq管理员

搜索

标签列表

数值优化库（人工智能之数据分析 Pandas第九章性能优化）

发表评论取消回复

还没有评论，来说两句吧...

文章目录

adminqwq管理员

搜索

标签列表

数值优化库（人工智能之数据分析 Pandas第九章 性能优化）

发表评论取消回复

还没有评论，来说两句吧...

文章目录

数值优化库（人工智能之数据分析 Pandas第九章性能优化）