本文介绍: Pandas 是一个用于操作数据的 Python 库,在 Python 开发人员中非常流行。4月3日,Pandas 2.0正式发布。得益于 PyArrow的引入,Pandas 2.0 实现了更快、更节省内存的操作。
【重磅】Pandas 2.0发布!更快的速度更低的内存占用!
Pandas 是一个用于操作数据的 Python 库,在 Python 开发人员中非常流行。尤其在数据科学和机器学习领域中,Pandas已经成为不可或缺的基础库。
4月3日,Pandas 2.0正式发布。2.0是Pandas的一个里程碑式的版本。回顾Pandas的历史,从诞生时到 1.0 花了超过十年的时间,1.0的发布标志着Pandas DataFrame API 趋于稳定;时隔3年(Pandas 1.0于2020年正式发布)后,Pandas 2.0更多是在性能和可用性上进行了提升。具体改进包括:
Pandas 2.0的改进
使用 pip extras 安装可选的依赖项
pip extras
是指在使用 Python 包管理器 pip
安装 Python 包时可以选择安装的附加功能或依赖项。这些可选依赖项通常用于提供默认情况下不需要但对某些用户可能有用的额外功能。包维护者在包的 setup.py
或 pyproject.toml
文件中定义了这些“附加功能”。
更快的计算速度和更低的内存占用
索引可以保存 NumPy 数字类型
写时复制优化
为什么要用Arrow
规范缺失值
高性能
互操作性
总结
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。