Arrow
Arrow 正在迅速地成为列式数据 事实上 的标准。这意味着对 Arrow 的支持(包括语言与工具)也在迅速增加。
由于开发者在这种格式的背后投入了大量的努力与支持,使用 Arrow 可能是完成下面任务最快的方式:
- 读写
Parquet格式的文件 - 从 CSV 读取列式数据
- 交换列式数据
Polars 使用 Arrow 内存缓冲作为 Polars Series 最基本的构建模块。
这意味着当我们要在 Polars 和 Arrow 之间交换数据时,无需对数据进行拷贝操作。
这也意味着 Polars 获得了 Arrow 带来的一切性能提升。
要将 Polars 的 DataFrame 或者 Series 转换为 Arrow,只需使用 .to_arrow() 函数。
类似的,要从 Arrow 格式导入数据,可以调用 .from_arrow() 函数。