数据类型

Polars完全基于Arrow数据类型,并由Arrow内存阵列支持。这使得数据处理缓存效率高,支持进程间通信。大多数数据类型遵循确切的实现来自Arrow,除了Utf8(实际上是LargeUtf8)、categoryObject(支持有限)。

这些数据类型是:

  • Int8: 8位有符号整数。
  • Int16: 16位有符号整数。
  • Int32: 32位有符号整数。
  • Int64: 64位有符号整数。
  • UInt8: 8位有符号整数。
  • UInt16: 16位无符号整数。
  • UInt32: 32位无符号整数。
  • UInt64: 64位无符号整数。
  • Float32: 32位浮点数。
  • Float64: 64位浮点数。
  • Boolean: 布尔型有效位压缩。
  • Utf8: 字符串数据(内部实际上是Arrow LargeUtf8)。
  • List: 列表数组包含着包含列表值的子数组和偏移数组。(这实际上是内部的Arrow LargeList)。
  • Date: 日期表示,内部表示为自UNIX纪元以来的天数,由32位有符号整数编码。
  • Datetime: Datetime表示法,内部表示为自UNIX纪元以来的纳秒,由64位有符号整数编码。
  • Duration: 时间型。在减去Date/Datetime时创建。
  • Time: 时间表示法,从午夜开始在内部表示为纳秒。
  • Object: 受支持的有限数据类型,可以是任何值。

要了解有关这些数据类型的内部表示形式的更多信息,请查看Arrow柱状格式