惰性方法
为了展示惰性Polars
功能,我们将探索两种中大型用户名数据集:
Reddit用户名数据集 包含6900多万行
import polars as pl
from ..paths import DATA_DIR
dataset = pl.read_csv(f"{DATA_DIR}/reddit.csv", n_rows=10)
shape: (5, 6)
┌─────┬──────────────────────────┬─────────────┬────────────┬───────────────┬────────────┐
│ id ┆ name ┆ created_utc ┆ updated_on ┆ comment_karma ┆ link_karma │
│ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- │
│ i64 ┆ str ┆ i64 ┆ i64 ┆ i64 ┆ i64 │
╞═════╪══════════════════════════╪═════════════╪════════════╪═══════════════╪════════════╡
│ 1 ┆ truman48lamb_jasonbroken ┆ 1397113470 ┆ 1536527864 ┆ 0 ┆ 0 │
│ 2 ┆ johnethen06_jasonbroken ┆ 1397113483 ┆ 1536527864 ┆ 0 ┆ 0 │
│ 3 ┆ yaseinrez_jasonbroken ┆ 1397113483 ┆ 1536527864 ┆ 0 ┆ 1 │
│ 4 ┆ Valve92_jasonbroken ┆ 1397113503 ┆ 1536527864 ┆ 0 ┆ 0 │
│ 5 ┆ srbhuyan_jasonbroken ┆ 1397113506 ┆ 1536527864 ┆ 0 ┆ 0 │
└─────┴──────────────────────────┴─────────────┴────────────┴───────────────┴────────────┘
以及Runescape用户名数据集 包含约5500多万条记录。
import polars as pl
from ..paths import DATA_DIR
dataset = pl.read_csv(f"{DATA_DIR}/runescape.csv", has_header=False, n_rows=10)
shape: (5, 1)
┌─────────────┐
│ column_1 │
│ --- │
│ str │
╞═════════════╡
│ a000 │
│ a0000 │
│ a000000 │
│ a0000000 │
│ a0000000000 │
└─────────────┘