袋熊
Wombat是直接在pyarrow.Table类上进行数据处理操作的Python库,以numpy和Cython实现。为了方便起见,函数命名和行为尝试复制Pandas API / Postgresql语言的命名和行为。
当前功能:
引擎API(延迟执行):
直接在Pyarrow表和数据集上进行操作
过滤下拉菜单以优化速度(仅读取分区的子集)
列跟踪:仅读取数据中的列子集
许多操作(联接,聚合,过滤器,drop_duplicates等)
列引用的数字/逻辑运算
基于散列子树和引用计数的缓存
使