Sheetsmith技能使用说明
Sheetsmith
概述
Sheetsmith 是一个轻量级的 pandas 包装器,专注于处理 CSV/Excel 文件:预览、描述、过滤、转换和转换这些文件,所有操作均在一个地方完成。其命令行界面位于skills/sheetsmith/scripts/sheetsmith.py,它会自动加载任何 CSV/TSV/Excel 文件,报告结构元数据,运行 pandas 表达式,并安全地将结果写回。
快速入门
- 将电子表格(CSV、TSV 或 XLS/XLSX)放入工作区中,或通过完整路径引用它。
- 运行
python3 skills/sheetsmith/scripts/sheetsmith.py <命令> <路径>,命令如下所述。 - 当您修改数据时,可以
--output 新文件来保存一个副本,或者传递--inplace来覆盖源文件。 - 查看
references/usage.md以获取额外的示例命令和技巧。
命令
概要
打印行/列计数、数据类型细分、存在缺失数据的列以及头部/尾部预览。使用--rows参数来控制概要信息后显示多少行数据,使用--tail参数来预览尾部数据而非头部数据。

描述
运行pandas.DataFrame.describe(include='all')(可通过--include参数自定义),以便立即查看数值统计信息、基数以及频率信息。提供--percentiles参数以添加额外的百分位线。
预览
以表格形式快速查看前(使用--rows参数)或后(使用--tail参数)几行数据,以便在执行操作前检查列顺序或格式是否正确。
筛选
通过--query输入一个pandas查询字符串(例如,state == 'CA' and population > 1e6)。该命令可以打印筛选后的行,或者当您同时传递--output参数时,将筛选后的表格写入一个新的CSV/TSV/XLSX文件。添加--sample参数可以检查随机子集,而不是整个结果。
转换
组合新列、重命名或删除现有列,并立即检查结果表。提供一个或多个--expr表达式,例如total = quantity * price。使用--rename old:new和--drop column来重塑表格,并通过--output或--inplace预览版本(不含写入功能)复用与其他命令相同的--rows/--tail标识参数。
convert
在支持的格式(CSV/TSV/Excel)间进行转换。务必通过--output指定含目标扩展名的输出路径,助手将自动匹配对应写入器(Excel使用openpyxl引擎,CSV默认保留逗号分隔符,TSV使用制表符)。这是在执行其他命令前规范化数据的最简方法。
工作流准则
- 始终保留原始文件副本或写入新路径;仅当明确要求
--inplace时脚本才会覆盖原文件。 - 探索性操作(
summary、preview、describe) 和编辑 (筛选,转换)。该--输出标志适用于筛选/转换操作,因此您可以轻松地对结果进行分支处理。 - 在幕后,该脚本依赖 pandas 和
tabulate库来生成 Markdown 预览,并支持 Excel/CSV/TSV 格式,因此请确保这些依赖项已安装(pandas、openpyxl、xlrd、tabulate 已通过 apt 安装在此系统上)。 - 当上述基本命令描述不够用时,请使用
references/usage.md获取扩展示例(多步骤清理、数据集比较、表达式技巧)。
参考
- 使用指南:
references/usage.md(包含可直接复制的命令、表达式模式以及数据集清理方案)。
资源
- GitHub: https://github.com/CrimsonDevil333333/sheetsmith
- ClawHub(爪爪中心): https://www.clawhub.ai/skills/sheetsmith


微信扫一扫,打赏作者吧~