**HPCesia** @[email protected] · Apr 25, 2026, 14:45

**HPCesia** @[email protected] · Apr 25, 2026, 14:45

HPCesia @[email protected]

下一些盗版资源的时候，有时候会在压缩包里看到一堆乱码，然后反应过来是 GBK 编码的中文。

**Gavin Zhao** @[email protected] · 2026-04-26T03:45:58Z

Gavin Zhao @[email protected]

@hpcesia 哎呀说到编码这事我就来气。期末项目做的是完全去中心化的IPFS搜索引擎，爬IPFS的时候会遇到很多中文资源，但写代码的时候没考虑到不同编码，所以所有东西默认是UTF-8。

这就导致一旦有一个GBK编码的电子书，我们的索引里就会有GBK编码。我们的索引是要以DAG-CBOR的格式上传到IPFS的，这个格式只支持UTF-8。最关键是在爬的时候是不会报错的，只有汇总完索引后开始上传到IPFS才会出事。因此经常会出现花了四个小时爬完100K书后发现索引格式错误上传不了。

这玩意儿花了一个周末才找到问题所在，主要是在完全不知道是哪本书导致报错的时候，试错的成本太高了