@hpcesia 哎呀说到编码这事我就来气。期末项目做的是完全去中心化的IPFS搜索引擎,爬IPFS的时候会遇到很多中文资源,但写代码的时候没考虑到不同编码,所以所有东西默认是UTF-8。
这就导致一旦有一个GBK编码的电子书,我们的索引里就会有GBK编码。我们的索引是要以DAG-CBOR的格式上传到IPFS的,这个格式只支持UTF-8。最关键是在爬的时候是不会报错的,只有汇总完索引后开始上传到IPFS才会出事。因此经常会出现花了四个小时爬完100K书后发现索引格式错误上传不了。
这玩意儿花了一个周末才找到问题所在,主要是在完全不知道是哪本书导致报错的时候,试错的成本太高了 