下一些盗版资源的时候,有时候会在压缩包里看到一堆乱码,然后反应过来是 GBK 编码的中文。​:anenw36:

Follow

@hpcesia 哎呀说到编码这事我就来气。期末项目做的是完全去中心化的IPFS搜索引擎,爬IPFS的时候会遇到很多中文资源,但写代码的时候没考虑到不同编码,所以所有东西默认是UTF-8。

这就导致一旦有一个GBK编码的电子书,我们的索引里就会有GBK编码。我们的索引是要以DAG-CBOR的格式上传到IPFS的,这个格式只支持UTF-8。最关键是在爬的时候是不会报错的,只有汇总完索引后开始上传到IPFS才会出事。因此经常会出现花了四个小时爬完100K书后发现索引格式错误上传不了。

这玩意儿花了一个周末才找到问题所在,主要是在完全不知道是哪本书导致报错的时候,试错的成本太高了 :ac_classic02:

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。