mastodon(或者说gem paperclip)一个恶心的地方是储存媒体文件时要把activity record id拆分成了一大串子目录:如图1的文件,其原本的id是104530971904218116,最后被拆成了104/530/971/904/218/116 (:id_partition部分)
我想不出这样设计有什么意义,但是最终的结果是list对象储存时会产生大量性格最贵的C类请求。misskey是将所有文件储存在根目录,list n个文件产生n次C类请求,这是最理想的情况,但是同样的n个文件mastodon要产生n*(6+2)次C类请求,+2是因为104/530/971/904/218/116 下面还有original和small两个子文件夹。
打算趁这次重构的机会把这个地方改一下,直接把所有内容写在文件名上不就行了:
':prefix_url:class/:attachment/:id_partition/:style/:filename' -> ':prefix_url:class/:attachment/:id-:style-:filename'
@xtexChooser 其实cos是是目前相对便宜的解决方案,下载流量我是通过一台内网服务器代理的,实际成本就是每月十来块的储存和请求费用
@[email protected] 也许可以试试用caddy或者nginx之类反代一下解决URL问题(x
@xtexChooser 等改了路径以后我是打算用nginx重定向旧文件的
@fivestone 有道理,这确实是本地fs应该考虑的问题。不过目前我所有文件都是直接保存到s3上的,fs性能应该不需要我考虑了吧😂
@fivestone 我硬盘可没那么大,你用的是minio嘛?
@fivestone 我打算用backblaze b2,应该是全网最便宜了
@mashiro @fivestone 我比较过了,idrive e2最便宜。我正在使用,不过我首月账单还没来。预计存100G每月0.4刀。
@[email protected] 有可能是为了文件系统管理的方便,避免在同一文件夹下有过多的条目?
@[email protected] 但当然用在对象存储的时候就不合理了
@mashiro 感觉这玩意跟QQ聊天图片缓存一个b逻辑,导致后期索引起来特别特别慢。
@akiyamamizuki @mashiro
Synapse 也是这个设计……
@mashiro 一时间没找到之前看的一篇文章,不过保持一个目录下面的文件数量小于256(或者附近)是可以让这个目录只需要一个独立的 iNode 不用扩展。而大多数时候,磁盘上的 inode 访问后会缓存在内存,速度非常快。
@literalkernel @mashiro 没研究,不知道诶
@mashiro 个人觉得还有一个问题是 cache 和 local 媒体混在一起,如果能分别设置存储,甚至于只是分离在两个文件夹也会好很多
@lgE 目前是分开的,缓存的远程文件都应该在cache目录下
@mashiro 不直接用id作为文件名可能也与s3性能有关:https://docs.aws.amazon.com/AmazonS3/latest/userguide/optimizing-performance.html
media_attachments/thumbnails/ 有些是来自外站然后在本地生成的文件
我说的分开配置是/local/accounts/...和/cache/accounts/...。现在根目录一个accounts/加上cache/accounts/,导致写本地备份的程序不是那么方便,要枚举或者排除(有软件排除的运行效率很低)。更方便的就是我之前说的,分别设置存储,一个local一个s3,或者是不同的s3桶。搜了搜,看来有人提过 https://github.com/mastodon/mastodon/issues/12382 。
@lgE 懂了,要实现是可以的,不过我估计这种需求除非有现成的pr,否则G大是不会花精力去做的
@lgE 我原来还以为s3服务商会自动帮我们做prefix优化
@mashiro 在一些文件系统上如果单个目录条目过多会导致性能暴跌,此外另一个问题就是目录条目数量上限。它的主要问题是没有给不同的储存后端设计不同的访问和储存方式。
@[email protected] COS当存储服务器给我的感觉就是有钱(
似乎在本地文件系统使用的时候这样拆分成树状目录可以稍微提升一点访问速度?(毕竟是在树上搜索