Follow

国内一位开发者在 GitHub 上开源的《文言文(古文)- 现代文平行语料》,基本涵盖了大部分经典古籍著作。

原始爬取的数据是篇章级对齐,经过脚本分句以及人工校对,形成共计约 96 万句对,source 下为文言文,target 下为现代文,文件内容按行对齐。

GitHub:github.com/NiuTrans/Classical-Modern

其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。

:icon_weibo: weibo.com/5722964389/LaG3tvogM

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。