为了进一步促进古文研究和自然语言处理的结合,来自北京理工大学的 Ethan 及其团队成员发布了古文预训练模型 GuwenBERT。
在古文 NER 任务中,该项目 BERT 比目前最流行的中文 RoBERTa 效果提升 6.3%,特别适合标注语料不足的小数据集。
另外,使用这一模型,也可以减少数据清洗,数据增强,引入字典等繁琐工序。
GitHub: 网页链接
https://weibo.com/5722964389/JuNp64et2
每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。