前些天,各大高校在用的一款论文检索工具:万方数据,基于百度在 GitHub 的开源项目 PaddleNLP 完成了升级改造。
检索系统的核心问题是文本匹配任务。整个改造过程,主要分为数据构造、模型选择、项目部署等三大步骤。需要攻克标注数据少、语义相似度难计算、检索时效差等痛点。
在开发者的努力下,最终实现在数亿条资源中,通过检索词快速查找相似文献的解决方案。
对文献检索的系统化解决方案感兴趣的同学,可参加百度与万方数据在 9.14(本周二) 的一场技术分享。
报名地址: 网页链接
https://weibo.com/5722964389/Ky1fu1rrK