CCKS2022基于知识图谱的优质文章识别
赛程安排
事项 | 时间 |
---|---|
报名时间 | 2022.5.25 - 2022.7.25 23:59:59 |
A榜测试数据发布 | 2022.5.25 |
A榜提交截止 | 2022.7.25 23:59:59 |
B榜测试数据发布 | 2022.7.26 |
B榜提交截止 | 2022.7.31 23:59:59 |
赛题背景
在移动互联网、大数据的时代背景下,各类自媒体文章呈爆发式增长,在搜索和推荐等信息分发场景下,甄别出优质文章并分发给用户具有重要的研究意义和实际应用价值。除了文章本身的写作质量以外,优质文章应该具备内容的深度和新颖性等,因此单纯依赖文章本身内容无法完整识别优质文章。本任务将引入文章相关的外部知识图谱,结合文章内在的知识逻辑,在对文章更深入的语义理解基础上实现优质文章识别。
赛题说明
本任务要求参赛者利用文章的知识图谱进行建模,实现优质文章分类。示例如下:
【输入】
1 | { |
字段说明:
- url:文章链接
- title:文章标题
- pub_time:文章发布时间
- content:文章内容,段落之间用
<br/>
分割 - entities:文章中的实体集合
- co-occurrence:文章中与当前实体在百科页面共现的实体集合
- entity_id:实体id
- entity_baike_url:实体百度百科链接
- entity_baike_info:实体百度百科信息
【输出】
1 | { |
字段说明:
- url:文章链接
- label:文章标签,0表示非优质文章,1表示优质文章
评价指标
F1-Score
排行榜(B 榜)
排名 | 参赛团队 | score | precision | recall | accuracy | f1 | 提交时间 | |||
---|---|---|---|---|---|---|---|---|---|---|
1 | I‘m Comming | 0.836 | 0.79 | 0.887 | 0.88 | 0.836 | 2022-07-28 16:45 | |||
2 | **炒粉\ | 炒面\ | 软件开发\ | 自然语言处理** | 0.825 | 0.848 | 0.804 | 0.882 | 0.825 | 2022-07-31 23:56 |
3 | 发热体研究的团队 | 0.82 | 0.785 | 0.859 | 0.87 | 0.82 | 2022-07-30 08:42 | |||
4 | 都是base | 0.817 | 0.785 | 0.851 | 0.868 | 0.817 | 2022-07-31 23:00 | |||
5 | 敢于天叫嚣的团队 | 0.816 | 0.798 | 0.835 | 0.87 | 0.816 | 2022-07-31 23:23 | |||
6 | 有小华的团队 | 0.747 | 0.73 | 0.764 | 0.821 | 0.747 | 2022-07-29 11:30 | |||
7 | 小白 | 0.747 | 0.695 | 0.806 | 0.811 | 0.747 | 2022-07-30 09:05 | |||
8 | 垃圾垃圾摆渡的团队 | 0.732 | 0.734 | 0.73 | 0.816 | 0.732 | 2022-07-28 09:12 | |||
9 | AI虎虎 | 0.713 | 0.668 | 0.764 | 0.788 | 0.713 | 2022-07-27 18:02 | |||
10 | meetyou_oom | 0.709 | 0.681 | 0.738 | 0.79 | 0.709 | 2022-07-27 14:22 | |||
11 | 我才是贝斯莱恩 | 0.708 | 0.652 | 0.775 | 0.779 | 0.708 | 2022-07-31 23:22 | |||
12 | 金台炼丹局 | 0.706 | 0.687 | 0.725 | 0.791 | 0.706 | 2022-07-28 16:54 | |||
13 | Asuka_0812的团队 | 0.706 | 0.659 | 0.759 | 0.781 | 0.706 | 2022-07-28 17:15 | |||
14 | DQ | 0.705 | 0.657 | 0.762 | 0.78 | 0.705 | 2022-07-26 18:03 | |||
15 | 蜜汁鸡腿6的团队 | 0.705 | 0.638 | 0.788 | 0.772 | 0.705 | 2022-07-30 23:44 | |||
16 | AIStudio2456039的团队 | 0.698 | 0.675 | 0.723 | 0.784 | 0.698 | 2022-07-30 19:46 | |||
17 | baseline | 0.697 | 0.705 | 0.688 | 0.793 | 0.697 | 2022-07-26 21:15 | |||
18 | 小邋遢 | 0.696 | 0.694 | 0.699 | 0.789 | 0.696 | 2022-07-31 09:08 | |||
19 | 海淀咔了咪 | 0.694 | 0.708 | 0.681 | 0.793 | 0.694 | 2022-07-26 21:51 | |||
20 | 大帆船的团队 | 0.692 | 0.591 | 0.835 | 0.743 | 0.692 | 2022-07-29 09:24 |
结果复现说明
1. Requirements
pytorch==1.13.0 torchvision==0.14.0 torchaudio==0.13.0
transformers>=4.24.0
boto3
jieba
jupyter
,jupyterlab
pandas
,numpy
,scikit-learn
json
2. 代码执行步骤
全部流程都在
baseline.ipynb
中
2.1 训练部分
- 在
ccks2022-high-quality-article-identification/
目录下打开cmd
,执行jupyter lab
- 打开
baseline.ipynb
- 执行继续预训练,共 27 epochs;
- 微调训练:
- 【模型一】非k折训练 5 epochs,并执行结果预测
- 【模型二】非k折训练 7 epochs,并执行结果预测,输出预测结果文件
test_results.txt
; - 【模型二】5折训练,每折 6 epochs(其设定为自动计算出预测结果,保存为输出目录的
test_results.txt
)。
注:
- 保存路径按需调整,可默认
- 模型一:nezha-base-wwm + GRU -> attention,残差
- 模型二:nezha-base-wwm + attention -> GRU,残差
2.2 结果融合及格式转换
选择 5 折交叉验证的 fold2
与非 K 折模型一、二的结果,与非 k 折训练的结果进行融合:
- 基于
baseline.ipynb
将三个模型结果进行融合 - 然后在
baseline.ipynb
中,将融合结果导出为提交格式文件result/result.txt
Paper
赏
使用支付宝打赏
使用微信打赏
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏