Huge Lemon的博客

【比赛记录】CCKS2022 基于知识图谱的优质文章识别

2022-12-08

CCKS2022基于知识图谱的优质文章识别

赛程安排

事项 时间
报名时间 2022.5.25 - 2022.7.25 23:59:59
A榜测试数据发布 2022.5.25
A榜提交截止 2022.7.25 23:59:59
B榜测试数据发布 2022.7.26
B榜提交截止 2022.7.31 23:59:59

赛题背景

在移动互联网、大数据的时代背景下,各类自媒体文章呈爆发式增长,在搜索和推荐等信息分发场景下,甄别出优质文章并分发给用户具有重要的研究意义和实际应用价值。除了文章本身的写作质量以外,优质文章应该具备内容的深度和新颖性等,因此单纯依赖文章本身内容无法完整识别优质文章。本任务将引入文章相关的外部知识图谱,结合文章内在的知识逻辑,在对文章更深入的语义理解基础上实现优质文章识别。

赛题说明

本任务要求参赛者利用文章的知识图谱进行建模,实现优质文章分类。示例如下:

【输入】

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
{
"url": "http://baijiahao.baidu.com/s?id=1657091325677517018",
"title": "新年首秀!美联储维持利率不变,中国央行或仍“淡定”",
"pub_time": "2020-01-30",
"content": "中新经纬客户端1月30日电 (张澍楠)在结束为期两天的货币政策例会后,美联储今日(30日)凌晨宣布,维持联邦基金利率在1.50%-1.75%不变,符合市场预期。<br/>“按兵不动”成共识...",
"entities":{
"联邦基金利率": {
"co-occurrence": ["美国"],
"entity_id": "7949986",
"entity_baike_url": "https://baike.baidu.com/item/%E8%81%94%E9%82%A6%E5%9F%BA%E9%87%91%E5%88%A9%E7%8E%87/7949986",
"entity_baike_info": [
{"name": "中文名", "value": ["联邦基金利率"]},
{"name": "外文名", "value": ["Federal Funds Rate"]},
{"name": "最主要的", "value": ["隔夜拆借利率"]},
{"name": "投资", "value": ["国民经济"]},
{"name": "释义", "value": ["美国同业拆借市场的利率,其最主要的是隔夜拆借利率"]},
{"name": "反映", "value": ["反映银行之间资金的余缺"]}
]
}
"国际货币基金组织": ...
"美国": ...
...
}
}

字段说明:

  • url:文章链接
  • title:文章标题
  • pub_time:文章发布时间
  • content:文章内容,段落之间用<br/>分割
  • entities:文章中的实体集合
    • co-occurrence:文章中与当前实体在百科页面共现的实体集合
    • entity_id:实体id
    • entity_baike_url:实体百度百科链接
    • entity_baike_info:实体百度百科信息

【输出】

1
2
3
4
{
"url": "http://baijiahao.baidu.com/s?id=1657091325677517018",
"label": 0
}

字段说明:

  • url:文章链接
  • label:文章标签,0表示非优质文章,1表示优质文章

评价指标

F1-Score

排行榜(B 榜)

排名 参赛团队 score precision recall accuracy f1 提交时间
1 I‘m Comming 0.836 0.79 0.887 0.88 0.836 2022-07-28 16:45
2 **炒粉\ 炒面\ 软件开发\ 自然语言处理** 0.825 0.848 0.804 0.882 0.825 2022-07-31 23:56
3 发热体研究的团队 0.82 0.785 0.859 0.87 0.82 2022-07-30 08:42
4 都是base 0.817 0.785 0.851 0.868 0.817 2022-07-31 23:00
5 敢于天叫嚣的团队 0.816 0.798 0.835 0.87 0.816 2022-07-31 23:23
6 有小华的团队 0.747 0.73 0.764 0.821 0.747 2022-07-29 11:30
7 小白 0.747 0.695 0.806 0.811 0.747 2022-07-30 09:05
8 垃圾垃圾摆渡的团队 0.732 0.734 0.73 0.816 0.732 2022-07-28 09:12
9 AI虎虎 0.713 0.668 0.764 0.788 0.713 2022-07-27 18:02
10 meetyou_oom 0.709 0.681 0.738 0.79 0.709 2022-07-27 14:22
11 我才是贝斯莱恩 0.708 0.652 0.775 0.779 0.708 2022-07-31 23:22
12 金台炼丹局 0.706 0.687 0.725 0.791 0.706 2022-07-28 16:54
13 Asuka_0812的团队 0.706 0.659 0.759 0.781 0.706 2022-07-28 17:15
14 DQ 0.705 0.657 0.762 0.78 0.705 2022-07-26 18:03
15 蜜汁鸡腿6的团队 0.705 0.638 0.788 0.772 0.705 2022-07-30 23:44
16 AIStudio2456039的团队 0.698 0.675 0.723 0.784 0.698 2022-07-30 19:46
17 baseline 0.697 0.705 0.688 0.793 0.697 2022-07-26 21:15
18 小邋遢 0.696 0.694 0.699 0.789 0.696 2022-07-31 09:08
19 海淀咔了咪 0.694 0.708 0.681 0.793 0.694 2022-07-26 21:51
20 大帆船的团队 0.692 0.591 0.835 0.743 0.692 2022-07-29 09:24

结果复现说明

1. Requirements

  • pytorch==1.13.0 torchvision==0.14.0 torchaudio==0.13.0
  • transformers>=4.24.0
  • boto3
  • jieba
  • jupyter, jupyterlab
  • pandas, numpy, scikit-learn
  • json

2. 代码执行步骤

全部流程都在 baseline.ipynb

2.1 训练部分

  • ccks2022-high-quality-article-identification/ 目录下打开 cmd,执行 jupyter lab
  • 打开 baseline.ipynb
    • 执行继续预训练,共 27 epochs;
    • 微调训练:
      • 【模型一】非k折训练 5 epochs,并执行结果预测
      • 【模型二】非k折训练 7 epochs,并执行结果预测,输出预测结果文件 test_results.txt
      • 【模型二】5折训练,每折 6 epochs(其设定为自动计算出预测结果,保存为输出目录的 test_results.txt)。

注:

  • 保存路径按需调整,可默认
  • 模型一:nezha-base-wwm + GRU -> attention,残差
  • 模型二:nezha-base-wwm + attention -> GRU,残差

2.2 结果融合及格式转换

选择 5 折交叉验证的 fold2 与非 K 折模型一、二的结果,与非 k 折训练的结果进行融合:

  • 基于 baseline.ipynb 将三个模型结果进行融合
  • 然后在 baseline.ipynb 中,将融合结果导出为提交格式文件 result/result.txt

Paper

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏