在第五届“达观杯”自然语言处理算法竞赛中,一场关于基于大规模预训练模型的风险事件标签识别的较量吸引了众多目光。这场竞赛于10月中旬在第十届CCF自然语言处理与中文计算国际会议上圆满落幕,为自然语言处理领域注入了新的活力。达观数据慷慨提供了72G、上亿条通用领域的脱敏资讯信息,为预训练模型的构建提供了坚实的数据基础。
训练集包含14009条样本,这些数据横跨金融、政务、军事等多个领域,且不均匀地分布在35个类别之中。这种不均衡性给文本分类任务带来了巨大挑战。同时,采用macroF1作为评价方案,更是对模型性能的全面考验。面对如此复杂的数据集,参赛选手们展现出了非凡的智慧和创造力。
在众多模型中,BERT以其强大的预训练能力和广泛的适用性脱颖而出,成为选手们使用最多的模型。紧随其后的是nezha模型,两者共同构成了多模型融合的主流方案。预训练模型的应用,在很大程度上缓解了样本标注数量不足的问题,为文本分类任务提供了有力支持。
在优化策略方面,选手们也是各显神通。FGM技术被用来解决模型的鲁棒性问题,而数据增强则成为应对样本不均衡问题的有效手段。此外,SimCSE技术的引入,进一步增强了向量的表达能力,对于短文本分类问题的效果提升尤为显著。
就读于桂林电子科技大学研二的左玉晖同学与同队队员,凭借出色的表现,在历时2个月的赛事中脱颖而出,荣获三等奖。他们的解题思路值得借鉴:面对不均衡的数据集,他们巧妙地运用了dice loss、focal loss和cross entropy loss等多种损失函数,结合对比学习、对抗训练、Multi-Exit flooding洪泛法、Multi-sample Dropout以及伪标签等技术,有效提升了模型的性能。在模型融合方面,他们采用了stacking和投票+rank/概率平均的方法,进一步增强了模型的稳定性和准确性。
本次竞赛不仅展示了自然语言处理领域的最新进展,也为工程实践中的文本分类问题提供了宝贵的思路。选手们从多个方面针对数据集的样本不均衡和标注数据不足的问题进行了深入探索,取得了令人瞩目的成果。未来,随着技术的不断进步和数据的日益丰富,我们有理由相信,文本分类任务将迎来更加广阔的发展前景。
