Experience

  1. 国家自然基金重点 | 多模态数据驱动的事件表征与可解释性推理方法研究(U22B2061,252万元,在研)

    国家自然科学基金委员会

    旨在解决社会政治复杂应用场景下事件要素获取难、数据表征难等问题。负责文本的批量化数据标注与知识抽取算法研究

    • 数据构建: 引导大模型利用事件元素生成事件文本,并结合半监督学习多轮修正标注实现批量化数据标注,构建超5000条实例的社会事件数据集
    • 方法创新: 针对文本中提取事件元素相关实体的边界定位模糊问题,设计基于自适应语义区分模块和边界过滤模块的命名实体识别模型,相较当前SOTA方法提升超1.5%
    • 算法研究: 针对事件抽取任务设计多视角提示学习模板,并结合投票策略缓解生成式模型对单一固定提示模板的过度依赖,降低对不同领域手工设计模板的成本
    • 算法落地: 所研制的抽取算法应用于XXX智能院
  2. 173基础加强项目 | 面向xxxxxxxxx的自适应学习(550万元,在研)

    军委科技委

    旨在研究特定领域数据动态变化下人物画像构建难、更新难等问题。负责业务数据标注规范制定与自适应抽取算法研究

    • 本体构建: 围绕军事、政治、社会等方面设计领域本体,基于国内外社交平台爬取的新闻数据构建超8000条实例的领域数据集
    • 框架创新: 针对特定领域数据标注匮乏等特点,设计了基于对比学习的大规模预训练语言模型的关系抽取框架,在零样本关系抽取任务上相较当前SOTA方法提升超10%
    • 算法设计: 调研实体关系抽取领域的子任务间信息交互方式,设计协同交互算法。相较当前SOTA方法提升超2%
    • 应用验证: 所研制的抽取算法经第三方机构测试验证,顺利通过中期验收。现已交付XX部队,并集成于实际业务系统
  3. 国家重点研发计划 | xxxxxx挖掘(375万元,在研)

    科技部

    旨在研究面向社交媒体和科技评测文本的多粒度情感分析算法。负责方面级情感分析算法研究

    • 舆情收集: 在线爬取并人工构建基于XXXX大会议的国内外舆情数据,以及国际军事网站、军工企业对武器的评论数据
    • 算法研究: 在方面级情感三元组抽取任务中,设计一种基于上下文语义的跨任务交叉注意力机制,有效解决了复杂语境下的长词识别与多三元组识别问题
    • 隐私保护: 在涉及数据隐私保护的方面类别情感分析中,设计均衡数据增强机制缓解来自不同数据集文本的数据异构性对联邦学习模型的影响
    • 算法落地: 所研制情感分析算法已交付江苏省XX局,并集成于实际业务系统
  4. 标包项目 | 魔方语音与图像识别能力研发(200万元,结项)

    中国电信

    旨在识别四川方言客服电话音频中关于特定事项的会话人意图。负责数据标注平台开发与会话人意图识别数据集构建。

    • 项目开发: 开发对话文本在线标注平台cdlabel,后端基于Django构建RESTful Web服务,前端基于Vue.js和Nuxt.js构建Javascript网络应用程序
    • 数据构建: 训练魔塔社区开源的方言语音识别大模型UniASR,对四川方言会话音频进行语音转文字,获得四川电信客服通话文本,用于人工标注
    • 落地应用: cdlabel部署到中国电信业务系统中,人工标注包含四川方言的会话人意图识别数据集,用于会话人角色识别与意图识别模型的训练

Education

  1. MEng Artificial Intelligence

    University of Electronic Science and Technology of China

    研究项目:

    • 国家自然科学基金联合基金项目
    • 173基础加强项目
    • 国家重点研发计划等
  2. BSc Computer Science

    China University of Mining Technology - Beijing

    GPA: 3.7/4.0

    所获荣誉:

    • 国家励志奖学金、优秀学生一等奖学金
    • 校优秀毕业生
    • 校级优秀学生干部
    • 校内辩论赛冠军等
Skills & Hobbies
Technical Skills
Python
Data Science
SQL
Hobbies
Hiking
Cats
Guitar&Piano
Languages
75%
English
100%
Chinese