- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
大语言模型下的机器翻译研究与实践-张敏
张敏-华为AI领域科学家、文本机器翻译实验室技术专家
华为文本机器翻译实验室技术专家,负责知识指导的机器翻译和大语言模型研究工作,发表多篇ACL/EMNLP/NAACL/CCMT等学术会议论文,在WMT/SemEval/NLPCC/CCKS等比赛中获得优异成绩。博士毕业于中国科学技术大学,在百度、360、阿里巴巴担任工程师、技术经理、高级算法专家和资深算法专家,从事搜索推荐、智能客服和知识图谱等工作。
分享介绍:
ChatGPT的出现让大语言模型成为研究热点,并成为解决各类NLP任务包括机器翻译的新范式。我们先对ChatGPT的翻译能力进行了自动指标评估和人工评估,尝试总结大语言模型进行翻译的优势和不足。并结合我们在知识指导机器翻译上的积累,提出将知识融入到大语言模型中进行各种机器翻译任务。最后,我们介绍在开源大语言模型LLaMA上进行机器翻译SFT的进展和结果。
展开查看详情
1 .大语言模型下的机器翻译研究与实践 张敏 – 华为2012实验室技术专家
2 .提纲 • 机器翻译和大语言模型介绍 • 大语言模型的翻译质量评估 • 大语言模型 + 多语言实体知识图谱 • 基于大语言模型的机器翻译质量评估(QE) • 基于大语言模型的实体自动后编辑(APE) • 基于开源大语言模型SFT
3 .机器翻译介绍 机器翻译发展历程跌宕起伏,经历了萌芽期、受挫期、成长期和爆发期四个阶段 双语NMT 多语言NMT 多模态NMT 技术上经历了规则/实例机器翻译、统计机器翻译、神经机器翻译NMT三个阶段 三大趋势:更大模型、更多语言、更方便交互
4 .机器翻译介绍 Transformer: Attention is ALL You Need 2016 机器翻译首次超越人类水平 Attention is not all you need: skip-connect和FFN也很重要
5 .机器翻译介绍 机器翻译的问题:领域、实体、过译、漏译、风格等 机器翻译的业务流程:TM-MT-QE-(A)PE
6 .大语言模型介绍 • 随着ChatGPT的出现,大语言模型的研究已成为热点 • arXiv标题或摘要包含”large language model”的发表文章从0.40篇/天增长到8.58篇/天 Zhao et al. A survey of Large Language Models. arXiv preprint arXiv:2303.18223
7 .大语言模型的翻译质量评估 • 评估方法 • 自动指标:BLEU(n-gram)、COMET(语义)主要评估方法 • 人工指标:DA(0~100) 指标结果 • 评估数据集 • 英-中:WMT22 通用领域、WMT22 医药领域、ICT领域 各200句 • 评估模型 • ChatGPT、Google Translate、Huawei Translate Zhao et al. Human Evaluation for Translation Quality of ChatGPT: A Preliminary Study. HiT-IT 2023.
8 .大语言模型的翻译质量评估 • Case分析
9 .大语言模型 + 多语言实体知识图谱 • 通过Prompt引入领域多语言实体图谱,提升大语言模型翻译领域实体的准确率 Zhang et al. Leveraging Multilingual Knowledge Graph to Boost Domain-specific Entity Translation of ChatGPT. MT Summit 2023.
10 .大语言模型 + 多语言实体知识图谱 • 实验结果 • 中-英:3个特定领域WMT22 医药、ICT(可见光VLC、无线Wireless) • 指标:BLEU、实体翻译准确率ACC
11 .大语言模型 + 多语言实体知识图谱 • Case分析
12 .基于大语言模型的机器翻译质量评估 • Knowledge-Prompted Estimator (KPE) Yang et al. Knowledge-Prompted Estimator: A Novel Approach to Explainable Machine Translation Assessment. arXiv preprint arXiv:2306.07486.
13 .基于大语言模型的机器翻译质量评估 • 实验结果
14 .基于大语言模型的实体自动后编辑 • 基于多语言实体图谱的APE方法 Zhang et al. Leveraging ChatGPT and Multilingual Knowledge Graph for Automatic Post-Editing. HiT-IT 2023.
15 .基于开源大语言模型SFT • 大模型做机器翻译的上限在哪? • Decoder模型 vs. Encoder-Decoder模型 GPT-4 has beat the strong supervised baseline NLLB in 40.91% of translation directions but still faces a large gap towards the commercial translation system, especially on low- resource languages. Zhu et al. Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis. arXiv:2304.04675.
16 .基于开源大语言模型SFT • 基于LLaMA-13B进行SFT • 医药领域、中-英 • 训练数据:1000万公开数据 + 1.4万WMT历年数据 • 测试数据:WMT22测试集 • Prompt:GPT-4生成
17 .基于开源大语言模型SFT • 初步结论 • 增加平行语料可以提升翻译质量 • 在平行语料较少时,第2次SFT的效果明显;但平行语料数量足够时,不需要第2次SFT • 设计更好的Prompt可以提升翻译质量 平行语料数量 BLEU (1st SFT) BLEU (2nd SFT) System BLEU COMET DA 3万 27.61 34.39 LLaMA-13B SFT 39.20 82.21 83.19 10万 29.28 34.17 Google 42.24 82.68 85.95 1000万 39.20 39.03 WMT22 Best 46.14 NA Prompt BLEU COMET 人工评测:LLaMA-13B SFT在漏译问题上显著高于Google,43 vs. 17 普通 36.80 81.55 1-shot 39.20 82.21 3-shot 39.05 82.17
18 .华为翻译业务全景图
19 .华为翻译能力
20 .华为翻译比赛成绩
21 .