大数据视角下大规模英汉平行语料库的加工.检索与应用

￥59.93 限时折扣 ~~原价：￥79.90~~

运费：	¥ 0.00-15.00

立即购买

支付：: 微信支付银行卡支付宝

商品详情

编辑推荐

通过本书，你可以了解到平行语料库研究的背景；国际平行语料库研究的现状与发展趋势；句法标注语料库的研制与应用和信度分析；大规模英汉平行语料库的加工方法，包括元信息标记、词法标注、句法标注和双语对齐，和“大规模英汉平行语料库检索平台”的设计开发和应用；基于大规模英汉平行语料库开展的相关研究。

对于语料库语言学、语料库翻译学、翻译研究及翻译教学等领域的教师、研究生或研究者，本书将是一份极具参考价值的资料；对于感兴趣的读者，本书也可以提供全新的启示和思路。

内容简介

本书汇报了在大数据视角下大规模英汉平行语料库的加工、检索与应用等若干问题的研究进展。

本书的第一至三章介绍了平行语料库研究的背景、大规模平行语料库研制的加工和检索技术，并通过知识图谱和可视化方法梳理国际平行语料库研究的现状与发展趋势。第四至五章回顾句法标注语料库的研制与应用，报告句法标注在英汉语言研究中的信度分析。第六至七章探讨大规模英汉平行语料库的加工问题，包括元信息标记、词法标注、句法标注和双语对齐，以及“大规模英汉平行语料库检索平台”的设计开发和应用，包括理论基础、设计思路、基本架构与功能、应用个案和信度分析。第八至十一章基于大规模英汉平行语料库开展了相关的研究，其中，第八章报告科技文体中英语被动结构的语言特征及其汉语对译形式，第九章对影响英语被动结构汉译形式的显著因素展开多变量分析，第十章以文体作为考察变量，对英语被动结构的汉译方式展开多文体对比研究，第十一章以《国富论》不同时期的汉译本为例，探讨翻译汉语名词短语复杂性特征的历时变化。

本书可为语料库语言学、语料库翻译学、翻译研究及翻译教学等领域的学者、教师提供理论启示和实践参照。

作者简介

刘鼎甲，博士，教育部人文社会科学重点研究基地中国外语与教育研究中心专职研究员，国家语言文字工作委员会科研机构国家语言能力发展研究中心专职研究员，中国英汉语比较研究会语料库翻译学专业委员会理事。研究方向为语料库语言学、计算语言学与数据库理论与实践。

前言

本书在教育部人文社会科学重点研究基地重大项目“基于多语种语料库的外语及外语教育研究（22JJD740012）”的框架下，汇报大数据背景下大规模英汉平行语料库的加工、检索和应用若干问题的研究进展。

第一，深度探讨大数据背景下大规模平行语料库的加工问题。本书以大数据作为背景，对面向大规模英汉平行语料库加工的元信息标记、词法标注、句法标注与双语对齐的语言学原理、标注规范和自动加工方法进行阐释。首先，本书介绍课题所建语料库的元信息标记，双语语料库文本标记的原理和编码规范，并讨论了双语文档元信息标记的实施。其次，本书讨论大规模英汉平行语料库的标注，包括英语文档的词形还原、词性标注的原理和本书作者设计开发的JointTagger，并进行了信度分析。再次，本书就大规模英汉平行语料库的句法标注问题进行研究，对句法标注的哲学原理、理论基础、主要方法和句法标注的实施进行了系统阐述。最后，本书讨论了双语对齐的技术实现，这为大规模英汉平行语料库研制过程中的自动加工方法提供理论与方法和技术基础。

第二，本书从大数据视角探讨“大规模英汉平行语料库检索平台”的设计开发及其应用问题。（1）阐述了语料库检索研究的理论基础；（2）介绍了检索平台的设计思路；（3）讨论了面向1亿词级别英汉平行语料库检索的“大规模英汉平行语料库检索平台1.1”（以下简称“平台”）的功能；（4）通过案例分析来介绍检索平台在翻译研究中的应用；（5）对比分析了“平台”在实际语料库检索中的信度，借此为大数据背景下语料库的检索研究提供借鉴。

第三，本书基于大规模英汉平行语料库开展了某些句法结构及其汉译的研究，主要以科技文体英语被动结构为例，考察其语言特征及其在汉语中的对译形式，试图从结构形式、句法、语义和文体四个维度揭示被动结构由英语向汉语的翻译转换过程中呈现的趋势和特征。研究发现：英语被动结构在形式上，长被动远少于短被动，体现出物称化倾向；英语被动结构在结构上多充当谓语成分，时态上多采用现在时和过去时，多数无体标记；英语被动结构在语义上多充当虚化和类虚化成分，或者表达转述、报道、科学方法与工具语义，且绝大多数表示中性意义。通过对大型语料库的大数据发掘，笔者发现英语被动结构在翻译转换中并不是对等地转换为汉语被动结构，结果显示这类译例不足十分之一，其他对译形式非常灵活，包括主动式、受事主题结构、动宾结构、名词化、处置式、兼语式和省略等形式，还可能转译为形容词、副词、状语和汉语情态结构。这种考察从未见诸文献或者从未展开，充分显示出大规模双语平行语料库在数据分析上的优势。