您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 超牛逼的自然语言处理论文和代码

  2. Research on Issues of Translation Selection for Phrase and Structure in Statistical Machine Translation_hezhongjun_phd thesis 2008.pdf Research on domain adaptation in Statistical Machine Translation_caojie_master thesis 2010.pdf Research on Statist
  3. 所属分类:电子商务

    • 发布日期:2012-01-30
    • 文件大小:104mb
    • 提供者:wtzmax
  1. BFSU ParaConc

  2. 1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemma
  3. 所属分类:其它

    • 发布日期:2015-09-21
    • 文件大小:4mb
    • 提供者:wufuhehe
  1. 平行语料库,用于机器翻译等的预处理语料。

  2. 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
  3. 所属分类:机器学习

    • 发布日期:2018-04-24
    • 文件大小:372kb
    • 提供者:wzz555
  1. 平行语料,用于机器翻译等的预处理语料

  2. 平行语料库,用于机器翻译等的预处理语料。 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
  3. 所属分类:深度学习

    • 发布日期:2018-05-02
    • 文件大小:930kb
    • 提供者:wzz555
  1. 汉维医疗平行语料库构建及特征分析

  2. 面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统。目前已建成110多万字、2.6万句汉语医疗语料,3000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁。
  3. 所属分类:其它

  1. 基于归纳学习和汉字汉字映射表的汉日命名实体对等提取方法

  2. 命名实体翻译等效项提取在机器翻译(MT)和跨语言信息检索(CLIR)中起着至关重要的作用。 传统方法通常基于大规模并行或可比语料库。 但是,这些研究的适用性受到限制,主要是因为缺乏所需规模的平行语料库,特别是对于中文和日文的语言对。 在本文中,我们提出了一种基于中文和日文特征的方法,该方法基于单语语料库中的归纳学习(IL),自动提取中日命名实体(NE)的翻译对等词。 该方法采用中文汉字和日语汉字映射表(HKMT)来计算日语和汉语之间NE实例的相似性。 然后,通过从中文和日语的高相似性NE实例中提
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:384kb
    • 提供者:weixin_38742421
  1. 利用Markov网络抽取复述增强机器译文自动评价方法

  2. 在机器译文自动评价中,匹配具有相同语义、不同表达方式的词或短语是其中一个很大的挑战。许多研究工作提出从双语平行语料或可比语料中抽取复述来增强机器译文和人工译文的匹配。然而双语平行语料或可比语料不仅构建成本高,而且对少数语言对难以大量获取。我们提出通过构建词的Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。在WMT14 Metrics task上的实验结果表明,我们从单语文本中提取复述方法的性能与从双语平行语料中提取复述方法的性
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:324kb
    • 提供者:weixin_38608875
  1. 基于伪平行语料库的双语主动学习关系分类

  2. 基于伪平行语料库的双语主动学习关系分类
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:327kb
    • 提供者:weixin_38705788
  1. 基于随机行走N步的汉语复述短语获取方法

  2. 在利用大规模双语语料获取复述知识方面, 传统的基于\枢轴" 方法只能考虑两步以内的复述现象. 本文针对已有方法的局限性, 对不同语言之间互为翻译的短语对构建翻译关系图, 提出基于随机行走N 步的复述获取算法, 改进已有方法以获取更多潜在的复述知识. 本文描述了由汉英短语翻译表构建翻译关系图的方法、基于N 步的随机行走算法和基于期望步数的复述短语可信度计算方法. 同时, 本文提出面向多语言对的翻译关系图扩展方法. 在NTCIR 汉英和英日双语平行语料上进行了实验与评测, 并与传统方法进行了对比.
  3. 所属分类:其它

  1. 子句对齐及其在专利统计机器翻译中的应用

  2. 针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:980kb
    • 提供者:weixin_38529436
  1. 构建和剖析中英三元组可比语料库

  2. 由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,本文提出了构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术,使用统计和规则相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上,利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:416kb
    • 提供者:weixin_38601878