成语阅读理解数据集
航海王
4枚
3
2 k
40
2019/12/05 09:48
基于选词填空任务形式的大规模成语填空训练语料。在给定若干段文本下,机器需要在提供的候选项中,依次选出填入文本中的空格处最恰当的成语。
概述
数据文档

背景描述

成语作为汉语的一大特色用语,其形式的简洁与丰富的表现力使得它广泛应用于日常交流与各种文体中。许多成语的含义并非简单字面意义的拼接或合成,而是可能来源于历史故事或具有隐喻含义等,这导致了成语往往不能“望文生义”。同时,相近词之间的细微差别也经常导致成语被误用,如「侃侃而谈」和「口若悬河」,尽管这两个成语都表示说话又多又长,但前者侧重描述说话者的神情,而后者则用以描述说话者的口才。由此可见,对成语有很好的理解和表示,对于中文领域的机器阅读理解将有很好的促进意义,并且对于中文机器翻译、汉语成语推荐系统等实际应用场景也会有所帮助。

数据说明

数据规模:

Image Name

数据示例:

{
    "content": "世锦赛的整体水平远高于亚洲杯,要如同亚洲杯那样“鱼与熊掌兼得”,就需要各方面密切配合、#idiom#。作为主帅的俞觉敏,除了得打破保守思想,敢于破格用人,还得巧于用兵、#idiom#、灵活排阵,指挥得当,力争通过比赛推新人、出佳绩、出新的战斗力。", 
    "realCount": 2,
    "groundTruth": ["通力合作", "有的放矢"], 
    "candidates": [
        ["凭空捏造", "高头大马", "通力合作", "同舟共济", "和衷共济", "蓬头垢面", "紧锣密鼓"], 
        ["叫苦连天", "量体裁衣", "金榜题名", "百战不殆", "知彼知己", "有的放矢", "风流才子"]
    ]
}
  • content: 文章文本内容,缺失的成语用 #idiom# 替代
  • realCount: 缺少的成语数
  • groundTruth: 答案
  • candidates: 候选选项

数据来源

https://github.com/chujiezheng/ChID-Dataset
@inproceedings{zheng-etal-2019-chid,
title = "{C}h{ID}: A Large-scale {C}hinese {ID}iom Dataset for Cloze Test",
author = "Zheng, Chujie and
Huang, Minlie and
Sun, Aixin",
booktitle = "Proceedings of the 57th Conference of the Association for Computational Linguistics",
month = jul,
year = "2019",
address = "Florence, Italy",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/P19-1075",
pages = "778--787",
}

问题描述

适用于机器阅读理解,中文机器翻译,汉语成语推荐系统等领域

展开更多
引用格式
复制
@misc{dataset_106008,
    title = { 成语阅读理解数据集 }
    author = { KOTO },
    howpublished = { \url{https://www.heywhale.com/mw/dataset/5ddf91e8ca27f8002c4ad48d} }
    year = { 2019 }
}
信息

挂载目录

/home/mw/input/dataset_106008

数据格式

.zip

文件大小

195.8 MB

技术领域

自然语言处理

挂载目录

/home/mw/input/dataset_106008/