Dataset之PTB:Penn Treebank Dataset(PTB 数据集)的简介、安装、使用方法之详细攻略
目录
PTB 数据集的简介
1、数据集信息简介
2、数据信息来源
3、样本
4、更新
PTB 数据集的安装
PTB 数据集的使用方法
NLP之TF之LSTM:基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模
PTB 数据集的简介
Penn Treebank Dataset 数据集是一个用于自然语言处理(NLP)和计算语言学研究的标准数据集。它包含来自多种来源的文本,如新闻、书籍和文章。PTB 数据集通常用于语言模型、词性标注、句法分析等任务的训练和评估。
官方地址:BOLT Treebank | Linguistic Data Consortium
数据集地址:Linguistic Data Consortium - Linguistic Data Consortium
1、数据集信息简介
Penn Treebank宾夕法尼亚树库(PTB)项目从98,732篇故事的三年华尔街日报(WSJ)收藏中选择了2,499篇进行句法标注。这2,499篇故事已在PTB的Treebank-2(LDC95T7)和Treebank-3(LDC99T42)版本中分发。Treebank-2包括每个故事的原始文本。在一个压缩文件中提供了三个“映射”文件(pennTB_tipster_wsj_map.tar.gz)供已许可Treebank-2并提供了2,499个PTB文件名与TIPSTER中相应的WSJ DOCNO字符串之间关系的用户额外下载。
作者:Mitchell P. Marcus,Beatrice Santorini,Mary Ann Marcinkiewicz,Ann Taylor LDC 编目号:LDC99T42 ISBN:1-58563-163-9 ISLRN:141-282-691-413-2 DOI:https://doi.org/10.35111/gq1x-j780 会员年份:1999 DCMI 类型:文本 数据来源:电话语音,新闻线,麦克风语音,转录语音,多样化 项目:TIDES,GALE 应用:分析,自然语言处理,标注 语言:英语 语言标识:eng 许可证:LDC非会员用户协议 在线文档:LDC99T42文档 许可说明:订阅会员、标准会员和非会员 引用:Marcus, Mitchell P., 等. 树库-3 LDC99T42. 网络下载. 费城:语言数据联盟,1999年。 相关作品:查看
2、数据信息来源
此版本包含以下树库-2材料:
1989年《华尔街日报》一百万字的注释树库II样式材料。 ATIS-3材料的小样本,以树库II样式注释。 布朗语料库的全标记版本。 以及以下新材料:
Switchboard标记、发语障注释和解析文本 布朗解析文本 树库括号样式旨在允许简单谓词/论元结构的提取。提供了应用此括号标注的一百多万字的文本。
3、样本
词性标注 发语障注释 发语障注释和词性标注 发语障注释,词性标注和连接的对话 句法标注 句法标注和词性标注
4、更新
出版后,发现并非所有的后缀(*.ps)文件都已转换为pdf,并且一些转换后的pdf包含错误。有关文档文件的pdf副本,请访问补充部分以获取文件列表。
截至2016年10月5日,从Treebank-2添加了252个wsj文件,这些文件之前缺失。
截至2017年2月,从Treebank-2(LDC95T7)添加了2,499个“原始”wsj文件。
在这些日期之后下载的语料库将包括这些缺失的文件。
PTB 数据集的安装
PTB 数据集的下载地址通常可以在宾夕法尼亚大学的网站上找到。由于数据集的版权和访问权限,建议在官方网站或相关研究论文中查找详细信息。一般情况下,可以通过以下链接访问宾夕法尼亚大学的语言资源中心(LDC)来获取。
地址:Treebank-3 - Linguistic Data Consortium
PTB 数据集的使用方法
使用 PTB 数据集取决于具体的研究任务。对于语言建模、词性标注和句法分析等任务,可以将数据集加载到NLP 框架中,如 TensorFlow 或 PyTorch,然后训练和评估模型。
NLP之TF之LSTM:基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模
https://yunyaniu.blog.csdn.net/article/details/80806512