Dataset之PTB：Penn Treebank Dataset（PTB 数据集）的简介、安装、使用方法之详细攻略-365提款10万一般多久-菠菜365-bt365官网-365提款10万一般多久

Dataset之PTB：Penn Treebank Dataset（PTB 数据集）的简介、安装、使用方法之详细攻略

PTB 数据集的简介

1、数据集信息简介

2、数据信息来源

3、样本

4、更新

PTB 数据集的安装

PTB 数据集的使用方法

NLP之TF之LSTM：基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模

PTB 数据集的简介

Penn Treebank Dataset 数据集是一个用于自然语言处理（NLP）和计算语言学研究的标准数据集。它包含来自多种来源的文本，如新闻、书籍和文章。PTB 数据集通常用于语言模型、词性标注、句法分析等任务的训练和评估。

官方地址：BOLT Treebank | Linguistic Data Consortium

数据集地址：Linguistic Data Consortium - Linguistic Data Consortium

1、数据集信息简介

Penn Treebank宾夕法尼亚树库（PTB）项目从98,732篇故事的三年华尔街日报（WSJ）收藏中选择了2,499篇进行句法标注。这2,499篇故事已在PTB的Treebank-2（LDC95T7）和Treebank-3（LDC99T42）版本中分发。Treebank-2包括每个故事的原始文本。在一个压缩文件中提供了三个“映射”文件（pennTB_tipster_wsj_map.tar.gz）供已许可Treebank-2并提供了2,499个PTB文件名与TIPSTER中相应的WSJ DOCNO字符串之间关系的用户额外下载。

作者：Mitchell P. Marcus，Beatrice Santorini，Mary Ann Marcinkiewicz，Ann Taylor LDC 编目号：LDC99T42 ISBN：1-58563-163-9 ISLRN：141-282-691-413-2 DOI：https://doi.org/10.35111/gq1x-j780 会员年份：1999 DCMI 类型：文本数据来源：电话语音，新闻线，麦克风语音，转录语音，多样化项目：TIDES，GALE 应用：分析，自然语言处理，标注语言：英语语言标识：eng 许可证：LDC非会员用户协议在线文档：LDC99T42文档许可说明：订阅会员、标准会员和非会员引用：Marcus, Mitchell P., 等. 树库-3 LDC99T42. 网络下载. 费城：语言数据联盟，1999年。相关作品：查看

2、数据信息来源

此版本包含以下树库-2材料：

1989年《华尔街日报》一百万字的注释树库II样式材料。 ATIS-3材料的小样本，以树库II样式注释。布朗语料库的全标记版本。以及以下新材料：

Switchboard标记、发语障注释和解析文本布朗解析文本树库括号样式旨在允许简单谓词/论元结构的提取。提供了应用此括号标注的一百多万字的文本。

3、样本

词性标注发语障注释发语障注释和词性标注发语障注释，词性标注和连接的对话句法标注句法标注和词性标注

4、更新

出版后，发现并非所有的后缀（*.ps）文件都已转换为pdf，并且一些转换后的pdf包含错误。有关文档文件的pdf副本，请访问补充部分以获取文件列表。

截至2016年10月5日，从Treebank-2添加了252个wsj文件，这些文件之前缺失。

截至2017年2月，从Treebank-2（LDC95T7）添加了2,499个“原始”wsj文件。

在这些日期之后下载的语料库将包括这些缺失的文件。

PTB 数据集的安装

PTB 数据集的下载地址通常可以在宾夕法尼亚大学的网站上找到。由于数据集的版权和访问权限，建议在官方网站或相关研究论文中查找详细信息。一般情况下，可以通过以下链接访问宾夕法尼亚大学的语言资源中心（LDC）来获取。

地址：Treebank-3 - Linguistic Data Consortium

PTB 数据集的使用方法

使用 PTB 数据集取决于具体的研究任务。对于语言建模、词性标注和句法分析等任务，可以将数据集加载到NLP 框架中，如 TensorFlow 或 PyTorch，然后训练和评估模型。

NLP之TF之LSTM：基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模

https://yunyaniu.blog.csdn.net/article/details/80806512

Dataset之PTB：Penn Treebank Dataset（PTB 数据集）的简介、安装、使用方法之详细攻略

相关文章

海岸线打印机排行榜

(钅+朋)是什么字?

《巫师2》扳手腕必赢攻略

中国的神话故事

韩国女足对挪威女足世界杯精彩对决即将上演

楚楚推入驻须知：规则介绍及入驻流程

友情链接

Dataset之PTB：Penn Treebank Dataset（PTB 数据集）的简介、安装、使用方法之详细攻略

相关文章

海岸线打印机排行榜

(钅+朋)是什么字?

《巫师2》扳手腕必赢攻略

中国的神话故事

韩国女足对挪威女足世界杯 精彩对决即将上演

楚楚推入驻须知：规则介绍及入驻流程

友情链接

韩国女足对挪威女足世界杯精彩对决即将上演