目 录 致谢 说明(重要) Python 自然语言处理 第二版 前言 1. 语言处理与 Python 1 语言计算:文本和单词 1.1 Python 入门 1.2 NLTK 入门 1.3 搜索文本 1.4 词汇计数 2.2 索引列表 2.3 变量 2.4 字符串 3 计算语言:简单的统计 3.1 频率分布 3.2 细粒度的选择词 3.3 词语搭配和双连词 3.4 计数其他东西 4.2 对每个元素进行操作 4.3 嵌套代码块 4.4 条件循环 5 自动理解自然语言 5.1 词意消歧 Docutils System Messages 2. 获得文本语料和词汇资源 1 获取文本语料库 1.1 古腾堡语料库 1.2 网络和聊天文本 1.3 布朗语料库 1.4 路透社语料库 1.5 就职演说语料库 1.6 标注文本语料库 1.8 文本语料库的结构 1.9 加载你自己的语料库 2 条件频率分布 2.1 条件和事件 本文档使用 书栈(BookStack.CN) 构建 - 2 - 2.2 按文体计数词汇 2.3 绘制分布图和分布表 2.4 使用双连词生成随机文本 3.2 函数 3.3 模块 4 词汇资源 4.1 词汇列表语料库 4.2 发音的词典 4.3 比较词表 4.4 词汇工具:Shoebox 和 Toolbox 5 WordNet 5.1 意义与同义词 5.2 WordNet 的层次结构 5.3 更多的词汇关系 5.4 语义相似度 6 小结 7 深入阅读 8 练习 3 处理原始文本 3.1 从网络和硬盘访问文本 3.2 字符串:最底层的文本处理 3.3 使用 Unicode 进行文字处理 3.4 使用正则表达式检测词组搭配 3.6 规范化文本 3.7 用正则表达式为文本分词 3.8 分割 3.9 格式化:从列表到字符串 3.10 小结 3.11 深入阅读 3.12 练习 4 编写结构化程序 4.1 回到基础 4.2 序列 4.3 风格的问题 4.4 函数:结构化编程的基础 4.5 更多关于函数 4.6 程序开发 4.7 算法设计 本文档使用 书栈(BookStack.CN) 构建 - 3 - 6 小结 4.10 深入阅读 4.11 练习 Docutils System Messages 5. 分类和标注词汇 1 使用词性标注器 2 已经标注的语料库 2.1 表示已经标注的词符 2.2 读取已标注的语料库 2.3 通用词性标记集 2.4 名词 2.5 动词 2.6 形容词和副词 2.7 未简化的标记 2.8 探索已标注的语料库 3 使用 Python 字典映射单词到其属性 3.1 索引列表 VS 字典 3.3 定义字典 3.4 默认字典 3.5 递增地更新字典 3.6 复杂的键和值 3.7 反转字典 4.1 默认标注器 4.2 正则表达式标注器 4.3 查询标注器 4.4 评估 5 N-gram 标注 5.1 一元标注 5.2 分离训练和测试数据 5.3 一般的 N-gram 标注 5.4 组合标注器 5.5 标注生词 5.6 存储标注器 5.7 准确性的极限 6 基于转换的标注 7 如何确定一个词的分类 7.1 形态学线索 7.2 句法线索 本文档使用 书栈(BookStack.CN) 构建 - 4 - 10 练习 6. 学习分类文本 1 有监督分类 1.1 性别鉴定 1.2 选择正确的特征 1.3 文档分类 1.4 词性标注 1.5 探索上下文语境 1.6 序列分类 1.7 其他序列分类方法 2 有监督分类的更多例子 2.1 句子分割 2.2 识别对话行为类型 2.3 识别文字蕴含 2.4 扩展到大型数据集 3 评估 3.1 测试集 3.2 准确度 3.3 精确度和召回率 3.4 混淆矩阵 3.5 交叉验证 4 决策树 4.1 熵和信息增益 5 朴素贝叶斯分类器 5.1 底层的概率模型 Docutils System Messages 7. 从文本提取信息 1 信息提取 2 词块划分 2.1 名词短语词块划分 2.2 标记模式 2.3 用正则表达式进行词块划分 2.4 探索文本语料库 2.5 词缝加塞 2.6 词块的表示:标记与树 3 开发和评估词块划分器 3.1 读取 IOB 格式与 CoNLL2000 语料库 3.2 简单的评估和基准 本文档使用 书栈(BookStack.CN) 构建 - 5 -

pdf文档 Python 自然语言处理 第二版

编程开发 > 后端开发 > Python > 文档预览
587 页 6 下载 1347 浏览 2 评论 0 收藏 4.0分
温馨提示:当前文档最多只能预览 20 页,若文档总页数超出了 20 页,请下载原文档以浏览全部内容。
本文档由 进击的皇虫2019-06-01 00:05:51上传分享
给文档打分
您好可以输入 255 个字符
文库之家的网址是?( 答案:wenkuzhijia.cn )
评论列表
  • 260022594 4.0分 2019-07-05 23:06:14
    gdgfsdffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff
  • txb2d 4.0分 2019-06-03 20:15:37
    dgdgffffffffffffffffffffffffffffffffff