文库搜索
切换导航
首页
频道
编程开发
系统运维
设计·创作
云计算·大数据
产品·运营·综合
会员中心
首页
编程开发
系统运维
设计·创作
云计算·大数据
产品·运营·综合
开源
上传文档
会员中心
目 录 致谢 说明(重要) Python 自然语言处理 第二版 前言 1. 语言处理与 Python 1 语言计算:文本和单词 1.1 Python 入门 1.2 NLTK 入门 1.3 搜索文本 1.4 词汇计数 2.2 索引列表 2.3 变量 2.4 字符串 3 计算语言:简单的统计 3.1 频率分布 3.2 细粒度的选择词 3.3 词语搭配和双连词 3.4 计数其他东西 4.2 对每个元素进行操作 4.3 嵌套代码块 4.4 条件循环 5 自动理解自然语言 5.1 词意消歧 Docutils System Messages 2. 获得文本语料和词汇资源 1 获取文本语料库 1.1 古腾堡语料库 1.2 网络和聊天文本 1.3 布朗语料库 1.4 路透社语料库 1.5 就职演说语料库 1.6 标注文本语料库 1.8 文本语料库的结构 1.9 加载你自己的语料库 2 条件频率分布 2.1 条件和事件 本文档使用 书栈(BookStack.CN) 构建 - 2 - 2.2 按文体计数词汇 2.3 绘制分布图和分布表 2.4 使用双连词生成随机文本 3.2 函数 3.3 模块 4 词汇资源 4.1 词汇列表语料库 4.2 发音的词典 4.3 比较词表 4.4 词汇工具:Shoebox 和 Toolbox 5 WordNet 5.1 意义与同义词 5.2 WordNet 的层次结构 5.3 更多的词汇关系 5.4 语义相似度 6 小结 7 深入阅读 8 练习 3 处理原始文本 3.1 从网络和硬盘访问文本 3.2 字符串:最底层的文本处理 3.3 使用 Unicode 进行文字处理 3.4 使用正则表达式检测词组搭配 3.6 规范化文本 3.7 用正则表达式为文本分词 3.8 分割 3.9 格式化:从列表到字符串 3.10 小结 3.11 深入阅读 3.12 练习 4 编写结构化程序 4.1 回到基础 4.2 序列 4.3 风格的问题 4.4 函数:结构化编程的基础 4.5 更多关于函数 4.6 程序开发 4.7 算法设计 本文档使用 书栈(BookStack.CN) 构建 - 3 - 6 小结 4.10 深入阅读 4.11 练习 Docutils System Messages 5. 分类和标注词汇 1 使用词性标注器 2 已经标注的语料库 2.1 表示已经标注的词符 2.2 读取已标注的语料库 2.3 通用词性标记集 2.4 名词 2.5 动词 2.6 形容词和副词 2.7 未简化的标记 2.8 探索已标注的语料库 3 使用 Python 字典映射单词到其属性 3.1 索引列表 VS 字典 3.3 定义字典 3.4 默认字典 3.5 递增地更新字典 3.6 复杂的键和值 3.7 反转字典 4.1 默认标注器 4.2 正则表达式标注器 4.3 查询标注器 4.4 评估 5 N-gram 标注 5.1 一元标注 5.2 分离训练和测试数据 5.3 一般的 N-gram 标注 5.4 组合标注器 5.5 标注生词 5.6 存储标注器 5.7 准确性的极限 6 基于转换的标注 7 如何确定一个词的分类 7.1 形态学线索 7.2 句法线索 本文档使用 书栈(BookStack.CN) 构建 - 4 - 10 练习 6. 学习分类文本 1 有监督分类 1.1 性别鉴定 1.2 选择正确的特征 1.3 文档分类 1.4 词性标注 1.5 探索上下文语境 1.6 序列分类 1.7 其他序列分类方法 2 有监督分类的更多例子 2.1 句子分割 2.2 识别对话行为类型 2.3 识别文字蕴含 2.4 扩展到大型数据集 3 评估 3.1 测试集 3.2 准确度 3.3 精确度和召回率 3.4 混淆矩阵 3.5 交叉验证 4 决策树 4.1 熵和信息增益 5 朴素贝叶斯分类器 5.1 底层的概率模型 Docutils System Messages 7. 从文本提取信息 1 信息提取 2 词块划分 2.1 名词短语词块划分 2.2 标记模式 2.3 用正则表达式进行词块划分 2.4 探索文本语料库 2.5 词缝加塞 2.6 词块的表示:标记与树 3 开发和评估词块划分器 3.1 读取 IOB 格式与 CoNLL2000 语料库 3.2 简单的评估和基准 本文档使用 书栈(BookStack.CN) 构建 - 5 -
Python 自然语言处理 第二版
编程开发
>
后端开发
>
Python
>
文档预览
587 页
6 下载
1347 浏览
2 评论
0 收藏
4.0分
温馨提示:当前文档最多只能预览
20
页,若文档总页数超出了
20
页,请下载原文档以浏览全部内容。
下载文档到电脑,方便使用
下载文档
当前文档最多只能预览 20 页
还有
15
页可预览,
继续阅读
本文档由
进击的皇虫
于
2019-06-01 00:05:51
上传分享
举报
下载
原文档
(12.76 MB)
收藏
分享
给文档打分
您好可以输入
255
个字符
文库之家的网址是?( 答案:
wenkuzhijia.cn
)
评论列表
260022594
4.0分
2019-07-05 23:06:14
gdgfsdffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff
txb2d
4.0分
2019-06-03 20:15:37
dgdgffffffffffffffffffffffffffffffffff
最新文档
厦门才茂工业级CM520-84系列技术参数1
工业路由器和家庭路由器的区别
中央空调远程监控维护方案.pdf-2019-11-25-15-13-45-009
电动汽车充电桩系统整体解决方案.pdf-2019-11-25-15-12-10-184
工业4G路由器DHCP设置方法
水库大坝安全自动监测系统方案
Python 自然语言处理 第二版
Flask Web开发:基于Python的Web应用开发实战
Python网络数据采集
《跟老齐学Python》Gitbook版-2.x和3.x
1
/
20
587
评价文档
0 个金币
下载文档(12.76 MB)
回到顶部
×
下载提示
文档下载,需要消耗您
0
个金币。
您确定要下载
Python 自然语言处理 第二版
文档吗?
×
分享,让知识传承更久远
×
文档举报
举报原因:
垃圾广告
淫秽色情
虚假中奖
敏感信息
人身攻击
骚扰他人
×
收藏文档
收藏文档
请选择收藏夹
请选择收藏夹
没有合适的收藏夹?去
创建收藏夹