本文共 3806 字,大约阅读时间需要 12 分钟。
内容简介
本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习机制,使得搜索引擎更加智能。本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
▲图片来源于网络
试用对象
1、适合对自然语言处理及机器学习应用领域有兴趣的读者。2、适合对现代搜索引擎相关算法有兴趣的读者。3、适合对大数据分析、数据挖掘应用有兴趣的读者。4、适合互联网行业的不同层次从业者。5、适合从事搜索引擎优化的网络营销读者。6、适合高校中学习计算机、软件工程等相关专业的读者。目录
第1章 引论11.1 搜索引擎的过去11.2 搜索引擎的现在21.3 搜索引擎的未来41.4 大数据与搜索引擎61.4.1 搜索价值提升61.4.2 用户价值提升71.5 大数据与人工智能71.5.1 人工智能发展71.5.2 人工智能技术91.6 本章小结11第2章 搜索引擎原理与技术122.1 基本工作原理122.2 基本模块结构132.2.1 爬虫服务142.2.2 索引服务152.2.3 缓存服务162.2.4 搜索服务172.2.5 日志服务192.3 技术概要202.3.1 自然语言处理202.3.2 知识图谱技术212.3.3 海量数据存储232.3.4 分布式计算252.3.5 搜索排序技术262.4 本章小结27第3章 自然语言处理框架283.1 英文分词283.2 中文分词303.2.1 中文分词概述303.2.2 基于词库的分词技术313.2.3 基于条件随机场的中文分词333.2.4 分词粒度413.3 词性标注413.3.1 隐马尔科夫模型概要423.3.2 隐马尔科夫模型与词性标注433.4 语义相似度513.5 依存句法分析533.5.1 依存句法分析概要533.5.2 依存句法分析实现563.6 情感倾向分析593.7 文档关键词抽取613.7.1 关键词抽取概述613.7.2 基于TF-IDF算法623.7.3 基于TextRank算法643.8 文档句子相似度分析673.8.1 句子相似度683.8.2 文档相似度703.9 文档核心句抽取713.10 聚类分类743.10.1 文本分类753.10.2 文本聚类803.11 语种检测843.12 本章小结87第4章 构建大数据存储引擎884.1 架构体系894.1.1 结构概要894.1.2 服务器上线924.1.3 服务器下线924.1.4 数据读取934.2 数据模型944.3 数据压缩964.4 负载均衡974.5 数据存储逻辑视图1004.6 本章小结103第5章 构建分布式实时计算1045.1 概述1045.2 设计架构1065.2.1 设计思想1065.2.2 基本框架1085.3 运行模式1105.4 负载均衡1115.5 通信设计1125.5.1 基本方式1135.5.2 分布式远程服务调用1135.6 容灾恢复1145.7 数据容错原理1155.8 数据处理设计示例1175.9 本章小结118第6章 分布式可扩展爬虫1196.1 爬虫体系架构1196.1.1 主从分布式结构爬虫1206.1.2 对等分布式结构爬虫1206.1.3 基于分布式计算平台爬虫1216.2 网页解析1226.2.1 状态码处理1236.2.2 链接去重1236.2.3 广告识别1256.2.4 网站地图1286.2.5 非网页数据获取1296.2.6 网页去重1306.2.7 链接提取1346.2.8 爬虫协议1356.3 网页结构化1376.3.1 网页的编码信息1376.3.2 网页的正文信息1386.3.3 网站的关键词信息1426.3.4 网站的标题1426.3.5 网页的发布时间1446.3.6 网站语言检测1446.3.7 其他结构化数据1456.4 网页抓取策略1466.5 爬虫权限应对1476.6 深网抓取1506.7 抓取更新策略1516.8 本章小结153第7章 大数据构建知识图谱1547.1 概述1547.2 搜索引擎与知识图谱1557.3 可靠数据源选择1577.4 实体抽取1587.5 关系抽取1597.5.1 关系抽取概述1607.5.2 隐藏关系抽取1617.5.3 结构化确定关系抽取1647.5.4 非结构化确定关系抽取1667.6 知识图谱检测1717.6.1 实体关系修正1717.6.2 实体对齐整合1727.6.3 实体歧义分析1747.7 知识推理与计算1757.7.1 知识推理1757.7.2 知识计算1767.8 知识聚类1797.9 智能搜索实现1817.9.1 模式匹配1817.9.2 知识拆解1827.9.3 合并求解1847.10 智能搜索扩展1867.10.1 常识性智能搜索1867.10.2 实时信息智能搜索1877.10.3 可交互式智能搜索1877.11 本章小结189第8章 索引构建机制1908.1 倒排索引1908.1.1 倒排索引概述1918.1.2 索引结构1928.1.3 构建过程1948.1.4 排序规则1958.1.5 索引压缩1968.1.6 更新策略2028.2 分布式存储2028.2.1 存储划分方式2038.2.2 存储平衡策略2048.3 存储索引2098.3.1 二叉搜索树2108.3.2 B树2118.3.3 B+树2138.3.4 B+树与文件索引2148.4 字典树索引2168.4.1 字典树索引概述2178.4.2 字典树索引构建2198.4.3 字典树查询优化2218.5 本章小结221第9章 搜索服务构建2239.1 概述2239.1.1 体系结构2239.1.2 七何分析法2249.1.3 搜索语法2259.1.4 相关性排序2279.1.5 不安全信息过滤2319.2 大数据分布式缓存2359.2.1 缓存结构设计2359.2.2 缓存更新策略2369.3 文本纠错算法2379.3.1 中文文本纠错2379.3.2 英文文本纠错2419.4 结果显示算法2429.4.1 动态摘要2439.4.2 关键词高亮算法2469.4.3 网页快照2509.5 搜索智能提示2509.6 网页排序2549.6.1 基于PageRank的网页重要性评价2549.6.2 基于Hits算法的网页权威性评价2579.6.3 Hilltop算法2599.6.4 网页作弊评价2609.6.5 网页排序调试2639.7 个性化搜索2649.7.1 个性化搜索示例2649.7.2 人工神经网络与个性化搜索2659.7.3 地理位置搜索2669.8 图片搜索2719.8.1 基于内容的图片搜索2719.8.2 基于文本的图片搜索2729.9 搜索与广告2749.9.1 广告投放策略2759.9.2 基于User-Based协同过滤的广告投放2759.9.3 基于Item-Based协调过滤的广告投放2779.9.4 基于混合模式广告投放2789.9.5 广告投放评价2799.10 搜索引擎评价2829.10.1 搜索评价概述2829.10.2 基于准确率、召回率及F值评价2839.10.3 归一化折扣累计增益2859.11 本章小结288第10章 基于用户日志的反馈学习29010.1 基于用户搜索词语的分析29010.1.1 发现搜索词的价值29110.1.2 发现不明意图下的用户行为29210.2 基于用户点击日志的分析29310.2.1 时间与搜索意图的关系29310.2.2 地理位置与搜索意图的关系29410.2.3 点击日志与同义词29610.2.4 点击日志与词语权重29710.2.5 点击日志与新词分类29810.2.6 点击日志与知识图谱30010.2.7 点击日志与网页重排序30110.2.8 点击日志与网页评价30310.3 基于用户的特征分析30410.3.1 用户跟踪30510.3.2 用户群体特征30610.3.3 用户个体特征30810.4 本章小结309如果想得到下载地址,请访问中科院计算所培训中心官网www.tcict.cn
添加官网上的微信客服获取!转载于:https://blog.51cto.com/14242083/2395737