基本信息

  • 出版社 : 电子工业出版社; 第1版 (2017年5月9日)
  • 出版日期 : 2017年1月1日
  • 品牌 : 电子工业出版社
  • 语言 : 简体中文
  • 文件大小 : 13733 KB
  • 纸书页数 : 544页
  • 郑捷 (作者)
  • 下载格式:azw3、epub、mobi 

编辑推荐

  NLP,让人类与智能机器的交互不再遥远;深度学习,让语言解析不再是智能系统的瓶颈!
  本书核心内容
  NLP中的开源系统及其应用
  中文分词源码解析
  概率图模型的理论与算法
  使用概率图模型进行序列标注
  语料库的介绍与建设
  深度学习与NLP
  NLP与认知理论
  汉语的句法与语义的解析

内容简介

  本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。本书包括NLP的语言理论部分、算法部分、案例部分,涉及汉语的发展历史、传统的句法理论、认知语言学理论。需要指出的是,本书是迄今为止**本系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。本书适用于所有想学习NLP的技术人员,包括各大人工智能实验室、软件学院等专业机构。

作者简介

  郑捷,threedweb网站的负责人,研究方向是机器学习与自然语言处理。当前负责的核心产品是高精度自然语言认知系统的设计与研发,研发目标是高精度(识别率为85%~95%)的统一架构的NLP认知系统,已经出版专著《机器学习算法原理与编程实践》,希望能与在NLP这方面有兴趣的读者一起学习交流。

前言

  推荐序
  自然语言处理是人工智能领域的一颗明珠,现在已经成为人工智能研究中最为活跃的领域。几十年来,随着计算机技术和人工智能技术的发展,自然语言处理取得了长足的进步。现在,自然语言处理技术正处在一个新的历史转折点,随着可获取信息量的爆炸性增长,信息过载问题愈发严重,以词法分析和词义理解为主的传统自然语言处理技术已经难以满足解决实际问题的需要,句子级乃至篇章级语义理解技术即将成为人工智能技术发展的新趋势。
  自然语言处理作为人工智能与语言学的综合学科,理应从两个学科中汲取营养来推动自身的进步。但目前概率和数据驱动的方法在自然语言处理领域占据绝对的主流,加之近几年深度学习的异军突起,语言学知识在自然语言处理领域中受到的重视程度愈发不足。而以我在自然语言处理领域工作的经验来看,越深入研究,越能感觉到语言学知识不足的掣肘。特别是深层次的语义理解,脱离了语言学知识,就会变成无源之水、无本之木。常见的自然语言处理书籍对于解决具体问题的方法讲解已经足够丰富,但对于语言学基础理论的介绍和思考还略显不足。一些前辈虽然一直在思考语言和认知的本质,但其发表出来的内容只限于思考结果的一鳞半爪,较少结集成书。加之现在自然语言处理领域的学习者大多是计算机背景,极少系统地学习过语言学的基础理论。这样造成的现状就是从事自然语言处理的技术人员越来越多,但相互之间的讨论和经验分享多集中于具体的技术手段或算法的数学原理,而极少涉及语言学的基础理论和语义理解的本质问题。
  本书作者通过对前人语言学理论和自然语言处理技术的深入梳理,形成了自己对于语义理解,特别是汉语语义理解独特的思考和一整套理论体系,提出了语义理解的系统解决之道。尽管如何才能让计算机理解语义,在学术界还没有定论,但作者系统性的思考和解决思路是非常难能可贵的。本书在内容上保证了理论和技术的平衡,在介绍术的同时,充分展示了作者对于道的思考成果。此书是自然语言处理书籍中的一股新风,希望其可以对语义理解的研究和发展起到积极的推动作用,同时引导自然语言处理领域的研究者,特别是初学者,加强对于语言学的理论的学习,更多地从问题的本源来寻求新的解决思路,而不仅仅满足于在传统解决思路上尝试新的技术手段。
  愿每一位有志于从事自然语言处理的研究者,都能从此书中获得一些启示。
  贾文杰:早年在富士通研发中心,著名的1998年人民日报语料库的研发单位之一,任高级研究员,负责情感分析,后进入360搜索引擎自然语言处理部,项目核心成员之一,主持搜索引擎分词,纠错等核心模块研发工作,历时3年,对搜索效果的提升起到重要作用。目前,转入移动互联领域,负责猎豹移动的自然语言处理部,任负责人。
  前 言
  写作本书的动机
  自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的分支学科,主要研究如何让计算机处理和运用自然语言。自然语言处理广义上分为两大部分,第一部分为自然语言理解,是指让电脑“懂”人类的语言;第二部分为自然语言生成,是指把计算机数据转化为自然语言。本书重点讲解汉语自然语言处理方面的最新理论、技术和进展。
  自然语言处理作为一个独立的学科诞生至今,已经半个多世纪了。与绝大多数传统学科的最大不同是,在这半个世纪中,它始终离问题的终结遥遥无期,当人们千辛万苦地获得一次又一次的突破后,又会被新出现的问题无情地阻拦,而再次陷入迷惘之中。在NLP中,问题好像没有最终解决方案,甚至连最佳实践也没有,而只有最新现状(State of art)。而近些年,那些历史上的State of art 正被不断地刷新、不断地超越。
  就在十多年前,商业化的人机交互都是人们可望而不可即的目标,但现在智能机器人正逐渐走入市场,走入人们的生活。虽然这些技术还不够成熟,还要解决诸多问题,即便普通大众也能意识到,我们离人工智能的终极目标越来越近了。
  面对市场上诸多的人工智能系统,以及背后的各种算法理论,使我想起了一部获奖的英国电影《模仿游戏》。这不是一部艺术上的State of art ,却赢得了第87届奥斯卡金像奖最佳改编剧本奖。在肯定这部作品的诸多因素中,我认为最重要的是,它宣誓了现阶段人工智能的本质:模仿。这也是本书自始至终贯穿的主题:模仿→象似性→算法理论。
  但从另一个角度,我们希望能够终结一些问题,即便这些问题还未得到百分之百的解决(当然,从概率论的角度而言,没有百分之百),否则,我们很难进入以下阶段的研究,整个学科只会停滞不前。幸运的是,近些年,在序列标注上的全面突破,使我们有幸将目光放到了句子的范畴,最近提出的语义依存理论,更使汉语自然语言处理,无论理论还是实践都迎来了新的曙光。汉语的句子分析,终于跨越了句法的误区,走向了语义解析的道路。相信不久的将来,在语义解析的道路上,汉语NLP将会获得更大的突破。
  本书的受众与特色
  本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。为此,我们设定本书的读者为如下几种:
  ? 具有一定计算机编程基础,对自然语言处理感兴趣的非专业人员。
  ? 希望构建完整的NLP应用系统的专业工程技术人员。
  ? 高校计算机专业和自然语言处理专业的大学生、研究生。
  ? 高校自然语言处理专业的教师。
  需要指出的是,本书是一本系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。
  内容及体系结构
  为兼顾各方面的需求,我们对全书各部分做了精心的安排。从结构上,全书分为如下三大部分。
  (1)语言理论部分:涉及4个章节,第2章为汉语的发展历史;第6章为传统的句法理论;第7章为语料库和知识库的构建理论;第8章为认知语言学理论。
  (2)算法部分:涉及4个章节,第3章为中文分词算法;第4章为NLP中的概率图模型算法体系;第6章为句法的自动分析算法,包括转换生成语法的算法原理,以及依存句法的应用;第9章系统介绍了神经网络到深度学习算法体系,以及使用LSTM实现序列标注和依存句法。本书介绍的算法都提供开源的代码,具体下载地址已在每章介绍算法的时候指出,读者可参考书籍和网址的讲解内容进行调试,快速应用于实践中。
  (3)案例部分:涉及4个章节,第1章为开源NLP系统概览及入门代码;第5章为使用概率图模型算法进行词性标注、语义组块、命名实体识别等序列标注;第9章为使用Word2Vec的训练词向量模型;第10章为使用SVM进行长句切分、使用语义角色标注分析汉语句子等。
  基本上每段理论讲解之后都辟出专门的案例讲解,以加深理论认识。对于重要的理论,甚至开辟专门的章节讲解其实现。案例分为两大部分,一部分是程序代码,读者可以参考书中的代码,将其直接应用到实践中;另一部分是语料,读者可以按书中指定的网络链接下载。


资源下载付费资源价格2立即支付
支付后请复制提取码进入网盘下载,电子书格式请参考“基本信息”说明, 如未显示下载按钮,请刷新网页或扫码关注公众号联系客服处理。