您的位置: 首页 - 站长

wordpress免费网站国外泰安人才网公司

当前位置: 首页 > news >正文

wordpress免费网站国外,泰安人才网公司,wordpress上传pdf,个人网站logo生成注#xff1a;此文章内容均节选自充电了么创始人#xff0c;CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》#xff08;人工智能科学与技术丛书#xff09;【陈敬雷编著】【清华大学出版社】 文章目录 自然语言处理系列五十三文本聚类算法》文本聚类介绍及相关算法K…注此文章内容均节选自充电了么创始人CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】 文章目录 自然语言处理系列五十三文本聚类算法》文本聚类介绍及相关算法K-means文本聚类算法原理 总结 自然语言处理系列五十三 文本聚类算法》文本聚类介绍及相关算法 分类和聚类都是文本挖掘中常使用的方法他们的目的都是将相似度高的对象归类不同点在于分类是采用监督学习分类算法按照已经定义好的类别来识别一篇文本而聚类是将若干文本进行相似度比较最后将相似度高的归为一类。在分类算法中训练集为已经标注好的数据集但是微博文本具有的大数据特性及不确定性决定了标注数据的难度因此本文选择聚类算法对大量且随机的微博文本进行处理。 大量文本建模后还需要对主题分布进行聚类以得到更精确简洁的话题因此文本聚类在话题检测技术中具有重要意义。聚类是一种无监督学习方式目的是把一个数据根据某种规则划分为多个子数据一个子数据就称为一个聚类。聚类分析在文本分析、商务应用、网页搜索、推荐系统、生物医学等多个领域都有着十分广泛的应用。由于数据应用场合不同不同的聚类方式侧重点不同各有优势和缺陷因此目前没有一个通用的聚类算法。目前聚类主要分为以下几类基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法。目前主要的聚类算法分类如图15.1所示。
图15.1 聚类算法分类 1. 基于划分的聚类算法 基于划分的聚类算法是聚类算法中最为简单的算法假设有一个数据集D,其中包含N个子数据若要将D划分为K个类簇K≤N,每个类簇中至少含有一个子数据且类簇之间不会有交集。要达到的要求是簇中的数据之间有较高的相似度而簇类之间的相似度尽可能地低。经过专家学者的不断研究K-means 算法、Single-Pass 增量聚类算法、围绕中心划分( Partitioning Around Mediods, PAM)算法等等都得到了较为广泛的应用。而其中最为经典、应用最多的是K-means算法。 K-means算法又称K均值算法是一种容易实现且应用广泛的聚类算法,其算法的思想是首先在数据样本集中随机选取K个样本作为簇中心;然后计算样本集中其他样本与这K个簇中心的距离距离通常利用曼哈顿距离、欧式距离等来度量再根据设定的阈值将每个样本划分到与其距离最近的簇中心所在的簇中;最后根据新划分的簇重新计算距离将簇中所含样本的距离均值作为更新簇的中心再重复计算距离直到达到条件。K-means算法最关键的就是确定K的个数。 基于划分的聚类算法对于大部分数据都有较强的适用性且计算简单高效空间复杂度较低但是在处理大规模样本时结果多数是局部最优对于类簇中心选取也十分敏感并且无法解决非凸数据。 2. 基于层次的聚类算法 层次聚类算法Hierarchical ClusteringHC又称为树聚类算法。主要思想是将样本集合合并或者分裂成凝聚度更高或者更细致的子样本集合最终样本集合形成一棵层次树。同K-means算法不同层次聚类算法不需要预先设定聚类数 只要样本集合通过不断迭代达到聚类条件或者迭代次数即可。基于层次划分的经典聚类算法有变色龙算法、AGNESAgglomerative NE Sting、CUREClustering Using RE Presentatives等。根据聚类的方向基于层次的聚类算法可以分为凝聚式和分裂式凝聚式是将簇结合起来而分裂式则是将大的类簇分为小类。 1凝聚式层次聚类算法 凝聚式层次聚类Hierarchical Agglomerative ClusteringHAC顾名思义是凝聚数据样本它的聚类方向是从子数据向上不断合并该算法经常运用于话题检测中。凝聚式层次聚类首先从底部分散的单个样本开始依次计算与其他样本的距离然后选择距离最小样本并与其合并成一个新的样本集再重复上述过程直到形成一个包含所有样本的簇或者达到迭代次数。凝聚式层次聚类只需要计算样本之间的距离然后合并该方法计算简单但是如果数据样本太大则算法复杂度会呈指数级增长且已合并的操作无法逆转。 2分裂式层次聚类算法 分裂式层次聚类与凝聚式层次聚类处理样本数据的方向是相反的它是将整个数据样本看作一个大类簇然后根据距离公式或其他原则将大的类簇分为小的类簇不断迭代直到将所有的样本数据分类到单独的类簇中或者是达到迭代次数。层次聚类被公认为是能够产生较好质量的聚类结果的聚类算法。此算法缺点是已操作不能撤回对于大量数据样本时间复杂度高。 3. 基于密度的聚类算法 基于密度的聚类算法的主要思想是首先找出密度较高的点然后把周围相近的密度较高的样本点连成一片最后形成各类簇。基于密度的聚类比较代表性的三种方法有Ester等提出的DBSCAN方法、Ankerst 等提出OPTICS方法和 Hinneburg 提出的 DENCLUE技术。此类算法的优点是鲁棒性很强对于任意形状的聚类都适用但是结果的精度与参数设置关系密切实用性不强。 4. 基于网格的聚类算法 与其他聚类算法相比较基于网格的聚类算法出发点不再是平面而是空间。在该空间中有限个网格代表数据聚类就是按一定的规则将网格合并。Wang等人提出的STING算法及其改进算法、Agrawa等人提出的CLIQUE算法l等都是较为经典的基于网格的算法。基于网格的聚类算法由于处理数据时是独立的仅仅依赖网格结构中每一维的单位数因此处理速度很快。但是此算法对参数十分敏感速度快的代价是精确度不高通常需要与其他聚类算法结合使用。 5. 基于模型的聚类算法 基于模型的聚类算法的思路是假设每个类簇为一个模型然后再寻找与该模型拟合最好的数据通常有基于概率和基于神经网络两种方法。概率模型即概率生成模型是假设数据是由潜在的概率分布产生的典型的算法是高斯混合模型Gaussian Mixture ModelsGMM而来自芬兰的神经网络专家提出的自组织映射Self Organized MapsSOM是典型的神经网络模型。对类簇而言基于模型的聚类算法是用概率形式呈现每个类的特征也可以直接用参数表示但是与其他聚类方法相比这类聚类方法在样本数据量大的时候执行率较低不适合大规模聚类场合。 6. 基于模糊的聚类算法 基于模糊的聚类算法主要是为了克服非此即彼的分类缺陷它的主要思想是以模糊集合论作为数学基础用模糊数学的方法进行聚类分析。此方法的优点在于对于满足正态分布的样本数据来说它的效果会很好但是此算法过于依赖初始聚类中心为确定初始聚类中心需要多次迭代以寻找最佳点对于大规模数据样本来说会大大增加时间复杂度。 上述的聚类方法各有千秋在面对不同的数据集时能起到不同的作用在参考韩威等的文献之后列出表2-2直观展示几种主要算法在性能方面的差异。几种常用聚类算法对比如表15.1所示。
表15.1 常用聚类算法对比 从表可以直观地看出对于初始无法确定主题个数且大规模的微博短文本来说Single-Pass增量算法更适合。但是Single-Pass增量算法对于数据输入时的顺序十分敏感并且计算复杂度随着数据的增大而增多因此本文采用改进的Single-Pass增量算法对话题进行检测。经过改进的Single-Pass增量算法处理后的文本凝聚度相对较高维度相对较低再采用适合处理这类文本的凝聚式层次聚类进行话题合并以得到热点话题。通过结合Single-Pass增量算法与凝聚式层次聚类算法对大量微博短文本进行处理提取出热点话题能有效提高效率同时得到更精确的热点话题。 K-means文本聚类算法原理 K-means文本聚类算法原理下一篇文章分享更多内容请参见 《自然语言处理原理与实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】书籍。 更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。 总结 此文章有对应的配套新书教材和视频 【配套新书教材】 《自然语言处理原理与实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】 新书特色本书从自然语言处理基础开始逐步深入各种NLP热点前沿技术使用了Java和Python两门语言精心编排了大量代码实例契合公司实际工作场景技能侧重实战。 全书共分为19章详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型Language Model、分布式深度学习实战等内容同时配套完整实战项目例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。 本书理论联系实践深入浅出知识点全面通过阅读本书读者不仅可以理解自然语言处理的知识还能通过实战项目案例更好地将理论融入实际工作中。 《分布式机器学习实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】 新书特色深入浅出逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。 【配套视频】 推荐系统/智能问答/人脸识别实战 视频教程【陈敬雷】 视频特色把目前互联网热门、前沿的项目实战汇聚一堂通过真实的项目实战课程让你快速成为算法总监、架构师、技术负责人包含了推荐系统、智能问答、人脸识别等前沿的精品课程下面分别介绍各个实战项目 1、推荐算法系统实战 听完此课可以实现一个完整的推荐系统下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目 2、智能问答/对话机器人实战 由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程 3、人脸识别实战 从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向从理论到源码实战、再到服务器操作给大家深度讲解 自然语言处理NLP原理与实战 视频教程【陈敬雷】 视频特色《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理以及源码级别的应用操作实战直接讲解自然语言处理的核心精髓部分自然语言处理从业者或者转行自然语言处理者必听视频 人工智能《分布式机器学习实战》 视频教程【陈敬雷】 视频特色视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战推荐算法系统实战、人脸识别实战、对话机器人实战。 上一篇自然语言处理系列五十二》文本分类算法》BERT模型算法原理及文本分类 下一篇自然语言处理系列五十四》文本聚类算法》K-means文本聚类算法原理