欢迎来到报告吧! | 帮助中心 分享价值,成长自我!

报告吧

换一换
首页 报告吧 > 资源分类 > PDF文档下载
 

人工智能之表示学习.pdf

  • 资源ID:117196       资源大小:4.67MB        全文页数:106页
  • 资源格式: PDF        下载积分:15金币 【人民币15元】
快捷下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录  
下载资源需要15金币 【人民币15元】
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,下载共享资源
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

人工智能之表示学习.pdf

人工智能之 知识 表示学习 报告 顾问:刘知远 清华大学人工智能研究院 北京智源人工智能研究院 清华 -中国工程院知识 智能联合研究中心 2020 年 7 月 I 目录 报告说明 . 1 1. 研究范围 . 1 2. 研究方法 . 2 1. 概述篇 . 4 1.1 表示学习的概念 . 4 1.2 表示学习的特点和形式 . 5 1.3 技术发展历程 . 6 1.4 表示学习的典型应用 . 10 1.4.1 语 音识别和信号处理 . 10 1.4.2 自然语言处理 . 11 1.4.3 内容推荐 . 12 2. 技术篇 . 14 2.1 表示学习的理论基础 . 14 2.1.1 向量空间模型 . 14 2.1.2 词袋模型 . 16 2.1.3 主题模型 . 18 2.1.4 独热表示与分布式表示 . 19 2.2 网络表示学习的主要算法 . 20 2.2.1 基于网络结构的网络表示学 习 . 20 2.2.2 结合外部信息的网络表示学习 . 23 2.3 知识表示学习的主要方法模型 . 25 2.3.1 距离模型 /结构表示 . 25 2.3.2 单层神经网络模型 . 25 2.3.3 能量模型 . 26 2.3.4 双线性模型 . 26 2.3.5 张量神经网络模型 . 27 2.3.6 矩阵分解模型 . 27 II 2.3.7 平移 模型 . 27 2.4 表示学习领域必读论文解读 . 28 2.5 表示学习话题模型 . 35 2.6 领域专利申请情况 . 37 2.7 领域相关的国家自然科学基金 NSFC 项目 . 39 2.8 表示学习领域研究前沿动态 . 40 3. 人才篇 . 57 3.1 表示学习领域学者情况概览 . 57 3.2 代表性学者简介 . 61 3.2.1 国外代表性学者 . 61 3.2.2 国内代表性学者 . 73 4. 趋势篇 . 90 4.1 技术研究发展趋势 . 90 4.2 国家研究发展趋势 . 91 4.3 技术发展面临的挑战 . 91 参考文献 . 93 III 图目录 图 1 数据表示学习和神经网络的发展历程 . 8 图 2 Transformer 模型架构图 . 34 图 3 BERT 的整体预 培训和微调程序 . 35 图 4 LDA 结 构图 . 36 图 5 2010 至 2019 年期间表示学习相关专利申请量 . 38 图 6 2010 至 2019 年期间表示学习专利受理局排名 . 38 图 7 2010 至 2019 年期间表示学习相关专利申请排名前十机构 . 39 图 8 2010-2020 年国家自然科学基金 NSFC 项目数量前十的项目类型 . 40 图 9 2010-2020 年国家自然科学基金 NSFC 项目量前十依托单位 . 40 图 10 表示学习领域全球顶级学者分布图 . 57 图 11 表示学习领域顶级学者数量 TOP10 国家 . 58 图 12 表示学习领域顶级学者数量 TOP10 机构 . 58 图 13 表示学习领域学者的 h-index 分布 . 59 图 14 我国表示学习领域顶级学者分布图 . 60 图 15 表示学习领域中国学者合作论文数量 TOP10 国家 . 61 图 16 表示学习领域热点技术趋势图 . 90 图 17 表示学习领域国家的研究发展趋势 . 91 表 目录 表 1 表示学习领域的顶级期刊和会议 . 1 表 2 VSM 模型中文本与空间的映射表 . 15 表 3 主题模型的四个类别 . 19 表 4 表示学习话题模型 . 36 表 5 2020 年表示学习领域研究前沿动态 . 41 人工智能之表示学习 1 报告说明 深度学习下的 表示学习旨在将研究对象的语义信息表示为稠密低维实值向 量 , 便于 在低维空间中 进行对象 关系的语义 关联计算 ,并有效解决数据稀疏问题, 显著提升自然语言处理、计算机视觉和机器学习算法等任务 的性能。 人工智能之表示学习报告主要从概念、理论模型、领域人才、技术趋势 等 4 个部分,介绍表示学习的技术发展和最新研究进展,并展望该技术的未来发 展方向与前景。 1. 研究范围 ( 1) 研究对象 期刊和会议 所 收录的 表示学习主题相关的 论文数据 、 以及 专利数据等 。 ( 2) 时间范围 报告 研究时段为 2010-2020 年 期间 。 ( 3) 领域的国内外顶级期刊和会议范围 本报告所采用的 表示学习 领域顶级期刊和会议 , 是根据 CCF 推荐国际学术 期刊和会议目录和 ACM 计算机学分类系统相关子领域的 A 类期刊和会议作为 数据来源,并征求 领域顾问 专家意见, 而最终确定了 可作为研究对象的表示学习 领域的顶级期刊和会议 ,共计 10 个,包括 ICLR、 NeurIPS、 ICML、 AAAI、 IJCAI、 ACL、 EMNLP、 CVPR、 ICCV 以及 ECCV。这些 期刊和会议的 具体 详细信息, 如 表 1 所示。 表 1 表示学习领域的顶级期刊和会议 序号 期刊 /会议名称 简称 1 International Conference on Learning Representations ICLR 2 Annual Conference on Neural Information Processing Systems NeurIPS 3 International Conference on Machine Learning ICML 4 AAAI Conference on Artificial Intelligence AAAI 5 International Joint Conference on Artificial Intelligence IJCAI 6 Annual Meeting of the Association for Computational Linguistics ACL 7 Conference on Empirical Methods on Natural Language Processing EMNLP 人工智能之表示学习 2 8 IEEE Conference on Computer Vision and Pattern Recognition CVPR 9 IEEE International Conference on Computer Vision ICCV 10 European Conference on Computer Vision ECCV 2. 研究方法 借助科技情报大数据挖掘与服务系统平台 AMiner, 本报告综合运用了文献 分析、大数据分析和挖掘技术、 特征抽取、 人才画像等研究方法。 通过对 2010-2020 年 期间 上述来源的论文数据进行挖掘,基于“表示学习” 领域的关键词,通过关键词智能匹配挖掘出所有相关论文。基于这些论文,进行 进一步挖掘分析。 其中, “表示学习” 领域的关键词 由 表示学习领域顾问 组给出, 具体包括: 表示学习( Representation Learning)、分布式表示( Distributed Representation)、 符号表示( Symbol Representation)、 知识表示 ( Knowledge Representation)、语 义表示( Semantic Representation)、 稀疏表示 ( Sparse Representation)、 词典学 习 ( Dictionary Learning)、 嵌入( Embedding) 、 特征 学习 ( Feature Learning)、 特征提取 ( Feature Extraction)、特征工程( Feature Engineering)、 特征表示 ( Feature Representation)。 ( 1)人才 画像 分析法 通过 以上领域关键词, 对挖掘出的 指定研究时段内 该 领域国内外顶级期刊和 会议所收录的 论文数据 进行 分析 , 获 取论文学者信息, 通过命名 消 歧和信息抽取 等大数据分析和挖掘技术,对表示学习 领域的专家学者 进行学者画像 , 构建表示 学习 领域 人才智库 , 然后 根据 学者画像 信息进行 领域 人才相关分析 。 此外,还抽 取 论文 作 者 的 供职机构和国家信息,对 不同国家和 机构的研究者 及 论文数量进行 统计。 本报告中,人才分析维度包括作者所在机构 、 机构所属国家 等 。 ( 2)技术趋势分析法 借助 AMiner 平台 的领域 技术 分析系统 ( ) , 通过挖掘 和分析论文数据 ,获 取 表示学习 领域相关 论文中 的 关键词, 然后统计这些关键词 的起止年份,再按照窗格统计词频, 对其进行 词频分析和对比, 得到 表示学习 领 域的 技术研究 热 点和 发展 趋势 、国际趋势 及 机构趋势等 相关结果 。 人工智能之表示学习 3 1. 概述篇 人工智能之表示学习 4 1. 概述篇 近年来,以深度学习为代表的表示学习技术热度高涨,在语音识别、图 像 分 析和自然语言处理领域获得广泛关注。 表示学习旨在将研究对象的语义信息表示 为稠密低 维 实值向量,在该低 维 向量空间中,两个对象距离越近则说明其语义相 似度越高 2。 知识表示学习则面向知识库中的实体和关系进行表示学习,该技术 可以在低 维 空 间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使 知识获取、融合和推理的性能得到显著提升。 本篇 主要介绍 表示学习 的概念、 特 点以及 技术发展 历程。 1.1 表示学习 的 概念 表示学习( Representation Learning),也叫特征学习 ( Feature Learning) , 是一种将原始数据转换成为能够被机器学习 方法 有效开发的一种技术的集合 。 Bengio 等学者( 2013) 1指出, 数据的 表示 学习 是为了 能 在构建分类器或其他预 测器时更容易提取有用的信息 ; 在概率模型中,好的表示是可以捕捉到所观察到 输入的潜在因素的后验分布 , 也可用作 有 监 督 预测器的输入。 国内学者 刘知远 和 孙茂松 等 2认为, 知识表示学习是面向知识库中实体和关 系的表示学习。通过将实体或关系投影到低维向量空间,能够实现对实体和关系 的语义信息的表示, 从而 高效地计算实体、关系及其之间的复杂语义关联。这对 知识库的构建、推理与应用均有重要意义。 国内学者 涂存超 等 3( 2017) 、 李志义 等 4( 2018) 认为, 表示学习旨在将 研究对象的语义信息表示为稠密低维实值向量,以在低维空间中高效计算实体和 关系的语义联系,并有效解决数据稀疏问题,使知识获取、融合和推理的性能显 著提升。由于这种低维度的表示向量能够有效地显示出词语之间的语义关系,且 更易于被应用到其他的系统当中,目前 知识 表示学习 中 的距离模型、单层神经网 络模型、双线性模型、矩阵分解和翻译等模型已广泛应用在信息抽取、知识库自 动问答系统,以及多媒体信息资源的处理与识别中。特别地,以深度学习为代表 的表示学习技术在 语音 识别、图像分析和自然语言处理领域获得了更大关注,特 征表示学 习( Feature Representation Learning)逐步成为机器学习的一个新兴分支。 人工智能之表示学习 5 孙晓玲 和 丁堃 5( 2018) 研究 文章指出, 深度学习中的表示学习,将研究对 象 ( 如词汇、短语、句子等 ) 的语义信息表示为稠密低维的实值向量。这种分布 式表示可以看作是对人脑神经系统的多个神经元的模拟,对象在该语义空间中的 相对距离代表它们之间的语义关联度。 1.2 表示学习的 特点 和 形式 在 表示 学习算法出现之前,机器学习研究人员需要利用手动特征工程 ( Manual Feature Learning)等技术从原始数据的领域知识( Domain Knowledge) 建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学 习很有效,但它同时也是很困难、很昂贵、很耗时 的, 并依赖于强大专业知识。 特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特 征来完成一个具体的任务。 类似于机器学习, 表示 学习可以被分为两类: 监督式 表示 学习( Supervised Representation Learning) 和 无监督式 表示 学习( Unsupervised Representation Learning)。 在监督 式表示 学习中,被标记过的数据被 当作 特征用来学习 , 例如 神经网络( Neural Networks) 、 多层感知器( Multi-Layer Perception) 和 监督字典 学习( Supervised Dictionary Learning) 等 。在无 监督 式表示 学习中,未被标记过 的数据被 当作 特征用来学习 , 例如无监督字典学习( Unsupervised Dictionary Learning) 、 主成分分析( Principal Component Analysis) 、 独立成分分析 ( Independent Component Analysis) 、 自动编码( Auto-encoders) 、 矩阵分解( Matrix Factorization) 、 各种聚类分析( Clustering)及其变形 等 。 网络表示是衔接网络原始数据和网络应用任务的桥梁。网络表示学习算法 则 是 从网络数据中学习得到网络中每个节点的向量表示,作为节点的特征应用于后 续的网络应用任务,如节点分类、链接预测和可视化等 3。 知识表示学习实现了对实体和关系的分布式表示, 具有 显著提升计算效率、 有效缓解数据稀疏、实现异质信息融合三大优势 2,对于知识库的构建、推理和 应用具有重要意义。 人工智能之表示学习 6 ( 1) 显著提升计算效率 。 基于独热表示的 知识库三元组表示, 需要设计专 门的图算法计算实体间的语义和推理关系,计算复杂度高、可扩展性差 。 而表示 学习得到的分布式表示,则能够高效地实现语义相似度计算等操作 。 ( 2) 有效缓解数据稀疏 。 由于表示学习将对象投影到统一的低维空间中, 使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题 。 一方面, 基于独 热表示的图算法,由于受到大规模知识图谱稀疏特性的影响,往往无法有效计算 很多对象之间的语义相似度。而表示学习中 每个对象的向量均为稠密有值的,可 以度量任意对象之间的语义相似程度 。 另 一方面, 表示学习 将大量对象投影到统 一空间的过程,也能够将高频对象的语义信息用于帮助低频对象的语义表示,提 高低频对象的语义表示的精确性 。 ( 3) 实现异质信息融合 。 不同来源的异质信息需要融合为整体,才能得到 有效应用 。 目前不同 知识库的构建规范和信息来源均有不同,大量实体和关系在 不同知识库中的名称 也 不同 。 如果基于网络表示,该任务只能通过设计专门图算 法来实现,效果 和 效率 都 低下 。 通过设计合理的表示学习模型,将不同来源的对 象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识库的信息 融合 。 此外,表示学习能为异质对 象提供统一表示空间,轻而易举实现 词、句子、 文档和知识库实体等 异质对象之间的语义关联计算 。 1.3 技术发展 历程 从模型层次的角度 ,可将表示学习分为 浅层特征学习( Shallow Learning)和 深度特征学习( Deep Learning)两个阶段 。 大约 100 多 年前,许多数据表示学习方法被提出。其中,为了通过线性投影 来 学习数据 的 低维表示, K. Pearson 在 1901 年提出主成分分析 ( Principal Component Analysis, PCA) ,之后 R. Fisher 在 1936 年提出线性判别分析 ( Linear Discriminant Analysis, LDA) 。 PCA 和 LDA 都是最早的数据表示学习算法。然 而, PCA 是一种无监督的方法,而 LDA 是一种有监督的方法。基于 PCA 和 LDA, 人们提出了各种扩展,如 kernel PCA 和广义判别分析 ( General Discriminant Analysis, GDA) 。 人工智能之表示学习 7 2000 年,机器学习界开展了流形学习的研究,旨在发现高维数据的内在结 构。不同于以前的全局方法,如 PCA 和 LDA, 流形学习 方法通常是基于局部的, 如等距特征映射 ( Isomap) 和局部线性层理 ( Locally Linear Embedding, LLE) 。 2006 年, G. Hinton 和他的合著者成功地将深度神经网络应用于降维,并提出了 “深度学习”的概念 12。如今,深度 学习 算法 因 效率高,已被应用于人工智能之 外的许多领域。 另一方面,人工神经网络的研究经历了一个艰难的过程,有很多成功和困难。 1943 年, W. McCulloch 和 W. Pitts6创造了第一个用于神经网络 的 人工神经元 线性阈值单元,在 之后 的研究中也 被 称为 M-P 模型。 1949 年 , D. Hebb 提出了 基于神经可塑性机制的学习假设,也被称为 Hebbian 理论 7。从本质 上说, M-P 模型和 Hebbian 理论为人工智能领域的神经网络研究和连接主义的发展铺平了 道路。 1958 年, F. Rosenblatt8创建了感 知器 ( Perceptron) 模型 ,一种用于二进 制分类的双层神经网络。然而, M. Minsky 和 S. Papert9指出感知器甚至不能解 决异或 ( XOR) 问题。 神经网络的研究 曾一度 停滞不前 。 直到 1974 年, P. Werbos10提出了 BP( Back Propagation, BP) 算法来训练多层感知器 ( MLP) 。在 1986 年, D. Rumelhart, G. Hinton 和 R. Williams11提出了经典的浅层特征学习算法 神经网络反向传 播算法( Error Back-Propagation, BP 算法),成为 表示学习研究正式进入浅层特 征学习阶段的标志 。 其 文章同时 指出 , 反向传播算法可以在神经网络的隐藏层中 生成有用的数据内部表示。 它利用人工神经网络将大量训练数据中的特征以统计 学的方法进行获取与预测,更适合于学习和存储大量输入 -输出模式的映射关系。 BP 神经网络模型虽被称作多层感知器,但实际上只支持 一 个隐藏层( Hidden Layer),其拓扑结构包括输入层( Input Layer)、隐藏层 ( Hidden Layer) 和输 出层( Output Layer)。 使用反向传播算法,虽然理论上可以训练多层神经网络,但存在两个问题 : 模型过拟合和梯度扩散。 2006 年, G. Hinton12通过对深度神经网络进行贪婪的 分层预训练和精细化的思想,在表示学习研究上取得了突破性进展。 这个 使神经 网络社区感到困惑的问题得到了相应的解决。随后, 又有 许多深入算法 被提出 , 并成功地应用于各个领域 。 人工智能之表示学习 8 表示学习的技术发展历程,如 图 1 所示。 来源: Zhong et al (2016). An overview on data representation learning: From traditional feature learning to recent deep learning 图 1 数据表示学习和神经网络的发展历程 13 20 世纪 90 年代后,多种浅层机器学习模型相继出现,包括 Cortes 等 14提出 的支持向量机( SVM)模型, Greene15提出的最大熵( LR)以及 Boosting 模型 等,在内容推荐、分类、网页搜索等方面取得了显著效果。这些模型的共同特点 是不含隐藏层或仅有一层隐藏层节点,在学习过程中容易因隐藏层数量不足而造 成学习效率低、收敛速度慢的问题。其次,模型的学习信号在反向传播的过程中 会逐渐减弱,学习过程对神经网络的设计要求较高,而隐藏层节点数量的确定问 题目前仍缺乏较全面的指导理论。由于浅层学习算法存在的局限, Hinton 等 16学 者 提出了基于深度信任网络( Deep Belief Network)的无监督贪婪逐层训练算法。 其主要观点是: 充分利用多隐层人工神经网络的特征学习能力,将学习得到的 特征用于数据分类处理与可视化; 通过无监督 “逐层初始化 ”( Layer-Wise Pre- Training)以应对深度神经网络在训练上所带来的困难。随后, Ngiam 等 17进一 步提出了多层自动编码器( Multilayer Auto-encoder),为解决深层网络结构的相 关优化问题带来了突破。 自此,表示学习研究进入深度特征学习阶段。 与浅层特征学习相比,深度学习凸显的特点 有 : ( 1) 强调模型结构的深度 , 通常有 5 层以上,甚至多达 10 余层的隐藏层节点,利用多层隐藏层对海量数据 进行充分的处理,得到更有针对性的特征,从而提升学习分类或预测的准确性。 ( 2) 突出特征学习的重要性 ,通过逐层特征变换,将样本在原空间的特征表示 到一个新的特征空间,从而简化分类与预测的过程。 ( 3) 能够通过深层非线性 网络结构的学习实现复杂函数逼近, 完成输入数据的分布式表示 ,具有从样本数 人工智能之表示学习 9 据集中学习数据集本质特征的能力。 ( 4) 能够自动学习数据的另一种表示方法 , 并将其作为特征加入原有 问题的特征集合中,从而进一步提高学习效果。 研究 4显示, 深度学习 的 成果 不断涌现。 2009 年, Bengio18在研究中指出, 用特定的方法设定训练样本的初始分布和排列顺序可以产生更好的训练结果; Glorot 等 19探讨了隐层非线性映射关系的选择和网络的深度相互影响的问题; 2012 年, Bengio 等 学者 20进一步描述了用于有效训练的大型深度结构神经网络 的超参数的影响因素。此类以深度学习为代表的算法在各种单模态数据处理上的 成功为其应用 到复杂多模态数据处理奠定了基础。吴海燕 21提出了同时进行特 征学习和有监督的分类学习的联合框架以及半监督自动编码器模型; 2013 年 Tomas Mikolov 和 Jeff Dean 等人做 word2vec,占据“天时、地利、人和” , 深度 学习 因 算法简单有效 而 开始发热。现在 word2vec 已 有 超过 1 万多引用 , 后面的 扩展也很多,如 pharagraph2vec、 doc2vec, context2vec。最近的进展是 ELMo、 OpenAI 的 GPT 和谷歌的 BERT。 2016 年, Andreas 等 22提出了基于模块神经网 络( NMN)的视觉问答框架,利用模块化神经网络对图像进行成分切分,实现动 态识别图像内容及颜色;朱陶等 23在 K-means 聚类获取训练样本虚拟标签和卷 积核学习之上,提出了前向无监督卷积神经网络的人脸表示学习方法;李志宇等 24提出了基于动态阻尼正负采样的社会网络结构特征嵌入模型( DNPS),构建 了针对新增节点的动态特征学习方法。在特征抽取方面,李志义等 25在条件随机 场模型( Conditional Random Fields, CRFs)的基础上,提出了基于依存语法的 对抽取方法。不难看出, 关于 表示学习的研究已从最初的简 单图像、语音识别转向到了基于深度学习的情感分类、人体行为识别、跨模态检 索、信息推荐等更复杂的领域发展。 表示学习的另一个脉络就是扩展到网络数据上,在 NLP 领域的 Structured Embedding、 TransE 等模型更多的是语言中的局部结构信息,而网络中还有更加 复杂的拓扑结果。原 Stony Brook 大学的 Bryan 提出 DeepWalk,把 word2vec 稍 微扩展了一下,应用于网络数据,这篇文章获得了当年 KDD 的最佳论文和后来 KDD 的最佳博士论文。很快这个工作吸引了大量关注, Jian Tang(原北大、微 软,现在 MILA)等人做了两阶扩展,斯坦福的 Jure Leskovec 做了面向社交网络 的“三阶”扩展 node2vec,后来清华也给出了一个理论证明,证明这些不同方法 人工智能之表示学习 10 本质上都在做一个矩阵分解,并基于此提出了一个 NetMF 的算法以及其适用于 大规模网络的实现 NetSMF。 ProNE 是另一个清华作品,其主要特点是高效和高 精度。该方法非常简单,本质上是在原来的表示学习上引入了一个类似卷积但又 不是卷积的操作,大大提高了精度。 最近的网络表示学习更多的是用卷积网络直接对图做,大方向是 Graph Neural Network,最早是 Siena 大学的 Marco 等人在 2005 和 2009 年提出的,但 当时没引起太大关注。后来 Yann Lecun 提出的 Graph Convolutional Networks, 还有 Kipf t2,w2; t,w), 其 中 t为词条项,可以为单词,也可以为词组 ; w为 t在文本 d 中的权值,一般定 义为 t在文本 d 中出现频率或频率的函数。将 t1, t2, t看成一个 m 维坐标系 中的坐标轴, w1, w2, , w为在坐标系中对应文本 d 的坐标 值 。这样,这些 正交词条向量就组成了一个文本向量空间, 每个文本都可映射为此向量空间的一 个向量: (d)=( t1,w1;t2,w2; t,w),简称 d(w1, w2, , w) 这样,就可以把文本信息的表示和匹配问题转化为向量空间中向量的表示和 匹配问题来处理 。 文本与向量空间的关系 描述 ,如 表 2 所示。 表 2 VSM 模型中文本与空间的映射表 43 文本视角 向量空间模型视角 文本 向量空间中的一个向量 单词或词组 向量的一个维 文本集合 分布在空间中的一组向量集 词的权重 向量的一个维度值 两文本之间的相似程度 空间中两个向量的夹角 当文本被表示成向量空间 模型时, 可以借助向量之问的某种距离来表示文本 之问的相似程度 ,目前常用的相似度计算公式有下面两种方法 : 1. 向量之间的内积 sim(1, 2)= w1 w2 =1 内积代数值越大,相似度越大。 2. 夹角的余弦值 sim(1, 2)=cos = w1w2 =1 ( 12=1 )( 22=1 ) 其中, w1,w2是向量 1, 2中的单词的权重。 夹角越小,余弦 值越大,相 似度越大,两个文本越相似,所以最常用的文本相似性度量 方法还是夹角的余弦 值。 VSM 的优点 43主要表现在 : 1. 将复杂的文本简单地表示为由特征项组成的多维空间中的一个向量, 人工智能之表示学习 16 这易于操作和计算。 2. 特征项权重的 引入 改善了布尔模型的缺陷。 3. 通过相似度函数的计算来匹配两个相似文本,使得属性相似的文本 尽可能地聚在一起,从而提高了匹配效率。 4. 对大规模的文本集合有较快的处理速度,能够保证许多应用中的时 间复杂性要求。 5. 不依赖于某个特定领域。 但是, VSM 也存在一 些 不足 : 1. 当文档数目比较大并且特征向量是高维的情况下相似度的计算会变 得相当大 43。 2. 向量空间模型的基本假设 是 特征词之间是相互独立的,这个假设在 实际中并非总是适合的,因为在自然语言中,词与词之间存有同义、近 义、从属等关系 43。 3. 对处理结果的可解释性较差 44。 4. 在当前大规模或超大规模真实文本环境中的算法有效性需要验证 44。 VSM 理论在文本信息处理中具有广泛适应性的应用基础。 自被提出 30 余年 来, 凭借着 简洁的形式化表示、有效的匹配算法设计以及较为满意的处理结果, 向量空间模型在文本信息处理领域中一直占据着非常重要的地位 , 并近乎 成为文 本处理领域的经典方法。 当前,典型的基于 VSM 理论的文本信息处理主要包括 以 下几个分支领域 :文本 检索 ( Text Retrieval) 、文本分类 ( Text Categorization/ Classification) 、文本过滤 ( Text Filtering) 、文本聚类 ( Text Clustering) 、文本 浏览与可视化 ( Text Browsing and Visualization) 等。 2.2.2 词袋模型 词袋 ( Bag of Words, BOW) 是用于描述文本的一个简单数学模型,也是常 用的一种文本特征提取方式。在信息检索中,词袋模型 ( Bag-of-Words Model) 假定一个文本 是若干个词汇的集合 。该文本中,每个词汇都是互不相关的 且 忽略 其次序和语 法 。词袋模型从文档的所有单词中提取特征单词,记录这些单词的数 人工智能之表示学习 17 量,并且用这些特征项矩阵建模。由此,将文本转换成数值形式,用于机器学习 算法训练 45。 一个文档的单词矩阵是一个记录出现在文档中的所有单词的次数。因此,一 份文档能被描述成各种单词权重的组合体。 通过设置条件,可以筛选出更有意义 的单词 , 还可以构建出现在文档中所有单词的频率直方图,这就是一个特征向量。 这个特征向量被用于文本分类 45。 每一样本都以特征向量集的形式与词袋模型相关联 。 记 为 X=x, |i=1, 2, , N; j=1, 2, , N表 示第 i 个样本对应的特征向量集,其中 x R表示第 i 个 样本的第 j 个特征向量, D 为特征向量的维数。 对于图像 样本而言,特征向量 可以是 SIFT 特征、 LBP 特征等,对于 文本样本,特征向量可以是词频特征,具 体要根据样本类内一致性和类间差异性来选择最优的特征向量。 N表示第 i 个样 本所提取的特征向量的数量 45。 经典词袋模型 使用其量化特征的固定长度直方图表 示每一个样本,其中每个 直方图 bin 都对应一个码字 。 在 硬分配中,每个特征被量化到其距离最近的码字, 而在 软分配中,计算每个特征对不同码字的权重。 为了学习码本, 对于 N 个样本 构成的特征向量集合 S=|i=1, 2, , N,首先要进行聚类运算,将特征向量 划分到不同的簇中 。假设簇的数量为 N,也即通过聚类运 算将 N 个特征向量集 划分到 N个簇中。 每一个簇都有一 个聚类中心,称为质心,对应的码字记为 (k= 1, 2, , )。由这样码字可以生成码本 V ,其中, 码本的列向 量是每一个簇的质心的特征向量集。 这些质心用于对特征向量进行量化。 通常只 对 s 的一个子集进行聚 类,这样可以减少训练时问, 而且对学习结果几乎没有影 响。还应该注意的是, 码本只需要学习一次,然后就可以用其对任何样本进行编 码 45。 为了对第 i 个样本进行编码,计算每个特征向量 和 每个码字 之间的相似 度,为 参数 g 用于控制量化过程,硬分配使用较小的值 (通常 取 g0.01)。 人工智能之表示学习 18 然后, 采用 L1 范数对相似度进行归一化,为 该向量描述了特征向量 与码字 之间的相似性。 最后, 统计第 i 个样本的特征向量集 中所有样本的 相似度,得到直方图特 征,为 这些直方图特征可以用于描述每个样本,进一步进行样本的检索。 需要注意, 经典词袋模型的训练和编码过程是无监督的,不需要标签数据。 2.2.3 主题模型 主题模型 ( Topic Model) 是 通过建模的方法,找出文字中隐含的主题 46。 它 是一种应用十分广泛的 生成式 模型 ( Generative Model) ,在 信息检索、 文本挖掘、 自然语言处理和机器学习中 都有广泛的应用 。 主题就是一个概念、 一 个方面。它表现为一系列相关的词语 ,而 与 这个主题 时常一起出现的词,则与这个主题具有较高的相似性 。主题模型大多是基于数学 方法进行计算的。 通常可以用概率的方法来计算 , 与主题词越为相关的词,往往 其概率值较大。 在主题模型的算法中, 最经典的 、最常用的 模型之一是 隐含狄利克雷分配 ( Latent Dirichlet Allocation, LDA) ,其 他 的 主题模型 大都充分利用了 LDA 的思 想去设计 。 LDA 模型是一种对离散数据集 ( 如文档集 ) 建模的概率增长 模 型,可以 对文 本数据的主题信息进行建模,另外,在保留文档本质统计信息的同时进行简短的 描述,有助于高效地处理大规模的文档集 46。 LDA 认为一个离散数据集合(如 文档集合 、 图片集合)是由隐含在数据集合背后的 主题集 生成的,这个 集 的每一 个 主题 都是词的 概率分布。 LDA 模型是典型的有向概率图模型,具有清晰的层次结构 , 包含词、主题、 文档三层,因此又被称为三层贝叶斯概率 模 型。其中,文档到主题服从 狄利克雷 人工智能之表示学习 19 分布,主题到词服从多项式分布。这样 , 每一篇文档由一些主题所构成的概率分 布组成 , 而每一个主题又由很多单词所构成的概率分布组成 46。此外, LDA 模 型中是 基于词袋假设的,也就是在模型中不考虑词汇出现的顺序而只是考虑它们 出现的次数 46。 在应用的过程中, 传统的 LDA 模型可能存在强 制 分配隐含 主 题的 问 题,另 外 , 由 于 自动分配 隐含主题,可能会造成主题 模型 密度过于稀疏的问题 。由此, Ramage 等人 于 2009 年提出 了 Labeled-LDA( Labeled Latent Dirichlet Allocation) 模型 。 Labeled-LDA 模型 是一个有监督的机器学习技术, 所要刻画的文档集合的 结构是 : 文档集合中的所有文档被按类别划分,每一类又讨论若干个隐含主题。 这样, Labeled-LDA 模型比标准 的 LDA 模型多了一层,即文档类别层 ,而 主题 是在模型训练初期给定的。 主题模型 可以分为四大类: ( 1) 无监督的、无层 次结构的 主题模型 ; ( 2) 无监督的、层次结构的 主题模型 ; ( 3) 有监督的、无层次结构的 主题模型 ; ( 4) 有监督的、层次结构的 主题模型 。 如 表 3 所示。 表 3 主题模型的四个类别 类别 对应模型 无监督的、无层次结构 PLSA, LDA, Correlated Topic Model, PAM, Concept Topic Model 等 无监督的、 有 层次结构 HLDA, HDP, HPAM 等 有监督的、无层次结构 S-LDA, Disc-LDA, MM-LDA, Author-Model, Labeled LDA, PLDA 等 有监督的、 有 层次结构 hLLDA, HSLDA 等 2.2.4 独热表示与分布式表示 独热表示 ( One-Hot Representation)是 把文本的单词作为基本单位进行编码, 编码后的向量中只有数字 0 和 1,且其中只有一个维度是 1,而其位置即表示这 个单词在词汇表里的位置,其他维度的值都是 0。独热表示 存在 两大问题:一是 独热表示的向量为稀疏表示,词汇表的大小决定了向量的维度大小,而当词汇表 里单词很多时,向量的维度就会很大;且其表示能力弱, N 维度 大小的向量仅能 表示 N 个单词。 二 是不同单词使用独热表示得到的向量之间是相互独立的,不 能表示一个单词与另一个单词的语义相似度 47。 人工智能之表示学习 20 分布式表示( Distributed Representation)的概念最早由 Hinton 等人 48为了 区 别 于独热表示而提出

注意事项

本文(人工智能之表示学习.pdf)为本站会员(幸福)主动上传,报告吧仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知报告吧(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642号


收起
展开