当前位置: 首页 精选范文 社交媒体文本分析

社交媒体文本分析范文

发布时间:2023-09-22 10:38:36

导语:想要提升您的写作水平,创作出令人难忘的文章?我们精心为您整理的5篇社交媒体文本分析范例,将为您的写作提供有力的支持和灵感!

社交媒体文本分析

篇1

1 背景

21 世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于 Hadoop 的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。

2 中文微博数据分析逻辑

微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。

但实际上,粉丝自身的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。

如图 1,显示了整个营销分析流程的逻辑。从客户微博开始,到商家向用户商品目录和优惠信息,整个流程分为五个步骤:

(1)客户微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。

(2)获取商家的粉丝。

(3)将用户的微博进行语义分析,基于 Hadoop 的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。

(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。

(5)消费者使用消费券或根据打折信息购买相关产品。

3 方案架构

整个系统架构,如图 2 所示,主要由文本分析系统、DB2 BLU 数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入 DB2 BLU 数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用 DB2 BLU 与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。

如图3所示,为基于 Hadoop 平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的 ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用 JAQL 来拼接“原始标签”与分词后的标签,一起构成客户肖像表。

本文用于存储客户肖像的为 DB2 BLU Acceleration。BLU Acceleration 的架构如图4所示。

使用 DB2 BLU 具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。

4 结束语

本文介绍了基于大数据的中文舆情分析系统,采用基于 Hadoop 平台的文本分析,以及 IBM Cognos无缝集成DB2 BLU 加速器的优化分析能力,提供快速的查询和分析功能。整个系统针对互联网大量的数据进行处理、文本分析,经过分析为客户定制肖像,商家可以根据肖像来向客户推送客户需要的优惠信息。经过样本数据测试,推送给用户的信息,与用户的自然标签(用户自己为自己设定的)对应性很高。在实时性、大量重复词汇的处理上面,由于中文语义分析的局限性,还有待优化和提高。

参考文献

[1]张艺帆,王永,郭辉.基于大数据的中文舆情分析[C].IBM debeloperWorks技术主题,2014.

篇2

在针对金融学领域进行实证研究时,传统研究方法通常选择结构化数据作为研究依据,常见类型如股票市场数据、财务报表等。大数据技术发展后,计算机技术逐渐成熟,在实证研究中可获取更加多样化的数据,非结构化文本大数据得到应用,例如:P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。

1.在金融学研究中文本大数据的挖掘方法

传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。

1.1获取语料

获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。

1.2预处理环节

获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。

1.3文档表示环节

文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。

1.4抽取文本特征的方法

文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。

2.文本大数据分析

大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。

篇3

"这个研究项目让我们清楚地捕捉到了中国社交媒体用户的行为和态度,"凯度公司传播总监曼迪·浦乐表示。"我们发现了中国社交媒体用户的特别之处。

该研究也让我们建立起了很好的参照系,能比较中国和其它国家的情况。同时我们也有机会把将来的数据与今年的作对比,以观察中国社交媒体环境的变迁。

核心数据67.2%"调节心情,缓解压力" 48.3%"让生活更便捷,更高效"有12,221名实名注册用户参与了该报告的网上调研部分。其中76.8%的用户表示社交媒体对他们生活的影响是正面的,16.5%认为中性,只有6.7%的被访者认为社交媒体让生活变坏了。

就正面影响而言,人们认为社交媒体可以"调节心情,缓解现实生活中的压力"(67.2%)和"让我的生活更便捷,更高效"(48.3%)。而在负面影响方面,人们担心的有"对纸质书籍的阅读少了"(52.8%)和"个人信息安全,隐私缺乏保障"(39.1%)。

虚拟社会的联系看起来还没有严重影响真实生活中的关系,因为仅30.8%的受访者认为社交媒体"降低现实中人际交往的质量"。"我们可以看到人们把社交媒体作为`晒幸福’的渠道,比如美食、美景、萌宝宝。

中国人还利用社交媒体调侃不如意的事情或是坏现象。他们认为社交媒体是用来排遣生活中压力的有效工具,"央视市场研究股份有限公司(CTR)媒介与消费行为研究的研究总经理沈颖评论道。

"然而,我们也注意到人们开始关注隐私和社交媒体对现实生活中关系的负面影响。我想以后我们会听到更多的此类担心,而社交媒体的负面影响将更多地显现出来。

"沈颖的团队执行了该调查的网上调研部分。网上调研也调查了微信和微博的使用情况。

受访者认为微博是个"公开社交"渠道,在"公开互动"方面领先于微信(40.2%对25.3%),而微信则是个"私密社交"渠道,更多地用来与同学、朋友和同事沟通(76.3%对69.6%)。该报告还分析了5.3万名中国城市居民的连续性调查结果,得出了中国社交媒体用户的特征。

在80后90后人群中社交媒体的渗透率高于城市居民的平均值。社交媒体用户中48.6%的人单身,而城市居民总体中只有29.5%的人是单身。

尽管社交媒体用户喜欢追逐最新的时尚和科技潮流,但他们同时也有很多精神层面的需求。他们中同意"我有信仰"的人和"我对其它文化有兴趣"的比例都高于城市居民整体平均。

为了解年轻一代的社交媒体用户,该报告对8000名80后90后新浪微博用户的300万条微博进行了语义分析。两个人群在微博上都表现出了压倒性的正面情绪,其中80后(76%)稍稍高于90后(72%)。

"拥有6亿用户的社交平台反映和定义了什么是中国当下最热门的话题,同时也提供了最佳的了解中国消费者的机会。我们的研究利用了CIC自有技术分析了80后90后用户发表的300万微博内容,"CIC的创始人和CEO费嘉明评论道。

篇4

QQ圈子引发的新型社交网络服务迅速引发网民的广泛关注,微博上网友议论纷纷,而截至目前,短短几天时间,参与QQ圈子内测的人数更是迅速突破50万。微博平台上与QQ圈子相关的微博话题也对此给予高度期许,我们摘录了其中的十大热门微博,方便大家进一步了解业界观点。

TOP1:热腾:QQ圈子打破社交顿巴数魔咒

【QQ圈子颠覆了什么?】一石激起千层浪,QQ圈子至少颠覆了三件事:1、社交的顿巴数魔咒,让好友关系扩充到千人;2、通常保持紧密关系的只有30~50人,圈子可以有效扩充相对紧密的好友层;3、生活地点流动造成好友流失,借助圈子保持粘度。

TOP2:迮钧权-互联网分析师:QQ圈子借助好友关系链使弱关系变成强关系

姜奇平认为,未来在本质上是湿的,人们在组织之外凭借魅力、感情、缘分、兴趣相互吸引组合,成组通讯的社会性软件(电邮、博客、IM、微博等)是人人联结的工具。工具的进步将加强这种联系,QQ圈子借助好友关系链使弱关系变成强关系,极大地提升了圈子湿度。

TOP3:互联网那点事:QQ圈子改变社交沟通方式

QQ圈子测试用户已经超40万并刚更新了产品,相比前几天,QQ圈子模糊了分类及命名,强调了用户真实姓名的来源于本圈多数好友对用户的备注。会借助腾讯可能QQ圈改变社交的沟通方式。

TOP4:互联网的一些事:QQ圈子勇于创新

如果没有勇于创新的精神,也就不会出现Facebook、Google,更不会有iPhone。QQ圈子尝试对互联网、对社交进行重新定义,何不多给点时间观察下?果断抛弃螃蟹思维,为QQ圈子的勇气叫好。

TOP5:康斯坦丁:QQ圈子敏捷优化功能,火爆体验破33万

QQ圈子神速改进,腾讯果然视用户为上帝呀!相比前几天,QQ圈子模糊了分类及命名,强调了用户真实姓名的来源(来自于本圈多数好友对用户的备注)。测试用户超33万,这产品真不是盖的!

TOP6:金错刀:QQ圈子:"强社交关系"管理

【QQ圈子因何霸气侧露?】坊间都在传QQ圈子逆天了,屌爆了:1.真正的杀手级是人脉拓展,以及智能备注。腾讯在"强关系"上又迈进了战略性的一步。2.对于隐私暴露什么的有点妖魔化,它是把空间、微博、好友等进行了整合,是真实关系拓展利器。3.牵涉隐私的是备注,圈里好友大多叫我XXX,这个应升级调整。

TOP7:叶开:QQ圈子:社会化网络信任模型

社会化网络的信任模型则要基于关系和互动的信任程度进行分级,比如互动类型、时间、频率、内容、评价和情绪。进一步,对内容的文本分析和情绪的定量分析实现分级。而这个时候,很是羡慕QQ圈子的数据强大性了,不是么?

TOP8:上海商报:QQ圈子有效扩大用户社交圈

QQ圈子在有效扩大用户社交圈的同时,带来“一加一减”两个效应,展示出更为智能高效的社交平台潜力。加法,不是简单的累加,而是信任的迭加和递延。减法,则是大大缩短了传统人际关系链,让用户可以更为快捷高效接触到潜在好友。

TOP9:小刀马:QQ圈子:全新的社交网络

QQ圈子不单是一个技术型的产品,它的价值观和理念突破人类几千年的社交文化。QQ圈子所产生的全新社交网络,将给它的使用者带来不可想象的、丰富的社会机会和作用力。

TOP10:翟菲菲:QQ圈子:创新智能社交平台

篇5

微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP,之所以现有的文本挖掘技术不够用,首先是因为目前技术尚处于研究阶段,精准度不够;其次是因为技术的灵活性不足,很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路,他们将文本挖掘技术与可视化这种交互技术结合在一起,不仅突破了传统静态文本挖掘技术的限制,而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上,TextFlow论文的引发了业内人士的关注。有评委表示,“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念,这是分析主题演化时面临的最大挑战之一,从文本挖掘和可视化两个角度来说都意义非凡。”

有趣的是,他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例,将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合,通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表,其结论令人信服。例如,整体上看,过去10年间Vis相关主题有日渐式微的趋势,2006年之后各个主题独立发展;InfoVis与之相反,整体的趋势是上升的,主题之间的合并和分割非常多,说明该领域的研究更活跃。

他们是如何做到的呢?崔为炜向我们解释了文本可视分析的步骤(如上图所示)。首先,主要由机器来完成海量文本的收集和预处理工作。然后,利用自然语言分析中的概率模型HDP(Hierarchical Dirichlet Process)计算出文本所属的主题(topic)。这里假设每个主题都是由一组关键词来描述的,关键词以不同的概率出现在不同的主题中,每篇文章自然也会以一定的概率属于不同的主题(注:传统聚类方法会认为每个文本只属于一个主题)。刘世霞强调,HDP模型的优势是可以自动确定文本中的主题数量,但是它只能计算出一组静态文本数据的主题,无法进一步找出主题之间的关系。2010年的时候,他们成功改进了HDP模型,将这个语言模型扩展到能处理动态的文本数据流。简单地说,就是跟踪比较T1和T2两个时刻文本内容的变化情况,由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果,计算出其中的关键事件和关键词,从而更好地展示事件发展的来龙去脉。

在谈到TextFlow模型对于主题合并和分割判断的准确率时,刘世霞表示目前还没有一个固定的样本集可供测试,但把多个领域的分析结果拿给相关领域专家查看时,他们都认为结果比较准确,可以达到满足应用的水平。另外,我们还了解到TextFlow模型的主要算法本身与语言是无关的,中文与英文的区别主要在于海量文本预处理阶段的分词技术,这方面已经有成熟的技术可以完成。

William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事,非常关注微软亚洲研究院在文本可视分析方面所做的工作,他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析,并称“这项成果令人刮目相看”。在扑面而来的大数据时代,相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放,也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来,所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代,谁能把握住信息的脉搏,谁就能更好地把握住时代的脉搏。

文章开头虚构的面试题,大家找到答案了吗?

声音

我们应该把文本挖掘技术和可视化这种交互技术结合在一起,让人去做人擅长的事情,机器去做机器擅长的事情。机器擅长做什么呢?机器比较擅长去存储,做大数据量的运算,而人有分析的能力。因此,我们的工作主要就是把人的智能和机器的计算能力结合在一起。

——刘世霞

微软亚洲研究院网络图形组主管研究员

友情链接