发布时间:2023-09-22 10:38:36
导语:想要提升您的写作水平,创作出令人难忘的文章?我们精心为您整理的13篇社交媒体文本分析范例,将为您的写作提供有力的支持和灵感!
1 背景
21 世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于 Hadoop 的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。
2 中文微博数据分析逻辑
微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。
但实际上,粉丝自身的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。
如图 1,显示了整个营销分析流程的逻辑。从客户微博开始,到商家向用户商品目录和优惠信息,整个流程分为五个步骤:
(1)客户微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。
(2)获取商家的粉丝。
(3)将用户的微博进行语义分析,基于 Hadoop 的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。
(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。
(5)消费者使用消费券或根据打折信息购买相关产品。
3 方案架构
整个系统架构,如图 2 所示,主要由文本分析系统、DB2 BLU 数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入 DB2 BLU 数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用 DB2 BLU 与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。
如图3所示,为基于 Hadoop 平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的 ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用 JAQL 来拼接“原始标签”与分词后的标签,一起构成客户肖像表。
本文用于存储客户肖像的为 DB2 BLU Acceleration。BLU Acceleration 的架构如图4所示。
使用 DB2 BLU 具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。
4 结束语
本文介绍了基于大数据的中文舆情分析系统,采用基于 Hadoop 平台的文本分析,以及 IBM Cognos无缝集成DB2 BLU 加速器的优化分析能力,提供快速的查询和分析功能。整个系统针对互联网大量的数据进行处理、文本分析,经过分析为客户定制肖像,商家可以根据肖像来向客户推送客户需要的优惠信息。经过样本数据测试,推送给用户的信息,与用户的自然标签(用户自己为自己设定的)对应性很高。在实时性、大量重复词汇的处理上面,由于中文语义分析的局限性,还有待优化和提高。
参考文献
[1]张艺帆,王永,郭辉.基于大数据的中文舆情分析[C].IBM debeloperWorks技术主题,2014.
在针对金融学领域进行实证研究时,传统研究方法通常选择结构化数据作为研究依据,常见类型如股票市场数据、财务报表等。大数据技术发展后,计算机技术逐渐成熟,在实证研究中可获取更加多样化的数据,非结构化文本大数据得到应用,例如:P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。
1.在金融学研究中文本大数据的挖掘方法
传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。
1.1获取语料
获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。
1.2预处理环节
获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。
1.3文档表示环节
文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。
1.4抽取文本特征的方法
文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。
2.文本大数据分析
大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。
"这个研究项目让我们清楚地捕捉到了中国社交媒体用户的行为和态度,"凯度公司传播总监曼迪·浦乐表示。"我们发现了中国社交媒体用户的特别之处。
该研究也让我们建立起了很好的参照系,能比较中国和其它国家的情况。同时我们也有机会把将来的数据与今年的作对比,以观察中国社交媒体环境的变迁。
核心数据67.2%"调节心情,缓解压力" 48.3%"让生活更便捷,更高效"有12,221名实名注册用户参与了该报告的网上调研部分。其中76.8%的用户表示社交媒体对他们生活的影响是正面的,16.5%认为中性,只有6.7%的被访者认为社交媒体让生活变坏了。
就正面影响而言,人们认为社交媒体可以"调节心情,缓解现实生活中的压力"(67.2%)和"让我的生活更便捷,更高效"(48.3%)。而在负面影响方面,人们担心的有"对纸质书籍的阅读少了"(52.8%)和"个人信息安全,隐私缺乏保障"(39.1%)。
虚拟社会的联系看起来还没有严重影响真实生活中的关系,因为仅30.8%的受访者认为社交媒体"降低现实中人际交往的质量"。"我们可以看到人们把社交媒体作为`晒幸福’的渠道,比如美食、美景、萌宝宝。
中国人还利用社交媒体调侃不如意的事情或是坏现象。他们认为社交媒体是用来排遣生活中压力的有效工具,"央视市场研究股份有限公司(CTR)媒介与消费行为研究的研究总经理沈颖评论道。
"然而,我们也注意到人们开始关注隐私和社交媒体对现实生活中关系的负面影响。我想以后我们会听到更多的此类担心,而社交媒体的负面影响将更多地显现出来。
"沈颖的团队执行了该调查的网上调研部分。网上调研也调查了微信和微博的使用情况。
受访者认为微博是个"公开社交"渠道,在"公开互动"方面领先于微信(40.2%对25.3%),而微信则是个"私密社交"渠道,更多地用来与同学、朋友和同事沟通(76.3%对69.6%)。该报告还分析了5.3万名中国城市居民的连续性调查结果,得出了中国社交媒体用户的特征。
在80后90后人群中社交媒体的渗透率高于城市居民的平均值。社交媒体用户中48.6%的人单身,而城市居民总体中只有29.5%的人是单身。
尽管社交媒体用户喜欢追逐最新的时尚和科技潮流,但他们同时也有很多精神层面的需求。他们中同意"我有信仰"的人和"我对其它文化有兴趣"的比例都高于城市居民整体平均。
为了解年轻一代的社交媒体用户,该报告对8000名80后90后新浪微博用户的300万条微博进行了语义分析。两个人群在微博上都表现出了压倒性的正面情绪,其中80后(76%)稍稍高于90后(72%)。
"拥有6亿用户的社交平台反映和定义了什么是中国当下最热门的话题,同时也提供了最佳的了解中国消费者的机会。我们的研究利用了CIC自有技术分析了80后90后用户发表的300万微博内容,"CIC的创始人和CEO费嘉明评论道。
QQ圈子引发的新型社交网络服务迅速引发网民的广泛关注,微博上网友议论纷纷,而截至目前,短短几天时间,参与QQ圈子内测的人数更是迅速突破50万。微博平台上与QQ圈子相关的微博话题也对此给予高度期许,我们摘录了其中的十大热门微博,方便大家进一步了解业界观点。
TOP1:热腾:QQ圈子打破社交顿巴数魔咒
【QQ圈子颠覆了什么?】一石激起千层浪,QQ圈子至少颠覆了三件事:1、社交的顿巴数魔咒,让好友关系扩充到千人;2、通常保持紧密关系的只有30~50人,圈子可以有效扩充相对紧密的好友层;3、生活地点流动造成好友流失,借助圈子保持粘度。
TOP2:迮钧权-互联网分析师:QQ圈子借助好友关系链使弱关系变成强关系
姜奇平认为,未来在本质上是湿的,人们在组织之外凭借魅力、感情、缘分、兴趣相互吸引组合,成组通讯的社会性软件(电邮、博客、IM、微博等)是人人联结的工具。工具的进步将加强这种联系,QQ圈子借助好友关系链使弱关系变成强关系,极大地提升了圈子湿度。
TOP3:互联网那点事:QQ圈子改变社交沟通方式
QQ圈子测试用户已经超40万并刚更新了产品,相比前几天,QQ圈子模糊了分类及命名,强调了用户真实姓名的来源于本圈多数好友对用户的备注。会借助腾讯可能QQ圈改变社交的沟通方式。
TOP4:互联网的一些事:QQ圈子勇于创新
如果没有勇于创新的精神,也就不会出现Facebook、Google,更不会有iPhone。QQ圈子尝试对互联网、对社交进行重新定义,何不多给点时间观察下?果断抛弃螃蟹思维,为QQ圈子的勇气叫好。
TOP5:康斯坦丁:QQ圈子敏捷优化功能,火爆体验破33万
QQ圈子神速改进,腾讯果然视用户为上帝呀!相比前几天,QQ圈子模糊了分类及命名,强调了用户真实姓名的来源(来自于本圈多数好友对用户的备注)。测试用户超33万,这产品真不是盖的!
TOP6:金错刀:QQ圈子:"强社交关系"管理
【QQ圈子因何霸气侧露?】坊间都在传QQ圈子逆天了,屌爆了:1.真正的杀手级是人脉拓展,以及智能备注。腾讯在"强关系"上又迈进了战略性的一步。2.对于隐私暴露什么的有点妖魔化,它是把空间、微博、好友等进行了整合,是真实关系拓展利器。3.牵涉隐私的是备注,圈里好友大多叫我XXX,这个应升级调整。
TOP7:叶开:QQ圈子:社会化网络信任模型
社会化网络的信任模型则要基于关系和互动的信任程度进行分级,比如互动类型、时间、频率、内容、评价和情绪。进一步,对内容的文本分析和情绪的定量分析实现分级。而这个时候,很是羡慕QQ圈子的数据强大性了,不是么?
TOP8:上海商报:QQ圈子有效扩大用户社交圈
QQ圈子在有效扩大用户社交圈的同时,带来“一加一减”两个效应,展示出更为智能高效的社交平台潜力。加法,不是简单的累加,而是信任的迭加和递延。减法,则是大大缩短了传统人际关系链,让用户可以更为快捷高效接触到潜在好友。
TOP9:小刀马:QQ圈子:全新的社交网络
QQ圈子不单是一个技术型的产品,它的价值观和理念突破人类几千年的社交文化。QQ圈子所产生的全新社交网络,将给它的使用者带来不可想象的、丰富的社会机会和作用力。
TOP10:翟菲菲:QQ圈子:创新智能社交平台
微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP,之所以现有的文本挖掘技术不够用,首先是因为目前技术尚处于研究阶段,精准度不够;其次是因为技术的灵活性不足,很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路,他们将文本挖掘技术与可视化这种交互技术结合在一起,不仅突破了传统静态文本挖掘技术的限制,而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上,TextFlow论文的引发了业内人士的关注。有评委表示,“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念,这是分析主题演化时面临的最大挑战之一,从文本挖掘和可视化两个角度来说都意义非凡。”
有趣的是,他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例,将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合,通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表,其结论令人信服。例如,整体上看,过去10年间Vis相关主题有日渐式微的趋势,2006年之后各个主题独立发展;InfoVis与之相反,整体的趋势是上升的,主题之间的合并和分割非常多,说明该领域的研究更活跃。
他们是如何做到的呢?崔为炜向我们解释了文本可视分析的步骤(如上图所示)。首先,主要由机器来完成海量文本的收集和预处理工作。然后,利用自然语言分析中的概率模型HDP(Hierarchical Dirichlet Process)计算出文本所属的主题(topic)。这里假设每个主题都是由一组关键词来描述的,关键词以不同的概率出现在不同的主题中,每篇文章自然也会以一定的概率属于不同的主题(注:传统聚类方法会认为每个文本只属于一个主题)。刘世霞强调,HDP模型的优势是可以自动确定文本中的主题数量,但是它只能计算出一组静态文本数据的主题,无法进一步找出主题之间的关系。2010年的时候,他们成功改进了HDP模型,将这个语言模型扩展到能处理动态的文本数据流。简单地说,就是跟踪比较T1和T2两个时刻文本内容的变化情况,由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果,计算出其中的关键事件和关键词,从而更好地展示事件发展的来龙去脉。
在谈到TextFlow模型对于主题合并和分割判断的准确率时,刘世霞表示目前还没有一个固定的样本集可供测试,但把多个领域的分析结果拿给相关领域专家查看时,他们都认为结果比较准确,可以达到满足应用的水平。另外,我们还了解到TextFlow模型的主要算法本身与语言是无关的,中文与英文的区别主要在于海量文本预处理阶段的分词技术,这方面已经有成熟的技术可以完成。
William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事,非常关注微软亚洲研究院在文本可视分析方面所做的工作,他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析,并称“这项成果令人刮目相看”。在扑面而来的大数据时代,相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放,也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来,所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代,谁能把握住信息的脉搏,谁就能更好地把握住时代的脉搏。
文章开头虚构的面试题,大家找到答案了吗?
声音
我们应该把文本挖掘技术和可视化这种交互技术结合在一起,让人去做人擅长的事情,机器去做机器擅长的事情。机器擅长做什么呢?机器比较擅长去存储,做大数据量的运算,而人有分析的能力。因此,我们的工作主要就是把人的智能和机器的计算能力结合在一起。
——刘世霞
微软亚洲研究院网络图形组主管研究员
《大数据时代》翻译、电子科技大学互联网科学中心主任周涛分析道,目前大数据有3个趋势:数据量变大,数据形态多样化,数据关联性增强。伴随这3大趋势,整个产业形态会发生变化。
数联铭品总裁曾途对大数据时代化妆品企业的评估演变进行了剖析。他指出,目前国内化妆品行业在数据使用上充满矛盾,一方面追寻渠道数、销售额、利润率等数据,但另一方面,咨询、公关公司数据有效性低,缺乏数据基础,决策所需信息获取困难。
“大数据是理解市场的符号。”曾途分析道。通过培养大数据理念与思维,建立大数据管理和应用平台,同时进行外部数据战略储备等行为来布局大数据。
以传统数据调查为例,通过收集和挖掘大量微博等社交媒体数据和电子商务数据,大数据可以获得总体数据,而非样本数据,同时通过用户行为总结用户特征,能超越因果分析,实现相关关联分析。
如何建立外部数据战略储备?曾途表示,可以运用高价值数据,如社交媒体数据(用户网络使用习惯研究、用户社交关系研究、用户情感及产品诉求分析)、网站论坛数据(市场动态监测、竞争对手监测、商业机会发现)、电子商务数据(用户消费数据研究、用户浏览行为研究、用户评论数据挖掘)、移动终端数据(用户移动终端使用习惯分析、用户活跃区域分析、用户接触媒体分析)。
曾途分别通过“美宝莲BB霜”美誉度分析、“玛丽黛佳睫毛膏”二次购买率分析、“相宜本草”互联网广告监测等3个案例,分析了高价值数据的实际应用(见表1、表2、表3)。
事实上,大数据并非新生事物,也不是新概念。然而,随着大数据的火热,却让不少人直呼“雾里看花”。正是在这样的背景下,此次研讨会旨在通过沟通交流,了解企业的实际需求,找到大数据如何与实际运用相关联,从而推动本土化妆品企业的发展和行业进步。
现场提问:
蓓体施黛总经理戚勇:大数据的服务方向是什么?
中图分类号:F830.91 文献标识码:A 文章编号:2096-0298(2016)05(a)-072-02
金融市场上传统的信息来源主要有历史股价、财务报表等。Web2.0时代的到来使网络用户同时充当着信息的者。行为金融学认为,金融市场参与者的心理状态会影响其自身和其他参与者的行为。因而对每个参与者来说,各种用户生成的内容构成了大数据时代的信息来源,这些海量信息需要通过情感分析技术进行处理。该技术将信息进行归类,进而用于研究市场或投资者的反映。金融文本情感分析在国外研究时间较长,方法较为成熟,成果颇为丰富。本文对这些研究进行梳理,并提出未来研究的展望。
1金融文本情感分析中的信息来源
金融文本依据其来源主要分为三大类:公司的公开披露、媒体的相关报道和社交网络的公众舆论。公开披露文件的语言风格蕴含管理者对公司目前业绩和未来发展的态度,因而成为财务报表的重要补充。Hagenau等(2013)从DGAP网站上选取了超过50个词的公司披露,内容包括财务报告、对外合作等。Loughran和McDonald(2013)、McKayPrice等(2012)分别对美国S-1表、季度收益电话会议进行情感分析。媒体报道文章包括新闻报道和专业分析报告,可用于市场、行业或公司分析。Smales(2014)利用对道琼斯有线新闻和华尔街日报上新闻文章的情感分析,研究波动性指数。Khadjeh等(2015)仅采用文章标题作为待分析文本。Twedt和Rees(2012)对美国1404家公司的财务分析报告进行文本情感分析。Web2.0时代,社会化媒体成为人们的沟通平台。它也为行为经济学者的研究提供了素材。Bollen等(2011)对推特进行文本分析,得到公众情感测度。Yu等(2013)分别针对谷歌博客以及推特文本信息进行情感分析,并分析了媒体间的相互影响。
2金融文本情感分析中的文本表示
文本表示最常用的方法是空间向量模型(VSM),该模型的核心是特征项的选取、降维和表示。从文本中抽取能够代表其情感倾向的部分,即特征选取。最常用的是词袋模型。依据词性的提取包括名词(Schumaker等,2012)、形容词(Fortuny等,2014)和动词(Li和Huang等,2014)。还有在此基础上形成的n-grams方法(Groth等,2014)。特征项的降维用于保持算法的有效性。比较常用的方法有限定最低词频以及词典或本体的运用。由于前者理解的片面性,词典的运用较为普遍。一般的词典有WordNet和GI等,金融领域的词典包括L&M(2011)和Henry(2008)。将特征项转化为数值的过程称为特征表示。最基本的方法是二进制(Schumaker,2012)。普遍使用的方法有IG、CHI和TF-IDF。目前使用最广泛的是TF-IDF(Hagenau等,2013),它考虑到了文本长度对于词频的影响。
3金融文本情感分析中的模型构建
3.1机器学习算法
机器学习是专门研究计算机如何模拟和实现人类的学习行为。它分为算法设计和分类效果评价两个方面。目前使用最多的算法——支持向量机(SVM)是典型的两类分类器。Khadjeh等(2015)将其应用于STLP预测模型中。在其基础上扩展出的支持向量回归(SVR)模型还能够给出具体输出值。Li和Huang等(2014)分别以新闻情感和股价作为两个子核,进而构成混合核函数加入SVR模型。其他一些常用的算法包括决策树和朴素贝叶斯。Khadjeh等(2015)分别用支持向量机、K近邻和朴素贝叶斯算法进行相同实验并进行了比较。机器学习算法的评价机制,也就是度量模型好坏的标准。常用的标准包括F1和准确率。Fortuny等(2014)还引入AUC值,其越大,表示分类器性能越好。
3.2回归模型
3.2.1线性回归研究文本信息与金融指标时间序列之间关系的最常用方法是线性回归模型。基于不同的研究目的,被解释变量的选取也不尽相同,包括股指变动(Bollen等,2011),IPO首日收益率(L&M,2013)等。Fama和French于1993年提出了三因子模型(FF3)来解释股票回报率,成为金融学资产定价的经典模型。它认为影响股票定价的三个因素分别为市场风险因子、公司规模因子和公司价值(账面市值比)因子。Carhart(1995)在其基础上加入动量因素MOM,扩展成四因素模型,成为Smales(2014)研究中的回归模型。3.2.2向量自回归VAR模型多用于变量间存在自相关或交叉相关的情形。其回归方程为:(1)其中,Zt是所有内生变量组成的行向量,包括(1)式中的金融指标Y和情感维度S,X同样为控制变量。Hautsch(2011)构造6维VAR模型研究新闻情感与股市的关联。3.2.3逻辑回归Logistic或probit回归要求被解释变量是二值变量(取值为0或1),用最大似然函数来估计,常用于检验文本情感是否能够预测或识别特定事件的发生。回归形式为:(2)Loughran和McDonald(2013)分别加入行业和年份虚拟变量进行逻辑回归,检验S-1表不同维度的情感词词频与IPO被撤回几率的关系。Hautsch(2011)建立了probit模型对市场指标是否为0进行估计。
一 非结构化数据处理流程
非结构化处理流程主要以网页处理为例来阐述,包括三个阶段,分别是信息采集、网页预处理和网页分类。
信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程;网页预处理主要是进行一些数据清洗的工作,保证分类质量;网页分类工作则是通过数据挖掘算法训练出来的分类模型,对分类数据进行分类提炼,得出有价值的信息。
信息采集
信息采集面对的是特定的专业人群,其采集的信息只限定于特定的主题和相关的领域,出于对性能和成本的考虑其不必也不可能对整个互联网进行遍历,因此主题信息采集中通常需要研究以何种方式预测链接指向的页面与主题的相关性,并判断其是否值得访问;需要研究以何种爬行策略访问Web,以在尽可能多地采集到主题相关页面的同时尽可能少地采集到主题无关的页面。
信息采集的基本方法是通过预先设定的种子链接集,利用HTrP协议访问并下载页面,在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接,预测链接指向主题相关页面的可能性,再以各种不同的爬行策略循环迭代地访问网页。
信息采集根据基于主题的不同可分为以下两类:一类是基于内容的主题信息采集:它需要建立一个针对主题的词表。另一类是基于超链接的主题信息采集:它是基于网页之间的引用关系,类似Page rank算法。
网页预处理
网页预处理部分本文主要介绍一下网页去重,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。
网页去重需要先对文档对象的特征抽取,需要将文档内容分解,由若干组成文档的特征集合表示,该步骤主要是为了方便特征比较计算相似度。之后需要针对特征的压缩编码,主要通过哈希编码等文本向数字串映射方式以方便后续的特征存储以及特征比较,起到减少存储空间,加快比较速度的作用。最后需要进行文档的相似度计算,这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页提取一个信息特征,通常是一组词,或者是词加权重,调用特定的算法,转化为一组代码,也被称为指纹。若两个页面有相当数量的相同指纹,那么可以认为这两个页面内容重复性很高。
网页分类
分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确地分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等等。
网页分类方法有SVM分类方法和朴素贝叶斯方法:其中比较推荐的是SVM分类方法,Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(SupportVector Machine,简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。
典型的SVM分类有两种,一种是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;另一种是基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
典型的朴素贝叶斯分类,它可以分为模型训练、模型分类和分类结果评估三个阶段:模型训练阶段,主要计算训练集下所有类别的先验概率,以及所有特征词在每一个类别下的条件概率;模型分类阶段,对训练集建立模型;对每个待分类文档计算后验概率,后验概率大的类别为文档所属类;分类结果评估阶段:对分类结果进行抽样、人工检验。分别计算出每个类别分类的查准率和查全率,通过F―度量公式评估模型准确度。
二 自然语言处理的典型方法与应用
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
自然语言处理部分主要以舆情分析为例,舆情分析系统的数据来源有三个渠道,一是网络上公开的信息,如各大交易所每日评论,社交网络各方观点和财经门户网站。二是从合作方获取的信息,如交易信息等。三是微博、人人网等社交网络信息。
网页信息摘要
网页信息摘要需要将同一主题下的多个文本描述的主要信息,按压缩比提炼出一个文本的自然语言处理技术。对于互联网上海量的期货分析报道,如果能从中提炼出一个覆盖性强、形式简洁的摘要将具有重要的意义。
如何收集企业的战略信息?面对海量信息,一个研究员需要花费4个小时阅读相关信息。借助语义引擎,把50篇文献缩略成10余条概要,面对概要信息,一个研究员需要花费3分钟阅读相关信息,并形成思考。借助文字情绪引擎,把概要内容指数化、知识化,面对指数信息,一个研究员需要花费2秒钟阅读相关信息,并获得决策支持所需的知识。
热点事件预测
热点事件的发现与预测的算法有很多,最行之有效的方法是做大规模的逻辑回归。在大数据的背景下,我们拿到的数据是全量并非抽样,这使得类似逻辑回归等简单算法起到事半功倍的效果。通过历史事件传播数据,提取向量,并做逻辑回归出规则,就可以做很多预测。例如美国大选,疾病传播,甚至预测死亡。
维克托・迈尔-舍恩伯格写的《大数据时代》一书中就有这么几个关于热点事件预测的案例:
案例一:华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。他的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。这一招收效显著――当年第一季度,霍延的公司获得了7%的收益率。
案例二:美国一个超市将女性顾客中的孕妇视作购物的黄金消费者。为了将这部分目标人群在怀孕前就争取过来,该超市通过调查罗列出几十种购物偏好,当某位顾客的收银条上集中呈现这类商品时,就会被认定为可能是孕妇或家中有孕妇,超市随后向其发送孕妇产品广告。一次,当有人以“家中并无孕妇却总是收到相关产品广告”为由控告这家超市后,却发现原来是自己还在上高中的女儿怀孕了。
案例三:2009年甲型H1N1流感病毒出现,在没有疫苗的情况下,公共卫生专家能做的只是减慢传播速度,要做到这一点,专家必须先知道流感出现在哪里,这只能依靠各地医生发现并告知疾控中心,信息肯定是滞后的。可是,Google的工程师们比疾控专家更早地判断出流感从哪里传播出来,他们依靠的就是Google所掌握的大数据。
历史相似事件可使用文档相似度比较。文档相似度比较算法首先采用TF-IDF方法把文档建模为词频向量,然后使用向量距离计算算法求得。常用的距离计算方法如:Jaccard距离、欧式距离、余弦相似度等。
情感分析
正负情感度量化统计分析一般用于分析金融机构和大众对期货产品的态度、情感和观点倾向,对行情走势往往具有十分重要的意义。通过对收集来的信息进行情感度分析后,可以统计出社会舆论对期货未来走势的观点倾向度。通过计算历史舆论观点与走势的相关度可以验证情感度分析模型的有效性。
情感词监测模块是通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,实现热点信息的实时发现。通过搜索引擎抓取情感关键词热度,计算关键词与趋势相关性。
主题词表的优劣在相当程度上影响了系统后续的信息采集内容和效果。首先,由领域专家给出相关领域的权威网站作为基础语料来源,通过对权威网站网页内容的整站抓取获得领域语料资源。之后对语料资源进行中文切分词和词频统计,获得一张高频词表。再由领域专家对高频词表中的高频词汇进行整理,人工选取出与领域相关的词语。然后,对从高频词表中选取出的领域主题词进行上位词(花是鲜花的上位词,植物是花的上位词)、下位词、同义词、近义词扩展,去除重复词汇,从而最终形成相关领域的主题词表。在信息采集系统后续的采集中还将不断收集相关领域的新词汇,在发现领域新词后加入到领域主题词表中,形成系统性的反馈机制,从而不断对主题词表进行更新维护。
正负情感度量化统计分析是从抓取的文章中进行情感度分析打分,分数范围为不等。负数越大表示负面观点强度越强,正数越大表示正面观点强度越强,0表示持有中立态度;通过情感度分析可以统计出一段时间内社会舆论对于某个话题的正负面态度,舆论压力往往可以导致市场波动。
情感词检测通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,出现频率较高的词语作为热点信息词,实现金融热点的实时发现。
趋势分析和预测
根据交易的价格曲线走势,与综合指数对比,使舆论指数趋势体现与交易价格曲线的相关性和一定的前瞻性。通过构建时间序列模型,对未来走势进行预测,如图1所示。综合指数包括各个相关因素的变化趋势(天气因素等)以及舆论指数。
三 行业应用案例
数据挖掘和自然语言处理的应用范围广泛,其中也不乏一些有意思的案例,它可能应用于运营商、银行、传统企业和券商,挑选几个具有代表性的案例与大家分享。
电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计清洗出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估。这些数据指数可以有效协助商业银行进行供应商风险评估。
地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体(微信、微博等)数据,进行网络口碑监测,负面情绪被及时发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
本文采用定量的内容分析,辅以定性的文本分析,探索社区报在社群时代的发展道路。因为《华西社区报》每周只在周二和周五出版两期,而且每期的内容性质基本一致,所以笔者采用目的性随机抽样的方法。通过查阅《华西社区报》一年多的内容,最后获得312篇报道和58则广告作为样本。
研究发现
1.内容多样,但社区渗透率不够
从《华西社区报》一年多的报道内容看,呈现出多样性,基本涉及了现代城市生活的方方面面,从图1可以看出,《华西社区报》对“生活”的报道内容最多,占36.54%,其次是健康及理财,占15.71%,但《华西社区报》对生活的关注并不是市民们津津乐道的“社区生活”,只是挂上“××社区”的名号,重点却是城市的其他重大事件。
美国全国报业协会对社区报的定义是:“旨在通过提供新闻和资讯的方式服务并建设本地社区,提高社区居民生活质量,打造社区纽带的报纸。”②但在我国,由于起步较晚,社区报大多沿袭都市报的老路,对城市生活的关注胜过社区“鸡毛蒜皮”的小事。
2.广告定位不够精准
商家向媒体投放广告,是希望通过媒体将商品信息传达给受众,从而引起受众的购买欲望。在媒体上投放广告,最好能与版面内容有相关性,这样受众才会联系自己的需求。笔者在分析《华西社区报》样本中的广告时发现,虽然大多数广告能够和版面内容扯上关系,但很多广告内容十分牵强,从广告类型来看,关于房、车和医疗保健的广告最多(见图2),分别占25.86%和20.69%。
房、车和医疗保健虽然是当今城市居民的“刚需”,但是社群时代,了解受众的差异性更加重要,每个社区的居民都是一个小“社群”,而每个社区的居民特征又不一样。在成都,城南的社区更多的是有钱人,而城北社区居民相对而言经济条件差一些,因此并不适合投放高档车型和豪华别墅的广告,而医疗保健类的广告一般适合老年人多的社区。
《华西社区报》运营模式探析
互联网出现后,业界一度唱衰报纸,甚至预测报纸会在未来几十年消亡。随着社区报的发展,报界似乎看到了一线曙光,认为社区报会是未来报纸的发展趋势。但传统的报业运营模式已经不能适应网络带来的变化。网络使得世界再次“部落化”,但这种“部落化”是以社群为基础的,如罗振宇的《罗辑思维》。传统的社区报应该怎么搭上网络这趟快车呢?下面,笔者用SoLoMo模式来探析《华西社区报》的发展之路。
1.建构社区社交平台,提升社区渗透率
建构社区社交平台是为了提升社区居民的认同感和归属感,目前《华西社区报》对于社区的报道不够,而社区居民对该报纸也没有形成认同感,报纸对社区的渗透率不高。渗透率, 是指某一商品的使用者在目标群体中所占的比例,虽然《华西社区报》每期都免费发放到居民区,但是真正读的人很少,原因是大家很难看到和自己相关的信息。《华西社区报》已经拥有自己的微博和微信公众号,但受众只是被动地接收信息,参与度不高,报社也无法获得及时反馈。现在是一个网络社交社会,每个人都有在网络上发言的冲动。《华西社区报》可以建立一个让大家都能参与的社交平台,比如在微信公众平台设立社群板块,如《罗辑思维》一样设置交流板块,让社员在微信群里自由交谈,甚至社员自己发起活动。这样,社区居民既能相互交流,还可提升大家对社区报的认同度,加深社区报对社区的渗透。
2.网络社群时代新商机:SoLoMo+O2O
当人们以群体的形式存在,商机也就出现了。互联网时代,线上往往是线下交易的前台,阿里巴巴、腾讯等早就嗅到网络的商机。社交平台使得人们集聚在网络世界中,如果《华西社区报》能够建立一个供大家交流的社交平台,便可能产生新的商业模式。《华西社区报》可以和商家合作,甚至人人都可以成为商家。利用《华西社区报》的平台,大家可以在这里促成交易,例如《华西社区报》可以每天在微信公众号里推送团购信息。由于微信公众号集聚了大量成员,所以对于团购信息的商家而言就是商机,而社区报在推送团购信息时可以采用竞价的方式排列推送信息的顺序,这便为《华西社区报》增加了一个盈利项目。
注释:
目前国内对聚类搜索引擎的综述主要见于文献[1]和文献[2],虽然这两篇文章对聚类搜索引擎进行了很好的综述和分析,对聚类搜索引擎的形成和发展过程进行了说明,并对主流聚类搜索系统进行了测评和分析,但是对于聚类系统的功能分析还不够详尽,对于聚类搜索引擎未来的发展没有给出明确的定位。
本文首先给出了典型聚类搜索引擎系统的基本工作流程,对聚类搜索引擎的发展历史和现状进行了概括式综述,然后从聚类对象、聚类功能和聚类算法三个角度对聚类搜索引擎进行研究,并全面分析了若干著名聚类搜索引擎。
本文结构:第1节介绍聚类搜索引擎的发展现状;第2节对聚类搜索引擎的功能进行分析;第3节对典型聚类搜索引擎进行综述;第4节描述聚类搜索引擎的发展趋势;第5节总结全文。
1聚类搜索引擎的研究现状
1.1聚类搜索引擎概念和工作过程
所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。
1.2国内外聚类搜索引擎的发展现状
搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google、百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。
近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。其中,Scatter/Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统;Vivisimo[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。
有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。Sudipto Guha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。
国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。
2聚类搜索引擎的功能分析
2.1聚类对象分析
现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。
商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。
2.2聚类功能分析
聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。
智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。
去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。
多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功能,商业化、集成化、多媒体化的气息更加浓厚。搜狗音乐推出了新版的聚类页面,可视化强,用户输入音乐名称,将获得全新的聚类结果,该结果首先按照音频特征聚类,再按照文本信息聚类,保证搜索界面显示的音乐相关度最高。
覆盖性:聚类搜索引擎一般基于一些大型通用搜索引擎的数据资源,这样能够保证搜索的结果覆盖全面,可聚类的对象内容丰富。
2.3聚类算法分析
聚类搜索引擎的聚类算法主要有层次聚类、树状聚类、网状聚类、圆形聚类。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系统使用层次聚类的方法,按照来源及站点进行聚类。PinkySeach[12]和Mnemomap(mnemomap.org)系统是使用树状结构的聚类算法,将聚类的结果以列表的形式展示出来。UJIKO系统(ujiko.com)是使用圆形结构的聚类算法,它将搜索结果聚类后按照主题自动分类成图形界面显示出来。Quintura系统(quintura.com)是使用网状结构的聚类算法,是通过标签云的形式将在语义上相关的词聚类,构成网状链接。
3典型聚类搜索引擎
3.1 Vivisimo系统
Vivisimo系统[5]的基本步骤包括:首先系统自动地、并行地向多个大型搜索引擎提交查询请求,然后汇集每个查询返回的结果,对查询的结果进行聚类分析,经过去重、合并、分类等步骤后,通过输出处理显示给用户。Vivisimo的聚类对象是从多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的聚类功能主要是文本的聚类,通过对文本内容进行搜索和归类分析,vivisimo的软件可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。
目前Vivisimo的商业应用十分广泛,它对信息的分类很体贴,具有人性化。其细致的检索结果显示方式使它成为了业界的精品,连续多年成为“最佳元搜索引擎”。但是,Vivisimo于没有自身的数据资源库,依附于其他大型搜索引擎,独立性较差,检索功能有待加强。
3.2 Carrot2系统
Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。
目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。
4聚类搜索引擎发展趋势
文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。
4.1数据海量化
现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。
4.2链接社交化
在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的Deep Web(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望更好满足用户的个性化需求。
4.3聚类综合化
聚类的多元化、跨领域、综合化将是新型聚类搜索的重要特点。局限于单个应用领域的聚类搜索已经难以适应需要,跨领域聚类将是未来聚类搜索面临的主要挑战。
5结束语
随着Web2.0的蓬勃发展,网页数量成级数增长,为了使互联网用户更加方便、快捷的得到需要的信息,聚类搜索代表着一种重要搜索引擎的发展方向。随着聚类搜索引擎的算法和数据源的逐步完善,聚类搜索引擎技术将得到迅猛发展和更为广泛的应用。(来源:电脑知识与技术 编选:)
参考文献:
[1]苏建华,张灿,聚类搜索引擎研究[J].新世纪图书馆,2009(6):72-75.
[2]苍宏宇,谭宗颖,聚类搜索引擎发展现状研究[J],图书情报工作,2009,53(2):125-127.
[3]沈贺丹,潘亚楠,关于搜索引擎的研究综述[J].计算机技术与发展,2006.16(4):147-152.
[4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441.
[5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887.
[6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444.
[7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19.
[8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12].
[9]麻雪云,基于聚类的元搜索引擎设计和实现[D].北京:北京信息科技大学,2008.
作为上海报业集团改革后问世的第一个新媒体成果,澎湃新闻自2014年推出以来,其网站、微博、微信公众平台及新闻客户端等多款新媒体产品共同推进,作为传统媒体数字化转型的样本,澎湃新闻的多媒体融合及数字化发展模式具有一定的研究意义。
今日头条则是完全脱胎于互联网环境、基于数据挖掘技术的新媒体产品,以移动客户端为主打产品。自2012年8月上线至2015年12月以来,今日头条已吸纳用户超过3.5亿,且在2014年6月获得1亿美元的C轮融资,并仍保持每天超过3500万的用户增长速度。这一基于数据挖掘技术和数据算法来完成的新媒体项目,对媒介融合和新媒体的创新发展也具有可研究价值。
一、平台:多渠道并进与专注APP的差异
(一)多渠道并进的澎湃新闻格局
媒介渠道是新闻信息流动的通路,合理有效的媒介布局是信息有效传播的基础。①向社交媒体平台延伸已成为传统媒体应对移动互联网时代的挑战、寻求生存渠道必不可少的转型方式之一。具备多元化传播渠道的澎湃新闻,不仅注重多平台内容传播,也重视不同平台间的关联性。基于网络端与移动端的使用差异,其界面设计和部分细节功能上也有所差异,而且相较于网站或WAP网页版的运作,澎湃新闻更重视对移动客户端的推广,例如其网站首页右侧顶端吸引用户的位置展示对移动端的推广信息,首页右侧则放置了微信二维码提醒用户扫码下载客户端。这种推广趋势意在表明,移动客户端在未来将会成为澎湃新闻的主要推广平台,也是其未来应对移动互联网发展进行多媒体转型的主要渠道。但重视推广移动客户端的同时,与同类新闻客户端相似,澎湃新闻也在客户端的文章结尾处提供了微博、微信等社交媒体的分享按钮,以期以此形成信息的多平台、多层次传播。
尽管如此,澎湃新闻以移动客户端为主要新媒介传播平台的渠道战略趋势仍较为明确,例如在其新浪微博和腾讯微博的每条博文中,都附有下载移动客户端的超链接,其官方微信账号的菜单栏设置有“下载APP”的按钮,且每篇推送文章结尾处也都提示读者通过“阅读原文”下载移动客户端。值得注意的是,除了澎湃新闻的官方微信之外,其运营团队还推出了包括“市政厅”等与其新闻客户端的子栏目同名的微信公众号,并分属给各自的内容团队运营,从而形成多平台紧密联系又各有专攻的渠道运作结构。
(二)以客户端为主的今日头条数据挖掘者
今日头条平台最大的特点在于它以自己的客户端为连接点,链接各大新闻门户网站的热门新闻,使其以新闻聚合工具的身份出现在媒介市场和公众视野。根据其对自身“基于数据挖掘的推荐引擎产品”而非新闻客户端的定位,今日头条得以运营、推广和盈利的基础是技术。如何实现网络媒体资源的再利用和再传播是今日头条的关注焦点。作为新闻聚合类应用,今日头条的算法模式与美国Prismatic公司有相似之处,即“收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和大数据分析的基础之上。”②这与其公司属性有关:虽然今日头条是新闻类产品,但其公司六成员工为技术开发人员,使该产品可以根据算法技术对用户偏好进行较为精准的分析与判断,并通过智能推荐方式,根据用户对推送设置的偏好,向用户实时推送信息。
同时,作为一款社交媒体,今日头条并不局限于重点打造的客户端平台,与澎湃新闻的多媒体关联运作方式相似,今日头条的客户端也通过分享功能将其与自身的微信、微博等其他社交媒体平台相关联,为用户收藏、分享或转发新闻资讯提供可能。这一方面使用户成为今日头条资讯的二次传播者;另一方面,通过用户自发传播的方式,今日头条也通过其他社交媒体平台再次推广了自己的移动客户端。
二、内容:侧重时政与海量信息的差异
(一)专注时政与思想的澎湃新闻
澎湃新闻的定位是“专注时政与思想的互联网平台”,以此定位为基础,“内容原创”成为澎湃新闻致力发展的目标和方向,同时也是其重点打造的核心竞争力。凭借上海报业集团的新闻品牌和公信力优势,澎湃新闻采集并汇聚大量原创报道,突出内容的独特性和不可替代性。而且澎湃新闻的采编队伍依托其传统媒体――《东方早报》,在内容采编观念上与传统媒体“内容为王”的核心理念相契合,使其能够利用并强化基于纸媒基础发展起来的深度报道特长,将内容集中在“时事、财经、思想、生活”四个方面,以时政新闻报道为主。同时,澎湃新闻并不拘泥于单一的新闻报道角度,而是多视角、多方面地报道同类新闻。
然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索。
为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件(因为相关软件众多,只介绍常用的),并进一步阐述其应用特点和适合的场景,以便于研究人员能有的放矢的学习和使用。
【基础篇】
1传统分析/商业统计
Excel、SPSS、SAS这三者对于研究人员而言并不陌生。
Excel作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工具。其缺点在于功能单一,且可处理数据规模小(这一点让很多研究人员尤为头疼)。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一些增强,但应用能力有限。
SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。
SPSS轻量、易于使用,但功能相对较少,适合常规基本统计分析
SAS功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。
上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用它们进行进一步研究。
2数据挖掘
数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身为Clementine)
SPSS Modeler的统计功能相对有限,主要是提供面向商业挖掘的机器学习算法(决策树、神经元网络、分类、聚类和预测等)的实现。同时,其数据预处理和结果辅助分析方面也相当方便,这一点尤其适合商业环境下的快速挖掘。不过就处理能力而言,实际感觉难以应对亿级以上的数据规模。
另一个商业软件Matlab也能提供大量数据挖掘的算法,但其特性更关注科学与工程计算领域。而著名的开源数据挖掘软件Weka,功能较少,且数据预处理和结果分析也比较麻烦,更适合学术界或有数据预处理能力的使用者。
【中级篇】
1、通用大数据可视化分析
近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,TableAU无疑是卓越代表。
TableAU的优势主要在于支持多种大数据源/格式,众多的可视化图表类型,加上拖拽式的使用方式,上手快,非常适合研究员使用,能够涵盖大部分分析研究的场景。不过要注意,其并不能提供经典统计和机器学习算法支持,因此其可以替代Excel,但不能代替统计和数据挖掘软件。另外,就实际处理速度而言,感觉面对较大数据(实例超过3000万记录)时,并没有官方介绍的那么迅速。
2、关系分析
关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网等),其本质计算的是点之间的关联关系。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,最常用的是Gephi。
Gephi是免费软件,擅长解决图网络分析的很多需求,其插件众多,功能强且易用。我们经常看到的各种社交关系/传播谱图,很多都是基于其力导向图(Force directed graph)功能生成。但由于其由java编写,限制了处理性能(感觉处理超过10万节点/边时常陷入假死),如分析百万级节点(如微博热点传播路径)关系时,需先做平滑和剪枝处理。而要处理更大规模(如亿级以上)的关系网络(如社交网络关系)数据,则需要专门的图关系数据库(如GraphLab/GraphX)来支撑了,其技术要求较高,此处不再介绍。
3、时空数据分析
当前很多软件(包括TableAU)都提供了时空数据的可视化分析功能。但就使用感受来看,其大都只适合较小规模(万级)的可视化展示分析,很少支持不同粒度的快速聚合探索。
如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间与地理分布(从省到街道多级粒度的探索)时,推荐使用NanoCubes(nanocubes.net/)。该开源软件可在日常的办公电脑上提供对亿级时空数据的快速展示和多级实时钻取探索分析。下图是对芝加哥犯罪时间地点的分析,网站有更多的实时分析的演示例子
4、文本/非结构化分析
基于自然语言处理(NLP)的文本分析,在非结构化内容(如互联网/社交媒体/电商评论)大数据的分析方面(甚至调研开放题结果分析)有重要用途。其应用处理涉及分词、特征抽取、情感分析、多主题模型等众多内容。
由于实现难度与领域差异,当前市面上只有一些开源函数包或者云API(如BosonNLP)提供一些基础处理功能,尚未看到适合商业研究分析中文文本的集成化工具软件(如果有谁知道烦请通知我)。在这种情况下,各商业公司(如HCR)主要依靠内部技术实力自主研发适合业务所需的分析功能。
【高级篇】
前面介绍的各种大数据分析工具,可应对的数据都在亿级以下,也以结构化数据为主。当实际面临以下要求:亿级以上/半实时性处理/非标准化复杂需求,通常就需要借助编程(甚至借助于Hadoop/Spark等分布式计算框架)来完成相关的分析。如果能掌握相关的编程语言能力,那研究员的分析能力将如虎添翼。
当前适合大数据处理的编程语言,包括:
R语言——最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。相比SAS,其计算能力更强,可解决更复杂更大数据规模的问题。
移动互联网发展和移动智能终端的普及,让广告商继续霸占传统媒体阵地的同时将视角对准了以智能终端为载体的新媒体广告市场。作为通讯、游戏、社交、购物、公众平台众多功能于一体的移动社交媒体——微信,成为网络开发、投资者竞相争夺的战略要地。2015年1月,微信官方推出朋友圈信息流广告,由此移动广告的商业化之路正式开启。至2017年,微信广告营销、精准投放、信息流广告、大数据等关键词成为学业界讨论的热点话题,围绕微信广告的相关研究呈直线式增长。中国知网(CNKI)搜索“微信广告”一词,出现相关文献106篇,研究主要类型:概念及价值界定、微信广告营销策略分析、隐私、监管问题分析等。较多的学者从传播学和营销学角度,从描述性文本分析为始探讨微信广告的特性、价值、营销策略,但缺乏从心理学受众角度研究新媒体用户的认知、态度和行为。就目前社交媒体研究来看,重视用户体验的研究仍然是站在广告主、运营商的机构利益之上,即通过“改善移动终端的内容和服务来提高社交营销广告的传播力[1]”。在各商家比拼个性化服务、亲民友好的用户体验和用户黏性上,从心理学角度了解和阐释用户接受广告的态度、行为以及转化的过程显得尤为重要。
1AIIDA的理论论证
1.1研究框架
本文以KABP(Knowledge-Attitude-Belief-Practice)认知态度信念行为理论作为用户接受过程研究的整体理论研究框架,即从信息流广告信息接收、获得认知、引发个人情感(对广告的兴趣或反感)、信息的强化或弱化原有信念、影响对广告商品购买行为产生。四个环节紧紧相扣,但是在新媒体传播环境中,每个过程的递进中都会受到“噪点”的影响,影响行为的产生。本研究所运用的“噪点”可等同于香农韦弗传播模式的“噪声”,并将影响最终用户购买行为产生的一切制约性因素都成为噪点。尤其是在朋友圈信息流广告出现后,评论区的小型舆论场的“噪点”意见影响,很容易形成反对意见团,阻碍群体用户中的购买行为产生。
1.2SOR、AIDMA、AISAS模型发展综述
原始的消费行为模式(S-O-R)是适用于所有人类经外部刺激引起心理活动产生行为的一般行为模型,是在用户强烈意愿和主动行为的作用下产生的消费行为。1898年美国广告学家E.S.刘易斯细化S-O-R模型的心理过程部分,将模型增加到五个环节,提出AIDMA模型进一步解释用户的消费行为,将内心的信息处理过程细化为产生欲望Desire和形成记忆Memory(图1)。一切广告的开始目标就是引起消费者的注意Attention,整合以往经验和观点后强化或弱化原有情感,对广告产生兴趣Interest,从而进一步对产品产生欲望,想要有购买的冲动Desire,并在脑海里留下深刻的印象,形成记忆Memory。在时间、地点、价格、购买环境等一系列因素正向影响后采取购买行动Action。企业只有通过各种方式来吸引用户对商品的注意,才能一步一步影响用户接受产品,最终达到售卖的目的,Attention是广告营销和受众接收过程当中的第一步,这一步始终未变。在移动社交媒体盛行的时代下,如何在较为隐私的关系网中赢得用户的注意,产生新的接收、购买过程,是新媒体广告主首先要思考的问题。传统的消费模式在互联网的影响下颠覆,顾客购买商品并不是简单地域空间上的挑选,通过虚拟的网络空间将所有地缘不认识的人的需求和意见集中起来。消费者之间产生空间上的共联,交流与传播融为一体,影响消费者购买结果产生的态度、欲望和行为也发生巨变,开始利用网络主动的搜寻信息,使用与满足在新媒体形势下产生的新的满足,即获得与满足,所以用户的主动性选择和分享是新媒体语境下区别于传统消费模式SOR的一大特点。到2005年,日本电通广告集团提出AISAS模型,提出与传统消费行为模式最大的区别在于搜索信息Search和分享心得Sharing。AISAS是指消费者在对商品发生兴趣后,会主动地搜索商品信息,根据得到的信息决定是否产生购买行为,购买体验结束后,会将商品的使用经验意见再次分享到信息平台,完成此次广告接收、行为产生的过程。此次,消费者的身份再次丰富,由原本的信息接收者变成新的信息传播者,购买使用的主人翁意识再次得到提升。但是,在传统互联网络搜索引擎大大降低用户搜寻信息的成本的同时,提供的海量信息往往让用户无所适从,用户在巨大信息流的冲涌和商品间的不断对比中,从而会产生消费返古行为:放弃网络的复杂选择对比过程,转向更为简单便捷,选择较少的实地消费。
2AIIDA模型假设产生
以朋友圈为例,移动社交媒体所形成的关系网改变了消费者被地理空间隔离的状态,通过文字、图片、音频、视频等形式改变了信息的方式和用户间的关系,用户之间的信息传播交流成为一种常态。而朋友圈广告就是依托关系链的互动传播,通过用户间展示对广告的兴趣来激发信任互动。与此同时,用户对广告的接收过程也有了新的特点:通过关系链中的互动,潜移默化的接收来自于朋友的信息和意见,强化或弱化对广告本身的欲望。若企业在朋友圈中投放的广告,不能得到以信息交流和情感互动形成的参照群体的认可,就很容易产生抵制的欲望,导致抵制行为。由此新特点,在前期理论和模型基础之上笔者提出移动社交互动环境下的用户接受行为AIIDA假设模型(Attention、Interest、Interact、Desire、Action),即移动社交媒体用户广告动态接受过程模型(图3)。在这一模型中,好友的评论和点赞是用户最可信赖的信息源之一,微信信息流广告在形式上与朋友圈原生好友信息相似,不易引起视觉上的反感,用户通过广告本身和关系链之间的话题了解产品信息,进一步强化或弱化消费观念。受广告本身和下方话题的吸引(Attention),用户开始对这种产品产生好奇心和兴趣(Interest)。比如在商品本身社会象征性价值的影响下,用户会表现出对奢侈品产生强烈的欲望,并在广告下方的评论区互动频繁形成强循环,如滚雪球一般引起越来越多的用户关注。参与互动的好友越多,广告下方的点赞评论越丰富,用户个人意见得到互动群体的承认和认可,在一定程度上就会强化对产品的欲望。在传统购买行为中,为了确保购买的产品合乎心意,消费者在购买前会向互动关系链中的其他用户询问购买意见和使用经验。在AISAS模型中,用户想进一步获得商品信息,是主动使用搜索引擎进行产品搜索。而在移动互联网的互动关系链中,用户会以最小的成本获得最大回报的心理特征,直接在评论区下方进行询问,消费者会进一步强化关系链中的信任度,接受意见影响态度和消费观念,从而强化购买欲望(Desire)。同时,用户会选择互动关系链中大家普遍认同的品牌,互动交流下促成购买行为实现(Action)。作为意见回馈,用户购买行为结束后,会再次回到意见交流平台分享和交流,提供新的消费体验,从而产生“互动—欲望—购买行为”的小循环,强化(或弱化)原有欲望程度,影响下一次的购买行为。
3总结
AIIDA假设模型在移动社交媒体广告的传播中存在着合理性,但是还没有证明在整个大媒体环境中的受众广告接收普适性,现有的研究成果都是结合研究对象和新的研究领域对传统模型的创新,所以不断完善模型的普适性,不断探索用户接受过程的新影响因素,从而将假设进一步拓展到一般新媒体公共平台领域将是下一段研究需要关注的重点。下一步该研究将对影响用户广告接受行为实现的制约因素“噪点”进行更加细化的分类说明,并试图提出可消解的“噪音”因素。为新媒体形势下用户广告接收过程的研究发现新的研究点。
参考文献
[1]倪宁.复杂的用户:社交媒体用户参与广告行为研究[J].国际新闻界,2016(10):111-127.
[2]李震.虚拟社区知识共享对消费者购买行为的影响研究[J].河南社会科学,2012(7):35-37.
[3]柳媛.虚拟社区对消费者决策行为的影响[J].中国商论,2015(15):102-104.
[4]吕尚彬.广告是人意识的延伸——对麦克卢汉广告观的解读[J].武汉大学报(人文科学版),2004(1):91-96.
[5]曹磊.七大问题拷问微信朋友圈首发广告[J].计算机与网络,2015(1):18-20.
[6]马义爽,王春利.消费心理学[M].北京:首都经济贸易大学出版社,2002.
[7]吴鼎铭,石义化.社交媒体“Feed广告”与网络受众的四重商品化[J].现代传播,2015(6):106-109.