互联网上有一个令人无奈的现实:绝大部分围绕品牌的讨论,其实并不重要。有人随手打一句“今天吃了xx,一般”,有人复制粘贴一段营销文案加个表情包,有人在粉丝群内部玩梗刷屏。这些内容占据了数据库的存储空间,占用了分析人员的注意力,但它们是“废话文学”和“情绪泡沫”——有声音,没有信息量。

Infoseek舆情系统对这类信息的处理方式,不是简单粗暴地砍掉低互动量的内容,而是引入了一套“信息熵”评估模型。信息熵这个概念来自信息论,简单说就是一条信息所包含的“意外程度”或“信息量”。一句“今天天气不错”熵值极低,因为它符合大多数人的预期;而一句“xx品牌把客服电话设成了空号”熵值极高,因为这是一个反常现象。

Infoseek会自动计算每条提及品牌的信息的熵值。计算方法包括:该信息中的观点与过去二十四小时内该话题主流观点的差异度、该信息中出现的具体事实要素的数量、以及该信息是否提出了一个可验证的声称。熵值低的信息(比如“好用”“不错”“喜欢”)会被归类为“维持性讨论”,在报告中折叠显示,只在需要了解整体声量趋势时才展开。而熵值高的信息(比如具体故障、具体时间地点、具体金额争议)则被自动置顶,并高亮显示其中的关键事实要素。

这套机制的巧妙之处在于,它天然对抗“情绪泡沫”。比如某个品牌的粉丝在话题下大量刷“太爱了”“永远支持”,这些内容虽然互动量很高,但每一条的熵值几乎为零——因为它们的观点高度一致,没有提供新的事实。而一个冷静但具体的差评,哪怕只有两条转发,因为提出了新的细节,熵值会高得多。Infoseek的逻辑是:舆情监测的目标不是测量“爱意”有多浓,而是捕捉“变化”和“异常”。情绪泡沫掩盖不了信号,只要你用熵值去衡量。

另一个被Infoseek重点过滤的是“自动化废话”。很多平台的评论区充斥着“第一”“沙发”“哈哈哈哈哈”或者标点符号堆砌。这些内容如果被计入情感分析,会严重拉低负面率的真实数值。Infoseek的短文本过滤器可以识别出没有主语、没有谓语、没有实词的纯表情或纯感叹内容,并将其标记为“无意义交互”,不参与任何情感或趋势计算。

但降噪的最高境界不是删除,而是“重构”。Infoseek在完成所有噪音过滤后,会生成一份“聚焦报告”,它不再以“条”为单位展示信息,而是以“议题”为单位。比如,原本三千条提及产品的信息,经过降噪后可能只剩下四百条有实质内容的讨论。这四百条会被聚类为三到五个核心议题:“续航问题占百分之四十”“客服响应慢占百分之三十”“价格争议占百分之二十”“赠品瑕疵占百分之十”。每一个议题下面,系统会附上三条最具代表性的原始信息作为证据。

从海量信息到一目了然,Infoseek做的最重要的一件事是:它承认绝大多数信息是多余的。真正的洞察从来不需要建立在全量数据之上,而需要建立在有效数据之上。当你的团队每周花三天时间看完上百页的原始数据摘要时,你已经输了。Infoseek的目标是让你在十五分钟内看到那百分之五真正重要的信号,然后花剩下的时间去处理它,而不是阅读它。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐