I was inspired by the story of This scientist read a paper every day for 899 days. Here’s what she learned , so I decided to try it myself: Dedicating half an hour everyday to reading papers. Let’s see for how long I can keep doing it.

My APAD Project is also inspired by Hongtao Hao https://hongtaoh.com/

2023: 2023-082023-092023-10


2023-10

2023-10-18

《R-Map: A Map Metaphor for Visualizing Information Reposting Process in Social Media》 这是一篇组内论文,转载自组内博客(http://vis.pku.edu.cn/blog/rmap/).

最近打算重新认真梳理一遍组内和map相关的文章和代码,这是本来很早之前就想做的事情。近期的目标其实是把Shuai Chen,Siming等师兄的文章都看一遍,归档到知识库。

作者提出了转发地图(R-Map),一种基于地图隐喻的社交媒体信息转发的可视化方法。该方法利用地图上不同的元素编码转发信息的不同特征,通过该方法及系统,能够直观的展示出一条社交媒体信息的转发结构、用户在转发过程中的角色以及转发过程中语义的变化。

社交媒体已经成为人们分享、获取信息的重要平台。当用户在社交媒体(如微博)上发出一条信息后,其它用户可以对这条信息转发,在转发的信息中可以加上自己的评论,表达自己对原信息的看法。转发信息又可以再次被转发,大量用户参与的多层次转发促进了原始信息在人群中的传播。针对这样的层次结构数据,存在多种不同的可视化形式,比如节点-连接图,树图等,然而这类可视化形式存在空间利用率不足或者不够直观的问题。针对信息传播可视化,已有工作主要关注大量多源信息中事件、话题的传播演变分析,但是缺乏对于单条信息转发结构以及转发过程中语义的探索。

针对现有技术中存在的缺陷,作者提出了转发地图(R-Map)[1],一种基于地图隐喻的社交媒体信息转发的可视化方法,利用地图上不同的元素编码转发信息的不同特征,通过该方法及系统,能够直观的展示出一条社交媒体信息的转发结构、用户在转发过程中的角色以及转发过程中语义的变化。具体步骤包括:

1.针对待分析的原始信息,获取其所有的转发信息。 2.根据社交媒体信息的转发关系构建原始信息的转发树。 3.从转发用户中提取关键人物,并构造关键人物之间的转发树。 4.构造R-Map的布局。 5.根据关键人物的不同转发关系,使用不同的方法进行连接。 6.通过与所构建的社交媒体信息转发系统的交互,实现对于原始信息转发的可视分析。

R-Map中的视觉编码方法。在地图上,对于转发的关键人物用湖泊表示。在信息转发过程中,关键人物之间存在不同类型的转发关系,这些关系对于信息的最终传播形态有着不同的影响。在R-Map中,对于不同的转发关系进行了区分:

1.对于存在转发关系的关键人物,构建转发消息的特征向量,然后计算之间的余弦距离。如果距离小于设定阈值,表明二者在语义上差异较大,通过桥梁连接。 2.关键人物在未关注的情况下转发其它关键人物,通过航线连接。 3.对于存在转发关系的关键人物,不存在以上的转发情形,通过河流连接。

为了增强转发过程中的语义进行分析,一方面在R-Map的构造过程中,语义相似的转发会聚集在一起形成区域,另一方面通过在地图上直接嵌入关键词的方式表示该地区用户谈论的话题,同时关键词的颜色表示传播过程中社交媒体用户的情感态度。

下面通过具体剖析案例来说明关键人物是如何扩大源消息的影响力并促进与整个事件相关的主题的发展。总视图中展现事件的概览。原始微博由南小七(Little7)发出,然后由十年砍柴(Kanchai)和南小七的转发。后来,姚晨(Yaochen)转发了南小七,从而在地图上创建了大片地区。姚晨是一个新浪微博上大V,用有上千万的粉丝。接着,南小七和新浪微博的官方帐户也转发了姚晨的微博。从地图上可以看出,转发南小七的关键人物没有关注她,并引入了不同的讨论主题,如地图上桥梁和航线所示。该地图是使用语义布局生成的。我们将事件分为三个阶段(S1,S2和S3)。

在第一阶段,南小七发布了原始消息,表示她希望采访著名女演员姚晨(S1-1)。尽管她@了姚晨,但她并不认为姚晨会看到此消息,因为姚晨每天都会收到大量消息微博。开始少数人转发了该消息,在地图的源头周围围绕着一些城市(S1-3)。这些转发大多数都鼓励了她,情感积极,并在其转发时@了姚晨,如词云视图(S1-4)所示。然后,南小七转发了她的第一个微博,在地图上生成了第二个湖泊。单击此湖泊,我们发现这个转发更详细地解释了她的采访提议,并再次@了姚晨(S1-2)。但是,很少有人对此微博做出回应。

然后转发几乎停止了一段时间。差不多20天后,情况发生了变化(S2)。如地图所示,姚晨转发了南小七的微博,进一步而产生了更多的转发,这些转发构成一个大国家。通过查看了姚晨的信息(S2-2),可以发现她在新浪微博上有超过8000万粉丝。相反,她仅关注471个用户。姚晨没有关注南小七,它们通过地图上的一条航线相连。姚晨对南小七的回应引起了热烈的讨论。这些转发(S2-1)中出现了“鼓掌”,“能量”和“真诚”之类的关键词,这与南小七的转发中的关键词不同,所以他们之间通过桥梁连接。在姚晨的转发区域内,可以找到一些重要的城市。例如,一个叫Yaxi的用户对这个事件感到惊讶,她认为“坚持不懈是成功的关键”(S2-3),另有十四个用户转发了她。在得到了姚晨的答复后,南小七在很短的时间内做出了回应,并对姚晨表示感谢(S2-4)。新浪娱乐也将此消息转发给了其受众(S2-5),推动了事件的进一步传播。南小七和新浪娱乐是姚晨的粉丝,在他们的转发中使用的关键词相似,他们互相连接在地图上形成了一块大陆。在此阶段,讨论几乎都是积极的。用户赞扬了姚晨的友善,并祝贺南小七取得了成功。第二个阶段(S2)虽然仅持续了几个小时,但引发了众多讨论。与第一个阶段(S1)相比,第二个阶段(S2)展示了关键人物对信息传播的巨大影响。

在最后阶段(S3),另一个名为十年砍柴的用户参加了讨论。他在短时间内两次转发了原始微博(S3-1,S3-2),在地图上生成了两个不同的岛屿(S3-3,S3-4)。这两个岛屿都通过桥梁和航线连接到南小七,这表明十年砍柴没有关注南小七,并且他的转发原始微博引入了新的话题。我们查看了他的微博,发现他批评南小七对姚晨缺乏尊重。一方面他指出南小七在原始消息中没有使用谦虚的语言(S3-2)。另一方面,他说“欣赏”一词不适合晚辈对长辈使用。他有超过70000的粉丝,他的微博引发了关于人际关系中平等和礼貌的争论。通过用情感为地图着色,我们发现负面情绪主导了这些岛屿中的城市。

在这个案例中,我们可以发现原始消息是如何通过关键人物的转发而传播到大量人群中,这些人物不仅改变了转发的时间模式,而且还引入了不同的情感和主题。与传统的树形可视化方法相比,R-Map在确定转发树结构的同时可以直观地揭示转发过程中的语义特征。

Reference: [1] Shuai Chen, Sihang Li, Siming Chen, and Xiaoru Yuan. R-Map: A Map Metaphor for Visualizing Information Reposting Process in Social Media. IEEE Transactions on Visualization and Computer Graphics (VAST’19), 26(1):1204-1214, 2020.

2023-10-17

《Data Player: Automatic Generation of Data Videos with Narration-Animation Interplay》 这是一篇组会论文,转载自组内博客,作者是Hanning Shao(http://vis.pku.edu.cn/blog/vis2023_dataplayer/).

将可视化与文本叙述结合能够很好地完成数据故事叙事任务。数据视频包含了丰富的数据信息,能够增强观众的参与感,并提高他们对于数据事实的理解和记忆。因而,数据视频成为了广受欢迎的数据故事叙事模式。然而,创作数据视频的门槛很高。一个高质量的数据视频要求制作者理解视频叙事方法,了解可视化设计与可视分析探索方法,并掌握视频制作技巧。这篇文章中,作者提出了一种能够自动化从静态可视化以及对应的文本叙述构建数据视频的方法框架,来降低数据视频的制作门槛。

为了实现自动化的数据视频制作,作者首先通过半结构化访谈,探索了视频制作者们创作数据视频的过程。经过整理,作者将整个数据视频创作分解为四个步骤。 (1)首先,制作者们会完善文本内容。文本之后将作为视频制作的脚本。如果文本不是由制作者创作的,那么他们将仔细阅读文本,并理解其中所包含的数据事实,以及文本创作者所希望传达的意义。 (2)其次,视频制作者们将文本内容与可视化组件进行对齐,也就是找到与文本内容相对应的可视化元素。 (3)在第三步,视频制作者们根据文本含义以及与之对应的可视化组件的特点设计合适的动画效果。 (4)最终,制作者们将由文本转化而来的音频内容与动画相结合,得到最终的数据视频。

基于访谈总结出来的视频制作流程,作者制定了系统工作流程。 系统以文本以及静态可视化作为输入,并自动化地产生动画效果,最终生成数据视频。 文本内容和可视化首先被分别分解为叙事段落和可视化组件。随后,作者使用大语言模型(LLM)将叙事段落与可视化组件相匹配。根据匹配结果,作者进一步使用条件求解器寻找最优的动画方式,并与由文转声(TTS)技术得到的叙事音频相结合,生成最终的数据视频。

在这个过程中,如何将叙事段落与可视化组件相匹配是一个关键步骤。 首先,静态可视化可以被表示为数据表格。原始数据以及可视化元素列表可以被从静态可视化中提取出来,并制作成多张数据图表。随后,这些表格,以及输入的叙事文本将被导入到模型提示词模板中,并传输给大语言模型。模型则根据提示词给出结果。叙事段落与数据表格中相关的行被匹配到一起,表明他们是相关的。

除此之外,根据文本和数据表格的对应生成相应的动画也是流程中的关键步骤。作者根据先前同视频制作者们的访谈,总结了视频制作时需要满足的限制条件。随后,根据不同的限制条件,动画生成问题被转化为了条件限制求解问题,并最终通过求解器得出最佳解决方案。这些限制条件可以被分为四个方面。首先,动画需要与文本内容相对应,文本叙事涉及到的元素需要动画化,而没有涉及到的则不应当动画化。其次,各个可视化元素的动画需要符合逻辑,即先出现,随后被强调,最终退出屏幕。第三,这些动画需要与文本转化得来的音频对齐。最后,不同的视觉元素、数据项需要采用不同的动画方式。这也是最后一个方面的限制条件。最终,通过限制约束求解器,可以得到最佳的动画表达。

根据以上所说的方法,可以完成由静态可视化和叙事文本自动生成数据视频。作者邀请了四名视频作者,针对六套数据制作了数据视频。这其中包含两个新手,以及两个专家级视频作者。四位作者和自动化系统一起完成了视频制作。随后,作者进一步邀请了10位被试,对所有的数据视频进行评分。具体的评分结果在下图中。可以发现,自动化算法所生成的数据视频与专家生成的视频在质量上旗鼓相当。

总体而言,这个工作借助了大语言模型完成了将可视化元素与叙事文本匹配的任务,并进而构建了由静态可视化与叙事文本出发,自动生成数据视频的框架系统。作者通过预实验总结了数据视频创作的步骤,并依次完成了整体流程的搭建与动画生成的约束构建。最终的用户实验表明,由自动化算法所生成的数据视频能够达到专家级视频作者作品的质量。

评论: AI帮助文本视觉链接 渲染仍然基于规则

Reference: [1] Shen L, Zhang Y, Zhang H, et al. Data player: Automatic generation of data videos with narration-animation interplay[J]. arXiv preprint arXiv:2308.04703, 2023.

2023-08

2023-08-17

2023-08-16

《NewsStand: A New View on News》 读一篇旧文,将新闻文本内容和地理信息相聚合的可视化NewsStand。

新闻文章包含大量隐含的地理内容,如果读者接触到这些内容,可以提高对当今新闻的理解。然而,大多数文章都没有明确地对其地理内容进行地理标记,并且很少有新闻聚合系统向用户公开此内容。马里兰大学的 Hanan Samet 提出了一个名为 NewsStand 的新系统,该系统收集、分析并在地图界面中显示新闻报道,从而利用其隐含的地理内容。

NewsStand 监控来自数千个在线新闻源的 RSS 源,并在发布后几分钟内检索文章。然后,它使用定制的地理标记器从文章中提取地理内容,并使用快速在线聚类算法将文章分组为故事集群。通过在 NewsStand 的地图界面中平移和缩放,用户可以根据主题重要性和地理区域检索报道,并根据位置和缩放级别查看截然不同的报道。

地点是新闻5W要素的重要组成部分,在面对大量新闻时,人们会提出两个问题(1)某个新闻发生在哪里?(feature - based)和(2)某个地点正在发生什么?(location - based)。

与传统报纸的线性的、静态的界面不同,NewsStand

transactional database technology

这篇文章的结构非常清晰,值得借鉴: 1.第一节是Introduction, 2.二节是Related Work, 3.第三节是NewsStand System的architecture:NewsStand 设计成可扩展、响应迅速的几个独立的模块,系统的核心是一个事务型数据库系统,所有模块都通过它进行通信。 4.第四节是数据,系统从互联网上的各种来源收集并预处理新闻文章,然后将其存储在数据库中。 5.第五节是地理标记,NewsStand 使用地理标记器为每篇文章分配地理位置 6.并使用在线聚类算法(第六节)将文章按主题分组到故事集群中。 7.文章还按照故事的重要性进行地理聚合(第七节),重要性是通过提到该故事的不同新闻来源数量和其他几个因素来衡量的。 8.此外,新闻故事会根据地图界面中当前的位置和缩放级别进行空间聚合和排名(第八节),然后进行显示(第九节)。例如,当在地图中查看整个世界时,用户只会看到与国际受众有关的重要故事对应的标记,从而让人了解到全球范围内正在发生的主要新闻事件。当用户放大并平移到不同的地理区域时,NewsStand 会不断更新地图,以保持显示充满相关故事标记。用户可以放大到国家、州或城市级别,以查看越来越多的本地故事。

Hanan Samet 后续发表了一系列论文来探讨新闻与地理内容相结合的方式,包括《Brands in newsstand: Spatio-temporal browsing of business news》、《WeiboStand: capturing Chinese breaking news using Weibo" tweets"》、《PhotoStand: A map query interface for a database of news photos》、及应用NewsStand来分析和查询新冠疫情的《Viewing the progression of the novel corona virus (covid-19) with newsstand》。

Reference: [1] B. E. Teitler, M. D. Lieberman, D. Panozzo, J. Sankaranarayanan, H. Samet, and J. Sperling, ‘NewsStand: A new view on news’, in Proceedings of the 16th ACM SIGSPATIAL international conference on Advances in geographic information systems, 2008, pp. 1–10. doi: 10.1145/1463434.1463458.

2023-08-15

《Meta & Nature Science Special Issue》

Meta在Nature和Science上发表的四篇文章都是通过实验的方法,探索“Meta的算法影响2020年美国选举的”,具体来说,在2016年大选之后,人们对社交媒体对民主和选举的影响有很多疑问。在过去,访问社交媒体的真实用户数据是非常困难的,传播学学者和Meta在2020年大选期间进行合作,试图探究以下问题:社交媒体内容如何影响我们,如果我们对这些内容进行更改,这将如何产生对民主和选举产生影响的变化?研究发现,几乎没有证据表明,Meta平台会造成有害的情感两极分化,或对关键政治态度、信仰或行为产生有实际意义的影响。

在四篇论文的实验研究中,研究者做了几件不同的事情:

在第一项研究《Reshares on social media amplify political news but do not detectably affect beliefs or opinions》中,研究者从人们的新闻源中删除了重复共享的内容(reshared content),也就是阻隔了病毒式传播。结果发现,删除转发内容大大减少了政治新闻的数量,包括来自不可信来源的内容。

在许多人看来,Meta的内容推荐算法,会优先推荐来自志同道合者和群组的信息,从而助长政治两极分化。人们担心这一系统会强化互联网回音室效应,助长党派和虚假信息的传播。在第二项研究《Like-minded sources on Facebook are prevalent but not polarizing》中,研究者减少了人们新闻消费(information diet)中来自志同道合来源(like-minded sources)的内容。包括志同道合的朋友,志同道合的群组和志同道合的Facebook页面。研究人员证实,大多数美国用户看到的大部分内容都来自朋友、页面和群组。但他们指出,所有这些内容都不是明确的政治或新闻相关内容。另外,还发现,减少志同道合内容的数量会降低参与度,但不会显著改变用户的信仰或态度。

另一种假设是,向用户提供最新的新闻和信息,会拓展他们的视野,让他们接触到的内容更多样化。因此,在第三项研究《How do social media feed algorithms affect attitudes and behavior in an election campaign?》中,研究者主要着眼于按时间顺序排列的信息推流(feed)与Facebook排名算法生成的信息推流的对比效果。研究者将用户登录Facebook时看到的标准算法推荐内容,切换成按时间顺序排列的内容(a chronological feed where the most recent content appeared first)。研究中,23391名Facebook用户和21373名 Ins用户被分为两组:一组接收由Meta常用算法提供的精选内容,另一组按时间顺序接收新闻和信息。 对两组参与者的调查显示,他们的政治极化程度没有明显差异。调查还显示,参与者的政治活动(如签署请愿书)也没有差异。研究人员表示,按时间顺序提供的信息并没有引起下游政治态度、知识或离线行为的可察觉变化。按时间顺序提供的内容大大减少了用户在平台上花费的时间,降低了用户在平台上参与内容的程度,并改变了他们获得的内容组合。另外,研究者发现与Facebook的标准排名算法相比,按时间顺序排列(chronological feed)的内容实际上使人们接触到更多来自不可信来源的内容

最后,第四个研究《Asymmetric ideological segregation in exposure to political news on Facebook》中,研究人员从自由派还是保守派的角度,分析了用户订阅源中出现的政治新闻。通过分析了大约2.08亿美国 Facebook用户的数据访问习惯,发现左倾和右倾用户在分享和消费信息方面存在巨大差异。他们得出的结论是,Facebook在意识形态上有实质性的隔离,但意识形态隔离在页面和群组发布的内容中的表现,远远多于好友发布的内容。另外,研究还发现,保守派用户更有可能看到来自「不可信」来源的内容,以及被Meta的第三方事实核查机构评为虚假的文章。

总的来说,由于对人们的在线信息流和体验进行的这些更改确实对人们在平台上看到的内容以及他们在这些平台上所做的事情产生了巨大的影响。人们接触到多少政治内容,他们从可能分享错误信息的来源看到多少内容等方面都发生了重大变化。但是当调查人们的政治态度时,最终结果发现,这些干预措施,即使在平台上运行了三个月,实际上并没有对人们的政治态度产生重大影响,比如政治两极分化,或者他们对自己政党和不同政党成员的看法。

Reference: [1] B. Nyhan et al., ‘Like-minded sources on Facebook are prevalent but not polarizing’, Nature, pp. 1–8, 2023. [2] A. M. Guess et al., ‘Reshares on social media amplify political news but do not detectably affect beliefs or opinions’, Science, vol. 381, no. 6656, pp. 404–408, 2023, doi: 10.1126/science.add8424. [3] A. M. Guess et al., ‘How do social media feed algorithms affect attitudes and behavior in an election campaign?’, Science, vol. 381, no. 6656, pp. 398–404, 2023, doi: 10.1126/science.abp9364. [4] S. González-Bailón et al., ‘Asymmetric ideological segregation in exposure to political news on Facebook’, Science, vol. 381, no. 6656, pp. 392–398, 2023, doi: 10.1126/science.ade7138.