【授权翻译】数据中的盾铁十年

本文是盾铁同人圈十周年之际Veldeia发表于AO3的AO3盾铁圈生态十年数据总结分析,各种角度的数据很有趣,所以要了授权做个翻译,希望大家大概了解一下AO3那边stony的发展情况,喜欢记得去AO3给太太点kudos或者评论~

感谢校对&修图:@一棵竹子Yik

=================================

数据中的盾铁*十年

*注:此处及文中盾铁对应“Steve/Tony”标签,前后不代表攻受

作者:Veldeia

授权:
https://wx4.sinaimg.cn/mw690/417201ffly1fdp223gfsgj20ku0kun18.jpg

摘要:

      为了庆祝盾铁同人圈十周年,在此统计了目前AO3上盾铁文的一些相关数据。

免责声明:

      本文作者并非专业统计学家,只是一个花了很多时间跟数字打交道的计算生命科学研究生。

引文

      在十年间的同人活动中,盾铁文被发布在很多不同的网站上。其中最早的可能是于2007年发表在livejournal上的(译者注:Resurrection, Reconstruction, & Redemption)。如今,Archiveof Our Own,也就是AO3,是盾铁同人文发布的主要平台之一。在本文中,我将对本站有关我们最爱的两位复仇者的故事做出回顾。

      为了进行此次分析,我收集了AO3上以“Steve/Tony”为首要配对标签的所有公开小说的详细数据。如果你对技术上的细节感兴趣,可以在文末找到更多素材和分析方法的说明。


无限可能的盾铁

      我的数据库中盾铁文的总数为12238。这一数字要略小于你在AO3上搜索“Steve/Tony”标签时的结果,因为我尽力排除了一些两人仅为配角的同人。虽然第一篇故事发表于2007年,但是因为AO3在2009年11月才开始公开试运行,所以有些文肯定是后来发在这里,但是标注着和其他网站一样的始发日期。

null

      观察每年发布的同人文篇数,可以发现2012年有井喷式增长,当时《复仇者联盟》(电影)让更多非漫画读者注意到了盾铁;预计2016年的文章数量是迄今为止最高的,新增了超过2500篇盾铁同人。我们的船继续开!


стивроджерс/тони старк (俄语Steve/Tony)

      AO3上发表的盾铁同人文大部分(89.2%)为英语。然而更让我感兴趣的是非英语同人文做出的贡献。

null

      总体而言,除了英语以外,还有19种外语写成的同人,以上为其中数量最多的前十种。除英语外同人数量最多的是俄语,之后是中文和西班牙语。当然其中有部分是翻译,我没有去统计占了多少。 


作者们选择不……

      把目光转向每篇文章具体的一些信息上,我们来看看分级和文前警告的情况。

null

      最常见的分级是“青少年及以上”,之后是“一般向”,紧接着是“露骨”,而最少使用的是“无分级”。文前警告方面,有很多可能会使用多种混合,但是大部分为“选择不使用警告”或者“无可选警告”。非常有意思一点是,第三常见的标签是两者皆有,但是其实这两者应该是互相排斥的概念。


长度很重要

      作为一个作者,我自己也参与过很多次关于长短篇孰优孰劣的讨论。

null

      AO3上大部分盾铁同人,确切的说74.8%的同人长度在五千字以内。剩下的25.2%中,大部分为五千到一万字,只有极少部分超过十万字。同时,大部分同人只有一章。 


我们又爱又恨的那些数字

      接下来,我们大概看一下以下这些图表,起码我个人花过很多时间思考这些图表反映的数据:由读者贡献的数据。这些数字当然是人气的代表,但并不一定和质量有关。

null

      点击率和赞的分布走向大致是相同的,表明这两者之间确实存在联系。至于两者之间是怎样的关系,又和其他变量有什么关系这个有趣的问题,这里我不会再深入分析。如果以后机会的话可能会!而评论和收藏的情况就不太一样了:大部分同人的评论是在零到五条之间(由于显示的是评论总体数量,其中包括作者回复,而不仅仅是评论),同时总体来看,收藏要比评论多。


多重宇宙

      以上我们看到的这些数据可能在其他同人圈也有相似联系,但是漫威同人圈独特的一点在于,我们的英雄存在于许多不同的官方背景中。

null

     起源宇宙当然是漫威616宇宙,没有616的话也就不会有其他宇宙存在。从文章数量上来看,616背景的同人篇数目前居于第二位,原因在于漫威电影宇宙扩大了史蒂夫和托尼的名气,带来了许多新的作者,使得MCU成了发展最壮大的官方背景。2012年MCU背景同人的异军突起确实令人震惊!

     按照我使用的分类标准,许多同人都被归于“模糊背景”下,其中大部分是标记为“模糊背景”或“所有类型”的文章。“其他”一类里的同人文则更有意思:

null

      截至目前,“小众官方背景”里文章总数最多的是MA: A宇宙,尤其在2016年人气飙升。排在第二的是终极宇宙。然而不幸的是,最近很少看到这一背景下的新故事了。《复仇者集结》从开播起每年人气都在增长,可能很快就会成为第二——除非复仇者学院比它更早!这款游戏去年才发布,但是迅速刺激了很多同人文产生。


我不知道如何打标签

      这部分数据表明,最棘手也最有意思的就是给文章打标签。总体来说,文章中最常用的十个标签为以下几种:

null

      这些是基于纯文本标签统计的,所以“轻松向”里面只包含了明确使用了“轻松向”标签的文章。这当然是不全面的。为了更好地分析标签代表的类型,我决定使用LiveJournal盾铁圈(Cap-IM livejournal community)里使用的类型标签来把文章分类。

null

*注:互联网规则第63条:任何角色都有性转。(For every given male character, there is a female version of that character. For every given female character, there is a male version of that character. )

      这可能是本文里最复杂的图表。从技术上来解释,通过这样的比较,一篇同人可能会被记为多个条目:比如,一篇打了“虐”和“崩坏”的同人可能在两个标签的总数中都会被计入。打了几个标签,但是标签大略属于一类的同人,比如一篇标签为“虐”、“非常虐”和“相当虐”的只会在“虐”标签下被计为一个有效数字。图表中的百分比代表了每个标签使用的数量在所有标签使用数量中的比重。

      意料之中的是,不同宇宙中的风格类型比重也各有区别:比如说,在“暗影”设定下“动作/冒险”标签使用的频率要比其他设定中更为常见,而“1872”宇宙里比重最大数的是“虐”和“治愈”。作为一个官方性转平行宇宙,3490背景文最常见的标签是“架空”和“Rule 63”。在傻白甜的惊奇冒险:复仇者(MA:A)、复仇者集结(AA)和复仇者学院(AvAc)设定下最常用的标签是“轻松向”

      针对标签我又进一步展开了一些有趣的探究:首先,在发现架空文数量很多之后,我试图统计其中最常见的设定。以下是文章数量排名前十的设定:

null

      另外一系列很有意思的标签是与我们的两位英雄有关的那些,所以我特别研究了标签中含有史蒂夫或者托尼名字的那些,做出了它们的字云(译者注:此处只翻译列出了频率相对较高的彩色关键词供参考)。

null
null

null
null

      显然,我们喜欢“情感”,在这个表示使用频率的云型图里最显眼的就是名字+情感模式的标签。而托尼是真的、真的非常需要很多拥抱——“托尼需要抱抱”标签不仅长而且十分常用,给我制作图表带来不小麻烦,其他标签都要变得太小了。史蒂夫同样需要拥抱,但是没有托尼对应的标签使用的那么频繁,而且更多时候是充满保护欲的形象。


配角们

      我们的两位主角常常是同人里仅有的两个角色(大概有32%的同人只有史蒂夫和托尼或者史蒂夫和娜塔莎·斯塔克出场),但是我们也不能忘了他们的队友和其他亲密友人们。故事中配角数量的中位数是1,最大数是包含了史蒂夫、托尼和32位其他角色的人物表。在不同的官方设定下,相对应的最常见的配角也各有区别,下面是每个设定中出场排名前五的配角:

null

      大部分文章没有提及配角配对。实际上,只有616、MCU和复仇者学院背景文有超过十篇在标签中除了史蒂夫/托尼还有其他配角配对的同人,其中排名前三的配对为:

null


题目的构成

      最后,因为我已经收集了每篇同人标题的名单,所以我想分析一下标题中最常用的词。在进行这一项分析时,我对名单进行了削减,去除了其中的标点符号和一些常见的无内容的词语(或者对懂行的人来说是‘停止词*’)。以下是分析结果生成的关键字云:

*注:Stop word: 计算机科学相关术语,指搜索引擎工作时忽略的无意义字词,如英语中的a, the, or等常见的冠词、介词、副词或连词等。

null


典型性盾铁文

      作为本次盾铁同人数据分析的总结,我组合了一篇数据上的典型性盾铁文。(此处使用“典型性”而不是“主流”或者“平均水平”是因为“主流”可能被异常值影响,这样的数据有很多,比如字数和赞超常的同人)。 

null

      一篇典型性的盾铁同人没有文前警告且分级在青少年级,同时因为唯一的配对标签是史蒂夫·罗杰斯/托尼·斯塔克,这显然是一篇男男向同人。这篇文章发表于五月的某个周日(发表日期与月份的中位数),并且是英语文章。故事的背景设定是漫威电影宇宙。出场角色除了史蒂夫和托尼还有另一位角色,既娜塔莎·罗曼诺夫。这篇同人还有五个标签(标签数的中位数),分别是:轻松向、虐、既定关系、伤害/慰藉以及幽默。文章长2107字,包括一个章节,并且目前有10条评论、128个赞、16人收藏以及2769次点击。

      因为“典型性史蒂夫/托尼同人”这个标题很无聊,所以我运用数据得出了一个标题。标题字数的中位数是3,而标题中最常见的三个词是托尼、史蒂夫、爱,据此我又额外加上了合适的标点!


素材与分析方法

      本文中我收集的数据是AO3上截至2017年3月13日,所有含史蒂夫·罗杰斯/托尼·史塔克标签的完整、同时无需登录就能看到的文章,此外每篇至少一个赞,字数至少为100字(很残忍地减去了图和有声同人)。因为史蒂夫·罗杰斯/娜塔莎·斯塔克标签并没有于史蒂夫/托尼标签合并,我对其按相同标准进行了单独的检索。检索后我将数据进一步削减至只统计包含史蒂夫/托尼(或史蒂夫/娜塔莎·斯塔克)为第一配对的同人。我使用R语言,用定制脚本和以下这些程序包细化、分析了所有的数据:包括使用rvest进行了数据收集、使用tidyr和reshape2进行了整理和重组,利用ggplot2绘图,并且用wordcloud2制作了关键字云。

      因为我是通过从网页代码中摘取的纯文本进行的数据分析,对标签的分类(背景、角色、类型及其他自由格式标签)并没有使用AO3的标签体系(同义、源标签等)。所以我是通过手动摘取的标签列表来把文章按具体的官方背景或者类型风格分类的,对某些标签具体属于哪种分类的判断(比如哪种属于“MCU”,哪种属于“轻松向”)都基于个人意见。对角色这一部分,我对常见的一些问题进行了处理(比如娜塔莎·罗曼诺娃/罗曼诺夫(Romanoff)/罗曼诺夫(Romanov),或者是某些角色既有“名字”标签又有“名字(漫威)”标签的情况)。当然,我的处理不甚准确(AO3本身的标签系统也不完全准确)。如果你对某些标签被分在哪一特定分类/列表有疑问,欢迎提问。

      最后,如果有人对原素材以及我复杂的的R语言脚本有兴趣,我很乐意进行分享;可以通过veldeia@yahoo.com联系我。

附:

null



 
评论(8)
热度(378)
  1. 共1人收藏了此文字
只展示最近三个月数据
© |Powered by LOFTER