基于数据挖掘的电影票房分析

杨雨凡

摘要:近年来,中国电影产业迅猛发展,电影票房作为衡量电影商业效益的重要指标,其高低成败直接影响到了电影后续相关产业的发展与定位。因此,对电影票房数据的分析显得尤为必要。本文基于2015年至2017年三年在中国上映的1366部电影,结合国内外研究分析了影响电影票房的各个因素,并采用统计学方法和数据挖掘技术,对电影票房进行了汇总分析、聚类分析和关联规则分析。

关键词:数据挖掘;电影;票房分析;聚类;关联规则

中图分类号:F27文献标识码:Adoi:10.19311/j.cnki.16723198.2020.25.020

0引言

电影作为文化产业的重要组成部分,已成为人们生活中不可或缺的一种娱乐方式。票房反映了一部电影的商业效益,对后续电影拍摄计划和方向有着重大影响,也是衡量一部电影是否盈利与是否成功的重要指标。然而,国产电影只有极少数是盈利的,70%的国产电影都面临亏损,高投入低收益的电影也不在少数,如《上海堡垒》等电影。因此,对电影票房的有效分析将有利于降低电影投资市场的风险,对电影投资、制作及营销各个阶段都有着重要的指导性意义。而目前国内电影票房的研究还处在经验分析阶段,依赖于专家判断,缺乏数据技术支撑。为引导电影产业的理性决策,对电影票房的数据分析显得尤为必要。

胡小莉等选取了2007-2009年在国内上映的电影,用SPSS统计分析软件,分析了影响电影票房的因素。吴发翔等选取了2015年上映的国产电影,运用C5.0决策树算法构建了票房预测模型。王秋萍利用K-means聚类算法和BP神经网络,分析了票房影响因素和网络平台特征,提出票房预测模型。这些已有的研究选取电影多上映于2015年前,缺乏时效性,同时数据较少,所得出的结论相对缺乏数据支撑。

本文选取2015-2017三年间在中国上映的1366部电影作为数据集,对电影票房数据分别进行了汇总分析、聚类分析和关联规则分析。

1数据的组成与处理

本文的数据来源于电影票房官方网站——中国票房网(http://www.cbooo.cn/),通过爬虫抓取了2015年至2017年这三年间在中国上映的1366部电影票房的数据。

为尽可能保证数据的全面性,本文分析的电影数据包括以下10项:

(1)电影名称;

(2)电影票房;

(3)电影类型。包括爱情、动作、科幻、喜剧等类型;

(4)上映时间;

(5)制式。包含2D、3D、IMAX这三种制式;

(6)国家地区;

(7)发行公司。本文此类数据进行了预处理,将其分为好莱坞八大发行公司、中国十大发行公司和其他发行公司;

(8)导演影响力。本文对电影导演数据进行了预处理,通过计算该导演在此之前所导的前两部电影票房和来反映导演影响力;

(9)主演影响力。本文对电影主演数据进行了预处理,通过计算该主演在此之前所主演的前两部电影票房和来反映主演影响力;

(10)同期竞争力。电影票房很大程度会受到同期所上映电影的影响,本文通过计算所有在该电影上映前后一周的电影票房和来表示同期竞争力。

2统计分析

为了统计电影在中国各个季度上映的情况,本文使用Excel表格的分类汇总功能,分别统计了2015年至2017年每季度上映电影数量和票房的总和,结果如图1所示。2015年至2017年,每年的第三季度都是电影上映数量的高峰,这是因为第三季度包含暑期档,不少国内外的商业大片通常会选择在这个档期上映,以取得更高的觀影量和收入。而每年第一季度上映的电影数量则处于波谷,这可能是因为第一季度包含贺岁档,上映的电影类型多为喜剧,而动作、科幻等其他类型电影通常不会选择贺岁档上映,造成上映电影类型较为单一,因此上映电影数量少。

此外,本文也统计了各季度上映电影的票房总和,结果如图2所示。在2015年至2017年的三年间,每季度的票房总收入起伏较大,这说明在一年的不同时间段,人们的消费水平和娱乐需求有着较大波动。此外,每年第三季度的票房在全年均处于较高水平,这说明在每年7月至9月的暑期档,人们的娱乐需求和消费水平均较高。相反,每年第一季度上映的电影数量较少,而票房也较低。通过数据分析可知,票房走势与上映电影数量的趋势大致相符。

2.1类型分析

不同电影类型有着不同的目标观影群体,而不同观影群体的消费能力也不尽相同。本文统计了2015年至2017年间,不同类型的电影在各个季度取得的票房,结果如图3所示,动作和喜剧类型的电影取得的票房远高于其它类型的电影,2017年尤为明显。相反,艺术片、纪录片、灾难和惊悚类型的电影票房则处于低水平。而动画、奇幻和爱情类型的电影票房则处于中等水平。这说明,动作、喜剧等适合各年龄段的电影越来越受到人们的青睐,特别是动作类型的商业大片,由于具有强大冲击力,使得视觉效果较好,深受人们的喜爱。

2.2制式分析

本文统计了2015至2017年间,不同制式的电影在每个季度取得的票房,结果如图4所示,IMAX电影总体上比 2D、3D电影取得的票房更高。这是因为IMAX电影票价高于 2D和3D电影,而随着经济水平的日益提高,人们为了获得极佳的观影效果而更愿意体验高票价的IMAX电影。同时,擅长制作IMAX电影的公司基本都是大型电影公司,使用IMAX技术的电影也都是高投入、高质量的影片,因此票房也较高。

3通过数据挖掘技术分析电影票房

3.1聚类分析

为了更深入地分析电影票房,本文使用了K-means聚类算法对2015年至2017年在中国上映的电影进行了聚类。K-means算法的原理如下:首先,随机选取K个对象{C1,C2,…,Ck}作为初始化的中心点;然后,计算剩余的对象与这K个聚类中心点之间的距离,把每个对象分配给距离它最近的聚类中心Ck;之后,根据聚类好的对象集合重新计算出K个集合的新中心点;最后,重复分配和划分新中心点的步骤,直到(1)低于阈值数量的对象被重新分配给不同的聚类,或(2)于阈值数量的聚类中心不再发生变化,或(3)误差平方和局部最小。

本文采用第2章所述的数据元素,使用IBM SPSS Modeler数据分析软件进行K-means聚类。通过模型训练和优化分析,最终选取了K=3的聚类模型将电影数据分成三类(平均轮廓为0.3):第一类(58.6%)为由普通的中国制片公司在普通档期发行的2D爱情电影,同时主演影响力较低,导演影响力较高,同期竞争力较低,这类电影的电影票房也较低;第二类(25.1%)为由中国十大电影制片公司在普通档期发行的欧美2D动作电影,主演影响力较高,导演影响力很高,同期竞争力较低,这类电影的票房较高;第三类(16.3%)为由普通的中国制片公司在暑期档发行的2D爱情电影,主演影响力较高,导演影响力较高,同期竞争力较高,取得的电影票房一般。

3.2关联规则分析

為了分析影响电影票房的各因素间的关联规则,本文使用了Apriori算法。关联规则是形如X→Y的蕴涵式,其中,X为关联规则的前项,Y为关联规则的后项。衡量一个关联规则优劣的指标是支持度和置信度,支持度指所有事务中同时包含X、Y事务的百分比,置信度指包含X的事务中,也包含Y的百分比。

本文对电影票房数据进行了关联规则分析,结果表明:

(1)若某电影主演影响力低,上映时间为普通档期,发行国家地区为中国大陆,制式为2D,则该电影票房大概率为非常低(支持度22.474%,置信度9316%)。原因可能是主演知名度低,票房号召力较弱,而在普通档期上映的电影在宣传上不占优势,人们在普通档期的消费需求较弱,且2D电影票价较低,造成票房较低。

(2)若某电影主演影响力低,导演影响力低,发行国家地区为中国大陆,则该电影票房大概率会较低(支持度29.941%,置信度92.91%)。原因可能是导演技术平平,主演演技一般,导致产出的电影质量不高,造成低票房。

4总结与展望

对电影票房的数据分析可以从一定程度减少电影投资的风险,并对电影各阶段的宣发策略有着指导性意义。本文基于2015年至2017年三年间在中国上映的电影票房数据,通过统计分析,发现电影票房与上映数量的相似趋势,并分析了不同季度类型和制式与电影票房的关系。此外,本文通过聚类分析,将电影分为三类,并分析得出不同级别票房的电影所具有的特征。最后,本文对影响电影票房的因素做了关联规则分析,结果再次验证了主演影响力、上映时间、导演影响力等对于电影票房的影响显著。

然而,本文分析的数据还仅限于在中国上映的电影数据,在今后的工作中,笔者拟抓取国外所上映的电影数据,聚焦于分析国内外电影票房,并探索电影票房预测模型。

参考文献

[1]王炼,贾建民.基于网络搜索的票房预测模型——来自中国电影市场的证据[J].系统工程理论与实践,2014,34(12):30793090.

[2]王艳,金天星.市场营销与风险评估:双重视角下的电影票房预测[J].中国电影市场,2012,(3):1112.

[3]胡小莉,李波,吴正鹏.电影票房的影响因素分析[J].中国传媒大学学报(自然科学版),2013,(01):42+6570.

[4]吴发翔,江西财经大学软件与通信工程学院,吴发翔,等.一种基于C5.0决策树算法的票房预测研究[J].科技广场,2016,(4):186192.

[5]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146149.