当前位置: 代码迷 >> 综合 >> Kaggle-Video Games Sales——日本游戏市场分析报告
  详细解决方案

Kaggle-Video Games Sales——日本游戏市场分析报告

热度:47   发布时间:2024-01-30 06:20:57.0

【项目介绍】

本项目是Kaggle网站上一个较为经典的题目,由http://vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,本人希望依靠该数据产生一份综合的游戏行业报告。

日本在世界电子游戏公司三巨头中独占两席,几乎每年都有值得期待的游戏佳作问世,作为电子游戏开发大国,其电游市场发展如何很令我好奇,因此我们今天进来通过Kaggle的vgsales数据来对日本游戏市场发展做一次实战分析。

【数据来源】

Video Game Sales Analyze sales data from more than 16,500 games.?www.kaggle.com

 

【使用工具】

Excel、MYSQL、Power BI

【字段理解】

RANK-总销售额的排名
Name-游戏的名字
Platform-游戏发布平台(即PC,PS4等)
Year-游戏发行的年份
Genre-游戏的类型
Publisher-游戏的出版者
NA_Sales -北美销售额(百万)
EU_Sales -欧洲销售额(百万)
JP_Sales -日本销售额(百万)
Other_Sales—世界其他地区销售额(百万)
Global_Sales—全球销售总额。
PS.总数据1.66W条

【定义问题】

依据上图的思维导图,我对主问题做了如下分解:

  • 日本市场各年度游戏总销量有何变化,和全球总销量趋势变化是否一致
  • 日本市场各年度游戏销量全球占比有何变化
  • 日本市场各年度各发行商产品销量有何变化
  • 日本市场各年度各平台产品销量有何变化
  • 日本市场各年度各类型游戏销量有何变化

【数据清洗】

使用工具:Excel

我们按照如下步骤来做:

1、选择子集、字段重命名:

根据我们定义的问题,表中的每个字段都会需要,而本数据集字段名也是OK的,所以这两步不做处理。

2、删除重复值

本数据集中完全相同的一款游戏才是重复值,考虑到经典游戏会重制以及爆款游戏会多平台发售,我们认为只有Name(游戏名称)、Platform(平台)和Year(发行年份)都相同,才为重复值我们在Year后新建一列,命名为unique,输入公式:

[公式]

若为重复值,则输出0,非重复值则为1:

通过筛选功能查找为0的数据,结果我们看到并没有重复值。

3、缺失值处理

我是对每个字段进行缺失值的条件定位,首先Year字段下有273个缺失值,约占总数据数的1.6%,Publisher字段下有36个缺失值,对数据整体影响不大,直接删除。

4、一致化处理

由于游戏名中有存在,的,这在mysql读取的时候容易被自动分列,我们使用替换功能把Name列中的英文逗号替换为空格

5、异常值处理

在本数据集中可能出现异常值的字段就是Year(年份)以及各区域的销量

针对Year字段,我们简单通过筛选条件,看出其范围在1980-2020,符合逻辑,初步判断没有异常值。

针对各区域销量,由于存在爆款游戏以及每年度人们的可支配收入不同,销量可能存在较大偏差,我们通过最大值和最小值的范围来判断是否合理:

最大最小值都没有太过离谱的数值,因此初步判断没有异常值,暂时不做处理。

【数据分析】

考虑到1.6W条数据,单纯使用Excel或者PBI处理有点卡,我们使用SQL来将需要查询的数据提取出来,并通过PBI来可视化分析。如果不考虑性能的话,本题的分析用数据透视表会更加简单方便。

首先我们来创建和读取数据集,代码如下:

create table vgsales(
g_Rank int(8) primary key,
g_Name varchar(100) not null,
Platform varchar(20) not null,
g_Year varchar(5) not null,
Genre varchar(50) not null,
Publisher varchar(50) not null,
NA_Sales float(10) not null,
EU_Sales float(10) not null,
JP_Sales float(10) not null,
Other_Sales float(10) not null,
Global_Sales float(10) not null);load data local infile 'D:/vgsales.csv' into table vgsalesfields terminated by ','ignore 1 lines;

由于Rank、Name和Year和SQL语言中的函数名等重名,我们不能直接命名为字段名,我在字段名前加了g_,但是这会导致与原表字段名不一致,原表字段名会作为第一行插入table中的第一行,因此我在load的时候后面加上了 ignore 1 lines忽略首行,也就是字段名行。

用以下代码检查一下数据:

select * from vgsales limit 5;

结果如下,这部分没有问题:

接下来开始正式分析,输入以下代码:

select g_Year as year, sum(Global_Sales) as total_sales
from vgsales
group by g_Year
order by g_Year;

结果如下:

根据我们需要分析的问题,我们编写代码进行查询:

select g_Year as '发行年份', sum(Global_Sales) as '全球销量', sum(JP_Sales) as '日本销量',
JP_Sales/Global_Sales as '日本市场份额', NA_Sales/Global_Sales as '北美市场份额', EU_Sales/Global_Sales as '欧洲市场份额', Other_Sales/Global_Sales as '其他市场份额'
from vgsales
group by g_Year
order by g_Year;select g_Year as '发行年份', Publisher as '发行商', sum(JP_Sales) as '发行商销量' 
from vgsales
group by g_Year, Publisher
order by g_Year;select g_Year as '发行年份', Platform as '平台', sum(JP_Sales) as '平台游戏销量' 
from vgsales
group by g_Year, Platform
order by g_Year;select g_Year as '发行年份', Genre as '类型', sum(JP_Sales) as '各类游戏销量' 
from vgsales
group by g_Year, Genre
order by g_Year;

使用PBI连接MYSQL数据库,我制作了下列Dashboard:

PBI文件如下:

Video Gmae Sales——日本市场发展分析.pbit

3.2M

·

百度网盘

除了切片器外,每个图表对应了我上述提出的一个子问题,我们一一来看:

【问题1. 日本市场各年度游戏总销量有何变化,和全球总销量趋势变化是否一致】

通过此表可以看出,日本市场电子游戏各年发布游戏销量的趋势整体与全球市场一直,不同的地方在于1980-1982年日本游戏市场还未起步,销量为0,而在2006年之后,新发行游戏销量在日本市场开始走下坡,而在全球市场中则在2008年之后才开始展现下滑现象。

【问题2. 日本市场各年度游戏销量全球占比有何变化】

根据此表来看,2000年之前,日本游戏市场大体占据全球游戏市场份额的40%左右,而2000年之后,市场份额下滑,基本稳定在10%上下。由于2016年之后数据较少,我们对于图表中最后一个峰值暂且不进行讨论,我们来重点关注1983年日本市场份额大幅提升和1999年之后日本市场份额下滑的原因。具体的原因,我们可能需要借助后续的三张图,因此不妨先卖个关子。

【问题3. 日本市场各年度各发行商产品销量有何变化】

从发行商销量来看,日本市场可以说是任天堂家一家独大,绝对的霸主地位。通过切片器的选择,我们可以看出1983-2016年,任天堂发行的游戏基本都是当地市场的销售冠军。

【问题4. 日本市场各年度各平台产品销量有何变化】

从上图来看,不难看出游戏最畅销的平台是DS,其次是PS和PS2,都是老机型,利用切片器,我们可以看出,1995年之前,占据霸主地位的是NES和SNES,而自1993年PS问世后,两年时间实现了在PS平台游戏反超SNES。直到2005年前,基本都是索尼家的PS和更新机型PS2平台的游戏销量霸占榜首,直到2005年DS实现反超,并将第一的优势保持到了2010年,临近2010年,索尼开始走电视游戏机(PS3)和掌上游戏机(PSP)并驾齐驱的思路,加上微软家的XBOX平台问世,任天堂也开发了全新的平台3DS,玩家的选择增多,百花齐放。

【问题5. 日本市场各年度各类型游戏销量有何变化】

上图可以看出,在日本市场玩家偏好的游戏类型中,角色扮演优势明显,利用切片器观察每年的游戏类型销量中,可以看出子1987年角色扮演类游戏首次出现后,该类型游戏销量一直位于每年日本市场电游销量的前三甲。

【总结】

接下来,我们开始结合以上数据分析结果和百度获取的信息,来讲述以下日本市场的电游销售故事。

  • 1980-1982年,处于日本电游市场基本等同于处女地,同时全球游戏销量低迷,电游市场低迷。
  • 1983年,美国游戏业大萧条,但同年日本任天堂发布NES游戏机,带着新问世的游戏魂斗罗、超级玛丽等迅速在日本热销,日本游戏市场份额迅速拉高到75%。

  • 1984年,NES平台游戏在美国大卖,美国电游行业销售业绩回温,虽然日本地区游戏销量依旧处于增加态势,但市场份额迅速回落。
  • 1984-1999年,凭借任天堂、索尼等日本游戏公司不断努力,日本市场电游销量占比长期保持在40%左右,NES、SNES、PS等平台游戏相继占据霸主地位。
  • 1999年后,日本经济危机爆发,电游销量直线滑落,一直持续至2005年前后。
  • 2005年日本电游销量小幅回温,但于次年再度下滑,而世界电游销量也在2008年后开启断崖式下跌。
  相关解决方案