当前位置: 代码迷 >> PHP >> 请问一个关于PHP大数组去重的有关问题
  详细解决方案

请问一个关于PHP大数组去重的有关问题

热度:40   发布时间:2016-04-28 17:53:38.0
请教一个关于PHP大数组去重的问题
请教一个问题,关于PHP大数组操作,一张表有几百万的数据要拿到PHP数组中做去重操作:
例如:id 性别 身份证三个字段,需要统计男女各有多少人(有其它特定逻辑,不能在MySQL中去重)
实现方法:id是自增的,每次按id取5w条数据,拿到一个数组中做去重操作
$count = array(
'男'  => array(
            '身份证1'  => 1,
    '身份证2'  => 1,
    ....
),
'女' => ...
);
最后看男女下共有多少个身份证即为去重后的数据
问题:随着数组越来越大,去重速度也越来越慢,不知道有没有其它解决方案或者优化方法,来请教一下,thx!
------解决思路----------------------
我们按你给出的数据做一个测试
drop table if exists play;

CREATE TABLE `play` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `time` int(10) NOT NULL,
  `uid` int(10) unsigned NOT NULL,
  `game` varchar(255) NOT NULL,
  `channel` varchar(255) NOT NULL,
  `system` varchar(255) NOT NULL,
  `screen` varchar(255) NOT NULL,
  `network` varchar(255) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `datetime` (`time`)
) charset=gbk;

insert into play values
(1,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信'),
(2,1421812389,10001,'所有游戏-魔兽世界-1服','网易-网易联盟','XP','1366x768','联通'),
(3,1421812389,10000,'所有游戏-魔兽世界-0服','360-360联盟','WIN7','1024x768','电信');

drop table if exists play_game;

create table play_game ( game varchar(100) ) charset=gbk;

insert into play_game values ('所有游戏'),('魔兽世界'),('0服'),('1服');

drop table if exists play_channel;

create table play_channel ( channel varchar(100) ) charset=gbk;

insert into play_channel values ('360'),('360联盟'),('网易'),('网易联盟');

select a.id, a.time, a.uid, b.game, c.channel, a.system, a.screen, a.network from play a, play_game b, play_channel c where 
  find_in_set(b.game, replace(a.game, '-', ','))
  and
  find_in_set(c.channel, replace(a.channel, '-', ','))
可得到这样的结果

id time    uid  game   channel system screen  network 
1  1421812389 10000 所有游戏 360   WIN7  1024x768 电信 
3  1421812389 10000 所有游戏 360   WIN7  1024x768 电信 
1  1421812389 10000 魔兽世界 360   WIN7  1024x768 电信 
3  1421812389 10000 魔兽世界 360   WIN7  1024x768 电信 
1  1421812389 10000 0服    360   WIN7  1024x768 电信 
3  1421812389 10000 0服    360   WIN7  1024x768 电信 
1  1421812389 10000 所有游戏 360联盟 WIN7  1024x768 电信 
3  1421812389 10000 所有游戏 360联盟 WIN7  1024x768 电信 
1  1421812389 10000 魔兽世界 360联盟 WIN7  1024x768 电信 
3  1421812389 10000 魔兽世界 360联盟 WIN7  1024x768 电信 
1  1421812389 10000 0服    360联盟 WIN7  1024x768 电信 
3  1421812389 10000 0服    360联盟 WIN7  1024x768 电信 
2  1421812389 10001 所有游戏 网易   XP   1366x768 联通 
2  1421812389 10001 魔兽世界 网易   XP   1366x768 联通 
2  1421812389 10001 1服    网易   XP   1366x768 联通 
2  1421812389 10001 所有游戏 网易联盟 XP   1366x768 联通 
2  1421812389 10001 魔兽世界 网易联盟 XP   1366x768 联通 
2  1421812389 10001 1服    网易联盟 XP   1366x768 联通 

再从这个结果出发,还有什么是不可用 SQL 做到的呢?

如果你永久性的将 所有游戏-魔兽世界-0服 改为 所有游戏,魔兽世界,0服 那就不需要在查询时执行 replace 函数了(当然这可能会涉及程序的改动),效率自然会有所提高
如果你再将最后的查询定义成视图的话,效率就又会提高不少(视图中如果一条记录的源数据没有被改变,则不做查询动作而直接返回缓存的结果)

------解决思路----------------------
怎么能把  所有游戏-wow-1服   存在一个字段里呢~
我是建议添加几个字段,将它拆开保存,然后在mysql上排重
  相关解决方案