[IJCAI-17 口碑商家客流量预测]

By admin in 亚洲必赢app在哪下载 on 2018年11月17日

亚洲必赢app在哪下载 1

IJCAI-17
口碑商家客流量预计               第 1 赛季截止日期          2017/03/14

 

赛制介绍

首要时刻
2月8日 08:00: 评测启动
3月7日 10:00: 报名结束&队伍融合了
3月8日16:00: 更新评测集
3月14日 16:00: 末段一涂鸦测评触发  & 比赛结束
3月19日 23:59: 代码 & 解题思路提交完
3月24日 10:00: 获胜队伍颁发

参赛对象
面向全社会开放,高等院校、科研单位、互联网公司相当人口全都只是报名参赛。
流淌:大赛主办与一道单位,以及有会接触赛题背景业务以及数据的员工,则自动退比赛,放弃参赛资格;
阿里巴巴集团、蚂蚁金服、菜鸟的职工参赛,可参与排行,但不可领取奖金。

组队规则
参赛队伍得以是单人组队或自由组合,但极致多未超三人。3月7日10:00继用不再允许队伍的融合/拆分。
注:
1、每人只能在场同一开军队;
2、保证参赛队员报名信息规范实用,不得采用小号,否则会为吊销参赛资格和刺激;
3、报名方式:用淘宝或阿里云账号登入官网,完成个人信息注册,即可报名参赛。

评测
2月8日-3月7日:评测将于每天的8:00,
16:00 和24:00 触发 。评测触发前可反复交给,新本子用掩盖原版本;
3月8日-3月14日:评测将以每天的16:00 触发,评测触发前可反复交由,新本子将覆盖原版本;

末线上成绩与排名为3月14日16:00排行榜成绩跟排名呢本;

奖项设置及刺激
冠军:1支队伍,USD 10,000
亚军:1支队伍,USD 6,000 
季军:1支队伍,USD 4,000
特别奖:2支军队,USD 4,000
/队 (该奖项面向top20 内之旅开放,作为参会差旅赞助提供,我们将因提交的资料进行选拔:代码+解题思路+英文presentation资料)
太具有潜力奖:价值2000美元之奖学金 
大赛教育合作方优达学城,将为让评为“最具潜力”的武装提供价值超过2000美元的奖学金,可用来学习由 Google、Facebook、亚马逊等硅谷行业负责人推出的人为智能、机器上、数据科学上认证项目。
阳光普照奖:所有选手获得价值500长的新娘上红包
大赛教育合作方优达学城将为持有报名成功之用户,提供价值约500老大的新娘上红包,可用来抵扣首不善加入 Google、Facebook、亚马逊等硅谷行业负责人推出的人造智能、机器上、数据正确等学习认证项目时之学费。(仅可用于优达学城中国区网站 cn.udacity.com。)

Top
3 队伍将抱3,000美元/队的差旅赞助,前往于8月份于墨尔本设立的IJCAI-17主会.

积分发放: 在比赛被出现了成绩的行伍,根据排行榜最终排名,按天池积分公式获得对应积分 
粮票发放: 在比被冒出了成绩的武装部队,根据排行榜最终排名得到相应粮票:
第1-10名队伍:11000粮票 
第11-50名队伍:2500粮票 
第51-100名队伍:1200粮票

 

口碑商家客流量预计

背景 Background

随着活动定位服务之流行,阿里巴巴以及蚂蚁金服逐渐积累了自用户与商家之海量线上线下交易数额。蚂蚁金服的O2O平台“口碑”用这些数量吧商家提供了包交易统计,销售分析与行销建议等定制的后端商业智能服务。举例来说,口碑致力为为每个局提供销售预测。基于预测结果,商家可以优化运营,降低本钱,并改进用户体验。
这次比赛中,我们用为适龄定义的销售预测问题吧开。
我们鼓励创新之解法,帮助口碑成为更加智能的商平台,更好地服务社会。同时,希望每位参赛选手都能够享用及这次比赛带来的意趣。

问题 Statement

前瞻客户流量对企业之经管理重点。在祝词平台上,我们用客户流量定义也“单位时间内在商家使用支付宝花之用户人次”。在这题材遭,我们以提供用户的浏览以及支付历史,以及店堂相关消息,并要参赛选手可以此预测有商店以对接下14龙外,每天的客户流量。
咱们鼓励参赛选手使用类似天气等额外的数码,并愿意参赛选手能够将数据源共享于论坛受到。

评测 Evaluation

当这次比赛中,每单队伍要预测测试集中具有企业在未来14龙(2016.11.01-2016.11.14)内独家每天(00:00:00-23:59:59)的客户流量。预测结果也非负整数。
亚洲必赢app在哪下载 2

数据 Data

我们提供由2015.07.01暨2016.10.31(除去2015.12.12)的号数目,用户支出行为数据和用户浏览行为数据。提供数据的档次统一啊string类型,提交预测的种类为整形。文件统一吗utf-8编码,没有标题行,并以“,”分隔的csv格式。
   1. shop_info:商家特色数据

Field

Sample

Description

shop_id

000001

商家id

city_name

北京

市名

location_id

001

所在位置编号,位置接近的商家具有相同的编号

per_pay

3

人均消费(数值越大消费越高)

score

1

评分(数值越大评分越高)

comment_cnt

2

评论数(数值越大评论数越多)

shop_level

1

门店等级(数值越大门店等级越高)

cate_1_name

美食

一级品类名称

cate_2_name

小吃

二级分类名称

cate_3_name

其他小吃

三级分类名称

2.     user_pay:用户支出行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

3.     user_view:用户浏览行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 10:00:00

浏览时间

4.     prediction:测试集与提交格式

Field

Sample

Description

shop_id

000001

商家id

day_1

25.1

第1天的预测值( 需要选手提供)

day_2

3.55555

第2天的预测值(需要选手提供)

……

 

 

day_14

1024.0

第14天的预测值( 需要选手提供)

 

FAQ

1.Q:time_stamp的编码格式? A:所有时间集合为“yyyy-mm-dd
hh:mi:ss”格式。其中yyyy表示年,mm表示月,dd表示日,hh代表小时,mi代表分钟,ss表示秒。

2.Q:空值的代表法? A:数据文件中,两只逗号间没有内容就是表示该属性也空。例如,“2,哈尔滨,64,19,,,1,超市便利店,超市,” 对许为:

Field

Sample

shop_id

2

city_name

哈尔滨

location_id

64

per_pay

19

score

NULL

comment_cnt

NULL

shop_level

1

cate_1_name

超市便利店

cate_2_name

超市

cate_3_name

NULL

3.Q:空值的意思?
A:score,comment_cnt属性的空值代表没有丁展开了评分或臧否。cate_3_name属性的空值代表不有第三层分类。

4.Q:文件的编码方式?
A:所有文件都以UTF-8编码。

5.Q:提交结果后Loss显示也NaN?
A:NaN代表你的提交存在不当。请检查提交文件内容的完整性,以及格式的正确。可以参照prediction_example.csv的格式。
第一要确认shop_id是否科学。shop_id应该吗1交2000的整数值。缺少或大的shop_id都见面导致提交错误。
辅助要确认预测结果格式是否对。预测结果应为非负整数,而且未能够为空。

6.Q:如果实际客户流量为0,提交预测结果吗为0,则loss为?
A:Loss定义为0。

7.Q:数据时段的问题?
A:user_pay表的现实性数量时限制是2015-06-26 06:00:00届2016-10-31
23:00:00。
user_view表的实际多少时限定是2016-06-22 00:00:00至2016-10-31
23:00:00。
extra_user_view是格外提供的用户浏览数据,其数据结构同user_view表相同,其现实数据时限制是2016-02-01
00:00:00到2016-06-21 23:00:00。
user_pay表中,存在某些商家以某一时间区间内并未用户支付行为的图景。这是由于该商家在拖欠日段为一些原因没有正常经营造成的。

俺们保证在前瞻区间2016.11.01-2016.11.14外,所有企业还在正常经营。

8.Q:数据的详细描述?
A:user_pay表是用户线下(非外卖消费,是交宾馆费)前往口碑店铺使用支付宝进行花费的记录。
user_view表是用户线及以口碑平台浏览商家来的笔录。浏览行为指点击进入公司详情页浏览的所作所为。
shop_info中,处于与一个location_id的公司相互去小于2km,而且location_id本身没有实际意义。
shop_level是口碑平台对店规模之一个评头论足指标,例如个体餐饮商家的门店等仅次于大型全国有关的合作社。

9.Q:如果一个用户以一如既往上外于某商家里开了2坏,那么客户流量算2还是1?
A:2。每次出到底一次举行客户流量。

10.Q:数据共享的问题?
A:首先,数据渠道必须明白,处理思路为如讲述。其次,是否达标污染具体分析。
比方来说:
处理了之当众爬取的数目最终得达到传提交,是否在论坛公开是因为参赛者自行决定。
要用付费数据,不必上污染,也无需公开。只要说明来源以及处理思路即可。

 

处理思路:

1、目的:预测 所有商家 (2000小)在2016.11.01-2016.11.14(14天)内
各自每天(00:00:00-23:59:59)的客户流量。预测结果吧非负整数。

亚洲必赢app在哪下载 3

总计2000履行,每行第一列A代表shop_id商家的id,第二排B到第十五列O代表未来14天,每天的客流量

 

2、知道要做啊了,然后开下手做,第一步:观察先用的数据集

1. shop_info:商家特色数据

Field

Sample

Description

shop_id

000001

商家id

city_name

北京

市名

location_id

001

所在位置编号,位置接近的商家具有相同的编号

per_pay

3

人均消费(数值越大消费越高)

score

1

评分(数值越大评分越高)

comment_cnt

2

评论数(数值越大评论数越多)

shop_level

1

门店等级(数值越大门店等级越高)

cate_1_name

美食

一级品类名称

cate_2_name

小吃

二级分类名称

cate_3_name

其他小吃

三级分类名称

2.     user_pay:用户支出行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

3.     user_view:用户浏览行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 10:00:00

浏览时间

 

现行生就三只说明,一个是商户特征数据,一个凡是用户支出行为,还有一个凡是用户浏览行为

察觉没有尽根本的 label 客户流量 

故此现在第一应当处理多少

咱俩今天纪念了解的凡:

1、2000 寒 商户 在 2015.07.01 –
2016.10.31 每天来多少个用户发支付行为?

2、影响开发多少也就是客户流量的原由是呀?

3、有了点的数量,要把这些数据分为训练集、验证集、测试集

4、预测 2000 家商议户 在 2016.11.01 –
2016.11.14(14天)每天的客户流量

 

那先拍卖第一独问题,怎么管2000贱 商户 在2015.07.01 –
2016.10.31的客流量计算出

 

 影响开发多少也即是客户流量的原故是什么?

Well, when we initialize a neural network, we don’t know what
information will be most important in making a decision.

It’s up to the neural network to learn for itself which data is most
important and adjust how it considers that data.

 It does this with something called weights.

 

冲公司的特征数据的不同权重,单个人会见不见面挑选出消费是好透过深度上来形成的,

The sigmoid function is bounded between 0 and 1, and as an output can be
interpreted as a probability for success.

抱一个概率,比如一个丁大约会产生75%底人会见择,就是相邻发生100单浏览量,可以对应会生75只支付量吗?

还有一个问题,是碰头有多少人来选择呢 

此提到到者公司之地理位置紧邻发生小人口,根据浏览量,可以断定有大约总人数,根据支付人数,

好确定大概比例 = =~(这样想对怪?)

 

周健%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson),曹瑞霞%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson),王兆卫%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)的餐饮业短期客流量预计方法 
 文中部分摘要:

餐饮行业客流预计属于时间序列短期预测,对
让短期预测,目前首要运用日序列分析法和反往
传播(back
propagation,BP)神经网络预测方法[4-5].
客流系统是一个有人与、时变、复杂、具有莫大不
不言而喻的不线性系统,因此非常不便立适当的数学模
型.正而文献[63指出,由于饮食客流变化趋势是非
线性的,建立有关数学模型非常窘迫,因而使用时间
班分析建模方法对系作为的纯正预测效果也麻烦
盖令人满意.而神经网络作为一个存有比强之鲁棒
性和容错能力的非线性动态系统,对几近素非线性
的展望问题负有十分好的适用性,并会获取较为规范
的预测结果[7{].神经网络应用之根底是具备足够、
可行的样本.而对此餐饮业来说可根据过去之适应
行情况记录大量以及真实性的样本来满足当下同口径.但
凡,由于影响进食客流的因素相对较多,并且多缘
从来中有耦合关系.因此,针对一些具体影响条件
下的样本量却不足以对神经网络进行实用之训,
致使了这些状况下的客流预计精度偏差较大.
灰色一马尔可夫链系统理论[1¨1]凡是一模一样种研究少
数、贫信息、不确定性问题的新方法.灰色系统预
测量适用于数较少而系统状态为主连条件下的先
测问题.根据往底数据可知,在少数状态下,虽然
史样本不充分,但系统状态为主是连连的,因此而
以开展多少充分性不足情况下的客流预测.

据悉反为传播神经网络的餐饮客流量预计模型
(1)训练样本的确定与处理.训练样本的取舍在
为那个是和准确性,样本数量分布更为均匀、数据规
模越大,精度越来越高.故选择大样本项目作为训练数
据.另外,为监察训练过程,使的无发出“过拟合”现
相,并进而评论所修模型的性及泛化能力,把样
本集按70%,15%同15%之比例分成训练样本、验
证样本和查验样本.另外,由于神经网络的大部上
算法不克适应大方便的数据变动范围,因此需要对样
依进行归一化处理.
(2)神经网络的输入、输出.通过对影响客流量
的素分析,选取星期、天气和寒暑假立即3单元素作
否神经网络的输人,日客流量当出口,即神经网络
的输入层有3单节点,输出层拥有1单节点.
(3)隐含层及带有层节点数的确定.现有理论证
喻一个3层BP神经网络能盖随机精度逼近任何不
线性函数,故选用一个3层BP模型用于预测.隐含
层节点数的确定是神经网络设计着很重要的同样
圈,隐含层节点数往往根据计划所得经验及进行尝试
验来确定.通过神经网络训练来规定隐含层的节点
频:首先冲经验公式(1)确定隐含层节点数目的师
围绕;其次设计一个分包层神经元数目可变的BP网
绕,通过3栽样本误差和相关系数的对立统一确定最佳
的隐含层结点数目n1
    n1 =
√(n+m) + a0      (1)
典礼受:以为输入层节点数目;m为输出层节点数目;
a0否o~10里的人身自由常数.
(4)训练函数和训练参数的确定.由于
Levenberg-Marquardt算法具有收敛速度快、所占内
存小和教练结果好之优点,选用训练函数trainlm;
系学过程的祥和受学习率的震慑,为保证学
习过程的收敛性,选取较小的学习率;由于在神经网
络模型训练过程被,对有限的样本进行频繁训练而
能会面招致网络了拟合现象,因此在实质上模型训练中
运用设定最深迭代次数及教练目标来避免免.
(5)训练网络,构建面向餐饮客流的展望模型.

 

亚洲必赢app在哪下载 4

 

 

1、使用Navicat for MySQL 处理数量,先统计每家旅馆每日的流量

–>对表user_pay:用户支出行为  –>  操作

Field

 

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

select study.shop_id,left(study.time_stamp,10),count(*)
from study
group by  study.shop_id,left(study.time_stamp,10)

亚洲必赢app在哪下载 5

 

2、使用Navicat for MySQL处理多少,把日子以及星期对应起来

DayOfWeek() 对于一个日子,返回对应之星期几,

1表示星期日,2表示星期一,3象征星期二,4象征星期三,5象征星期四,6代表星期五,7代表星期六;

示例:

 SELECT DayOfWeek('2016-01-01');  

结果为:

+-------------------------+
| dayofweek('2016-01-01') |
+-------------------------+
|                       6 |
+-------------------------+
1 row in set (0.00 sec)

DayName() 返回一个日子对应之星期几的英文名

示例:

SELECT DayName('2016-01-01');  

结果为:

+-----------------------+
| dayname('2016-01-01') |
+-----------------------+
| Friday                |
+-----------------------+
1 row in set (0.00 sec)

 

SELECT
user_pay_count.shop_id,
user_pay_count.time_stamp,
DayOfWeek(user_pay_count.time_stamp) AS week,
user_pay_count.count
FROM
user_pay_count

亚洲必赢app在哪下载 6

 

3、使用EXCEL处理多少,添加日期对应之节

以辅表:

节日假期 调整工作日
2015/1/1 2015/1/4
2015/1/2  
2015/1/3  
 2015/2/18 2015/2/15
 2015/2/19 2015/2/28
2015/2/20  
2015/2/21  
 2015/2/22  
 2015/2/23  
 2015/2/24  
2015/4/4  
2015/4/5  
2015/4/6  
2015/5/1  
2015/5/2  
2015/5/3  
2015/6/20  
2015/6/21  
2015/6/22  
2015/9/26  
2015/9/27  
2015/10/1 2015/10/10
2015/10/2  
2015/10/3  
2015/10/4  
2015/10/5  
2015/10/6  
2015/10/7  
2016/1/1 2016/1/4
2016/1/2  
2016/1/3  
2016/2/7 2016/2/6
2016/2/8 2016/2/14
2016/2/9  
2016/2/10  
2016/2/11  
2016/2/12  
2016/2/13  
2016/4/3 2016/4/2
2016/4/4  
2016/4/5  
2016/5/1 2016/4/30
2016/5/2  
2016/5/3  
2016/6/9 2016/6/12
2016/6/10  
2016/6/11  
2016/9/15 2016/9/18
2016/9/16  
2016/9/17  
2016/10/1 2016/10/8
2016/10/2 2016/10/9
2016/10/3  
2016/10/4  
2016/10/5  
2016/10/6  
2016/10/7  

表所列是国务院办公厅发表之2015年同2016年节日假期和调动工作日的安排。

名词解释:

节假期——法定节日放假的日期。

调动工作日——本来是星期天双休日,但因为节假日假期的配置而调整也工作日。

 

今日咱们来分析一下,一个日期是休息日需要满足下面两只尺码之一:

  1. 凡是节日假期 

  2. 凡星期而不是调整工作日

换言之,两只极而满足一个便是休息日,如果个别个都未饱,就是工作日。

用Excel函数表述是这样:

if(是节日,”休息日”,if(是星期天,if(不是调动工作日,”休息日”,”工作日”),”工作日”))

 

认清一个日期是否为周末(周六、周日)可以就此weekday()函数:

=if(weekday(today(),2)>=6,”周末”,”不是星期”)

而一旦判断一个日期是否也休息日,就要复杂一些,因为若提到到法定节日、调休和调整工作日等。

 

一经要看清的日子在B1单元格。上面表述被三个规格:“是节假期”、“是周末”、“不是调动工作日”分别就此函数代替。

大凡节日假期(在I列中可知找到B1的值)–COUNTIF(I:I,B1)>=1

凡星期(是如出一辙周中的第6还是第7上)–WEEKDAY(B1,2)>=6

未是调整工作日(在J列中搜寻不至B1的价值)–COUNTIF(J:J,B1)=0

最后之公式如下:

=IF(COUNTIF(I:I,B1)>=1,”节假日”,IF(WEEKDAY(B1,2)>=6,IF(COUNTIF(J:J,B1)=0,”周末”,”工作日”),”工作日”))

把公式复制到要是填写的光元格里。

接下来下shift、ctrl+c和ctrl+v 快速复制单元格(带填充格式)

亚洲必赢app在哪下载 7

因咱们最终使预计的凡2016.11.01 –
2016.11.14(14天)每天的客户流量

既然不是寒假也非是暑假,所以,先得绝不考虑这个因素,

产生地方论文提及:虽然星期、天气、节假日、寒暑假立马4只因素都指向客流量影响显然,

唯独客流量就星期和节日即时点儿单因素水平的生成起伏比较生。

故而我们得以先采取即时有限个因素来尝试下

 

 

 

 

 

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2019 亚洲必赢app官方下载 版权所有