贺词商家客量预测

By admin in 亚洲必赢app在哪下载 on 2019年2月28日

亚洲必赢app在哪下载 1

IJCAI-17
口碑商户客量估算
               第 1 赛季甘休日期          2017/03/14

 

比赛制度介绍

最首要时间
二月二十二日 08:00: 评测运行
7月二3日 10:00: 报名甘休&阵容融合截止
十一月15日16:00: 更新评测集
3月14日 16:00: 末尾一回测验评定触发  & 比赛截止
12月十五日 23:59: 代码 & 解题思路提交终止
七月2十八日 10:00: 获胜队伍容貌颁发

参加比赛对象
面向全社会开放,高校、科学研讨单位、互连网公司等人口均可报名参加比赛。
注:大赛主办和一起单位,以及有空子接触赛题背景业务及数据的职工,则自动退出竞赛,扬弃参加比赛资格;
阿里巴巴公司、蚂蚁金服、菜鸟的职员和工人参加比赛,可涉足排行,但不足领取奖金。

组队规则
参加比赛队容得以是单人组队或自由组合,但最多不超越四个人。四月二十一日10:00后将不再允许阵容的两败俱伤/拆分。
注:
一 、每人只好在场一支部队;
二 、保障参加比赛队员报名新闻准确实用,不得利用大号,不然会被撤废参加比赛资格及刺激;
③ 、报名方法:用天猫商城或阿里云账号登入官网,完结个人音讯注册,即可申请参加比赛。

评测
12月13日-七月二十二十七日:评测将在每一日的8:00,
16:00 和24:00 触发 。评测触发前可反复提交,新本子将掩盖原版本;
七月31日-七月1二五日:评测将在每日的16:00 触发,评测触发前可反复付给,新本子将掩盖原版本;

最后线上成绩与排行以5月17日16:00排名榜战绩与排行为准;

奖项设置及刺激
冠军:1支队伍,USD 10,000
亚军:1支队伍,USD 6,000 
季军:1支队伍,USD 4,000
特别奖:2支部队,USD 4,000
/队 (该奖项面向top20 内的武装部队开放,作为参加会议出差旅行赞助提供,大家将根据提交的资料实行遴选:代码+解题思路+英文presentation资料)
最具潜力奖:价值三千美金的奖学金 
大赛教育合营方优达学城,将为被评为“最具潜力”的军队提供价值当先两千美元的奖学金,可用于学习由 谷歌(Google)、Twitter、亚马逊(Amazon)等硅谷行业COO推出的人工智能、机器学习、数据正确学习认证项目。
太阳普照奖:全部选手获得价值500元的新妇子学习红包
大赛教育同盟方优达学城将为保有报名成功的用户,提供价值约500元的新人学习红包,可用于抵扣第壹回投入 谷歌(Google)、脸谱、亚马逊(亚马逊(Amazon))等硅谷行业监护人推出的人工智能、机器学习、数据科学等求学认证项目时的学习开支。(仅可用于优达学城中国区网站 cn.udacity.com。)

Top
3 队容将取得3,000美金/队的出差旅行赞助,前往于一月份在卢森堡市设置的IJCAI-17主会.

积分发放: 在竞赛前冒出过战绩的队容,根据排名榜最终排行,按天池积分公式得到对应积分 
粮票发放: 在比赛前冒出过战表的军旅,依照排名榜最终排行获得对应粮票:
第1-10名队伍:11000粮票 
第11-50名队伍:2500粮票 
第51-100名队伍:1200粮票

 

贺词专营商客量预测

背景 Background

趁着移动定位服务的流行,阿里巴巴(Alibaba)和蚂蚁金服慢慢积淀了来自用户和商家的海量线上线下交易数额。蚂蚁金服的O2O平台“口碑”用这几个数量为集团提供了席卷交易计算,销售分析和行销提出等定制的后端商业智能服务。举例来说,口碑致力于为各种集团提供应和销售售估计。基于预测结果,商户能够优化运转,下跌资金,并创新用户体验。
这一次比赛中,大家将以十分定义的销售预测难题为题。
大家鼓励创新的解法,援救口碑成为越来越智能的商业平台,更好地服务社会。同时,希望各位参加比赛选手都能分享到本次比赛带来的乐趣。

问题 Statement

前瞻客户流量对商店的经营管理首要性。在祝词平台上,我们将客户流量定义为“单位时间内在专营商采纳支付宝消费的用户人次”。在那几个题材中,大家将提供用户的浏览和开发历史,以及商店相关新闻,并期望参加比赛选手能够以此预测全数商店在接下去14天内,每日的客户流量。
咱俩鼓励参加比赛选手使用类似天气等额外的数据,并期望参加比赛选手能够将数据源共享在论坛中。

评测 Evaluation

在这一次竞技后,每只阵容要求预测测试集中具有专营商在未来14天(二零一五.11.01-二零一五.11.14)内独家每日(00:00:00-23:59:59)的客户流量。预测结果为非负整数。
亚洲必赢app在哪下载 2

数据 Data

咱俩提供从二〇一六.07.01到2015.10.31(除去二零一六.12.12)的商店数量,用户支付行为数据以及用户浏览行为数据。提供数据的类型统一为string类型,提交预测的门类为整形。文件统一为utf-8编码,没有标题行,并以“,”分隔的csv格式。
   1. shop_info:商行特色数据

Field

Sample

Description

shop_id

000001

商家id

city_name

北京

市名

location_id

001

所在位置编号,位置接近的商家具有相同的编号

per_pay

3

人均消费(数值越大消费越高)

score

1

评分(数值越大评分越高)

comment_cnt

2

评论数(数值越大评论数越多)

shop_level

1

门店等级(数值越大门店等级越高)

cate_1_name

美食

一级品类名称

cate_2_name

小吃

二级分类名称

cate_3_name

其他小吃

三级分类名称

2.     user_pay:用户支付行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

3.     user_view:用户浏览行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 10:00:00

浏览时间

4.     prediction:测试集与提交格式

Field

Sample

Description

shop_id

000001

商家id

day_1

25.1

第1天的预测值( 需要选手提供)

day_2

3.55555

第2天的预测值(需要选手提供)

……

 

 

day_14

1024.0

第14天的预测值( 需要选手提供)

 

FAQ

1.Q:time_stamp的编码格式? A:全体时间集合为“yyyy-mm-dd
hh:mi:ss”格式。在那之中yyyy表示年,mm表示月,dd表示日,hh代表小时,mi表示分钟,ss表示秒。

2.Q:空值的意味方法? A:数据文件中,七个逗号间尚未内容即表示该属性为空。例如,“2,瓦尔帕莱索,64,19,,,1,超级市场便利店,超级市场,” 对应为:

Field

Sample

shop_id

2

city_name

哈尔滨

location_id

64

per_pay

19

score

NULL

comment_cnt

NULL

shop_level

1

cate_1_name

超市便利店

cate_2_name

超市

cate_3_name

NULL

3.Q:空值的意义?
A:score,comment_cnt属性的空值代表没有人展开过评分或臧否。cate_3_name属性的空值代表不设有第贰级分类。

4.Q:文件的编码格局?
A:全数文件均使用UTF-8编码。

5.Q:提交结果后Loss展现为NaN?
A:NaN代表你的提交存在错误。请检查提交文件内容的完整性,以及格式的正确性。能够参考prediction_example.csv的格式。
先是请确认shop_id是不是科学。shop_id应该为1至三千的整数值。缺少或尤其的shop_id都会招致提交错误。
其次请确认预测结果格式是还是不是科学。预测结果应为非负整数,而且无法为空。

6.Q:假使实际客户流量为0,提交预测结果也为0,则loss为?
A:Loss定义为0。

7.Q:数据时间段的题材?
A:user_pay表的切实数量时限是二零一六-06-26 06:00:00至二〇一五-10-31
23:00:00。
user_view表的切切实实数量时间范围是二〇一四-06-22 00:00:00至2015-10-31
23:00:00。
extra_user_view是卓殊提供的用户浏览数据,其数据结构同user_view表相同,其实际数据时间范围是二零一四-02-01
00:00:00至2014-06-21 23:00:00。
user_pay表中,存在一些商户在某近来间区间内并未用户支出游为的意况。那是由于该商行在该时间段因有些原因尚未正规经营导致的。

大家保障在展望区间二零一五.11.01-二零一六.11.14内,全部店家都在常规经营。

8.Q:数据的详细描述?
A:user_pay表是用户线下(非外卖消费,是到店消费)前往口碑店铺使用支付宝实行费用的记录。
user_view表是用户线上在口碑平台浏览商家爆发的记录。浏览行为指引击进入集团详情页浏览的作为。
shop_info中,处于同一个location_id的同盟社相互距离小于2km,而且location_id本人没有实际意义。
shop_level是口碑平台对集团规模的二个夸夸其谈指标,例如个体餐饮商行的门店等级稍低于大型全国有关的小卖部。

9.Q:借使一个用户在一天内在某卖家里支付了二回,那么客户流量算2照旧1?
A:2。每回支付算3次做客户流量。

10.Q:数据共享的标题?
A:首先,数据渠道必须驾驭,处理思路也要描述。其次,是或不是上传具体分析。
比喻来说:
拍卖过的公开爬取的多少最后需上传提交,是或不是在论坛公开由参加比赛者自行决定。
只要运用付费数据,不必上传,也无须公开。只要表明来源和拍卖思路即可。

 

处理思路:

一 、目的:预测 全体商行 (3000家)在2014.11.01-二〇一六.11.14(14天)内
各自天天(00:00:00-23:59:59)的客户流量。预测结果为非负整数。

亚洲必赢app在哪下载 3

一共3000行,每行第③列A代表shop_id商行的id,第1列B到第⑨五列O代表未来14天,每一日的客量

 

二 、知道要做什么了,然后早先入手做,第贰步:观望先用的数据集

1. shop_info:商户特色数据

Field

Sample

Description

shop_id

000001

商家id

city_name

北京

市名

location_id

001

所在位置编号,位置接近的商家具有相同的编号

per_pay

3

人均消费(数值越大消费越高)

score

1

评分(数值越大评分越高)

comment_cnt

2

评论数(数值越大评论数越多)

shop_level

1

门店等级(数值越大门店等级越高)

cate_1_name

美食

一级品类名称

cate_2_name

小吃

二级分类名称

cate_3_name

其他小吃

三级分类名称

2.     user_pay:用户支付行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

3.     user_view:用户浏览行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 10:00:00

浏览时间

 

现行反革命有那五个表,2个是经纪人特征数据,2个是用户支付行为,还有贰个是用户浏览行为

意识并未最重庆大学的 label 客户流量 

于是今后先是应当处理数量

我们前几天想驾驭的是:

壹 、贰仟 家 卖家 在 二零一六.07.01 –
二零一四.10.31 每一日有个别许个用户产生支付行为?

② 、影响开发多少约等于客户流量的来头是何等?

叁 、有了地点的数码,要把那个多少分为陶冶集、验证集、测试集

四 、预测 3000 家商行 在 2014.11.01 –
二〇一六.11.14(14天)每一天的客户流量

 

那正是说先拍卖第①个难点,怎么把贰仟家 商行 在二零一六.07.01 –
二零一四.10.31的客流量计算出来

 

 影响开发多少也正是客户流量的缘由是何等?

Well, when we initialize a neural network, we don’t know what
information will be most important in making a decision.

It’s up to the neural network to learn for itself which data is most
important and adjust how it considers that data.

 It does this with something called weights.

 

依据商行的性状数据的不等权重,单个人会不会接纳支付消费是能够透过深度学习来实现的,

The sigmoid function is bounded between 0 and 1, and as an output can be
interpreted as a probability for success.

获得二个可能率,比如一位差不离会有四分三的人会选用,就是附近有玖十四个浏览量,能够对应会有七十二个支付量吗?

再有三个难点,是会有个别许人来摘取呢 

那里涉及到那几个公司的地理地方紧邻有几人,依照浏览量,能够判定出差不多总人数,依据支付人数,

能够规定大致比例 = =~(那样想对不对?)

 

周健%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)曹瑞霞%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)王兆卫%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)的餐饮业长期客量预测方法 
 文中有的摘要:

餐饮行业客流推断属于时间连串长期预测,对
于长时间预测,近日最主要使用时间种类分析法和反向
盛传(back
propagation,BP)神经互连网预测方法[4-5].
客流系统是三个有神草与、时变、复杂、具有莫大不
令人惊讶标非线性系统,由此很难建立合适的数学模
型.正如文献[63建议,由于饮食客流变化趋势是非
线性的,建立有关数学模型十三分勤奋,因此使用时间
队列分析建立模型方法对系统行为的准确预测效果也难
以令人满足.而神经网络作为2个装有较强的鲁棒
性和容错能力的非线性动态系统,对多成分非线性
的展望难点有所很好的适用性,并能获得较为规范
的臆想结果[7{].神经网络接纳的底蕴是持有丰裕、
使得的样本.而对于餐饮业来说能够依照过去的服
务情状记录多量和真正的样本来满足这一尺度.但
是,由于影响就餐客流的因素绝对较多,并且很多因
素之间存在耦合关系.由此,针对少数具体影响条件
下的样本量却不足以对神经互连网进行实用的磨练,
致使了这几个景况下的客流猜度精度偏差较大.
灰褐一马尔可夫链系统理论[1¨1]是一种研讨少
数码、贫新闻、不显著性难题的新方法.灰湖绿系统预
测适用于数据较少但系统状态为主接二连三条件下的预
测问题.根据过去的多少可见,在少数状态下,尽管
野史样本不足够,但系统状态为主是接连的,由此可
以拓展数据丰盛性不足景况下的客流预测.

依据反向传播神经互联网的餐饮客量估摸模型
(1)演练样本的鲜明与处理.练习样本的取舍在
于其科学和准确性,样本数据分布越均匀、数据规
模越大,精度越高.故采纳大样本项目作为练习数
据.其它,为监督训练进度,使之不发出“过拟合”现
象,并进而评论所建立模型型的性质和泛化能力,把样
本集按70%,15%和15%的比例分成陶冶样本、验
证样本和视察样本.其余,由于神经网络的大多数读书
算法不可能适应很宽的数目变动范围,因而须要对样
本举行归一化处理.
(2)神经网络的输入、输出.通过对影响客量
的因素分析,选取星期、天气和寒暑假那3个要素作
为神经互联网的输人,日客量作为出口,即神经网络
的输入层拥有贰个节点,输出层拥有1个节点.
(3)隐含层及带有层节点数的分明.现有理论证
澳优个3层BP神经网络能以随机精度逼近任何非
线性函数,故选用三个3层BP模型用于预测.隐含
层节点数的鲜明是神经互联网设计中国和非洲常关键的一
环,隐含层节点数往往依照设计所得经验和拓展试
验来分明.通过神经互联网陶冶来规定隐含层的节点
数:首先根据经验公式(1)分明隐含层节点数目标范
围;其次设计贰个含有层神经元数目可变的BP网
络,通过3种样本误差和相关周密的相比分明最佳
的隐含层结点数目n1
    n1 =
√(n+m) + a0      (1)
式中:以为输入层节点数目;m为输出层节点数目;
a0为o~10里边的人身自由常数.
(4)陶冶函数及训练参数的明确.由于
Levenberg-Marquardt算法具有收敛速度快、所占内
存小和陶冶结果好的帮助和益处,选择磨练函数trainlm;
系统学习进度的乌兰察布久安受学习率的震慑,为保险学
习进度的收敛性,选择较小的学习率;由于在神经网
络模型训练过程中,对有限的样书举行多次操练可
能会促成互连网过拟合现象,因此在实质上模型陶冶中
应用设定最大迭代次数和磨炼目的来防止.
(5)磨练互联网,构建面向餐饮客流的估量模型.

 

亚洲必赢app在哪下载 4

 

 

壹 、使用Navicat for MySQL 处理数量,先总括每家店每一日的流量

–>对表user_pay:用户支骑行为  –>  操作

Field

 

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

select study.shop_id,left(study.time_stamp,10),count(*)
from study
group by  study.shop_id,left(study.time_stamp,10)

亚洲必赢app在哪下载 5

 

贰 、使用Navicat for MySQL处理数量,把日子与星期对应起来

DayOfWeek() 对于一个日子,重临对应的星期几,

1意味着星期天,2意味星期四,3意味星期日,4表示星期天,5表示星期天,6表示周三,7象征周五;

示例:

 SELECT DayOfWeek('2016-01-01');  

结果为:

+-------------------------+
| dayofweek('2016-01-01') |
+-------------------------+
|                       6 |
+-------------------------+
1 row in set (0.00 sec)

DayName() 再次回到四个日期对应的星期几的英文名

示例:

SELECT DayName('2016-01-01');  

结果为:

+-----------------------+
| dayname('2016-01-01') |
+-----------------------+
| Friday                |
+-----------------------+
1 row in set (0.00 sec)

 

SELECT
user_pay_count.shop_id,
user_pay_count.time_stamp,
DayOfWeek(user_pay_count.time_stamp) AS week,
user_pay_count.count
FROM
user_pay_count

亚洲必赢app在哪下载 6

 

③ 、使用EXCEL处理数据,添加日期对应的节日

动用辅表:

节日假期 调整工作日
2015/1/1 2015/1/4
2015/1/2  
2015/1/3  
 2015/2/18 2015/2/15
 2015/2/19 2015/2/28
2015/2/20  
2015/2/21  
 2015/2/22  
 2015/2/23  
 2015/2/24  
2015/4/4  
2015/4/5  
2015/4/6  
2015/5/1  
2015/5/2  
2015/5/3  
2015/6/20  
2015/6/21  
2015/6/22  
2015/9/26  
2015/9/27  
2015/10/1 2015/10/10
2015/10/2  
2015/10/3  
2015/10/4  
2015/10/5  
2015/10/6  
2015/10/7  
2016/1/1 2016/1/4
2016/1/2  
2016/1/3  
2016/2/7 2016/2/6
2016/2/8 2016/2/14
2016/2/9  
2016/2/10  
2016/2/11  
2016/2/12  
2016/2/13  
2016/4/3 2016/4/2
2016/4/4  
2016/4/5  
2016/5/1 2016/4/30
2016/5/2  
2016/5/3  
2016/6/9 2016/6/12
2016/6/10  
2016/6/11  
2016/9/15 2016/9/18
2016/9/16  
2016/9/17  
2016/10/1 2016/10/8
2016/10/2 2016/10/9
2016/10/3  
2016/10/4  
2016/10/5  
2016/10/6  
2016/10/7  

报表所列是国务院办公厅公布的2014年和2014年节日假日和调动工作日的陈设。

名词解释:

节日假日——法定节日放假的日期。

亚洲必赢app在哪下载,调整工作日——本来是周末双休日,但因节日假日的配备而调整为工作日。

 

方今大家来分析一下,1个日期是休息日要求满意上面五个原则之一:

  1. 是节日沐日 

  2. 是星期二还要不是调整工作日

换言之,四个原则一旦满足一个正是休息日,即便五个都不满意,就是工作日。

用Excel函数表述是这么:

if(是节日,”休息日”,if(是周末,if(不是调整工作日,”休息日”,”工作日”),”工作日”))

 

判定贰个日子是或不是为周末(周四、周日)能够用weekday()函数:

=if(weekday(today(),2)>=6,”周末”,”不是礼拜六”)

只是要一口咬定二个日子是或不是为休息日,就要复杂一些,因为要涉及到法定节日、调休和调整工作日等。

 

若是要咬定的日子放在B1单元格。上面表述中八个规范:“是节日假日”、“是周末”、“不是调整工作日”分别用函数代替。

是节日假期(在I列中能找到B1的值)–COUNTIF(I:I,B1)>=1

是星期四(是二一日中的第四或第玖天)–WEEKDAY(B1,2)>=6

不是调整工作日(在J列中找不到B1的值)–COUNTIF(J:J,B1)=0

末尾的公式如下:

=IF(COUNTIF(I:I,B1)>=1,”节假日”,IF(WEEKDAY(B1,2)>=6,IF(COUNTIF(J:J,B1)=0,”周末”,”工作日”),”工作日”))

把公式复制到要填写的单元格里。

然后选拔shift、ctrl+c和ctrl+v 飞速复制单元格(带填充格式)

亚洲必赢app在哪下载 7

因为大家最终要估算的是贰零壹陆.11.01 –
2015.11.14(14天)天天的客户流量

既不是寒假也不是暑假,所以,先能够不要考虑那么些因素,

有地方诗歌提及:即使星期、天气、节日假期日、寒暑假那八个要素均对客量影响明显,

但客量随着星期和节日假期日这八个成分水平的生成起伏较大。

为此大家得以先利用那多少个要平素尝试下

 

 

 

 

 

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2019 亚洲必赢app官方下载 版权所有