基于数据挖掘的旅游行业风险预测和预警的控制模型

    邓浩 龙杰 陈加英

    

    

    

    摘 要 本文通过数据挖掘和模型的建立,以及对旅游行业‘基本面的深入研究,从而合理地筛选出了相关性较强的影响因素,并对旅游行业未来的发展趋势和投资风险进行了预测。根据对因素的多重分析,制定出一套完整的风控预警机制,并能够在疫情出现后及时地帮助行业作出相应调整。结合模型分析以及我国目前疫情走势,给出了旅游行业发展的新业态建议,并解答旅游从业人员的困惑。

    关键词 Logistic回归模型 特征检验 灰色预测模型 内插法 数据挖掘 SPSS

    中图分类号:C37 文献标识码:A 文章编号:1007-0745(2020)02-0045-09

    随着全球经济的飞跃性增长,旅游行业的发展逐步呈现指数型上升趋势。对于我国来讲,无论是经济、文化,甚至环境都与旅游行业的发展密切相关。在经济方面:旅游行业的直接作用是换取外汇(出口贸易)和回笼货币(稳定市场经济);间接带动了国民经济的发展:①促进了交通运输业的发展;②促进了建筑业的发展;③促进了工商业、农副产品、手工业等行业的发展。在文化方面:有助于文明传播。消极影响是指由于越来越多国际游客的到来,他们会将他们的生活方式带到旅游地,其中不仅有文明的,健康的,值得学习的东西,也会有一些消极的思想和落后的生活方式。在自然环境方面:旅游行业的发展促进自然环境的美化和保护,但也加速了自然环境的污染和破坏。因此对于旅游行业的发展我们需要合理的进行预测,在破坏力度最低的情况下,及时的作出调整,使得旅游行业发展更为迅速,国家经济效益得到更大的提升[1]。

    通过翻阅资料我们发现,旅游行业在面对旅游危机方面主要有以下测策略:(1)制定较为完备的危机应对策略;(2)旅行社成立应对危机的管理机构、建立起危机预警系统;(3)激活旅游业,重塑旅游形象;(4)构建旅游服务网络系统;(5)改善旅行社经营的模式。

    对于目前国情结合2003年的非典对旅游行业造成了极大的影响,分析2003年的非典的旅游行业研究方法:(1)旅游危机对旅行社的深层剖析;(2)旅行社危机管理的抽样调查;(3)我国旅行社行业经营体制分析;(4)我国旅行社经营管理上存在的主要问题;(5)旅行社应对旅游危机的策略;(6)制定较为完备的危机管理制度;(7)成立旅行社危机管理机构,建立危机预警系统;(8)积极激活旅游市场,重塑旅游形象;(9)构建旅游服务网络系统;(10)调整旅行社经营目标模式[2]。

    针对今年的疫情,我们将对以下三个问题进行分析和解决。

    问题一:建立数学模型分析旅游行业的“基本面”,解答旅游从业人员的困惑。预测未来三年国内旅游市场的发展情况。

    问题二:建立量化模型分析未来三年旅游行业投资的潜在风险和预期收益,给出旅游行业发展的新业态建议[3]。

    问题三:今年的疫情爆发并非个例,也许每隔若干年就会有大规模的疫情出现,我们将为旅游行业构建一套比较实用的风控预警机制,并能够在疫情出现后及时帮助行业做出调整。

    对于问题一,运用灰色预测模型,结合excel和spss软件,对数据进行挖掘,得出旅游行业未来三年的发展趋势。

    对于问题二,首先对各输入量和目标变量进行了特征检验,将次要因素过滤后,并以同比增长的转换率作为新的目标,利用Logistic回归模型分析预测出旅游行业的发展投资风险。后将整合的数据带入时间序列模型,利用指数平滑预测的方法对未来几年的预期收益进行了预测[4]。

    对于问题三,先对数据进行筛选,然后用spss的生存分析讨论变量之间的相关性,根据显著性看各变量能否由现有数据推广到整体,之后绘出一系列的散点图,可以直观的看出各变量之间的相关性,根据散点图分析可以得到变量之间的影响关系和对旅游行业的影响。

    1 行业概况

    1.1 旅游业的概念

    旅游業是借助旅游资源和设施,专门接待游客,为游客提供游览、餐饮、住宿和文化娱乐等服务的行业。旅游业在国际上被称为旅游产业,即旅游业在性质上是一个经济性产业,是一个国家或地区国民经济的组成部分[5]。

    1.2 旅游业的构成

    旅游业的构成有几种说法。一是从各行各业中为游客提供服务的角度分析,人们认为,旅游业主要由三大部分组成,即旅行社业、交通客运业和以饭店为主体的住宿行业。它们是旅游行业的三大支柱。二是从旅游市场的营销角度分析,旅游业主要由五大部分构成,即除了上面的三大支柱外,还包括景点为代表的游览场地经营部门和各级旅游管理部门[6]。

    1.3 旅游业的行业特点

    (1)旅游业具有综合性。旅游业是集游、住、吃、购、娱等服务为一体的综合性大产业。

    (2)旅游业具有经济性。发展旅游业最为根本的目的就是为了取得经济效益。

    (3)旅游业具有服务性。旅游业为游客提供的服务是一种能够用于交易的特殊商品。

    (4)旅游业具有带动性。旅游业能带动其他直接或间接为旅游者提供服务的产业发展。

    (5)旅游业具有外向性。旅游业是一种跨地区和跨国界的人际交往活动。

    (6)旅游业具有季节性。一个国家或地区的旅游业的季节性和该国或地区的旅游活动密切相关,而且是旅游活动是由季节所决定的[7]。

    2 理论概述

    2.1 问题一理论概述

    对于问题一,使用了灰色预测模型。灰色预测模型:如果一个系统具有层次、结构关系的模糊性,动态变化的随机性,指标数据的不完备或不确定性,则称这些特性为灰色性。具备灰色性的系统被称为灰色系统。由灰色系统建立的数学模型称为灰色模型,它能了解系统内部事物连续变化的过程[8]。

    灰色理论能够建立微分方程预测模型,其主要依据为:

    (1)灰色理论将随机量当作是在一定范围内变化的灰色量,将随机过程当作是在一定范围,一定时区内变化的灰色过程。

    (2)灰色系统将无规律的历史数据列经累加后,使其变为具有指数增长规律的上升形状数列,由于一阶微分方程解的形式是指数增长形式,所以可对生成后数列建立微分方程模型。所以灰色模型实际上是生成数列所建模型。

    (3)灰色理论通过灰数的不同生成方式、数据的不同取舍、不同级别的残差GM模型来调整、修正、提高精度。

    (4)对高阶系统建模,灰色理论是通过GM(1,n)模型群解决的。GM模型群即一阶微分方程组的灰色模型。

    (5)GM模型所得数据必须经过逆生长,即累减生成做还原后才能应用[9]。

    2.2 问题二理论概述

    2.2.1 风险评估的方法概述

    对于测量风险的模型有很多,比如:二元(多元)Logistic逻辑回归模型、神经网络模型等。其中“神经网络模型”是由大量的、简单的处理单元(通常称为神经元),其大量的、广泛的互相连接形成了复杂的网络系统。它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。通常应用在需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。对于问题二主要运用了Logistic回归模型加上数据特征分析方法,其运用如下文所示。

    2.2.2 Logistic回归方法

    Logistic回归函数又称为逻辑回归函数(也称为增长函数)。Logistic回归与线性回归有许多的相似之处,最大的区别是它们因变量的类型不同。Logistic的因变量满足二项分布,而对于线性回归来说,其自变量和因变量都会连续性变量[10]。

    2.2.3 Logistic回归的原理

    总结:Logistic回归是一种广泛的使用算法,如果在进行回归运算之前先进行特征值的筛选,这样会使得回归效果更好。因此在下面模型当中,对数据首先便进行了筛选处理。其另一个优点是非常容易实现,且训练起来很高效,可作为数据基准,可以用来衡量其它更复杂的算法性能。

    其缺点是只能用来解决非线性问题,因为它的决策面是线性的,所以对于线性问题需要进行转换[11]。

    2.3 问题三理论概述

    2.3.1 生存分析的定义

    生存分析是对生存时间进行分析的统计技术的总称,生存时间是从某一时间点起到所关心事件发生所经历的时间。生存分析是一种既考虑结局又同时考虑结局出现时间的统计分析方法。生存分析的目的就是描绘生存时间,生存时间多数情况下是连续型数据,但也存在生存时间为离散型数据的情况[12]。

    给定一个实例i,我们用一个三元组来表示,其中Xi表示该实例的特征向量,Ti表示该实例的事件发生时间。

    如果该实例发生了我们感兴趣的事件,那么 Ti表示的是事件發生时间点到基准时间点之间的时间,同时 δi= 1。

    如果该实例未发生我们感兴趣的事件,那么 Ti表示的是事件发生时间点到观察结束时间点的时间,同时 δi=0。

    生存分析的研究目标就是对一个新的实例Xj,来估计它所发生感兴趣事件的时间。

    2.3.2 生存分析的基本概念

    (1)事件。事件也称为失效事件,指由研究者所规定的生存结局,根据研究目的的不同而不同。定义清楚事件是非常重要的,它直接关系到数据的记录是否准确。事件的定义一定要在数据收集之前完成,而不是没有定义清楚事件就开始收集数据,否则很可能做的是无用功。

    (2)生存时间。生存时间是指从某一起点开始到所关心事件发生的时间,按失效事件发生或失访(删失)前最后一次随访时间记录,常用符号t表示。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要[13]。

    (3)删失。删失指观察对象终止随访,事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来,不是由于失效事件发生,而是无法继续随访下去。删失分为右删失、左删失和期间删失三种。只知道生存时间大于某一时间点,这种删失称为右删失;只知道生存时间小于某一时点的删失称为左删失;只知道生存时间在某一段时间之内的删失称为区间删失,右删失的情况最为常见。虽然删失使得生存时间无法准确计算,但在生存分析时还是应该将其考虑在内,因为删失数据会影响到最终的生存率结果。出现删失的原因有:①中途失访,包括拒绝访问、失去联系或中途退出实验、死于其他与研究无关的原因,如:肺癌患者死于心肌梗死、自杀,或因车祸死亡。终止随访的时间被称为死亡时间。

    ②随访研究结束时观察的对象仍旧存活,由于不清楚这些观察对象发生失效事件的时间,他们的生存时间数据并不完整,因此其观察值称为截尾值(或删失)。

    生存函数又称累积生存率,表达式:S(t)=P(T>t)(T为生存时间),生存函数的实际意义是生存时间大于时间点t的概率。生存函数定义为随机变量T越过某个时点t时,所有考察对象中,没有发生事情的概率,也就是生存下来的概率。当t=0时,生存函数取值为1,随着时间推移(t增大),生存函数的值逐渐变小,因此生存函数是时间t的单调递减函数。根据生存函数,又可以提出累积风险函数,它的公式为:,表示生存时间T为超过时间点t时,研究对象中,已经发生事件的概率。此外还有一个风险概率密度函数,它是累积风险函数的导数,公式如下:

    风险概率密度函数表示某个时间点t上,事件发生的概率。通过以上公式,最终我们可以得到风险函数,计算公式为:

    表示生存时间T达到时间点t时,在接下来一瞬间,事件发生的概率。风险函数和生存函数之间可以互相推导,因此在生存分析中,既可以使用生存函数,也可以用风险函数,生存函数和风险函数是用来描述生存时间分布的两个主要工具[14]。

    2.3.3 生存分析的原理

    生存分析描绘的是生存时间的分布情况,这里的分布指的是概率分布,如何描绘生存时间的分布情况呢?可以建立一个二维坐标图,横轴是时间长度,纵轴是事件发生概率,这就能很清楚的知道生存时间的概率分布情况了[15]。

    2.3.4 生存分析的方法

    生存分析的目的是得出生存函数,常用方法有寿命表法和Kaplan-Meier法。不考虑其它实验外因素(混杂因素),只考虑某个分类变量组间的生存时间分布情况,可以使用寿命表法和Kaplan-Meier法。这两种方法之间的区别在于生存时间的记录方式不同,Kaplan-Meier法的生存时间是通过记录事件发生准确时间点得到的,而寿命表法则适用于事件发生的时间点无法准确记录,只能确定事件发生在某段时间内。

    (1)寿命表法和Kaplan-Meier法的共同点:寿命表法与K-M法都可以实现对生存时间分布进行描述性统计。

    (2)寿命表法和Kaplan-Meier法的区别点:

    1)适用范围不同。K-M法适用于样本量较少,每个被观察个体事件所发生的时间点或删失发生的时间点能够被准确记录下来的数据;而寿命表法适用于样本量较大,生存时间分段记录的数据。

    2)基本思想不同。寿命表法将生存时间分成较多小的时间段,计算该段内的生存率,研究总体的规律;K-M法计算每一个“结局”事件发生时点的生存率,除了分析总体的生存规律外,还需寻找与之相关的影响因素。

    3)生存曲线不同。寿命表的曲线可以回答试验时间内的生存率如何;而K-M过程更倾向于回答某种干预因素实施后,生存时间的变化情况[16]。

    4)统计方法不同。寿命表法采用Wilcoxon法,K-M过程则提供了Log rank法、Breslow法、Tarone-Ware法。

    3 构造旅游模型分析表

    3.1 数据挖掘

    由于所给数据具有不完整性以及存在各种不利因素,因此在进行后续模型的建立之前,对数据进行了预处理的工作。这个数据处理工作就是指在数据挖掘过程中的数据准备环节,其不但可以建模模型,也可以提高模型的准确度,对问题的解答更深入、更合理。所谓的数据挖掘是指从大量的、不完全的、模糊的、随机的实际应用数据中去建立个属性间的内在联系,并对重复、有误、缺失数据进行清洗、合并、更新的一个过程。常用的数据挖掘软件有很多,主要有:SAS,SPSS,ECXEL等。例如我们采用了excel软件自带的内插法法,对缺省的数据,在CEIC官网上进行数据查询并补全,因此我们主要使用了SPSS和Excel软件。而对于数据的预处理通常会根据数据的不同情况进行相应处理。如缺失值、异常值、数值型变量;一般的方法有:删除、替换(平均数、中位数-连续、众数-离散)最大似然估计法、随机森林、二值化等[17]。

    3.2 问题分析

    3.2.1 问题一分析

    对于基本面,我们分析了旅游业的基本盈利模式、行业的优缺点、旅游公司的市值、旅游總收入的预测分析。根据建立模型分析出来的数据,预测未来三年国内的旅游市场的发展情况分析。

    (1)旅游业的基本盈利式。旅游业本身的利润薄,但是,旅游业的溢出效应明显。所谓溢出效应是指一件事物的一个方面的发展带动了其他放面的发展。我国旅游业的模式不尽相同,但是都有成功的。具体的分为一下几类:

    1)主要依靠独特的自然资源获得收益,比如黄山,石林等独一无二的资源,获得收益。黄山旅游公司在过去的几年收入中,景点收入占60%左右的份额。

    2)旅游产业链中,每个环节都力争做到最好。如首旅集团,首旅集团不仅拥有六大环节的业务,而且每个业务都有很好的品牌和发展目标[18]。

    3)借助网络,网络中介机构,旅游网站。

    4)利用“旅游+房地产”模式。

    5)旅游公司把旅游业作为副业。如中青旅,中青旅最初的业务是旅行社,但是,后来实行多元化战略,业务涵盖旅行社(入境游、国内游、出境游)、会展服务、乌镇旅游、酒店、科技业务、福利彩票销售、房地产销售、物业出租等八个领域。

    (2)旅游公司的市值。据中商情报网讯统计显示,截止到2018年12月28日,2018年中国行业上市公司总市值排名前十的企业有:中国国旅、中青旅、腾邦国际、众信旅游、凯撒旅游、岭南控股、云南旅游、海航创新、丽江旅游、三特索道。值得关注的是,2018年中国旅游行业上市公司总市值排行榜主要统计了13家沪深上市企业的市值排名,市值超过百亿元的仅1家。其中,2018年中国旅游行业上市公司总市值居第一的是来自北京市的中国国旅,市值达1175.39亿元。中青旅市值居第二,市值为93.3亿元。腾邦国际市值居第三,市值为55.73亿元。

    (3)行业的优缺点:我国旅游业总收入不断增长,旅游业发展迅速,产业规模不断扩大,产业体系日趋完善。但总体来说我国旅游业仍处于一种低消费、低水平、中近距离旅游的状态。虽然旅游的基础设施和服务设施建设发展得很快,但仍不能适应国内旅游的发展速度[19]。

    3.2.2 问题二分析

    本题要求建立量化模型来分析未来三年旅游行业投资发展的潜在风险和预期收益,并给出旅游业发展的新业态建议。因此首先需要将所给数据进行一个归纳划分。由于数据的分布很不均匀,且侧重点不同,因此我们将统计结果分为了两类,一类为旅游行业的社会经济发展,一类为消费者和投资者的意向。由于数据量过少,我们采用满足最少数据量的需求进行分配。然而还是会存在缺失值,以及变量类型存有搭配不符的问题,因此我们下面将着重解决问题。

    3.2.3 问题三分析

    预警机制即为能预先发布警告的一种制度,它能通过一些反常现象,让危险信号提前反馈给决策层,及时针对危险进行布置、防风险于未然。像这次疫情,虽然有征兆,但是我们没有及时做出反应,采取相应的措施,我们还是低估了这次疫情造成的破坏,旅游业更是惨不忍睹,不仅游客量急剧减少而导致收入骤减,更有甚者直接面临破产的严峻考验。导致这些情况出现的原因就是我们没有一套完整的预警机制,不能根据疫情出现前的征兆和相关数据来合理分析疫情会不会爆发,爆发的严重程度如何,怎样根据疫情的轻重制定出相应的策略。

    如何建立合理的预警机制阻止或降低疫情带来的影响呢?首先我们要明确建立风险预警的过程,即以下四步:(如图3.2.3(1))

    我们第一步要对有用的信息进行筛选,知道哪些因素可以预判疫情是否会爆发和疫情的走向;其次是如何根据这些信息来分析疫情,也就是评判标准是什么;然后我们根据这套预警体系来评估研究的结果是否合理,是否有使用价值;最后如果结果合理,能基本预测结果,那么我们就可以根据这个结果来在疫情到来前对旅游行业决策层进行及时提醒,并制定出相应的策略。

    根据疫情的危害程度,我们需要对疫情进行等级划分,即预警规划。根据预警规划来制定合理且有效的预警方案。在可能存在风险的情况下,如何将预警方案正确地应用于实际情况中,有效的发挥预警机制预防风险、减少损失的作用显得尤为重要,实施方需准确掌握风险预警机制的实施流程。

    3.3 变量的缺失统计分析

    我们所统计的字段共有13段,可却包含了一些缺失值(空值),经过数据审核我们可以分析出各类信息的分布情况、均值、极值、标准差以及缺失值的个数和占比如图三和图四所示。

    对于缺失值的处理,我们首先利用时间散点图,观察各因素是否存在季节性波动。其图像如图五所示,由图可以并不存在季节性波动,近乎为类指数型的变化趋势。对于缺失值我们采用插补的方法,由于数据统计的随机性,因此我们针对不同数据的分布不同采用不同的变化形式,对于“旅游景区就业数”和“全国政府性基金支出增长指数”我们采用逆模型的方法进行处理;对于“旅游景区总数”采取对数log10进行处理;“学校数_旅游院校”采用取对数logN进行处理。将所有因素的分布都大致靠近于正太分布,利用正态分布的抵偿性和统计随机性,以各因素的平均值和标准差作为参考,进行随机值的填补。

    3.4 数据类型的处理和目标字段的选取

    对于Logistic回归模型其目标变量类型为二值化(0,1),因此我们需要进行变量转化,我们将所给数据中“入境旅游总收入”+“国内旅游总收入”=“旅游总收入”。然后令转化率p=“旅游总收入”/“旅游总支出”(含义:每一份旅游支出能转化为多少的旅游收入)。然后采用同比增长制,以本年的转化率与上一年转换率相比,如果大于1则令其值1,如果小于1则令其为0,此间接测量因素我们设置为目标量,并取名为“提高度”。然而在之后的时间预测模型中,需要进行类型的转换以及字段的填充。因此采用to_date()代码进行数据类型的转换。

    4 模型的建立与仿真

    4.1 问题一的模型建立与仿真

    4.1.1 灰色模型的建立与求解

    灰色系统理论建模要求原始数据必须等时间间距。首先对原始数据进行累加生成,目的是弱化原始时何序列数据的随机因素,然后建立生成数的微分方程。建立时间序列为,从2010年到2019年的国内和入境旅游总收入数据时间序列如下:

    求解及模型还原值,根据得到的模型方程,可以预测出2010年=2019和2020-2023年的旅游总收入,

    从2010到2019年预测旅游收入,用SPSS软件对真实的旅游总收入和预测的旅游总收入进行相关性分析,预测旅游收入与实际的旅游收入的相关性高达99.7%。对旅游景区就业人数进行预测分析,发现旅游景区预测人数在未来三年也是增长的,对于疫情之后很可能会有“报复性消费”,旅游行业的经济会恢复。

    根据SPSS modeler软件分析旅行社数量、旅游院校數、景区总数、国内居民旅游人数对于旅游总收入的影响。结果如下图,发现旅行社数量对于旅游总收入的影响是最大的。

    灰色关联度分析。首先,选取参考序列

    M个比较数列:

    为比较数列为参考数列在k时刻的关联参数,其中为分辨系数:一般来讲,分辨系数越大,分辨率越大,越小,分辨率越小。

    为数列对参考数列的关联度。给定数列

    旅游总收入为因变量,景区总数为控制变量,其他因素与旅游总收入的相关性。(如表4.1(4))

    第 1、2、3、4分别为国内居民旅游人数、旅行社数量,国内居民人均旅游花费、旅游景区接待游客人数。

    4.2 问题二的模型建立与仿真

    经过上面的数据预处理,我们最终得到的风险数据集。然后将数表格进行保存,以便可以利用SPSS系统可以打开。再利用spss Modeler软件导入源文件。

    4.2.1 进行线性回归检查

    利用线性回归的数据类型特点,我们将转化率设置为目标点,采用分区设置,将训练区间设置为20%,测试区间设置为80%,并为分区数据构建分割模型,以此更好地对数据进行客观分析,减少偶然性误差,去除冗余项。

    在回归分析中,采用逐步法的原理,对尚未添加到模型的输入量进行评估,选择最佳输入量能够显著增加模型的预测能力。因此可以筛选出对于目标量有着重要影响的因素。

    由此可以看出“旅游外汇收入增速”相对其它因素所占比例更大,因此需要更好的进行优势放大。

    4.2.2 Logistic模型建立与仿真

    对于Logistic回归模型,前面提到过,如果在模型分析之前对不必要数据进行预处理(删除、清理),那么可以大大提高Logistic回归模型的预测效果,因此我们将建模数据带入,按照以下流程进行数据的特征分析。(如图4.2.3(1))

    在数据特征分析过程中,通过分类目标,类别预测变量的p值(重要性)以Pearson相关系数来表示目标量与影响因素之间的相关度。相关系数的绝对值越大,相关性越强。相关系数越接近于0,其相关度越弱。因此我们可以将不重要因素给删除,以提高Logistic回归模型的准确度。紧接着我们在进行分区实验,将训练分区大小和测试分区大小各占50%,然后进一步采用步进的方法开始模型仿真。

    紧接着我们通过模拟拟合信息和案件处理总结可得中可以知道其预测提高度为1的概率为77.8%,而为0的概率为22.2%,并且其卡方检验的数值为9.535,由此可知其实验结果具有一定的可信度。所以我国旅游行业未来的发展风险较低,大概率其提高度会持续为1,投入转换率呈上升趋势。(如其简表4.2.3所示)

    将调整好的数据,把时间间隔调整成按年计算,并将观察值由日期/时间字段进行指定。并考虑到季节的影响,我们采用指数平滑法St=aYt-1+(1-a)St-1。利用一次指数平滑预测,其预测公式为yt+1=ayt+(1-a)yt。然后根据数据数据的波动性调整a值,其调整如下:

    (1)当时间序列呈现较稳定的水平趋势时,应选较小的a值,一般可在0.05~0.20之间取值;

    (2)当时间序列有波动,但长期趋势变化不大时,可选稍大的a值,常在0.1~0.4之间取值;

    (3)当时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速的上升或下降趋势时,宜选择较大的a值,如可在0.6~0.8间选值,以使预测模型灵敏度高些,能迅速跟上数据的变化;

    (4)当时间序列数据是上升(或下降)的发展趋势类型,a应取较大的值,在0.6~1之间。

    便可以预测出我国旅游未来5年的预期收入。

    4.3 问题三的模型建立与仿真

    4.3.1 对变量的分析

    先进行变量之间的相关性分析,利用SPSS做出各变量之间的显著性关系。当显著性P<0.05时,在0.05水平上显著,说明事件至少有95%的把握能发生,该样本就可以推广到整体,研究得可靠程度才高。根据图中关系查找得出各变量之间的相关性后,由SPSS绘出各变量之间的散点图。

    由于旅游景区总数和旅行社数量之间有很强的正相关性,可认为旅行社的数量随着旅游景区总数的增加而增加。

    由散点图分析出旅行社就业人数和旅行社数量之间存在较强的正相关性,由此可知,近年来随着旅行社数量的增加,旅行社就业人数也跟着增加,看起来可能是好事,增加了不少工作岗位,但是也有可能导致的结果就是“无用”人员太多,让旅游社行业呈现出一种重数量而不重质量的“病态”中。 这样下去,游客的心态肯定会受到一定的影响,最后可能导致旅行社行业不景气,私人组队出游的情况增加。因此,精减旅行社的数量显得尤为重要。

    由旅游总收入和时间的散点图可知,旅游景区总数与旅游总收入之间存在高度的相关性,而且这个增长趋势也随时间越来越大。

    4.3.2 建立预警机制

    (1)建立突发疫情应对小组:传染病疫情报告管理领导成员为传染病暴发应急领导小组,负责出现重大疫情预警时的疾病确诊,预警上报的指导工作,然后及时向决策层反映,让决策层做出相应的应对措施。

    (2)设定传染病预警对象,一经发现,及时向有关卫生部门和领导小组反应:

    1)发现甲类传染病、疑似病人、和病原携带者,卫生部规定按照甲类管理的其他乙类传染病和突发原因不明传染病。2)发现不明原因的肺炎、不明原因的死亡病例。3)发现同一种急性传染病。

    (3)制定报告的方式:首次发现上述任何一种情况的病例,应于2小时内及时上报,相关人员了解情况,确认后报告领导,由负责领导启动预警预案,疫情管理领导小组成员对报告信息进行会诊讨论,最后决定是否报告疾控部门,并向相应部门和地点发出预警信息。

    (4)建立责任制:各级人员应明确责任,对未及时上报传染病信息,由此造成严重后果者,根据相关规定给以处理。

    4.3.3 在疫情出现后的调整

    当疫情爆发后,线下旅游实体企业的营业受到冲击,旅游行业可以及时推出线上旅游产品,让大家能足不出户也能感受到旅游的乐趣。在疫情期间,一些中小旅游企业没有收入来源,面临破产的悲惨结局。在这期间,要合理合法的使用国家政府的扶持政策,来尽量让自己度过这段危险期,而且这段时间,旅游企业要对自身优化,删减不必要的分支机构和支出。而且经历过这次疫情后,旅游也朝着健康旅游的方向发展,大众也异常关心以健康的方式去旅游,旅游行业也应该把重心从注重数量转移到注重品质上,从大众景区转变成优质景区。只要让游客的体验感得到提升,那么去旅游的游客数量自然也会增多,所带来的收益将超乎想象。

    5 模型的优缺点与优化方案

    5.1 问题一模型的优缺点及改进方法:

    优点:即使旅游行业的数据少也能大致预测出结果,结果也比较精确。缺点:(1)模型都是以原始的时间序列具有指数增长规律为基础,而在现实中旅游行业只能呈现近似的指数整长规律;(2)对于旅游行业的数据具有极大的波动性和随机性,不能简单地说数据之间满足单一函数关系。

    改进:建立多个模型进行数据对比分析。

    5.2 问题二模型的优缺点及改进方法

    优点:(1)模型二对异常数据进行了合理的处理,并对数据进行了筛选,很大程度上提高了模型仿真的准确性;(2)在运用模型进行预测的时候,巧妙地对时序数据进行了季节性检验,排除了时序干扰。

    缺点:(1)数据量过少,且最终整合的数据实用性不广泛,比较局限;(2)目标变量的的预测准确性不高。

    改进:(1)旅游行业的其它新兴项目对于旅游行业的发展也会起到很大的重要性,因此也需要结合起来;(2)多去查阅资料,补全旅游行业发展的影响因素,使得模型仿真结果严谨,普遍性和实用性更高。

    5.3 问题三模型的优缺點及改进方法

    优点:(1)充分利用了筛选的数据,使结果更具有说服力;(2)分析了不同变量之间的相关性,得出变量之间的关系。缺点:数据量太少,相关性分析可能会得到偶然性的结果。改进:使用多种不同的分析法对数据进行分析。

    6 结论

    6.1 解答旅游从业人员的困惑

    (1)出境游市场目前来说,依然是可以靠信息差来获取大量利润的机会。分析各类平台和各大旅行社的数据,都可以看到出境游业务在持续增长。

    现在出境游产品,大部分为观光游,品质和服务都一般,少量团队开始做品质游。以东南亚为例,虽然头部玩家已经占据了很大份额,但考虑到中国的人口红利和东南亚旅游产品的普遍低质量,依然机会很大。旅游从业人员需要具备足够强的供应链整合能力,并做好产品的创新和服务的提升,一定可以获得大的发展。

    (2)国内游市场传统跟团游的机会已经越来小,竞争也越来越激烈。无论是供应链资源,还是服务品质提升,都已经很难有大的机会。旅游行业在国内发展到今天,跟团游产品已经极大丰富,供大于求,那就要寻求根本模式的改变和创新。

    突破方向1:做真正的自由行产品,收益主要来源于高额得服务费。真正的自由行应该是攻略+供应链管理+服务的模式。

    突破方向2:文旅主题游的时代已经到来。

    国民对于旅游的需求,已经从打卡购物的时代,进入到了精神享受的层面。人们愿意为了文化价值认同和精神共鸣而选择参加一场旅行活动,并且愿意花费足够多的钱。文化+艺术+娱乐+旅行线路+营地+品牌,这些不同领域的内容交织在一起,会暴发出巨大的能量。

    6.2 给旅游行业发展的新业态建议

    6.2.1 轻户外和旅行的结合

    随着全球经济的发展,国内旅游已经逐渐呈现出开放式运营,很多旅行社都齐刷地把目光转向城市周边,对于户外、露营、徒步、登山、房车、野餐、骑行等产品已经开始被挖掘和开发,事实证明这一系列的旅游新分支很好的结合了我国对于旅游政策的开放性,以及相当符合消费者的客观需求。例如:轻户外是一个前几年就开始且被重视和提及的市场,携程在很早的时候就布局了主题游,其中就包含徒步登山、骑行露营这样的产品。但前几年包括现在这依然是一个不断增量的小众市场,都知道方向但不知道趋势红利具体什么时候来。今年很多的供给大量加入,用户得到不断的教育和普及,可能会是户外和旅行结合的起点。

    6.2.2 旅游从业者的互联网时代

    今天小视频、抖音、公众号、微信都能创业者提供很好的自主创业机会,在川西、云南、新疆和西藏等旅游目的上不少的司机、领队、导游都成为了各自领域里的“小网红”,他们通过互联网能够找到足够的存在感和好生活。因为成本低、接团少、个人背书反而能够获得更多地推荐。甚至有不少的“网红领队”开始接团反交给旅行社。从旅行社、公司里等着被派团到主动分配自己接不过来的团给旅行社,巨大转变的背后,是互联网提供给每个人的机会。

    6.2.3 国内好产品被加速发现

    国内优质旅行资源会被加速挖掘,很多人出不了国,无论主动和被动都要多一些目光给国内。这个时候旅行软件和硬件都很不错的目的地会受到欢迎,比如新疆、西藏和四川这些具有异域风情同时文化和自然资源都很丰富的地方。而对于外国友人来讲,我国特有的风景资源更是得天独厚,因此我们应大力结合当今网络信息传播的广泛性和快速性,积极对国外旅游爱好者进行宣传,将我国的旅游资源利用到极致。

    参考文献:

    [1] 育儿能手.数学建模旅游业.[OL].[2020-07-07].https://wenku.baidu.com.

    [2] 醉漾轻舟1984.第三章旅游企业.[OL].[2020-07-07].https://www.doc88.com.

    [3] shin.什么叫基本面?基本面怎么看?如何分析基本面?[OL].[2020-07-06].https://wk.baidu.com.

    [4] 知识分享的店.旅游公司组织管理结构.[OL].[2020-07-07].https://wk.baidu.com.

    [5] 人人都是产品经理.疫情过后,谈一谈对2020旅游业一些基本面的理解[OL].[2020-07-10].https://www.sohu.com.

    [6] 张凌云.1996年旅游上市公司评析[J]旅游学刊,1996(03):14-18.

    [7] cowboy_wz.三个有名的决策树算法:CHAID\CART和C4.5.[OL].[2020-07-12].https://blog.csdn.net.

    [8] Yomi JIN.SPSS Modeler决策树CART算法实践案例.[OL].[2020-07-13].https://blog.csdn.net .

    [9] 刘庆余.PPG模式与旅游业供应链管理创新[J].旅游学刊.2008 (09):54-59.

    [10] 王振宇.中国旅游业发展的潜力及对策[J].安阳工学院学报, 2009(03):45-47.

    [11] 梁文博,刘晨,王艳玲.基于Logistic回归模型的居民出行方式影响因素分析[J].生产力研究.2020(01):125-127.

    [12] 周旦,马晓龙,金盛,王殿海.基于Logistic模型的混合自行车流量-密度关系[J].交通运输工程学报.2016(03):133-141.

    [13] 白晓东.应用时间序列分析[M].清华大学出版社,2017.

    [14] 胡保强.如何理解和使用生存分析?[OL].[2020-07-12].https://zhuanlan.zhihu.com.

    [15] obwte.生存分析.[OL].[2020-07-13].https://blog.csdn.net.

    [16] 张静. 旅游业对目的地经济影响研究[D].四川师范大学,2006.

    [17] 赵振学.西北旅游业生态文明导向与投融资创新[J].甘肃社会科学,2019(06):143-150.

    [18] 我国旅游行业积极应对“非典”沖击[J].饭店现代化,2003 (02):16.

    [19] 刘春玲,郑艳侠.旅游危机对旅行社行业的影响及应对策略研究——以“非典”事件为例[J].商场现代化,2007(04):237-238.

    西华大学,四川 成都