多维关联规则挖掘技术在税务稽查系统中的研究与应用

发布日期:2020-10-16 01:35   来源:未知   阅读:

  内容提要:本文研究在现有税收数据的基础上,如何对不同行业、产品和市场中纳税人的特性和行为进行描述和分析,找出税收管理人员关心的相关规律。为此建立了多维税务稽查数据模型,并在此基础上进行了关联规则的挖掘。在生成的数以千计的关联规则中, 用户感兴趣的只是一部分。本文根据当前关联规则挖掘算法存在无法获得高兴趣度的关联规则的问题,提出了基于Apriori算法的改进税务稽查关联规则挖掘算法。通过在挖掘算法中增加元规则、为每个属性设定权值,最终使挖掘结果聚焦于用户感兴趣的规则形式上。该算法不仅可以获得高兴趣度的关联规则,还基于划分的思想提高了算法的效率。

  本论文重点分析了行业分类、注册类型、税种这三个属性之间的关系,得出了高兴趣度的关联规则。本文的理论研究和软件系统的实现为税务稽查人员开展相关工作其到了积极作用。

  增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。随着税务方面的数据越来越丰富[17],数据库已经无法满足需求,构建数据仓库是很好的解决方案。在数据仓库的基础上,可以进行有效的决策支持和税务稽查。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。

  随着税收征管数据的积累和信息技术的发展,近年来国内一些税务机构和研究机构开始进行数据仓库和数据挖掘方面的探索,取得了一定的成绩。但目前多数挖掘算法的研究都集中于提高挖掘算法的效率,而没有关注如何提升数据挖掘结果(关联规则)的质量。为了获得高兴趣度、高质量的关联规则,本文研究了稽查业务数据立方体和改进的多维关联规则挖掘技术。目的就是在现有税收数据的基础上,对不同行业、产品和市场中纳税人的特性和行为进行描述和分析,找出税收稽查人员线 多维关联规则挖掘算法的现状

  Apriori算法是[1]R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合,该集合记作L1.L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。

  为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间。Apriori性质:频繁项集的所有非空子集都必须也是频繁的。Apriori性质基于如下观察:根据定义,如果项集I不满足最小支持度阀值s,则I不是频繁的,即P(I)s.如果项A添加到I,则结果项集(即I U A)不可能比I更频繁出现。因此,I U A也不是频繁的,即P(I U A)s.

  目前提高Apriori算法的效率主要有以下几种方式:基于散列的技术[1]、事务压缩、划分、抽样、动态项集计数。基于约束的关联挖掘也是一种提高效率的办法。数据挖掘过程可以从给定的数据集中发现数以千记的规则,其中大部分规则与用户不相关或用户不感兴趣。通常,用户具有很好的判断能力,知道沿什么方向挖掘可能导致有趣的模式,知道他们想要发现什么形式的模式或规则。这样,一种好的启发式方法是让用户说明他们的直觉或期望作为限制搜索空间的约束条件。这种策略称作基于约束的挖掘。这些约束包括:知识类型约束、数据约束、维/层约束、兴趣度约束、规则约束。

  数据仓库的数据组织,一般与管理精细化程度相匹配,当管理只要求得到一个业务汇总数据时,采取面向单个业务主题方式;当管理需要监控到每一个纳税人时,数据组织应该以纳税人为核心,面向多个主题进行分析。纳税人的涉税信息可以划分为基本信息、税额信息、发票信息、稽查信息、财务信息和其他信息6大方面。

  稽查业务主要包含如下几个环节:选案、实施、审理、执行,一旦确定税务稽查的对象,按如上环节走完流程,确定好要应补缴的税款、罚款以及滞纳金,进入稽查执行环节后,由稽查产生的应征数据将会写入税收核心征管系统进行征收。本文的目的就是分析这部分由稽查系统产生的数据,得出关联规则,如到底哪一类型的企业经常偷漏税,以帮助税务稽查人员进行选案。

  根据地税信息系统数据的特点以及稽查选案对数据的要求[4],概念模型设计为登记核定、申报征收、计会统加工、发票管理四个主题域[4],数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题逐步完成,申报征收主题是整个业务流程的中心环节,所以选择申报征收主题作为案例进行设计。

  在实现申报征收主题时,考虑申报征收主题的粒度形式和粒度划分层次及数据分割策略,将申报征收主题划分为机构纳税人表、税种代码表、税款属性表、核算机关代码表、行业代码表、预算分配比例代码表、注册类型代码表等七个二维表来实现。

  产生稽查数据立方数据仓库中的数据以二维、三维或多维数据立方的形式提供给系统来挖掘、发现有用的信息。本论文重点分析的是稽查业务,分析到底哪种行业、哪种类型的单位容易偷漏税,这才是挖掘的真正目的。因此在如上税收申报征收数据模型的基础上,以行业分类、注册类型和征收项目为维,建立一个三维数据立方,专门来分析稽查业务。

  维:行业分类(hyfl_dm)、注册类型(zclx_dm)、征收品目(zspm_dm),每一维都有若干不同的值包括any.

  目前对寻找关联规则的研究主要关注算法的性能和可扩展性[6],很少有人关注生成规则的质量(兴趣度),未来的研究将更注重挖掘结果在各个领域中的应用。很多算法改进都是基于如何提高效率而进行的,包括减少数据库的扫描次数,以及减少参与连接的频繁项集的个数,如文献[7].

  为了提高税务稽查关联规则挖掘的质量,获得兴趣度更高的关联规则,本论文改进了Apriori算法,主要是考虑三个因素。

  1、利用权值标识项目的重要程度[8],每一个项目都对应一个权值,以此来区分决策者对项目的关注程度,从而提升挖掘质量。

  2、通过在剪枝的过程中增加元规则约束,既可以提高剪枝的效率,又可以得到高质量的关联规则。

  3、基于划分的思想降低对整个数据库的扫描次数,在一定程度上提高了算法的效率。

  根据实际的税收经验,我们可以增加一些元规则,方便快速剪枝。如对两个属性(行业代码、注册类型)同时存在的情况进行挖掘分析,并以此作为分析稽查业务的一个元规则。因为只分析一个属性,符合规则的数据太多,失去了寻找稽查规则的意义。

  其中P1,P2,P3是谓词变量,X是变量,代表每一个纳税单位,Y、W、Z分别取赋给P1和P2、P3的属性值,如Y代表税种、W代表行业分类,Z代表注册类型。通过增加元规则,我们可以很快分析出哪些行业的何种企业经常漏交什么税,其中税种为结果属性。

  据对税务稽查的实际情况,发现了税务稽查的特殊性,对某些维中的属性值是有必要增加权重的,比如当上级单位发文要求重点稽查某些行业时,应该对与这些行业有关的属性值增加权重(默认权值为1),从而保证挖掘规则的质量。

  文献[8]中提出了加权关联规则挖掘方法。我们看到通过对候选k-1项集Ck-1的连接可以获得候选k项集Ck,通过对候选k项集的每一项计算权值和加权支持可以获得频繁项集(加权支持不低于最低加权支持阀值Wminsup的项集)。

  由于项目权值的引入,Apriori性质不再成立,频繁项集的子集不再一定是频繁项集。无法利用性质对候选项集进行剪枝,导致直接用候选项集连接,这样效率会比较低。

  为了获得高质量的关联规则我们可以根据划分的思想,先将整个稽查事务数据库划分为两块,一块是属性权值为1的事务,一块是权值不为1的事务。对于权值为1的事务我们仍然可以使用Apriori算法获得频繁项集;对于权值不为1的事务我们可以根据文献[8]中提到的方法获得频繁项集。将这两种方法获得的频繁项集进行组合[14],一定是最后要确定的频繁项集的超集,它也许包含错误的选择,但绝对不会漏掉正确的选择。针对这组频繁项集的超集确定它相对整个数据库的实际支持度,便可以最后确定所求的真正的频繁项集。这样做即可以降低对整个数据库的扫描次数,又可以让Apriori算法对部分数据仍然起作用,不会象文献[8]中提到的方法完全不需要剪枝,虽然获得了高兴趣度的关联规则,但其实降低了效率。

  1、将事务数据库划分成2个规模相当的部分,一部分属性的权值都为1,一部分存在权值不为1的情况。

  2、对每一部分单独产生频繁项集。其中权值为1的部分,通过Apriori性质产生频繁项集,在获得候选项集剪枝的过程中,不仅使用Apriori性质剪枝,还将利用元规则来剪枝,既提高了剪枝的效率,又能得出更有意义的频繁项集;对于权值不为1的部分,应用文献[8]中提到的方法获得频繁项集,虽然不剪枝连接的效率有点低,但搜索的数据量只为原来的一半,性能还是有所改进的,同时又不会降低最后得到的关联规则的兴趣度。

  下面以分析稽查业务的关联规则为例,看一下现有Apriori算法是如何挖掘的关联规则:

  1、以广州市2007年度的稽查数据为例,分析关联规则,立方体总数40940.三个维:行业分类(hyfl_dm)、注册类型(zclx_dm)、征收品目(zspm_dm)。

  2、首先获得三个维度中所有的不同维值,组成候选1项集C1,对于C1中的每个项目,如营业税(02),我们可以获得(营业税,any,any)的count值2853,营业税的支持度计数就是2853.从而得到所有的侯选1项集C1.

  从上面的分析我们不难看出,用传统Apriori算法得到的关联规则并不是我们关心的规则,而且规则的置信度也不高。下面我们用改进算法重新挖掘关联规则:

  1、将事务数据库划分为两个部分,其中与房地产业无关的记录37922条,标识为P1;与房地产业有关的记录3018条,标识为P2.

  2、对于P1的挖掘采用传统的Apriori算法,我们来重点看一下对P2的挖掘。

  (2)连接C1获得C2,计算每个2项集的加权支持,选最低加权支持阀值Wminsup=0 .1.如{印花税、集体企业}的加权支持为[(1+1)/2+1.7]/2×0.4=0.54 0.1,可以得到频繁2项集: :{印花税,房地产业}{营业税,房地产业}{印花税,集体企业}{印花税,有限责任公司}{营业税,有限责任公司}{房地产业,集体企业}{房地产业,有限责任公司}

  选最低加权支持阀值Wminsup=0 .1,可以得到频繁3项集:{印花税,房地产业,集体企业}{印花税,房地产业,有限责任公司}{营业税,房地产业,有限责任公司}

  R2:从事房地产业的有限责任公司→漏交印花税, C=0.2/0.6=33%

  R3:从事房地产业的有限责任公司→漏交营业税, C=0.2/0.6=33%

  数据挖掘技术在税务稽查分析领域的应用具有重要的现实意义。本文分析了当前相关数据挖掘技术优缺点,研究了税务稽查数据仓库的构建模型、构建步骤和实现方法,建立了多维税务稽查数据模型,针对关联规则挖掘算法存在的问题,提出了改进的关联规则挖掘算法。

  传统的Apriori算法无法获得高兴趣度的关联规则,算法的效率也不高。为了获得高兴趣度的关联规则,提高税务稽查关联规则挖掘的质量和效率,本文改进了传统的Apriori算法,改进思想主要是:利用权值标识项目的重要性,每一个项目都对应一个权值,以此来区分决策者对项目的关注程度,最终使挖掘结果聚焦于用户感兴趣的规则形式上,从而提高挖掘质量;通过在挖掘算法中增加元规则约束,以提高剪枝的效率;基于划分的思想将整个事务数据库划分为两块,权重不为1的块和权重为1的块,以降低对整个事务数据库的扫描次数,提高了算法的效率。

  本论文的研究成果应用在了广东地税税收分析系统的税务稽查分析实现上,分析了行业分类、注册类型、税种这三个属性之间的关联关系,得出了较高兴趣度和较高效率的税务稽查关联规则,为税务稽查人员开展相关工作起到了积极作用。

  (1)Jiawei Han, Micheline Kamber著.数据挖掘概念与技术。机械工业出版社,2001(2)《国家税务总局纳税评估暂行管理办法》 国家税务总局

  (3)关心. 面向税务稽查选案的数据挖掘研究 辽宁工程技术大学 2003年

  (4)韩威. 省级地方税务稽查选案系统的设计与实现 哈尔滨工业大学 2006年

  (5)左春荣,唐成成.数据挖掘技术在税收征管信息化中的应用 中国管理信息化 2007年1月 VOL 10.NO 1.

  (7)黄勇,刘锋. 关系数据库中多维关联规则挖掘的一种新算法 计算机应用与软件 2007年10月 VOL 24.NO.10

  (8)张秋余,曹华.基于Apriori算法的加权关联规则挖掘 兰州理工大学学报 2007年12月VOL 33.NO 6.

  (11)赵静,张勇德,曾建潮. 数据仓库中关联规则的元规则制导挖掘改进策略 太原重型机械学院学报 2003年3月 VOL 24. NO 1

  (12)丁侃. Apriori算法改进及其实现 陕西理工学院 2005年

  (14)李若兰. 关联规则之Apriori算法的一种改进算法 柳州运输职业技术学院信息工程系

  (16)赵春玲, 宁红云 Apr ior i算法的改进及其在物流信息挖掘中的应用 天津理工大学计算机科学与技术学院 2007年2月Vol. 23 No. 1

  (17)孙惠琴 税务数据仓库的构建与数据挖掘 中国铁道科学研究院 微电子学与计算机2007 年第24 卷第7 期

  (18)袁万莲,郑诚,翟明清 一种改进的Apriori 算法 安徽大学计算机科学与技术学院 计算机技术与发展 Vol. 18 No. 5

  (19)赵静1, 张勇德2 , 曾建潮 1 太原重型机械学院;2. 中科院研究生院 数据仓库中关联规则的元规则制导挖掘改进策略太原重型机械学院学报 2003 年3 月 Vol.24 No.1

  (20)马安胜,多维数据关联规则挖掘研究及系统实现 吉林大学 2007年

上一篇:攀枝花市人才服务中心
下一篇:如何避免求职诈骗?香聘2019求职安全指南请收下!
网站首页 | 澳门49码开奖直播 | 澳门49码开奖记录 | 澳门49选七开奖记录 | 香港六和宝典8844

Power by DedeCms