业余水平的CNNIC调查 - 原子时代的观点 - 张翼轸

(这条文章已经被阅读了 518 次) 时间:2000-07-28 10:26:40 来源:张翼轸 (earl) 原创-IT

  CNNIC的2000年中报终于出来了,笔者在第一时间先睹为快。作为社会学的学生,吃饭的家伙便是社会调查,所以对于CNNIC中报笔者更关心的不是结果,而是调查报告中对于调查过程的说明,笔者想看一下,CNNIC的调查是否科学,究竟是否具有可信性。
  对于前段时间闹得沸沸扬扬的联机调查的过程,我是不太重视的,一是因为前段时间报道太多了,二是价值不大。从社会学的角度来看,联机调查是一种被称为方便抽样的方法,属于非概率抽样,因此样本的代表性不高,很难推论总体。这种方法一般在经费较少、时间较紧的情况下使用的,在例如CNNIC这样的大型调查中使用,其可信度是不高的。这一点,负责本次调查的由国家统计局国际统计信息中心和中国互联网络信息中心组成的统计调查课题组也明白,因此才会在联机调查的时候同时进行抽样调查,以便“对调查结果进行比较、验证”。
  在仔细研究了调查报告中有关抽样调查的部分,同时参考了,笔者发现其中问题不少。
  一、关于抽样方法的说明。调查报告中表明抽样调查采用了“多阶段和分层相结合”的方法。对于多阶段抽样,笔者没有异议,如此大型的调查,如果不采用多阶段抽样的话,成本将会大大提高而且时间也会拖得很长。但是关于分层抽样,笔者却有一些疑问。在《第六次”中国互联网络发展状况统计调查”》中是这样说明分层抽样的过程的:“首先抽取局域网和ISP,然后再从每个抽取的局域网和ISP抽取互联网用户”。看到这里,任何一个有社会学知识的读者都应该明白,这里所陈述的方法并不是什么分层抽样,而是聚类抽样。虽然这两种抽样方法有所相像,但却是完全不同的两种方法,为什么CNNIC却会在如此简单的问题上出错呢?即使我们假设是报告中的陈述有问题,CNNIC地区采用了分层抽样的方法,那么问题又来了,根据什么来分层抽样?分层抽样是这样一种抽样方法,它根据某一个属性将总体分成几类,并根据事先知道的这几类的比例来确定每一类抽取得数量在样本中的比例。要进行分层抽样,首先要知道某一个属性的分类比例,那么CNNIC能够知道吗?显然不能,因为这是一次对于中国互联用户的全面调查,在这之外是没有任何调查可以参考的,那么CNNIC根据什么属性来确定分层的呢?又根据什么来确定比例的呢?
  二、关于问卷数量的说明。在CNNIC中报中阐述“抽样调查有效答卷3679份”,那么接着便要问,一共发出多少分问卷呢?在社会学中,由有效答卷的数量除以发出总问卷的数量会得到一个重要的指标——回收率。对于像CNNIC 这样科研型的调查报告,回收率必须在50%-60%以上,否则的话,调查的可信性就会受到怀疑了。在这里,CNNIC中报对于发出的总问卷数避而不谈,难道仅仅是疏忽吗?不是,在关于联机调查的部分,CNNIC中报便给出了详细的数据“本次联机调查共收到问卷245680份,经处理得到有效答卷205724份”,为何到了抽样调查的部分就不给出了呢?难道是因为回收率太低而不好意思给出发放问卷的总量吗?
  三、关于抽样调查的数据。既然CNNIC是要利用抽样调查的数据来“对调查结果进行比较、验证”,那么就应该在中报中给出抽样调查的数据,以便让读者对照了解联机调查的数据可靠性。可是中报中对于抽样调查的数据却只字不谈,这又是为什么呢?难道,两者的数据差距太大,CNNIC才会不好意思公布吗?
  以上便是笔者关于此次调查报告的几点疑问。希望读者能够明白一点:如果抽样调查的方法出了问题,那么调查报告的可信度都是需要受到怀疑的。