摘要:网上购物已被越来越多的消费者接受,C2C网站作为主流购物平台提供数以万计的商品条目供消费者选择,其中有一定数量商品条目的商品描述具有误导性.误导性是指条目的商品描述与其实际价格不符合,通常的表现是描述商品的价格低于其应有的价格,以此吸引消费者,误导消费者到其购物页面.这既影响消费者的判断,又损坏购物网站的信誉度.为了找出这部分具有误导性的商品描述,提出了一种结合概率模型HMM和基于统计的异常值识别方法,能够有效地识别出误导性商品描述.HMM模型从概率的角度有效地确定商品描述所指代的商品,为C2C网站上商品描述的不规范导致的商品指代信息模糊提供了一种行之有效的解决方法.基于统计的异常值识别方法在处理C2C网站上商品信息比较单一时较为有效.用该方法在实际的电商网站数据集上进行了实验.实验结果证明了该方法的有效性.