最近项目需要对网页正文进行提取,说实话是个蛋疼的功能,在百度文库中收集整理了一些资料,share给同样需求的苦逼开发者。