归纳整合一下.NET下各种可用的HTML解析组件(HtmlAgilityPack,Jumony,ScrapySharp,NSoup,Fizzler)

类库组件 2014-12-20 6271浏览 收藏本文

做数据抓取,网络爬虫方面的开发,自然少不了解析HTML源码的操作。那么问题来了,到底.NET如何来解析HTML,有哪些解析HTML源码的好用的,有效的组件呢?   作者在开始做这方面开发的时候就被这些问题困扰着,开始是使用的正则表达式来解析,但用正则的缺点在于你需要对正则表达式相当熟悉,并且解析过程非常烦琐,经过时间和实做的积累,现归纳整合一下.NET下各种可用的HTML解析组件,这其中包括:

  1. CsQuery
  2. AngleSharp
  3. Jumony
  4. HtmlAgilityPack
  5. Fizzler
  6. ScrapySharp
  7. NSoup
使用组件解析HTML,可以避免正则表达的烦琐,并高效得到需要的解析结果数据。

转载请注明:图享网 » 归纳整合一下.NET下各种可用的HTML解析组件(HtmlAgilityPack,Jumony,ScrapySharp,NSoup,Fizzler)

验证码