网站首页  词典首页

请输入您要查询的论文:

 

标题 正则表达式在python爬虫中的应用
范文

    苻玲美

    

    摘要:数据是新一轮技术革命最重要的生产资料,爬虫是获取数据最直接的方式,但爬出来的数据代码夹杂文字,面对大量杂乱的代码夹杂信息,通过正则表达式检索匹配出有用的信息,过滤无用的数据。本文介绍正则表达式在python爬虫中的应用,总结python爬虫中正则表达式的应用技巧。

    关键词:爬虫;python;正则表达式;数据

    中图分类号:TP311? ? 文献标识码:A

    文章编号:1009-3044(2019)25-0253-02

    网络爬虫是一个非常注重实践性而且实用性很强的编程技能,写爬虫分析股票走势,上链家爬房源分析房价趋势,爬知乎、爬豆瓣、爬新浪微博、爬影评,等等。人工智能时代,对数据的依赖越来越重要,数据主要的来源就是通过爬虫获取,通过爬取获取数据可以进行市场调研和数据分析。但爬虫时收集回来的一般是字符流,我们需要从中筛选有用的信息,而用正则表达式可以轻松地完成这一任务。

    1正则表达式与爬虫

    爬虫四个主要步骤:

    · 明确目标 (要知道你准备在哪个范围或者网站去搜索)

    · 爬 (将所有的网站的内容全部爬下来)

    · 取 (获取有用信息、去掉没用的数据)

    · 处理数据(按照我们想要的方式存储和使用)

    那么在取(文本过滤这块)最强大的就是正则表达式,更是python爬虫世界必不可少利器。

    什么是正则表达式,python爬虫使用正则表达式的方法。

    正则表达式(Regular Expression,简称Regex或RE)又称为正规表示法或常规表示法,常常用来检索、替换那些符合某个模式的文本,它首先设定好了一些特殊的字及字符组合,通过组合的“规则字符串”来对表达式进行过滤,从而获取或匹配我们想要的特定内容。它具有灵活、逻辑性和功能性非常的强,能迅速地通过表达式从字符串中找到所需信息的优点。

    正则表达式的常见语法格式:

    在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。re模块提供了3个方法对输入的字符串进行确切的不同要求查询。每一个方法都接收一个正则表达式和一个待查找匹配的字符串。

    (1)match()方法- 从头匹配:

    match()方法的工作方式是只有当被搜索字符串的开头匹配模式的时候它才能查找到匹配对象。

    (2)使用re.search查找 – 匹配任意位置:

    search()方法和match()类似,不过search()方法不会限制我们只从字符串的开头查找匹配。search()方法会在它查找到一个匹配项之后停止继续查找。

    (3)使用 re.findall – 所有匹配对象:

    在Python中我使用的最多的查找方法是findall()方法。当我们调用findall()方法,我们可以非常简单地得到一个所有匹配模式的列表,

    2 正则表达式抓取网络数据常见方法

    在 HTML 中, 基本上所有的实体内容, 都会有个成对的 tag 来框住它。 而这个被 tag 住的内容, 就可以被展示成不同的形式。header 和 body。 在 header 中, 存放这一些网页的网页的元信息, 比如说 title, 这些信息是不会被显示到你看到的网页中的. 这些信息大多数时候是给浏览器看, 或者是给搜索引擎的爬虫看。HTML 的第二大块是 body, 这个部分才是你看到的网页信息。网页中的视频, 图片和文字等都存放在这里。 tag 就是主标题, 我们看到呈现出来的效果就是大一号的字。 里面的文字就是一个段落。 里面都是一些链接。是层用来存放一块信息。在html还有很多这样的tag,信息都是放在这些 tag 中的。爬虫想要做的就是根据这些 tag 来找到合适的信息。

    1)爬取网页

    通过下列操作成功爬取了百度的首页。

    2) 抓取title标签间的内容

    Print data打印出来抓取的网页,这就证明了我们能够成功读取这个网页的所有信息了。但我们还没有对网页的信息进行汇总和利用。我们发现想要提取一些形式的信息,合理的利用 tag 的名字十分重要。我们想用代码找到这个网页的 title,选好要使用的 tag 名称 。 使用正则匹配。</p><p>    title=re.findall(r"<title>(.+?)", data)

    print(title[0])

    3)抓取

    标签间的内容

    想要找到中间的那个段落

    的内容跟一样,但因为这个段落在 HTML 中还夹杂着 tab, new line, 所以我们给一个flags=re.DOTALL 来对这些 tab, new line 不敏感。</p><p>    4)爬取所有的连接的网址。</p><p>    有些时候,我们需要获取网站中所有的超链接并保存在文档里进行应用。一个一个获取是不现实的,我们把网页爬取出来后,用正则表达式去在索出来。超链接在网页中的格式是:你好,请登录。网址以href=“开头,以”结束。因此正则表达p=re.findall(rhref=”(.*?)”),data),其中data存放抓取的网页信息,r进行转义。</p><p>    3 总结</p><p>    大数据时代,我们需要海量的信息去分析市场、分析客户。而爬虫获取的数据掺杂着大量的代码和没用的数据。通过 正则表达式筛选有用的信息,过滤无用的数据。本文介绍爬虫与正则表达式的关系,正则表达式的语法,re模块的几种应用正则表达式方法的区别。最后通过案例总结了python爬虫中正则表达式的使用技巧。</p><p>    参考文献:</p><p>    [1]熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J]. 数字技术与应用,2017(9):45-46.</p><p>    [2]魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].软件导刊,2018, 17(1):41-43.</p><p>    [3]万磊,严道波,杨勇,等.基于文本挖掘的95598投訴工单关键信息提取分析[J].电力与能源,2019,40(01):76-78.</p><p>    [4]Jeffrey E.F.Friedl(著).精通正则表达式[M].余晟,译.北京:电子工业出版社,2008.</p><p>    【通联编辑:闻翔军】</p> </td> </tr> <tr> <td width="61" align="center">随便看</td> <td> <ul class="random"> <li><a target="_blank" href="d58793.html">针对性健康教育对高血压合并脑梗死患者的护理效果观察</a></li> <li><a target="_blank" href="d58794.html">糖化血红蛋白、同型半胱氨酸与2型糖尿病合并肾脏微血管病变的关系研究</a></li> <li><a target="_blank" href="d58795.html">人文关怀教育应用于不孕症专科护理带教中价值分析</a></li> <li><a target="_blank" href="d58796.html">2012-2017年延庆区布鲁氏菌病疫情分析</a></li> <li><a target="_blank" href="d58797.html">全程优质护理对ESD治疗上消化道早期癌的效果及生存质量的影响</a></li> <li><a target="_blank" href="d58798.html">舒适护理在急性脑梗死护理干预中的价值探讨</a></li> <li><a target="_blank" href="d58799.html">D-二聚体与妇科恶性肿瘤病人PICC相关性血栓形成的研究</a></li> <li><a target="_blank" href="d58800.html">分析在乙肝护理过程中加强健康教育的应用效果</a></li> <li><a target="_blank" href="d58801.html">薄型子宫内膜的治疗新进展研究</a></li> <li><a target="_blank" href="d58802.html">健康体检护理工作应用人性化服务的分析</a></li> <li><a target="_blank" href="d58803.html">甲状腺结节良恶性的超声诊断价值</a></li> <li><a target="_blank" href="d58804.html">护理干预对鼻咽癌放疗患者不良反应及生活质量的影响</a></li> <li><a target="_blank" href="d58805.html">健康体检者予以慢性病健康管理服务的价值及效果观察</a></li> <li><a target="_blank" href="d58806.html">一例妊娠合并双胎输血综合征患者的护理及体会</a></li> <li><a target="_blank" href="d58807.html">心理干预对骨肿瘤患者负性心理情绪的影响</a></li> <li><a target="_blank" href="d58808.html">中医情志护理对老年冠心病患者负性情绪和生活质量的影响</a></li> <li><a target="_blank" href="d58809.html">新型冠状病毒肺炎聚集性疫情流行特征分析</a></li> <li><a target="_blank" href="d58810.html">个性化护理模式在小儿护理中的效果及满意度分析</a></li> <li><a target="_blank" href="d58811.html">产后尿潴留原因分析及应对措施</a></li> <li><a target="_blank" href="d58812.html">鼓励病人自我护理浅析</a></li> <li><a target="_blank" href="d58813.html">临床医学检验重要环节的质量控制</a></li> <li><a target="_blank" href="d58814.html">全面护理对骨关节炎手术后患者康复进程及神经功能的影响情况</a></li> <li><a target="_blank" href="d58815.html">心脏及外周血管超声检查在肺栓塞诊断中的应用价值</a></li> <li><a target="_blank" href="d58816.html">探讨刮痧联合耳穴埋籽法用于冠心病心绞痛护理的效果</a></li> <li><a target="_blank" href="d58817.html">MRI、CT检查对强直性脊柱炎髋关节病变的诊断价值比较研究</a></li> <li><a target="_blank" href="100287.html">superyacht</a></li> <li><a target="_blank" href="100288.html">superyachts</a></li> <li><a target="_blank" href="100289.html">superzealous</a></li> <li><a target="_blank" href="100290.html">superzealously</a></li> <li><a target="_blank" href="100291.html">superzealousness</a></li> <li><a target="_blank" href="100292.html">superzealousnesses</a></li> <li><a target="_blank" href="100293.html">super²</a></li> <li><a target="_blank" href="100294.html">super¹</a></li> <li><a target="_blank" href="100295.html">supper</a></li> <li><a target="_blank" href="100296.html">suppering</a></li> <li><a target="_blank" href="100297.html">suppers</a></li> <li><a target="_blank" href="100298.html">supplant</a></li> <li><a target="_blank" href="100299.html">supplantation</a></li> <li><a target="_blank" href="100300.html">supplantations</a></li> <li><a target="_blank" href="100301.html">supplanted</a></li> <li><a target="_blank" href="100302.html">supplanter</a></li> <li><a target="_blank" href="100303.html">supplanters</a></li> <li><a target="_blank" href="100304.html">supplanting</a></li> <li><a target="_blank" href="100305.html">supplants</a></li> <li><a target="_blank" href="100306.html">supple</a></li> <li><a target="_blank" href="100307.html">suppled</a></li> <li><a target="_blank" href="100308.html">supplely</a></li> <li><a target="_blank" href="100309.html">supplement</a></li> <li><a target="_blank" href="100310.html">supplemental</a></li> <li><a target="_blank" href="100311.html">supplementaries</a></li> <li><a target="_blank" href="b194829.html">家族中的人</a></li> <li><a target="_blank" href="b194830.html">家族传承接代的人</a></li> <li><a target="_blank" href="b194831.html">家族兴旺</a></li> <li><a target="_blank" href="b194832.html">家族内世代相传的珍宝</a></li> <li><a target="_blank" href="b194833.html">家族和国家消亡</a></li> <li><a target="_blank" href="b194834.html">家族在较早的上辈</a></li> <li><a target="_blank" href="b194835.html">家族姓氏</a></li> <li><a target="_blank" href="b194836.html">家族强盛</a></li> <li><a target="_blank" href="b194837.html">家族里记载本族世系和重要人物事迹的书</a></li> <li><a target="_blank" href="b194838.html">家族高官众多,权势显赫</a></li> <li><a target="_blank" href="b194839.html">家无主,屋倒竖</a></li> <li><a target="_blank" href="b194840.html">家无主,屋倒竖。</a></li> <li><a target="_blank" href="b194841.html">家无二主</a></li> <li><a target="_blank" href="b194842.html">家无二主,国无二王</a></li> <li><a target="_blank" href="b194843.html">家无住,屋倒柱</a></li> <li><a target="_blank" href="b194844.html">家无住,屋倒竖</a></li> <li><a target="_blank" href="b194845.html">家无儋石</a></li> <li><a target="_blank" href="b194846.html">家无全犯</a></li> <li><a target="_blank" href="b194847.html">家无四壁</a></li> <li><a target="_blank" href="b194848.html">家无存粮</a></li> <li><a target="_blank" href="b194849.html">家无常礼</a></li> <li><a target="_blank" href="b194850.html">家无应门五尺之童</a></li> <li><a target="_blank" href="b194851.html">家无担石</a></li> <li><a target="_blank" href="b194852.html">家无斗储</a></li> <li><a target="_blank" href="b194853.html">家无生活计,不怕斗量金</a></li> </ul> </td> </tr> </table> <p> </p> <p>科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。<p> </p> <div class="foot">Copyright © 2004-2023 puapp.net All Rights Reserved<BR> <span class="updatetime"> 更新时间:2026/2/27 23:52:24</span><script src="/js/count.js" type="text/javascript"></script></div> </body> </html>