Scrapy框架下反反爬虫和数据有序性的实现
TP391.3; 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取user-agent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高....
Gespeichert in:
Veröffentlicht in: | 宜宾学院学报 2019, Vol.19 (6), p.42-46 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | 46 |
---|---|
container_issue | 6 |
container_start_page | 42 |
container_title | 宜宾学院学报 |
container_volume | 19 |
creator | 向洋 董林鹭 宋弘 |
description | TP391.3; 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取user-agent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高. |
doi_str_mv | 10.19504/j.cnki.issn1671-5365.20190327.001 |
format | Article |
fullrecord | <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_ybxyxb201906010</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>ybxyxb201906010</wanfj_id><sourcerecordid>ybxyxb201906010</sourcerecordid><originalsourceid>FETCH-wanfang_journals_ybxyxb2019060103</originalsourceid><addsrcrecordid>eNpjYNAyNNAztDQ1MNHP0kvOy87UyywuzjM0MzfUNTU2M9UzMjC0NDA2MtczMDBkYeCES3Aw8BYXZyYBRQ0NDC0sTDgZzIKTixILKp8tbHs2b9uTHd1P-3uB6HnHmhczVz-d1PNs6oZnveuezel8uqv_WcPy57Nanq6b97xvAw8Da1piTnEqL5TmZlB3cw1x9tAtT8xLS8xLj8_KLy3KA8rEVyZVVFYkgR1kZmBoYEy8SgD9_FNI</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>Scrapy框架下反反爬虫和数据有序性的实现</title><source>国家哲学社会科学学术期刊数据库 (National Social Sciences Database)</source><creator>向洋 ; 董林鹭 ; 宋弘</creator><creatorcontrib>向洋 ; 董林鹭 ; 宋弘</creatorcontrib><description>TP391.3; 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取user-agent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高.</description><identifier>ISSN: 1671-5365</identifier><identifier>DOI: 10.19504/j.cnki.issn1671-5365.20190327.001</identifier><language>chi</language><publisher>四川轻化工大学自动化与信息工程学院,四川宜宾,644000</publisher><ispartof>宜宾学院学报, 2019, Vol.19 (6), p.42-46</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/ybxyxb/ybxyxb.jpg</thumbnail><link.rule.ids>314,776,780,4009,27902,27903,27904</link.rule.ids></links><search><creatorcontrib>向洋</creatorcontrib><creatorcontrib>董林鹭</creatorcontrib><creatorcontrib>宋弘</creatorcontrib><title>Scrapy框架下反反爬虫和数据有序性的实现</title><title>宜宾学院学报</title><description>TP391.3; 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取user-agent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高.</description><issn>1671-5365</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2019</creationdate><recordtype>article</recordtype><recordid>eNpjYNAyNNAztDQ1MNHP0kvOy87UyywuzjM0MzfUNTU2M9UzMjC0NDA2MtczMDBkYeCES3Aw8BYXZyYBRQ0NDC0sTDgZzIKTixILKp8tbHs2b9uTHd1P-3uB6HnHmhczVz-d1PNs6oZnveuezel8uqv_WcPy57Nanq6b97xvAw8Da1piTnEqL5TmZlB3cw1x9tAtT8xLS8xLj8_KLy3KA8rEVyZVVFYkgR1kZmBoYEy8SgD9_FNI</recordid><startdate>2019</startdate><enddate>2019</enddate><creator>向洋</creator><creator>董林鹭</creator><creator>宋弘</creator><general>四川轻化工大学自动化与信息工程学院,四川宜宾,644000</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2019</creationdate><title>Scrapy框架下反反爬虫和数据有序性的实现</title><author>向洋 ; 董林鹭 ; 宋弘</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-wanfang_journals_ybxyxb2019060103</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2019</creationdate><toplevel>online_resources</toplevel><creatorcontrib>向洋</creatorcontrib><creatorcontrib>董林鹭</creatorcontrib><creatorcontrib>宋弘</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>宜宾学院学报</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>向洋</au><au>董林鹭</au><au>宋弘</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Scrapy框架下反反爬虫和数据有序性的实现</atitle><jtitle>宜宾学院学报</jtitle><date>2019</date><risdate>2019</risdate><volume>19</volume><issue>6</issue><spage>42</spage><epage>46</epage><pages>42-46</pages><issn>1671-5365</issn><abstract>TP391.3; 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取user-agent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高.</abstract><pub>四川轻化工大学自动化与信息工程学院,四川宜宾,644000</pub><doi>10.19504/j.cnki.issn1671-5365.20190327.001</doi></addata></record> |
fulltext | fulltext |
identifier | ISSN: 1671-5365 |
ispartof | 宜宾学院学报, 2019, Vol.19 (6), p.42-46 |
issn | 1671-5365 |
language | chi |
recordid | cdi_wanfang_journals_ybxyxb201906010 |
source | 国家哲学社会科学学术期刊数据库 (National Social Sciences Database) |
title | Scrapy框架下反反爬虫和数据有序性的实现 |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-24T05%3A06%3A08IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Scrapy%E6%A1%86%E6%9E%B6%E4%B8%8B%E5%8F%8D%E5%8F%8D%E7%88%AC%E8%99%AB%E5%92%8C%E6%95%B0%E6%8D%AE%E6%9C%89%E5%BA%8F%E6%80%A7%E7%9A%84%E5%AE%9E%E7%8E%B0&rft.jtitle=%E5%AE%9C%E5%AE%BE%E5%AD%A6%E9%99%A2%E5%AD%A6%E6%8A%A5&rft.au=%E5%90%91%E6%B4%8B&rft.date=2019&rft.volume=19&rft.issue=6&rft.spage=42&rft.epage=46&rft.pages=42-46&rft.issn=1671-5365&rft_id=info:doi/10.19504/j.cnki.issn1671-5365.20190327.001&rft_dat=%3Cwanfang_jour%3Eybxyxb201906010%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=ybxyxb201906010&rfr_iscdi=true |