必威体育Betway必威体育官网
当前位置:首页 > IT技术

企查查网站信息爬取1.0版

时间:2019-11-03 19:15:41来源:IT技术作者:seo实验室小编阅读:79次「手机版」
 

企查查网站

1.0版本中,并未对验证码进行处理,在遇到验证码问题时,提示等待并手工解决

import requests
from lxml import etree
import pandas as pd
import time

# 第一步:定义基本信息,url,headers,cookies
# url = 'https://www.tianyancha.com/company/2358517846'
company_list = [
'河南正商河洛置业有限公司',
'河南融创晟元置业有限公司',
'河南俱成汽车零部件有限公司',
'郑州永洁环保科技有限公司',
'郑州清华耐火材料有限公司',
'郑州航空港区航程正商置业有限公司',
'郑州航空港市民中心发展有限公司',
'河南正商商都置业有限公司',
'巩义市盛飞机械设备有限公司',
'郑州瑞健生物科技有限公司',
'郑州深澜动力科技有限公司',
'中铁工程装备集团有限公司',
'河南鼎峰置业有限公司',
'河南民信置业有限公司',
'河南雅奇明胶有限公司',
'河南省恒宇置业有限公司',
'荥阳新农置业有限公司',
'郑州德府瑞居置业有限公司',
'华电分布式能源(郑州)有限公司',
'登封市豫资建设发展有限公司',
'河南绿地港区置业有限公司']
headers = {
    'ccept': 'APPlication/json, text/javascript, */*; q=0.01',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Host': 'm.tianyancha.com',
    'referer': 'https://m.tianyancha.com/search?key=%E9%83%91%E5%B7%9E%E9%87%91%E7%A3%8A%E6%A0%91%E8%84%82%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&checkFrom=searchBox',
    'User-Agent': 'Mozilla/5.0 (linux; Android 6.0; nexus 5 build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest'
}
timestrap = int(time.time())
cookies = {'TYCID': 'c5ed9bd0960011e891962b12a1f9a1f1', 'undefined': 'c5ed9bd0960011e891962b12a1f9a1f1', 'ssuid': '7456483413', '_ga': 'GA1.2.64663727.1537443593', '_gid': 'GA1.2.1799316349.1537443593', 'RTYCID': '0c517c4c030d4eb482a941a5383b8107', 'CT_TYCID': 'c716946a3f384978a185529cecd59277', 'tyc-user-info': '%257B%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTcxMzcxMDk0NCIsImlhdCI6MTUzNzQ5Mjg1NiwiZXhwIjoxNTUzMDQ0ODU2fQ.xO88A8fKq9ztOGxO0F-to_jdZ6cbBKg3DMsUE9kJvxWXm5qaQaE9JaGKrr_5vmLuWJGdXDImK1hbZmkLU3aLcQ%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522redPoint%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522monitorUnreadCount%2522%253A%25221%2522%252C%2522onum%2522%253A%25220%2522%252C%2522mobile%2522%253A%252215713710944%2522%257D', 'auth_token': 'eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTcxMzcxMDk0NCIsImlhdCI6MTUzNzQ5Mjg1NiwiZXhwIjoxNTUzMDQ0ODU2fQ.xO88A8fKq9ztOGxO0F-to_jdZ6cbBKg3DMsUE9kJvxWXm5qaQaE9JaGKrr_5vmLuWJGdXDImK1hbZmkLU3aLcQ', 'Hm_lvt_e92c8d65d92d534b0fc290df538b4758': '1537443593,1537493356','Hm_lpvt_e92c8d65d92d534b0fc290df538b4758': '1537510340', 'aliyungf_tc': 'AQAAAOh4sTFdjxwUAtymFt9gzyUSvNWrC', 'csrfToken': 'iXGG1ldNy8JcVC4KCJXn0z9D', 'Hm_lvt_d5ceb643638c8ee5fbf79d207b00f07e': '1537513104','_gat_gtag_UA_123487620_1': '1','Hm_lpvt_d5ceb643638c8ee5fbf79d207b00f07e':str(timestrap)}

for conli in company_list:
    url = "https://m.tianyancha.com/search?key={}&checkFrom=searchBox".format(str(conli))
    print(url)

    # /html/body/p[3]/p[3]/p[1]/p[1]/p[1]/a
    # time_cookie = {'Hm_lpvt_d5ceb643638c8ee5fbf79d207b00f07e':timestrap}
    # cookies = dict(cookies,**time_cookie)
    # print(cookies)
    # 第二步:根据获得的信息来得到其response
    # 通过response.content来获取其中的信息,再将content的内容进行decode解码来观察其中的内容
    response = requests.get(url=url,headers=headers,cookies=cookies)
    con = response.content
    con = con.decode("utf-8")
    con_html = etree.HTML(con)
    new_url = con_html.xpath("/html/body/p[3]/p[3]/p[1]/p[1]/p[1]/a/@href")
    new_url =new_url[0]

    response_con = requests.get(url=new_url,headers=headers,cookies=cookies)
    content = response_con.content
    content = content.decode("utf-8")
    html = etree.HTML(content)



    # 公司名称
    company = html.xpath('//*[@id="wap_header_top"]/p[1]/p[1]/p[1]/text()')
    # 法定代表人
    people = html.xpath('/html/body/p[3]/p[1]/p[6]/p/p[1]/span[2]/a/text()')
    # 经营状态
    status = html.xpath('/html/body/p[3]/p[1]/p[6]/p/p[2]/span[2]/text()')
    # 工商号
    gs_num = html.xpath('/html/body/p[3]/p[1]/p[6]/p/p[7]/span[2]/text()')
    # 注册资本
    money = html.xpath('/html/body/p[3]/p[1]/p[6]/p/p[4]/span[2]/text/text()')
    # 纳税人识别号
    people_num = html.xpath('/html/body/p[3]/p[1]/p[6]/p/p[10]/span[2]/text()')
    # print(content)
    # print("公司名称:"+company[0]+'\n'+"纳税人识别号:"+people_num[0])
    print(company[0]+" 法定代表人:"+people[0]+" 工商号:"+gs_num[0]+" 注册资本:"+money[0]+" 经营状态:"+status[0]+" 纳税人识别号:"+people_num[0])

文章最后发布于: 2018-11-24 16:01:57

相关阅读

企业宣传软文可以怎么写?应该从哪些角度着手?

软文之所以叫做软文,精妙之处就在于一个“软”字,好似绵里藏针,收而不露,克敌于无形。软文的优点相对于硬广告来说渗透力较

不止于美:浅析信息图形设计

人在喝完可乐一小时内会有什么反应?高速发展的中国互联网在一分钟内会发生些什么事情?美国大选,川普和希拉里的支持率到底有多大差距

淘宝企业店铺该怎么开?具体的步骤是怎样的?

淘宝上的企业店铺比个人店铺更有信服力,所以很多剁手党宁愿在企业店铺买,不愿意去个人店铺,所以很多个人店铺做到一定规模后,都会往企

ASP.NET --自定义错误信息显示(customErrors, compilati

   一次在将aps.net MVC框架的一个应用解决方案publish到微软azure上时,新加页面一直请求信息报错(通用错误信息),在本地又运行正常

企业软文营销洞察消费者心理才能一路躺赢

任何成功的软文营销案例,都离不开软文这一细节部分。要想写好一篇软文,要有好的思路与谋略。那么,我们该从哪些方面来写好一篇产品软

分享到:

栏目导航

推荐阅读

热门阅读