diff --git a/cookies/.gitignore b/cookies/.gitignore index f59ec20..41c53e4 100644 --- a/cookies/.gitignore +++ b/cookies/.gitignore @@ -1 +1,2 @@ -* \ No newline at end of file +* +*.json \ No newline at end of file diff --git a/crawler_campany_detail_by_data_csv.py b/crawler_campany_detail_by_data_csv.py index 13674a9..2b1524b 100644 --- a/crawler_campany_detail_by_data_csv.py +++ b/crawler_campany_detail_by_data_csv.py @@ -85,6 +85,10 @@ def crawl_and_save_aiqicha_details(input_csv, output_csv): aiqicha_data = filtered_aiqicha_data print(f'过滤后剩余 {len(aiqicha_data)} 条爱企查数据待处理') + if len(aiqicha_data) <= 0: + print("没有待处理的爱企查数据,退出") + return + # 使用爱企查详情爬虫 with AiqichaDetailCrawler() as crawler: company_details = [] @@ -143,7 +147,7 @@ def crawl_and_save_aiqicha_details(input_csv, output_csv): # 添加延迟,避免请求过快 time.sleep(2) - next_sleep_interval = random.uniform(5, 15) + next_sleep_interval = random.uniform(3, 15) time.sleep(next_sleep_interval) print(f"总共成功处理并保存了 {success_count} 条企业详情数据到 {output_csv}") diff --git a/data/.gitignore b/data/.gitignore index f59ec20..8daca18 100644 --- a/data/.gitignore +++ b/data/.gitignore @@ -1 +1,2 @@ -* \ No newline at end of file +* +data.csv \ No newline at end of file diff --git a/demo/aiqicha-datail.html b/demo/aiqicha-datail.html new file mode 100644 index 0000000..eb7ff49 --- /dev/null +++ b/demo/aiqicha-datail.html @@ -0,0 +1,11925 @@ + + + + + 非帆(浙江)酒业有限公司 - 非帆酒业 - 爱企查 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+
+ HTML copied to clipboard! +
+ + +
+
+
+
+
+
+ +
+ 查企业 + + 查老板 + + 查关系 +
+
+
+
+
+ +
+
+ +
+ close +
+
+
+
+
+ 查企业 +
+
+ +
+
+
+ +
+
+ + +
+
+
+
+
vip专区
+
+ +
+
+
+
+
+
+ 应用 +
+
+ +
+
+
+
+
+
+ +
+
+
+ +
+
+ + + + + + + +
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+
+
+
+
+ +
+
+
+
+
+
SVIP开通超级会员·查看【非帆(浙江)酒业有限公司】完整信息 +
+
+
pay-desc +
+
全面风控 +
+ 挖掘司法经营风险,助力精准避坑 +
+
+
pay-desc +
+
商机洞察 +
+ 掌握企业关联动态,洞察商业机遇 +
+
+
pay-desc +
+
人脉直达 +
+ 打破信息壁垒,直联企业关键人 +
+
+
+

+ 购买下方套餐立即查看当前数据,立享 44 项特权 +

+
+
+
+
+
+
+
+ 限购一次 + +
+ 试用7天 +
+
4.9 + ¥25 +
+
+ 低至0.7元/天 +
+
+
+
+
+ 新客专享 + +
+ 优惠包月 +
+
29 + ¥59 +
+
+ 首月特惠 次月49元 +
+
+
+
+
+
+ 连续包季 +
+
99 + ¥150 +
+
+ 低至1.09元/天 +
+
+
+
+
+ 送蜻蜓FM月卡 + +
+ 1个月 +
+
59 + ¥84 +
+
+ 低至1.97元/天 +
+
+
+
+
+
+ 3个月 +
+
150
+ +
+ 低至1.65元/天 +
+
+
+
+
+ 送同程黑鲸年卡 + +
+ 1年 +
+
298 + ¥447 +
+
+ 低至0.82元/天 +
+
+
+
+
+
+ 2年 +
+
596 + ¥720 +
+
+ 低至0.82元/天 +
+
+
+
+
+ +
+
+
+
+
+
+ 会员到期按¥59/月自动续费,享44项权益,可随时取消。 + +
+
+
+ +
+
+
+
+
+
+ + Scan me!
+
+
+
+
+ 支付宝扫码支付 +
+ +
服务时间: +
+ 2025-10-11 +
+
+
支付金额: +
4.9 + (已省¥20.1) +
+ + 发票获取 +
+
+
+
+
+
+
+ 百***8 刚刚购买了超级会员 +
+
+ 上***8 刚刚购买了超级会员 +
+
+ 1***0 刚刚购买了超级会员 +
+
+ u***u 刚刚购买了超级会员 +
+
+ 1***8 刚刚购买了超级会员 +
+
+ 1***8 刚刚购买了超级会员 +
+
+ 果***虫 刚刚购买了超级会员 +
+
+ 1***y 2分钟前购买了超级会员 +
+
+ i***d 2分钟前购买了超级会员 +
+
+ l***3 2分钟前购买了超级会员 +
+
+ 1***7 2分钟前购买了超级会员 +
+
+ 1***1 3分钟前购买了超级会员 +
+
+ 金***m 3分钟前购买了超级会员 +
+
+ 1***3 3分钟前购买了超级会员 +
+
+ c***3 4分钟前购买了超级会员 +
+
+ 坐***车 4分钟前购买了超级会员 +
+
+ t***8 4分钟前购买了超级会员 +
+
+ V***乱 5分钟前购买了超级会员 +
+
+ t***8 5分钟前购买了超级会员 +
+
+ 留***界 5分钟前购买了超级会员 +
+
+ 那***7 6分钟前购买了超级会员 +
+
+ 韓***9 6分钟前购买了超级会员 +
+
+ 向***看 6分钟前购买了超级会员 +
+
+ 1***6 6分钟前购买了超级会员 +
+
+ 1***3 6分钟前购买了超级会员 +
+
+ 1***3 6分钟前购买了超级会员 +
+
+ 至***我 6分钟前购买了超级会员 +
+
+ 8***J 7分钟前购买了超级会员 +
+
+ 1***2 7分钟前购买了超级会员 +
+
+ 百***8 刚刚购买了超级会员 +
+
+ 上***8 刚刚购买了超级会员 +
+
+ 1***0 刚刚购买了超级会员 +
+
+ u***u 刚刚购买了超级会员 +
+
+
+
+
+
+ + +
+
超级会员专属特权
+ 企业风险财产线索联系方式老板履历信息报告企业受益股东股权结构
+
+ +
+
+
+
+
+
+ +
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+ +
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+
+
+ + +
+ + +
+ +
+ +
+
+ + +
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+ + + + + + + +
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+
+ +
+ +
+
+ + +
+ +
+ +
+
+ + +
+ +
+ +
+
+ + +
+ +
+ +
+
+ + + \ No newline at end of file diff --git a/tool/aiqicha_detail.py b/tool/aiqicha_detail.py index 6238c81..83254e6 100644 --- a/tool/aiqicha_detail.py +++ b/tool/aiqicha_detail.py @@ -27,12 +27,12 @@ class AiqichaDetailCrawler: else: print("已加载Cookie") - # 使用登录管理器检测登录状态 - logined = self.login_manager.check_and_login() - if logined: - print("登录成功") - else: - print("登录失败") + # # 使用登录管理器检测登录状态 + # logined = self.login_manager.check_and_login() + # if logined: + # print("登录成功") + # else: + # print("登录失败") self.browser_started = True except Exception as e: print(f"启动浏览器失败: {e}") @@ -80,12 +80,39 @@ class AiqichaDetailCrawler: print("等待页面关键元素加载...") try: # 等待关键元素加载,增加超时时间 - self.browser.page.wait_for_selector('.addr-enter-bg-ele', timeout=15000) + try: + self.browser.page.wait_for_selector('.addr-enter-bg-ele', timeout=10000) + except Exception as e: + print(f"等待页面元素时出错: {e}") + # self.browser.page.wait_for_selector('.addr-enter-bg-ele', timeout=10000) print("关键元素已加载") + # 使用登录管理器检测登录状态 + logined = self.login_manager.check_and_login() + if logined: + print("登录成功") + else: + print("登录失败") + + # 关闭指定的弹窗 (aiqicha-datail.html 792-793 行对应的元素) + try: + # 查找并点击关闭按钮 + svip_modals = self.browser.page.query_selector_all('.clue-card-wrap') + for modal in svip_modals: + if modal: + # 查找.ivu-modal-close关闭按钮 + close_button = modal.query_selector('a.ivu-modal-close') + if close_button: + close_button.click() + print("已关闭SVIP弹窗") + break + except Exception as e: + print(f"关闭弹窗时出错: {e}") + # 额外等待一段时间确保页面完全加载 import time - time.sleep(10) + time.sleep(3) + print("额外等待完成,页面应该已完全加载") except Exception as e: print(f"等待页面元素时出错: {e}")