This commit is contained in:
manchuwork
2025-10-03 03:02:27 +08:00
parent 6444fecd4e
commit 84143ff6fb
5 changed files with 1685 additions and 15 deletions

View File

@@ -41,7 +41,19 @@ def crawl_and_save_aiqicha_details(input_csv, output_csv):
'address', # 公司地址
'business_scope', # 经营范围
'source_url', # 原始URL
'create_time' # 创建时间
'create_time' ,
# 新增字段
'company_type', # 企业类型
'industry', # 所属行业
'registration_authority', # 登记机关
'operating_period', # 营业期限
'actual_capital', # 实缴资本
'taxpayer_id', # 纳税人识别号
'organization_code', # 组织机构代码
'approved_date', # 核准日期
'staff_size', # 参保人数
'phone' # 电话
# 创建时间
]
# 创建输出CSV工具实例
@@ -99,7 +111,18 @@ def crawl_and_save_aiqicha_details(input_csv, output_csv):
'business_status': detail.get('business_status', ''),
'address': detail.get('address', ''),
'business_scope': detail.get('business_scope', ''),
'source_url': detail.get('source_url', '')
'source_url': detail.get('source_url', ''),
# 新增字段映射
'company_type': detail.get('company_type', ''),
'industry': detail.get('industry', ''),
'registration_authority': detail.get('registration_authority', ''),
'operating_period': detail.get('operating_period', ''),
'actual_capital': detail.get('actual_capital', ''),
'taxpayer_id': detail.get('taxpayer_id', ''),
'organization_code': detail.get('organization_code', ''),
'approved_date': detail.get('approved_date', ''),
'staff_size': detail.get('staff_size', ''),
'phone': detail.get('phone', '')
}
# 立即保存每条数据,避免数据丢失