问题描述
我正在尝试抓取公司的联系信息,除了电话号码之外,我已经能够获得其他所有信息。 这是 html
<ul> <li> <h3>Harrrrrell INC</h3> </li> <li>43 Airpark Ct</li> <li>Alabaster, MD 35107</li> <li><span style="font-weight: bold;">Phone</span>: 888-232-8358</li> <li><span style="font-weight: bold;">Corporate URL</span>: <a href="http://www.hhsales.com" rel="nofollow" target="new">www.h23hsales.com</a></li> <li><span style="font-weight: bold;">More Detail</span>:<br> <a href="https://www.collierreporting.com/company/harrell-and-hall-enterprises-inc-alabaster-al">Click for Full Harrell & Hall Enterprises INC Dossier</a></li> </ul>
此 python 脚本适用于此 html 中除电话号码之外的所有其他内容。
for companyLIST in result[0:]:
try:
companyname = companyLIST.find('h3').contents[0]
print("Company Name ",str(companyname) )
except Exception as e:
print("errror",str(e))
try:
companySt = companyLIST.find_all('li')[1].contents[0]
print("Company St ",str(companySt) )
except Exception as e:
print("errror",str(e))
try:
companyCity = companyLIST.find_all('li')[2].contents[0]
print("Company City ",str(companyCity) )
except Exception as e:
print("errror",str(e))
try:
companyPhone= companyLIST.find('li')[3].contents[0]
print("Company Phone ",companyPhone )
except Exception as e:
print("errror",str(e))
try:
companyWeb = companyLIST.find('a')['href']
print("Company Web ",str(companyWeb) )
print(" " )
except Exception as e:
print("errror",str(e))
这是一个示例输出
公司名称 Harrrrrell INC
公司 St 43 Airpark Ct
公司 City Alabaster, MD 35107
错误 3
公司网站
回溯(最近一次调用最后一次):
File "sample.py", line 26, in <module> companyPhone = soup.find('li')[3].contents[0] File "...dist-packages/bs4/element.py", line 1011, in __getitem__ return self.attrs[key] KeyError: 3
如何重写下面的代码以获取电话号码?
companyPhone= companyLIST.find('li')[3].contents[0]
print("Company Phone ",companyPhone )
1楼
我猜您正在使用 beatifulsoup4 库来解析 HTML。 如果是,您可以像这样从 html 获取电话号码:
text = soup.find_all('li')[3].contents[1]
phone_number = re.sub(": ", "", text)
print(phone_number)
2楼
代替
companyPhone= companyLIST.find('li')[3].contents[0]
print("Company Phone ",companyPhone )
和
if "Phone" in companyLIST:
companyPhone = companyLIST.split(':')[-1].replace(' ','').replace('</li>','')
上面的代码按':'字符拆分列表,选择最后一个元素,并删除无用信息。 最后,我们只有电话号码作为单独的字符串。 您可以对其余行执行相同的操作,只需明智地选择拆分字符/字符串并使用替换功能清理结果列表元素即可。
希望它有用。