问题描述
我正在尝试找到最佳或最有效的方法来解决此问题。
我从命令行获取这样的股票价格:
myhostname % wget -q http://www.nasdaq.com/symbol/amzn -O - | egrep "qwidget-dollar"
<div id="qwidget_lastsale" class="qwidget-dollar">$1969.5992</div>
<div class="qwidget-dollar"><div>* </div></div>
我正在尝试将其放入python文件中并仅获取美元金额。
url = "http://www.nasdaq.com/symbol/amzn"
filename = wget.download(url)
print (filename)
这给了我整个页面。 我不知道最好的方法是获取美元价值。 任何帮助表示赞赏。
1楼
您可以使用re
库,即正则表达式的Python标准库实现。
requests
库也是执行这些任务的好工具。
例如
import re
import requests
url = "http://www.nasdaq.com/symbol/amzn"
regex = '<div id="qwidget_lastsale" class="qwidget-dollar">$(.*?)</div>'
# Retrieve the page.
page_text = requests.get(url).text
# Print the first capture group of the regular expression search.
print(re.match(regex, page_text).group(1))
但是,对于任何更复杂的HTML解析任务,我建议使用lxml.html
或BeautifulSoup
库。