问题描述
我试图在这个网站上对 200 多个页面进行分页,但并非所有页面都具有相同的布局。 例如:这些学校的 GPA 细分和 SAT/ACT(在测试政策行中)超级分数是不同的。 而对于哈佛大学页面,SAT/ACT Super Scores 就没有出现。 我在尝试为 csv 设置格式时遇到问题,因为这些数据显示在一页上,但不显示在其他一些页面上。
链接: :
我目前拥有的 CSV 文件: : 此示例仅显示超级分数的差异,因为我还没有抓取 GPA 细分。 但是,这两种布局在不同页面上是不同的。
代码:
const puppeteer = require('puppeteer');
const fs = require('fs-extra');
(async function main() {
try{
var names = await (fs.readFileSync('names.csv', 'utf8')).split('\n');
const browser = await puppeteer.launch({ headless: false });
const page = await browser.newPage();
page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36');
await page.goto('https://www.princetonreview.com/college/harvard-college-1022984#!admissions');
//await fs.writeFile('out.csv', 'School Name,Applicants,Acceptance Rate,Average HS GPA,GPA: Over 3.75,GPA: 3.50-3.74,GPA: 3.25 - 3.49,GPA: 3.00 - 3.24,GPA: 2.50 - 2.99,GPA: 2.00 - 2.49,SAT Reading and Writing,SAT Math,ACT\n');
await fs.appendFile('out.csv', `"${names[1]}",`);
const numbers = await page.evaluate(() => {
let nums = document.querySelectorAll('.number-callout');
let arr = Array.prototype.slice.call(nums);
let text_arr = [];
for(let i = 0; i < arr.length; i++){
if(arr[i].innerText == "")
continue;
text_arr.push(arr[i].innerText.trim());
}
return text_arr;
});
for(var e of numbers){
await fs.appendFile('out.csv', `"${e}",`);
}
await fs.appendFile('out.csv', `\n`);
//console.log(numbers);
await browser.close();
}catch(e){
console.log('our error', e);
}
})();
1楼
简答:
每当您通过单独的样式进行分页时,您首先必须停止考虑通用解决方案。
分别考虑每个块,并尝试将数据一一获取。 通过这种方式,您可以根据需要格式化和破坏它们。
长答案:
这看起来像是一个要在一个问题中解决的相当大的任务/任务。 然而,这里有一些线索可以解决这个问题。
我们的问题是, - 不同页面的格式不同。 - 有些页面有数据,有些没有。 - 我们需要提取8-10个具体数据。
假设我们要提取Superscore SAT分数,该分数可在 Priceton 和 Georgia 上获得,但在哈佛页面上不可用。
我们需要专门搜索它们,或者优化代码以提取所有数据。 没有通用的方法可以神奇地知道什么是什么。
// Let's grab all elements
[...document.querySelectorAll('div.number-callout')]
// And search for specific term
.find(e=>{
// We can go upper level and find the link element
// since it's the only one identifying this data
const parent = e.parentNode.querySelector('a')
// if an element is found, we search for the text there
if(parent) return parent.innerText.includes('Superscore SAT')
})
这只会返回前两个结果。
这也适用于“Superscore ACT”
您可以映射元素并合并数据,
const data = {};
[...document.querySelectorAll('div.number-callout')].map(e=>{
const parent = e.parentNode.querySelector('a');
if(parent){
if(parent.innerText.includes('Superscore ACT')) data["Superscore ACT"] = true;
if(parent.innerText.includes('Superscore SAT')) data["Superscore SAT"] = true;
}
});
结果: