2021-01-21

基于puppeteer的爬虫1

基于pupperteer的爬虫1

开始

利用puppeteer文档中所给示例进行改动：

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await page.screenshot({path: 'example.png'});

  await browser.close();
})();

更换目标网址：https://search.bilibili.com/all?keyword=CSS&from_source=nav_suggest_new

在网址中分析元素，获取要爬取的元素的选择器：

利用page元素的$$eval方法：

1 2	let href = await page.$$eval("div > div.headline.clearfix > a", (links) => links.map((x) => x.href)); hrefs = hrefs.concat(href);

利用page的click方法点击下一页按钮：

response = await Promise.all([
	page.waitForNavigation(),
	page.click("#all-list > div.flow-loader > div.page-wrap > div > ul > li.page-item.next > button"),
]);

将爬取结果存入json文件

fs.writeFile("data.json", JSON.stringify(all, null, "\t"), function (err) {
		if (err) {
			console.log(err);
		}
	});

或者Excel文件：

fs.writeFile('a.xlsx', buffer, function(err) {
    if (err) {
        console.log("Write failed: " + err);
        return;
    }

全部源码：

const xlsx = require('node-xlsx')
const fs = require("fs");
const puppeteer = require('puppeteer');
var hrefs = [];
var titles = [];
var all = [];
var i = 0;

(async () => {
	const browser = await puppeteer.launch();
	const page = await browser.newPage();
	await page.goto('https://search.bilibili.com/all?keyword=CSS&from_source=nav_suggest_new');
	await page.waitForSelector("div > div.headline.clearfix > a");

	for (i = 0; i < 49; i++) {
		let href = await page.$$eval("div > div.headline.clearfix > a", (links) => links.map((x) => x.href));
		hrefs = hrefs.concat(href);
		let title = await page.$$eval("div > div.headline.clearfix > a", (links) => links.map((x) => x.title));
		titles = titles.concat(title);
		response = await Promise.all([
			page.waitForNavigation(),
			page.click("#all-list > div.flow-loader > div.page-wrap > div > ul > li.page-item.next > button"),
		]);
		console.log(i);
	};
	
	let href = await page.$$eval("div > div.headline.clearfix > a", (links) => links.map((x) => x.href));
	hrefs = hrefs.concat(href);
	let title = await page.$$eval("div > div.headline.clearfix > a", (links) => links.map((x) => x.title));
	titles = titles.concat(title);
	console.log(49);
	await browser.close();

var data = [{
        name: 'sheet1',
        data: [
        hrefs,
        titles
        ]
    }
];
var buffer = xlsx.build(data);

// 写入文件
fs.writeFile('a.xlsx', buffer, function(err) {
    if (err) {
        console.log("Write failed: " + err);
        return;
    }

    console.log("Write completed.");

});
})();

2021-01-13

test

This just a test of updating my blogs.

2021-01-11

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1	$ hexo new "My New Post"

More info: Writing

Run server

1	$ hexo server

More info: Server

Generate static files

1	$ hexo generate

More info: Generating

Deploy to remote sites

1	$ hexo deploy

More info: Deployment