본문 바로가기
기타2/Nodejs

크롤링

by 죠부니 2020. 10. 29.
반응형

github.com/bda-research/node-crawler

github.com/simplecrawler/simplecrawler

github.com/cheeriojs/cheerio

github.com/ktty1220/cheerio-httpcli

github.com/puppeteer/puppeteer

무엇을쓸것인가.

puppeteer와 cheerio의 조합

+ 크론잡 node-cron, node-schedule 둘중하나 선택

github.com/node-cron/node-cron

github.com/node-schedule/node-schedule

---

cheerio만 사용한다면 iconv를 써서 해결해야되지만

github.com/bnoordhuis/node-iconv

cheerio-httpcli사용시 iconv안써도된다

---

npm install cheerio-httpcli

 

var client = require("cheerio-httpcli");

let url = "URL";

var param = {};

client.fetch(url,param,function(err,$,res){

    //에러체크

    if(err){

        console.error("ERROR : " + err);

        return;

    }

    console.log($.entityHtml());

})

기본형으로 나머지는 $쪽 jquery선택자를 활용해서 내가 원하는 정보에 접근하면된다.

 

 

반응형

'기타2 > Nodejs' 카테고리의 다른 글

NodeJS: PM2 Startup on Windows[2022-10-19]  (0) 2021.05.06
Error: Connection lost The server closed the connection  (0) 2020.11.30
nvm  (0) 2019.11.28
https://nodejs.org/  (0) 2019.11.28
multer  (1) 2018.08.09