반응형

전체 글 80

크롤링) 크롤링한 데이터 Django DB에 넣기

Beautifulsoup으로 크롤링한 데이터를 장고 DB에 넣어보았습니다. 백엔드는 항상 어려우나 해결하는 즐거움이 있는 것 같습니다. 시간만 덜 걸리면 좋으려만 그래도 여러 삽질 끝에 얻는 지식은 너무 소중한 것 같습니다. 우선 코딩 전문입니다. # -*- coding: utf-8 -*- import urllib.request import urllib.parse import ssl from bs4 import BeautifulSoup import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "backend.settings") import django django.setup() from api.models import Search_Recipe def getR..

파이썬 2020.05.20

크롤링) Selenium을 이용하여 크롤링하기

Selenium을 이용하여 크롤링을 해보았습니다. 해먹남녀 사이트에서 크롤링으로 재료 검색을 하면 자동으로 5페이지까지 넘겨가며 음식 이름만을 크롤링 해오는 것이죠. 이걸 장고랑 연동해서 프론트엔드로 띄우고 싶은데.. 이제 이걸 연구해 봐야겠습니다. 일단 이 코드를 베이스로 원하는 데이터 형태로 파싱할 수도 있으나 일단은 print로 넘겼습니다. Beautifulsoup으로 태그를 찾고 xpath로 위치 지정하였습니다. www.github.com/SunkyeongLee/CrawlingWithPython SunkyeongLee/CrawlingWithPython Crawling the website with Python. Contribute to SunkyeongLee/CrawlingWithPython de..

파이썬 2020.05.11

크롤링) 크롬드라이버 버전 연동이 안될 때 해결방법

셀레니움으로 크롤링을 도전하려고 호기롭게 시작하였으나.. 항상 환경설정에 많은 시간을 뺏기고 애를 먹습니다.. 이래서 도커를 사용해야 하는가 봅니다. 분명 크롬 드라이버를 버전에 맞게 설치를 하였으나 이런 에러 메시지가 뜹니다. session not created: This version of ChromeDriver only supports Chrome version 81 크롬 버전은 URL 창에 chrome://version/을 검색하시면 첫 줄에서 확인하실 수 있습니다. 크롬 드라이버 다운받기 www.sites.google.com/a/chromium.org/chromedriver/downloads Downloads - ChromeDriver - WebDriver for Chrome WebDriver ..

파이썬 2020.05.09

도커와 가상머신의 차이

도커와 가상머신의 차이에 대해서 이해한 내용을 정리해 보겠습니다. 일단 도커와 가상머신의 개념은 비슷합니다. 하나의 운영체제 위해서 가상의 독립적인 환경을 제공해 주는 것입니다. 그래서 그 각각의 환경들은 서로 관여할 수 없게 되어 프로그램이나 어플리케이션에 있어 서로의 간섭 없이 편리하게 운용할수 있게 되는 것이죠. 그럼 왜 도커가 가상머신보다 더 빠르다는 것일까요? 일반 컴퓨터를 간단하게 도식화하면 이렇습니다. 하드웨어 위에 운영체제가 얹혀 그 위로 어플리케이션이나 소프트웨어가 동작하는 것이죠. 그런데, 이렇게 하나의 OS 위에서 여러개의 어플리케이션이 동작하는데, 예를 들어 App1은 파이썬 버전 3을 요구하고, App2는 버전 2를 요구하게 된다면 매번 특정 App을 구동할 때 마다 버전 충돌이 ..

도움코딩 2020.05.03

엘라스틱서치 시작하기

Kibana를 실행 후 좌측 하단의 버튼을 클릭 후 Dev Tools를 실행해 주세요. pages 인덱스 생성하기 $ curl -XPUT "http://localhost:9200/pages" 인덱스에 문서 document 추가하기 $ curl -XPOST "http://localhost:9200/products/_doc" -H 'Content-Type: application/json' -d'{ "name": "Coffee Maker", "price": 64, "in_stock": 10}' _shard: 몇 개의 shard가 document를 저장하는데 성공했는지를 보여주는 지표입니다. _id: 자동으로 생성되는 document의 id id를 지정하고 싶은 경우 id로 document 찾기 검색한 id의 ..

Elastic Search 2020.04.14

엘라스틱 서치 Elasticsearch 단위

엘라스틱서치는 REST API를 이용한 http 통신을 통해서 데이터를 처리합니다. 그렇기 때문에 http 메소드인 PUT/POST/GET/DELETE를 이용해서 문서를 입력, 조회, 삭제할 수 있습니다. 그래서 API를 호출할 때 다른 HTTP 클라이언트를 사용해도 가능합니다. HTTP CRUD SQL GET Read Select PUT Update Update POST Create Insert DELETE Delete Delete Relational DB Elasticsearch 데이터베이스(DB) 타입(Type) 테이블(Table) 인덱스(Index) 열(Row) 문서(Document) 행(Column) 필드(Field) 스키마(Schema) 매핑(Mapping) 엘라스틱서치의 단위 클러스터 Clu..

Elastic Search 2020.04.09
반응형