멀티스레드 4

멀티스레드(ThreadPoolExecutor), 멀티프로세서(ProcessPoolExecutor) 비교

배경다층구조 json 데이터를 3가지 테이블로, 분리하는 작업이 오래걸림(25초)일반실행, 멀티스레드, 멀티프로세서 각각 방식에서 어떤 방식이 빠른지 관찰하려 한다.일반 실행시간병렬 처리 없이 단일 스레드에서 모든 데이터 처리를 수행하니, 25초가 걸렸다.멀티스레드 실행 시간 분석스레드 수총 소요 시간총 함수 호출 수wait 호출 수acquire 호출 수as_completed 호출 누적 시간113.69 초3,79621513.54 초215.50 초5,207102815.35 초515.23 초7,494106715.07 초1016.33 초11,3342013216.18 초2016.11 초19,0003925815.72 초주요 관찰 사항스레드 수 1일 때 최단 시간(13.69초)이 소요되었습니다.스레드 수 증가에 따..

(ProcessPoolExecutor 사용 오류) A process in the process pool was terminated abruptly while the future was running or pending

배경멀티스레드 대신 멀티프로세서(ProcessPoolExecutor) 방식을 사용하려 했다.그런데 아래 오류가 뜨면서 동작하지 않았다.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.해결과정어떻게 해도 ProcessPoolExecutor가 동작하지 않았다.오랜시간 검색끝에, 대화형 환경(주피터)에서 실행한 것이 문제라는 문서를 발견했다.공식문서 내용 요약ProcessPoolExecutor는 각 프로세스를 독립적으로 실행하므로, 프로세스가 시작될 때마다 메인 코드(즉, main 모듈)를 다시 불러와야 합니다. 이 main 모듈은 프로세스가 작업을 제대로 ..

json 평활화 작업을 통한, 멀티스레드 속도 비교(ThreadPoolExecutor)

배경다층구조 json 데이터를 3가지 테이블로, 분리하는 작업 필요.예전 프로젝트 당시 glue를 통한 분산처리를 했었음.그게 최선이었냐는 질문을 받음.로컬에서 빠르게 할 수 있는 방법을 찾아서, 멀티스레드를 적용하기로함.해결과정ThreadPoolExecutor를 적용해 코드 작성for문을 10000번 실행 하는데, 한번에 배치실행수(스레드수)를 조절하며 비교오히려 스레드 수가 작을때, 빠른 현상... 왜지..스레드 수총 소요 시간총 함수 호출 수wait 호출 수acquire 호출 수as_completed 호출 누적 시간113.69 초3,79621513.54 초215.50 초5,207102815.35 초515.23 초7,494106715.07 초1016.33 초11,3342013216.18 초2016.1..

병렬 처리 몇 가지와 사용처

조사하게된 배경https://makenow90.tistory.com/66병렬 처리의 세 가지 주요 개념: 비동기 처리, 멀티스레드, 멀티코어병렬 처리는 작업의 특성에 따라 적합한 방식이 다릅니다. I/O 병렬 처리는 주로 입출력 대기 시간이 많은 작업에서, 멀티스레드는 경량 작업이나 I/O 바운드 작업에서, 그리고 멀티코어는 CPU 집약적인 작업에서 각각 효율적입니다. 여기에서는 각 방식의 특징과, 적절한 코드 예시를 설명하겠습니다.1. 비동기 처리 비동기 처리란, 작업이 완료될 때까지 기다리지 않고 다른 작업을 계속 진행하는 방식을 의미합니다.이는 I/O 작업, 네트워크 요청, 파일 읽기/쓰기 등 대기 시간이 발생하는 작업에서 효율적으로 사용됩니다.Python에서는 asyncio, aiohttp, **..