백엔드 개발 Golang Go를 사용한 대규모 CSV 처리

Go를 사용한 대규모 CSV 처리

Nov 27, 2024 am 12:54 AM

아이디어는 다음과 같습니다.

대형 더미 CSV(100만 행)에 고객 데이터 샘플이 포함되어 있으며 아래 목표에 따라 처리를 수행합니다.

  • CSV에서 데이터 추출
  • 데이터/행 수 계산
  • 도시별 고객 수를 그룹화
  • 고객 수를 기준으로 도시를 높은 것부터 낮은 것 순으로 정렬
  • 처리 시간 계산

고객의 샘플 CSV는 여기에서 다운로드할 수 있습니다 https://github.com/datablist/sample-csv-files

데이터 로드 및 추출

분명히 Go에는 CSV 처리를 위한 표준 lib가 있습니다. 더 이상 문제를 해결하기 위해 제3자 의존성이 필요하지 않습니다. 이는 좋은 일입니다. 따라서 해결책은 매우 간단합니다.

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }
로그인 후 복사
로그인 후 복사
  1. 주어진 경로에서 파일을 엽니다
  2. 열린 파일을 csv 리더로 로드
  3. 추출된 모든 csv 레코드/행 값을 나중에 처리하기 위해 레코드 조각에 보관합니다

FieldsPerRecord는 -1로 설정됩니다. 필드나 열 개수가 형식마다 다를 수 있으므로 행에서 필드 확인을 건너뛰고 싶기 때문입니다.

이 상태에서는 이미 csv의 모든 데이터를 로드하고 추출할 수 있으며 다음 처리 상태로 이동할 준비가 되어 있습니다. 또한 len(records) 함수를 사용하여 CSV의 행 수를 알 수 있습니다.

총 고객을 각 도시로 그룹화

이제 기록을 반복하여 도시 이름과 총 고객이 다음과 같은 지도를 만들 수 있습니다.

["Jakarta": 10, "Bandung": 200, ...]
로그인 후 복사
로그인 후 복사

csv 행의 도시 데이터는 7번째 인덱스에 위치하며 코드는 다음과 같습니다

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }
로그인 후 복사
로그인 후 복사

도시 지도가 없으면 새 지도를 만들고 총 고객 수를 1로 설정하세요. 그렇지 않으면 해당 도시의 총 수를 늘리세요.

이제 우리는 도시 컬렉션과 그 안에 있는 고객 수를 포함하는 지도 m을 갖게 되었습니다. 이 시점에서 우리는 각 도시의 고객 수를 그룹화하는 문제를 이미 해결했습니다.

총 고객 수가 가장 높은 정렬

표준 라이브러리에 지도를 정렬하는 기능이 있는지 찾아보았지만 아쉽게도 찾을 수 없었습니다. 인덱스 위치를 기준으로 데이터 순서를 재정렬할 수 있으므로 슬라이스에 대해서만 정렬이 가능합니다. 그럼, 현재 지도에서 한 조각을 만들어 보겠습니다.

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}
로그인 후 복사

이제 CustomerCount를 기준으로 가장 높은 것에서 가장 낮은 것으로 정렬하는 방법은 무엇입니까? 이에 대한 가장 일반적인 알고리즘은 버블 쇼트를 사용하는 것입니다. 가장 빠르지는 않지만 작업을 수행할 수 있습니다.

버블 정렬은 인접한 요소의 순서가 잘못된 경우 반복적으로 교체하여 작동하는 가장 간단한 정렬 알고리즘입니다. 이 알고리즘은 평균 및 최악의 경우 시간 복잡도가 상당히 높기 때문에 대규모 데이터 세트에는 적합하지 않습니다.

참고: https://www.geeksforgeeks.org/bubble-sort-algorithm/

슬라이스를 사용하면 데이터를 반복하여 인덱스의 다음 값을 확인하고 현재 데이터가 다음 인덱스보다 작으면 교체합니다. 자세한 알고리즘은 참고사이트에서 확인하실 수 있습니다.

이제 정렬 과정은 다음과 같을 수 있습니다

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }
로그인 후 복사
로그인 후 복사

루프가 끝날 때쯤 최종 조각은 정렬된 데이터를 제공합니다.

처리 시간 계산

처리 시간을 계산하는 것은 매우 간단합니다. 프로그램의 기본 프로세스를 실행하기 전과 후에 타임스탬프를 얻어 차이를 계산합니다. Go에서는 접근 방식이 충분히 간단해야 합니다.

["Jakarta": 10, "Bandung": 200, ...]
로그인 후 복사
로그인 후 복사

결과

명령어로 프로그램 실행

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }
로그인 후 복사
로그인 후 복사

행수, 정렬된 데이터, 처리 시간이 인쇄됩니다. 아래와 같습니다:

Large CSV Processing Using Go

Go 성능 역시 100만행 csv를 1초 안에 처리!

완성된 모든 코드는 이미 내 Github 저장소에 게시되어 있습니다.

https://github.com/didikz/csv-processing/tree/main/golang

교훈을 얻었습니다

  • Go의 CSV 처리는 이미 표준 lib에서 사용 가능하므로 타사 lib를 사용할 필요가 없습니다
  • 데이터 처리는 매우 쉽습니다. 데이터를 수동으로 정렬해야 하기 때문에 데이터를 정렬하는 방법을 찾는 것이 어려웠습니다

무엇이 떠오르나요?

매핑할 CSV를 추출한 모든 레코드를 루프 처리했고 ReadAll() 소스에서 확인한 경우 지정된 파일 리더를 기반으로 슬라이스를 생성하는 루프도 있기 때문에 현재 솔루션이 더욱 최적화될 수 있다고 생각했습니다. 이로 인해 1 Mil 행은 1 Mil 데이터에 대해 2 x 루프를 생성할 수 있는데 이는 좋지 않습니다.

파일 리더에서 직접 데이터를 읽을 수 있다면 맵을 직접 생성할 수 있기 때문에 루프가 1개만 필요하다고 생각했습니다. 단, 레코드 조각은 다른 곳에서는 사용되지만 이 경우에는 사용되지 않습니다.

아직 알아낼 ​​시간이 없지만 수동으로 할 경우 몇 가지 단점도 생각했습니다.

  • 아마도 구문 분석 과정에서 더 많은 오류를 처리해야 할 것입니다
  • 해결 방법을 고려하여 처리 시간을 줄이는 것이 얼마나 중요한지 잘 모르겠습니다

즐거운 코딩하세요!

위 내용은 Go를 사용한 대규모 CSV 처리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Golang의 목적 : 효율적이고 확장 가능한 시스템 구축 Golang의 목적 : 효율적이고 확장 가능한 시스템 구축 Apr 09, 2025 pm 05:17 PM

Go Language는 효율적이고 확장 가능한 시스템을 구축하는 데 잘 작동합니다. 장점은 다음과 같습니다. 1. 고성능 : 기계 코드로 컴파일, 빠른 달리기 속도; 2. 동시 프로그래밍 : 고어 라틴 및 채널을 통한 멀티 태스킹 단순화; 3. 단순성 : 간결한 구문, 학습 및 유지 보수 비용 절감; 4. 크로스 플랫폼 : 크로스 플랫폼 컴파일, 쉬운 배포를 지원합니다.

Golang 및 C : 동시성 대 원시 속도 Golang 및 C : 동시성 대 원시 속도 Apr 21, 2025 am 12:16 AM

Golang은 동시성에서 C보다 낫고 C는 원시 속도에서 Golang보다 낫습니다. 1) Golang은 Goroutine 및 Channel을 통해 효율적인 동시성을 달성하며, 이는 많은 동시 작업을 처리하는 데 적합합니다. 2) C 컴파일러 최적화 및 표준 라이브러리를 통해 하드웨어에 가까운 고성능을 제공하며 극도의 최적화가 필요한 애플리케이션에 적합합니다.

Golang vs. Python : 주요 차이점과 유사성 Golang vs. Python : 주요 차이점과 유사성 Apr 17, 2025 am 12:15 AM

Golang과 Python은 각각 고유 한 장점이 있습니다. Golang은 고성능 및 동시 프로그래밍에 적합하지만 Python은 데이터 과학 및 웹 개발에 적합합니다. Golang은 동시성 모델과 효율적인 성능으로 유명하며 Python은 간결한 구문 및 풍부한 라이브러리 생태계로 유명합니다.

Golang vs. Python : 성능 및 확장 성 Golang vs. Python : 성능 및 확장 성 Apr 19, 2025 am 12:18 AM

Golang은 성능과 확장 성 측면에서 Python보다 낫습니다. 1) Golang의 컴파일 유형 특성과 효율적인 동시성 모델은 높은 동시성 시나리오에서 잘 수행합니다. 2) 해석 된 언어로서 파이썬은 천천히 실행되지만 Cython과 같은 도구를 통해 성능을 최적화 할 수 있습니다.

공연 경주 : 골랑 대 c 공연 경주 : 골랑 대 c Apr 16, 2025 am 12:07 AM

Golang과 C는 각각 공연 경쟁에서 고유 한 장점을 가지고 있습니다. 1) Golang은 높은 동시성과 빠른 발전에 적합하며 2) C는 더 높은 성능과 세밀한 제어를 제공합니다. 선택은 프로젝트 요구 사항 및 팀 기술 스택을 기반으로해야합니다.

Golang의 영향 : 속도, 효율성 및 단순성 Golang의 영향 : 속도, 효율성 및 단순성 Apr 14, 2025 am 12:11 AM

goimpactsdevelopmentpositively throughlyspeed, 효율성 및 단순성.

C와 Golang : 성능이 중요 할 때 C와 Golang : 성능이 중요 할 때 Apr 13, 2025 am 12:11 AM

C는 하드웨어 리소스 및 고성능 최적화가 직접 제어되는 시나리오에 더 적합하지만 Golang은 빠른 개발 및 높은 동시성 처리가 필요한 시나리오에 더 적합합니다. 1.C의 장점은 게임 개발과 같은 고성능 요구에 적합한 하드웨어 특성 및 높은 최적화 기능에 가깝습니다. 2. Golang의 장점은 간결한 구문 및 자연 동시성 지원에 있으며, 이는 동시성 서비스 개발에 적합합니다.

Golang 및 C : 성능 상충 Golang 및 C : 성능 상충 Apr 17, 2025 am 12:18 AM

Golang과 C의 성능 차이는 주로 메모리 관리, 컴파일 최적화 및 런타임 효율에 반영됩니다. 1) Golang의 쓰레기 수집 메커니즘은 편리하지만 성능에 영향을 줄 수 있습니다. 2) C의 수동 메모리 관리 및 컴파일러 최적화는 재귀 컴퓨팅에서 더 효율적입니다.

See all articles