PDF에서 Excel로의 테이블 - Plato AiStream V2.1

플라톤에 의해 재발행

팔로워 : 0

에서 테이블을 추출하려고 합니다. PDF 파일 그리고 그들을 변환 뛰어나다 체재? 시험 Nanonets PDF 테이블 추출기 무료로 표 형식의 데이터를 추출하고 Excel로 변환합니다.

개요

대기업의 기능/운영은 스프레드시트/Excel 파일의 사용과 밀접하게 연결되어 있습니다. Google 시트를 통해 정리된 지원자 목록과 개별 직원의 작업 분리에서 회사 전체의 재정 및 예산 예측에 이르기까지 기업은 상상 이상으로 표 형식에 의존합니다. 그러나 데이터에 대한 통합 Excel 표현으로 정착했지만 다양한 매체에서 이러한 형식으로 정보를 변환하려면 다른 작업에 활용될 수 있는 집중적인 노동 시간이 필요할 수 있습니다.

컴퓨터 비전 및 텍스트 이해 기술의 발전은 궁극적으로 데이터 추출 프로세스를 재고하게 했습니다. 딥 러닝 기술을 활용하여 데이터를 수학적으로 계산 가능한 Excel 형식으로 이해, 추출 및 구성할 수 있는 방법은 무엇입니까?

이 기사에서는 자동화된 PDF 데이터 추출 접근 방식 및 CSV 파일로의 변환에 대한 지난 XNUMX년 동안의 주요 진전에 대해 논의하고 이 작업을 수행하기 위한 시장의 딥 러닝 방법론, 자습서 및 기존 솔루션에 대해 간략히 설명합니다.

핵심 추출 프로세스를 시작하기 전에 먼저 얻고자 하는 데이터의 "종류"를 이해해야 합니다. PDF에는 수많은 데이터 구조가 존재하며 그 중 표 형식과 KVP(키-값-쌍)가 가장 일반적이고 명확합니다.

표 형식

표 형식의 데이터는 추출하기 위해 사소한 것처럼 보일 수 있지만 PDF의 고유한 저장 형식으로 인해 실제로는 어려운 작업입니다.

많은 PDF에서 텍스트와 표는 기계로 인코딩된 단어가 아닌 픽셀로 표시됩니다. 즉, 다른 이미지와 마찬가지로 흑백의 구조화되지 않은 픽셀입니다. 따라서 표 형식의 데이터를 추출하려면 실제 단어를 이해하기 전에 표와 텍스트를 감지해야 하는 경우가 많습니다.

키-값 쌍

때로는 범주형 정보가 표 형식의 행으로 명시적으로 표시되지 않고 대신 두 개의 연결된 데이터 항목이 키와 값으로 표시될 수 있습니다. 여기서 키는 값에 대한 고유 식별자입니다. 이에 대한 몇 가지 예에는 여권에 표시된 데이터가 포함됩니다. 결과적으로 이러한 데이터는 표로 Excel 파일로 변환될 수 있지만 원래는 보이는 표 대신 KVP로 표시되었습니다. 따라서 이러한 데이터의 추출은 훨씬 더 어렵고 추가적인 최첨단 딥 러닝 기술이 필요할 수 있습니다.

PDF, 이미지에서 Excel로 표를 추출하고 변환하기 위해 무료 온라인 OCR이 필요하십니까? Nanonets를 확인하고 맞춤형 OCR 모델을 구축하고 무료로 테이블을 Excel로 추출/변환하세요!

추출 및 테이블 변환 기술

데이터 구조를 Excel 파일로 직접 가져올 수 있는 CSV 파일로 변환하는 것은 간단하지만 데이터 추출은 앞서 언급한 이유로 인해 본질적으로 어려울 수 있습니다. 이 섹션에서는 인공 지능과 머신 러닝, 특히 광학 문자 인식(OCR)을 위한 컴퓨터 비전의 딥 러닝 개념에 대해 간략하게 설명합니다.

인공 지능과 기계 학습

사람들은 종종 두 용어를 같은 의미로 연관지지만 실제로는 의미에서 미묘한 차이를 숨기고 있습니다. 인공 지능은 의사 결정이 규칙 기반 또는 학습된 설정을 통해 수행되었는지 여부에 관계없이 의사 결정을 기반으로 수행하는 데 도움이 될 수 있는 모든 기계 지원 소프트웨어를 설명하는 광범위한 용어입니다.

반면에 머신 러닝은 미래의 의사 결정/예측을 위해 중간 시스템을 '학습'하기 위해 입력 및 지정된 결과를 활용하는 접근 방식을 구체적으로 설명합니다. 전통적인 컴퓨터 소프트웨어는 시스템을 통한 입력이 정확한 결과를 생성할 수 있도록 중간 시스템을 설계하는 것을 목표로 하기 때문에 이러한 설정이 처음에는 이상하게 들릴 수 있습니다. 그러나 기계 학습은 우리가 수행하는 복잡한 작업으로 인해 중간 시스템을 설계하기가 너무 어려울 때 성공적인 것으로 입증되었습니다. 예제 응용 프로그램에는 이미지 분류, 객체 감지 및 물론 문자 인식과 같은 어려운 이미지 관련 작업이 포함됩니다.

컴퓨터 비전의 딥 러닝

딥 러닝은 머신 러닝의 훨씬 더 구체적인 분야로, 중간 시스템을 근사화하기 위해 다중 퍼셉트론 계층 또는 신경망을 설계합니다.

신경망은 생물학적 신경망에서 영감을 받은 아키텍처로, 입력이 네트워크에 입력될 때 활성화 기능으로 작동하는 여러 계층의 뉴런으로 구성됩니다. 정답 예측을 기반으로 뉴런 가중치가 그에 따라 업데이트되어 '올바른' 활성화만 수행되어 적절한 결정을 내립니다. 우리는 종종 이 과정을 역전파라고 부릅니다.

이 아키텍처는 1970년대 초반에 제안되었지만 GPU 연산 능력의 상승으로 최근에야 해결된 높은 연산 요구 사항으로 인해 개발에 어려움을 겪었습니다.

딥 러닝의 강력한 모델링 결과로 거의 모든 컴퓨터 비전 작업(즉, 컴퓨터가 이미지를 이해할 수 있도록 하는 작업)은 딥 러닝에 의해 완전히 또는 적어도 부분적으로 지원됩니다. 컴퓨터 비전 작업에 사용되는 특정 유형의 신경망은 CNN(컨볼루션 신경망)으로, 이미지를 통해 슬라이드하여 특징을 추출하는 기존의 컨볼루션 커널을 도입합니다. 기존의 네트워크 레이어와 결합된 현재 연구는 OCR의 놀라운 정확도는 물론이고 이미지 내의 개체를 분류하고 감지하는 최첨단 결과를 달성했습니다.

OCR

전통적으로 문서에서 문자를 추출하고 기계 인코딩된 텍스트로 변환하는 프로세스는 규칙 기반 스캔에 의해 수행됩니다. 이것은 다양한 글꼴, 스타일, 때로는 손으로 쓴 문자까지 적용할 수 있는 앞서 언급한 딥 러닝 방법으로 빠르게 자리를 잡았습니다.

또한, 장기 기억과 같은 지정된 네트워크 아키텍처의 도움으로 문자 앞 또는 뒤의 문자(예: "d" 및 "o", "g"는 "z"보다 훨씬 가능성이 높은 문자입니다).

관로

딥 러닝 기술에 대한 간략한 이해를 바탕으로 테이블 데이터를 PDF에서 Excel 파일로 변환하는 파이프라인을 소개합니다.

OCR을 통해 PDF의 모든 단어 감지
PDF의 모든 경계 상자 감지
명시적 경계 상자 및 PDF를 기반으로 데이터를 목록 및 사전과 같은 데이터 구조로 변환
Excel 처리를 위해 목록과 사전을 CSV 파일로 내보냅니다.

튜토리얼

이 자습서는 OCR 변환과 CSV 내보내기의 두 가지 구성 요소로 구성됩니다. 간단히 말해서 PDF의 표를 Excel 및 표로 변환하는 프로세스는 먼저 PDF에서 단어와 표를 잘 추출한 다음 내보내기 단계를 거쳐야 합니다.

튜토리얼은 Google API와 PDF 변환 및 내보내기를 위해 Python이 제공하는 일부 내장 라이브러리의 도움으로 대부분 Python으로 진행됩니다.

튜토리얼 파트 1 – OCR 변환

먼저 OCR을 수행하려면 PDF를 이미지 형식으로 변환해야 할 수 있습니다. 이것은 다음을 설치하여 pdf2image 라이브러리를 통해 달성할 수 있습니다.

pip install pdf2image

경로 및 바이트에서 변환하는 두 가지 방법은 다음과 같습니다.

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
) images = convert_from_path('example.pdf')
images = convert_from_bytes(open('example.pdf','rb').read())

코드에 대한 자세한 내용은 공식 문서를 참조하십시오. https://pypi.org/project/pdf2image/

그런 다음 OCR 검색을 위해 Google Vision API를 참조할 수 있습니다. Google 및 Amazon과 같은 대기업은 방대한 고객 기반으로 인해 대규모 크라우드소싱의 혜택을 받고 있습니다. 따라서 개인 OCR을 훈련하는 대신 서비스를 사용하는 것이 훨씬 더 정확할 수 있습니다.

전체 Google Vision API는 설정이 간단하며 다음에 대한 공식 지침을 참조 할 수 있습니다. https://cloud.google.com/vision/docs/quickstart-client-libraries 자세한 설정 절차는.

다음은 OCR 검색을 위한 코드입니다.

def detect_document(path): """Detects document features in an image.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.document_text_detection(image=image) for page in response.full_text_annotation.pages: for block in page.blocks: print('nBlock confidence: {}n'.format(block.confidence)) for paragraph in block.paragraphs: print('Paragraph confidence: {}'.format( paragraph.confidence)) for word in paragraph.words: word_text = ''.join([ symbol.text for symbol in word.symbols ]) print('Word text: {} (confidence: {})'.format( word_text, word.confidence)) for symbol in word.symbols: print('tSymbol: {} (confidence: {})'.format( symbol.text, symbol.confidence)) if response.error.message: raise Exception( '{}nFor more info on error messages, check: ' 'https://cloud.google.com/apis/design/errors'.format( response.error.message))

document_text_Detection은 주로 PDF에 나타나는 매우 압축된 텍스트를 전문으로 제공하는 기능 중 하나입니다. PDF에 단어가 다소 부족한 경우 실제 이미지에 더 초점을 맞춘 다른 텍스트 감지 기능을 사용하는 것이 더 나을 수 있습니다. Google API 사용에 관한 추가 코드는 여기에서 검색할 수 있습니다. https://cloud.google.com/vision; 다른 언어(예: Java)에 더 익숙하다면 코드를 참조할 수도 있습니다.

Amazon과 Microsoft의 다른 OCR 서비스 / API도 있으며 언제든지 사용할 수 있습니다. 파이테서랙트 특정 목적을 위해 모델을 교육하는 라이브러리.

튜토리얼 파트 2 – CSV 내보내기

Python에서 CSV 내보내기는 전체 프로세스의 마지막이자 아마도 더 간단한 부분입니다. Python에서 데이터가 다음과 같이 목록으로 저장될 때:

# field names fields = ['FirstName', 'Surname', 'Year', 'CGPA'] # data rows rows = [ ['Nikhil', 'John', '2', '9.0'], ['Sam', 'Cheng', '2', '9.1'], ['Adi', 'Travolta', '2', '9.3'], ['Lorenzo', 'Thomas', '1', '9.5'], ['Stuart', 'Ali', '3', '7.8'], ['Saz', 'TY', '2', '9.1']]

다음과 같이 CSV 작성기를 통해 간단히 CSV에 넣을 수 있습니다.

with open('people.csv', 'w') as f: write = csv.writer(f) write.writerow(fields) write.writerows(rows)

코드를 실행하면 디렉토리 내에 people.csv 파일이 있으며 추가 처리를 위해 Excel로 직접 열 수 있습니다.

f = open…을 사용할 수도 있습니다. 행 쓰기 사이에 많은 처리가 있는 경우 f.close()가 뒤따릅니다.

시장의 솔루션

점점 더 많은 기업이 데이터 변환 프로세스를 자동화된 파이프라인으로 전환하기를 희망합니다. 따라서 현재 많은 기업(예: Google, Amazon)에서 이러한 작업을 수행하기 위한 API를 제공하고 있습니다. 다음은 OCR 및 테이블 감지와 장단점을 제공하는 몇 가지 인기 있는 솔루션을 나열한 것입니다.

*참고 사항: 이미지 속 이미지와 같은 작업을 대상으로 하는 여러 OCR 서비스가 있습니다. 우리는 현재 PDF 문서 읽기에만 집중하고 있기 때문에 해당 서비스를 건너뛰었습니다.

구글 API — 데이터 추출에서 Google의 탁월한 결과는 검색 엔진에서 데이터 세트의 대규모 크라우드소싱 때문입니다. 개인용 무료 평가판을 제공하지만 통화가 비즈니스 규모로 증가하면 곧 가격이 상승합니다.
딥 리더 — Deep Reader는 2019년 ACCV Conference에 발표된 연구 작품입니다. 여러 최신 네트워크 아키텍처를 활용하여 문서 매칭, 텍스트 검색, 이미지 노이즈 제거 등의 작업을 수행합니다. 데이터를 체계적으로 검색하고 저장할 수 있는 테이블 및 키-값-쌍 추출과 같은 추가 기능이 있습니다.
나노 넷 — 고도로 숙련된 딥 러닝 팀과 함께 Nanonets PDF OCR은 템플릿과 규칙에 완전히 독립적입니다. 따라서 Nanonet은 특정 유형의 PDF에서 작동할 수 있을 뿐만 아니라 텍스트 검색을 위해 모든 문서 유형에 적용될 수도 있습니다. 표 추출과 같은 작업도 내장되어 있어 모든 유형의 문서에서 유연하면서도 매우 정확한 검색이 가능합니다.

나노넷 — 단순하지만 우아한

Nanonets의 하이라이트 중 하나는 서비스가 제공하는 단순성입니다. 프로그래밍 배경이 없어도 이러한 서비스를 선택할 수 있으며 최첨단 기술로 표 형식의 데이터를 쉽게 추출할 수 있습니다. 다음은 표를 PDF에서 Excel로 변환하기 위해 Nanonet에 액세스하는 것이 얼마나 쉬운지에 대한 간략한 개요입니다.

1단계

nanonets.com으로 이동하여 등록/로그인합니다.

2단계

등록 후 모든 사전 구축된 추출기가 만들어지는 "시작하려면 선택" 영역으로 이동하고 표 형식 데이터 추출을 위해 설계된 추출기의 "표" 탭을 클릭합니다.

3단계

몇 초 후에 준비가 되었다는 데이터 추출 페이지가 나타납니다. 추출할 파일을 업로드합니다.

4단계

처리 후, Nanonets는 빈 공간을 건너뛰어도 모든 표 정보를 정확하게 정확하게 추출할 수 있습니다!

결론

이 문서에서는 PDF에서 테이블을 추출 및 변환하고 Excel을 통해 열 수 있도록 CSV 파일로 추가로 내보내는 프로세스에 대한 몇 가지 통찰력을 제공합니다. 두 개의 자습서는 이러한 자동화된 프로세스가 얼마나 많은 편의를 가져올 수 있는지에 대한 진입점 역할을 하기를 바랍니다.

출처: https://nanonets.com/blog/pdf-table-to-excel/

타임 스탬프 : 2021 년 10 월 16 일