상세 컨텐츠

본문 제목

[Python] 워드 파일에서 텍스트만 뽑아내기

머신러닝/함수, 라이브러리

by byoelcardi 2023. 8. 22. 21:43

본문

728x90

워드파일에서 텍스트만을 가져오는 파이썬 코드를 소개해드리고자 글을 작성했습니다. 코드를 우선 보시겠습니다.

from docx import Document

def extract_text_from_docx(docx_path):
    # DOCX 파일 열기
    document = Document(docx_path)
    
    # 텍스트 추출
    extracted_text = ""
    for paragraph in document.paragraphs:
        extracted_text += paragraph.text + "\n"
    
    return extracted_text

# 추출할 DOCX 파일 경로 지정
docx_file_path = "example.docx"

# DOCX 파일로부터 텍스트 추출
extracted_text = extract_text_from_docx(docx_file_path)

# 추출된 텍스트 출력
print(extracted_text)
  • extract_text_from_docx 함수 정의:
    • 이 함수는 DOCX 파일 경로를 매개변수로 받아와 해당 파일의 내용을 추출하여 반환하는 역할을 합니다. 
  • 추출할 DOCX 파일 경로 지정:
    • docx_file_path 변수에 추출하고자 하는 DOCX 파일의 경로를 지정합니다. 이 경로는 코드에서 example.docx로 되어 있는데, 이것을 실제로 사용하려는 DOCX 파일의 경로로 바꿔야 합니다.
  • 텍스트 추출 및 출력:
    • extract_text_from_docx 함수를 사용하여 지정한 DOCX 파일에서 텍스트를 추출하고, 추출된 텍스트를 출력합니다.

 

텍스트를 출력하는 것뿐만 아니라 다음과 같은 코드로 텍스트 파일로 저장도 가능합니다.

from docx import Document

def extract_text_from_docx(docx_path):
    # DOCX 파일 열기
    document = Document(docx_path)

    # 텍스트 추출
    extracted_text = ""
    for paragraph in document.paragraphs:
        extracted_text += paragraph.text + "\n"

    return extracted_text

# 추출할 DOCX 파일 경로 지정
docx_file_path = "docx_file/docv_example.docx"

# DOCX 파일로부터 텍스트 추출
extracted_text = extract_text_from_docx(docx_file_path)

# 추출된 텍스트를 txt 파일로 저장
output_txt_path = "extracted_text.txt"
with open(output_txt_path, "w", encoding="utf-8") as txt_file:
    txt_file.write(extracted_text)

print(f"추출된 텍스트가 {output_txt_path} 파일로 저장되었습니다.")

extract_text_from_docx 함수를 사용하여 지정한 DOCX 파일에서 텍스트를 추출하고, 추출된 텍스트를 output_txt_path 지정한 경로에 있는 텍스트 파일로 저장합니다. with open 구문을 사용하여 파일을 열고, write 메서드를 사용하여 추출된 텍스트를 파일에 쓰고 저장합니다.

관련글 더보기