워드파일에서 텍스트만을 가져오는 파이썬 코드를 소개해드리고자 글을 작성했습니다. 코드를 우선 보시겠습니다.
from docx import Document
def extract_text_from_docx(docx_path):
# DOCX 파일 열기
document = Document(docx_path)
# 텍스트 추출
extracted_text = ""
for paragraph in document.paragraphs:
extracted_text += paragraph.text + "\n"
return extracted_text
# 추출할 DOCX 파일 경로 지정
docx_file_path = "example.docx"
# DOCX 파일로부터 텍스트 추출
extracted_text = extract_text_from_docx(docx_file_path)
# 추출된 텍스트 출력
print(extracted_text)
텍스트를 출력하는 것뿐만 아니라 다음과 같은 코드로 텍스트 파일로 저장도 가능합니다.
from docx import Document
def extract_text_from_docx(docx_path):
# DOCX 파일 열기
document = Document(docx_path)
# 텍스트 추출
extracted_text = ""
for paragraph in document.paragraphs:
extracted_text += paragraph.text + "\n"
return extracted_text
# 추출할 DOCX 파일 경로 지정
docx_file_path = "docx_file/docv_example.docx"
# DOCX 파일로부터 텍스트 추출
extracted_text = extract_text_from_docx(docx_file_path)
# 추출된 텍스트를 txt 파일로 저장
output_txt_path = "extracted_text.txt"
with open(output_txt_path, "w", encoding="utf-8") as txt_file:
txt_file.write(extracted_text)
print(f"추출된 텍스트가 {output_txt_path} 파일로 저장되었습니다.")
extract_text_from_docx 함수를 사용하여 지정한 DOCX 파일에서 텍스트를 추출하고, 추출된 텍스트를 output_txt_path로 지정한 경로에 있는 텍스트 파일로 저장합니다. with open 구문을 사용하여 파일을 열고, write 메서드를 사용하여 추출된 텍스트를 파일에 쓰고 저장합니다.
실전 머신러닝 개발: 자주 쓰였던 Feature Engineering 기법 5가지 (0) | 2025.04.20 |
---|---|
huggingface에 자신의 데이터셋 push하기 (0) | 2023.08.29 |
python 만으로 날짜 네이밍 폴더 자동화 하기 (0) | 2023.08.10 |
[Python] pdf파일 합치기 (0) | 2023.08.09 |
huggingface-cli 로그인 방법 (0) | 2023.08.02 |