PDF 파일에서 텍스트를 복사하면 쭉 이어진 문장으로 복사되는 게 아니라 줄바꿈이 보이는 그대로 적용되어 3줄이 3문단이 되는 불상사가 발생한다.
인터넷에서 정보를 찾아본 적이 있는 사람이라면 누구나 겪어봤을 법한 이 짜증나는 현상은 일단 원본 파일을 가지고 있지 않은 이상 근본적인 해결은 불가능하다. 이미 기존의 텍스트박스가 변환된 상태이기 때문이다. 다만 꼼수를 이용해 보다 편리하게 줄바꿈을 없애는 방법이 네 가지 있다.
방법1. 인터넷 브라우저에서 열기
pdf를 인터넷 브라우저에서 열고 복사하게 되면 대부분의 경우 줄바꿈이 사라진 채로 복사된다. 이게 가장 편리한 방법. 나는 사파리 창을 열어놓고 파일을 사파리 창에다가 드래그해서 연다.
방법2. 개행제거 사이트 이용하기
방법3. 찾아바꾸기
이 방법은 대부분의 사람들이 사용하고 있을 것 같다. MS Word나 한글과컴퓨터, 서브라임 텍스트(Sublime text) 등, 이미 사용하고 있는 텍스트 에디터에서 찾아바꾸기로 줄바꿈을 찾아서 전부 없애버리는 방법이다.
나 같은 경우는 아래와 같이 서브라임 텍스트에서 Cmd/Ctrl + Alt/Opt + F
를 눌러 찾아바꾸기를 연 뒤 줄바꿈을 드래그해 복사한 것을 Find에 넣고 스페이스바로 바꾸곤 했다. 물론 이 경우 여러 개의 문단이 전부 한 문단으로 합쳐지기 때문에 각 문단별로 따로 작업하거나 아니면 문단 사이에 특수문자를 넣어 놓고 모든 줄바꿈을 없앤 다음 나중에 그 특수문자를 찾아바꾸기로 다시 줄바꿈으로 대체해야 한다.
댓글에서 다른 분이 알려주셨는데, Sublime text에서 복사한 Text를 전체선택하고 Ctrl+J누르면 한줄로 붙여진다고 한다. (최신버젼의 Sublime text에서는 단축키가 Ctrl+Shift+J)
방법4. Adobe Acrobat Pro PDF 편집 기능 활용하기 (유료)
많은 사람들이 pdf 파일을 열기 위해 어도비 아크로뱃(Adobe Acrobat)을 이용하고 있을 것이다. 이 중 Adobe CC나 Adobe Acrobat Pro를 구독하고 있는 유료 유저라면 간단하게 줄바꿈을 없애고 텍스트 복사가 가능하다.
우측 메뉴바에서 'PDF 편집'을 클릭한다.
그러면 약간의 로딩 후 아래와 같이 요소들이 분리 가능하게 바뀐다. 텍스트박스가 생겨난 것도 확인할 수 있다.
이 상태에서 텍스트를 드래그해 복사한다.
그 다음 워드에 붙여넣으면 아까와 달리 줄바꿈이 없어진 채로 붙여넣기된다.
문제는 PDF 파일이 '양쪽 맞춤'일 경우 원본 파일이 PDF로 변환되는 과정에서 줄 끝에 있는 띄어쓰기가 제거되었기 때문에 줄바꿈 구역의 띄어쓰기가 자동으로 생겨나지는 않는다는 것인데, 워드/한글에서 빨간 줄이 그어진 부분들에 스페이스바를 쳐주거나 맞춤법 검사기에 넣으면 간단히 해결되는 문제이니 걱정할 것 없다. 또한 양쪽 맞춤이 아니라 왼쪽 맞춤이라면 정상적으로 스페이스바도 전부 적용된다.
이 방법은 띄어쓰기 줄바꿈을 무시하기 때문에, 단어 기준으로 끊어진 PDF 파일에서보다 글자 기준으로 끊어진 PDF 파일에서 더 유리한 방법이다. 다시 말해 내가 위에서 예시로 든 외교부 외교간행물처럼 단어 단위로 줄바꿈 처리된 파일보다는 아래에 캡처한 논문처럼 단어가 제멋대로 끊겨 있는 파일에서 활용하기에 좋은 방법.
방법5. 텍스트 에디터 활용하기
다음은 서브라임 텍스트나 아톰 등의 코딩 목적 텍스트 에디터로 해결하는 방법이다. 이런 텍스트 에디터들은 커서를 한 번에 여러 개 찍을 수 있어 매우 편리하다. 서브라임 텍스트의 경우 Cmd/Ctrl
을 누른 상태로 커서를 클릭하면 여러 개의 커서가 생겨난다. 이 상태에서 delete와 스페이스바를 누르면 간단히 해결.
서브라임 텍스트는 아래 링크에서 무료로 다운받을 수 있다.