지금 소개드리는 자료는 제가 2005.9.30.에 한국번역가협회 창립 기념식에서 강연했던 내용이고 협회가 간행하는 <번역가> 1월호에 개재될 예정입니다. 좀 딱딱한 문체로 되어있지만 잘 읽어보면 그런데로 재미가 있을 것입니다. 그럼 모두 새해 복 마~니덜 바드세요!!
영역, 영작을 위한 인터넷 검색엔진 활용법
유진승
서론
본 발표는 영작과 한à영 번역을 위해 검색엔진을 활용하는 방법을 체계화하고자 하는 연구의 일부이다. 웹 (인터넷)에는 책으로 수천만 권 분량의 영어 텍스트가 실려있고 이렇게 방대한 크기 때문에 구글, 야후, 등의 검색엔진은 현재 언어연구와 영작, 번역의 도구로 많이 사용되고 있다 (Kilgarriff and Grefenstettet 2003). 크기가 방대하다는 것은 내가 관심이 있는 표현이나 이와 매우 유사한 표현들이 웹상에 있을 가능성이 매우 높다는 것을 의미한다. 그래서 이 표현들을 찾아내어 효과적으로 사용할 수 있다면 영역, 영작을 위해 기존의 제한된 양의 사전, 등의 자료를 월등히 뛰어넘는 많은 도움을 받을 수 있는 것이다. 본 발표에서는 영역, 영작을 위한 검색엔진의 활용을 검색학습이라 하겠다.
그러나 아직 이 분야는 개척 단계이다. 우선 검색엔진 자체에 대해 언어학적으로 연구되어진 것이 없고 영작을 위한 검색엔진의 사용도 개인적인 노하우의 수준에 머물고 있다. 따라서 본 연구는 검색학습에 있어서 질의 (query)의 유형과 요령을 체계적으로 정리, 개발하여 그 효용성을 극대화하는 방안을 모색하고 있다. 그리고 웹 영어 자료의 질과 검색학습에서 중요하게 사용되는 검색엔진 빈도수의 신뢰도에 대한 접근을 시도하였다. 본 발표에서는 이 연구 내용을 표현의 발굴과 표현의 검증의 단계로 나누어 논의하고 자료 질과 빈도수의 문제도 간략히 소개한다. 논의되는 검색엔진은 구글과 야후이고 모든 예문들도 여기에서 검색되었다.
검색학습은 목표의미 (영어로 표현하고자 하는 의미나 번역하고자 하는 한국어)에 대한 영어 표현을 발굴하고 이것을 검색을 통해 확인, 검증하는 과정으로 이루어진다. 발굴은 쉽게 말해 목표의미를 표현할 만한 영어 단어나 구가 무엇이 있는지 찾아보는 것이다. 따라서 가장 흔한 발굴의 방식은 자신의 영어 지식을 사용하는 것이다. 어느 영어 표현이 적당하다고 떠오르지만 그 정확한 형태나 의미에 대해 자신이 없을 때가 많다. 이럴 때 이것을 검색을 통해 확인하는 검증의 단계로 가는 것이다.
한국어를 영어로 직역을 해볼 수도 있다. 이것은 한국어를 근거로 만들어낸 것이기 때문에 반드시 실제 사용이 되는 것인지 또 의미는 정확한지를 검증해야 한다. 예를 들면 다음과 같은 직역과 조합이 가능하다:
타고난 사업가: born businessman
제한된 정부: [limited/ restricted] government
정회원: [regular/ full] member
~만 하면, ~서라도: if only
또는 한영사전이나 Dic impact, ET-house, 등의 문장 검색서비스를 사용할 수도 있다. 그러나 이런 자료들은 그 양이 제한적이어서 찾는 표현이 나오지 않을 때가 많고 항상 오류의 가능성이 있으므로 역시 검증이 필요하다. 다음은 한영사전을 사용해 본 예들이다:
정확: 집들이 (housewarming party), 모체 (matrix)
오류: 무주택자 (homeless), 선의의 경쟁 (competition in good faith)
없음: 송년회, 징검다리, 오래간만에 ~하다, ~만 하면, ~서라도
또한 BBI, Oxford Phrase Builder, 등의 콜로케이션 사전을 사용할 수도 있다. collocation이란 단어들끼리 전형적으로 잘 어울려 쓰이는 관계를 말한다. 이 사전들은 예를 들어 어느 명사를 찾으면 그 명사와 잘 쓰이는 형용사, 동사, 등을 의미별로 정리해준다. difference를 찾으면 형용사 리스트에 big은 있지만 large는 없다. 그래서 예를 들어 It makes a big difference는 맞지만 It makes a large difference는 틀린다는 것을 말해주는 것이다.
“선의의 경쟁”의 한영사전 표현이 의심스러워 BBI를 통해 다른 표현의 발굴을 시도해 보았다. 이 말은 영어권에서도 흔하게 사용될 것이기 때문에 “선의”에 해당하는 단어가 competition과 잘 쓰이는 형용사로 나올 가능성이 충분하다. competition을 찾아 보니 열거된 형용사들 중에 healthy와 friendly가 있었다. 직역하면 “건전한 경쟁”, “우호적인 경쟁”, 즉 충분히 선의의 경쟁을 표현할 수 있는 표현들로 보인다. 이것을 다음 장에서 검증해 보도록 한다.
그 외에 한글과 영어의 혼합 검색도 매우 효과적이다. 웹에는 한영이 혼합된 문서가 많기 때문에 표현하고자 하는 한글 (목표의미)와 그에 해당하는 영어 중 아는 부분을 같이 검색하면 영어의 나머지 부분까지 찾아지는 경우가 있다. 아래는 혼합 검색의 예들이다. 각 항목마다 첫 줄 왼쪽에 목표의미가 제시되었다. 그 옆에 “+” 사인이 있는 단어들이 검색어 (검색을 위해 검색엔진에 입력된 내용)이고 그 아래는 발췌된 구글의 검색예문 (검색결과로 나오는 텍스트)이다.
(1) 송년회 : +송년회 +party à year-end party
[공지] 에어인 송년회(a year-end party for AA Pilots).
(2) 직불카드 : +직불카드 +card à debit card
직불카드 (Debit Card). 직불카드는 물건(또는 용역)을 구입할 때 곧바로 그 사용대금 이 자신의 은행 결제계좌에서 판매자에게 자동 이체되는 카드를 말합니다. ... (국민은행)
미터원기 : +미터원기 +meter à prototype meter
미터원기<prototype meter>. ... 길이의 기본단위로서 1 m를 정의하는 기준으로 만들어진 자[尺].
금속연마 : +금속연마 +metal à metal polishing
금속연마 조성물 (METAL POLISHING COMPOSITION)
징검다리 : +징검다리 +bridge à stepping-stone bridge
징검다리 (A Stepping-stones Bridge). ... 예수님의 징검다리의 역할은 무엇입니까?
예를 들어 설명하면 (1)에서 “송년”을 영어로 어떻게 할지는 확실치 않으나 “회”는 모여서 즐기는 것이니 party라고 해야 할 것으로 보인다. 따라서 “송년회”와 party를 같이 넣어 검색하면 두 단어가 모두 들어간 문서들이 올라오고 그 중 위와 같이 송년회의 영어표현인 year-end party가 있는 문서들을 찾을 수 있다. 이렇게 찾아지는 표현들은 (2)와 같이 출처가 그 분야의 전문성을 가진 문서일 경우 검증 없이 사용할 수 있을 것이다.
발굴한 표현은 그것이 실제 쓰이는 것인지, 목표의미에 맞는 것인지에 대한 검증이 필요하다. 단일질의는 질의구 (검증하고자 하는 단어, 문구, 표현)가 하나일 경우 그 의미가 목표의미에 맞는지를 확인하는 것이고 복수질의는 질의구가 둘 이상 있어서 그 중 목표의미에 맞는 것을 택해야 하는 경우이다. 참고로 구 단위 검색을 할 때는 전체 구를 따옴표로 묶어주는 것이 필수적이다. 따옴표가 없으면 단어들이 흩어져 있는 문서들, 즉 불필요한 잡음들도 쏟아져 나오기 때문이다.
단수질의에서는 간혹 질의구에 대한 사전의 설명이 바로 뜨기도 한다:
“case in point”: It’s case in point, whose modern meaning is of some instance or example that illustrates what is being discussed. / A relevant example or illustration of something, as in “A case in point was the collision of a cyclist ...” (dictionary.com)
그러나 이런 직접적인 설명은 흔하지 않고 대부분의 경우 검색예문에서 질의구의 의미를 유추해야 한다. 전장에서 발굴한 born businessman을 검색해보자. 아래는 검색의 목적과 관계 없는 잡음 (ex: Nigerian-born businessman)을 없애기 위해 앞에 a를 넣어주었다. 예문은 born businessman의 날카로운 감각으로 그가 부동산 가치의 상승을 예견했다는 말이므로 born businessman이 목표의미인 “타고난 사업가”를 뜻한다는 것을 알 수 있다:
타고난 사업가 : born businessman (?) à “a born businessman”
With the sharp sense of a born businessman he perceived the rapid growth of the city and the staggering rise in property values...
그러나 이렇게 구만 단독으로 검색해서는 적절한 예문을 찾기가 어려운 경우가 많다. 의미확인에 도움이 안 되는 예문들과 불필요한 잡음들이 수 없이 올라오기 때문이다. 따라서 많은 경우 적절한 예문들을 최대한 쉽게 찾아내기 위해 적절한 공출어나 인접어를 질의구와 같이 검색해야 한다.
공출어와 인접어는 목표의미를 가진 구와 같이 잘 쓰이는 구나 단어들, 일종의 collocation이라 할 수 있다. 공출어는 구의 근처에 같이 나오는 것이고 인접어는 구의 앞이나 뒤에 붙어 나오는 것이다. 예를 들어 “집들이”는 새 집에 들어가는 것을 축하하는 것이므로 집들이를 의미하는 구는 new house라는 말과 같이 언급될 가능성이 아주 높다. 따라서 new house를 공출어로 사용할 수 있다. (이하 공출/인접어를 합해 공인어라고 한다)
웹의 방대한 크기가 의미하는 것은 현재 사회에서 잘 사용되는 표현이나 문장이라면 거의 다 웹에 들어있다는 것이다. 목표의미를 가진 구와 그것의 공인어는 같이 잘 사용되는 표현이기 때문에 이것들이 같이 나온 예문이나 문서들은 웹에 존재할 것이다. 따라서 공인어를 올바로 설정했고 질의구를 공인어와 같이 검색했을 때 예문이 나오지 않는다면 (빈도수 제로) 이것은 이 구가 목표의미를 가지지 않기 때문이라고 봐야 한다. 이렇게 해서 검색예문을 거치지 않고도 부적절한 검색어를 일부 퇴출시킬 수 있다.
그러나 예문들이 검색되어 나온다고 해도 바로 질의구가 목표의미를 가진다고 결론을 내릴 수는 없다. 사용된 공인어와 같이 잘 쓰이는 것이 목표의미를 가진 구 하나만이 아닐 가능성도 항상 존재하기 때문이다. 따라서 적어도 몇 개의 예문을 검토하여 질의구가 목표의미를 가졌는지, 다른 의미를 가질 가능성은 없는지를 살펴야 한다. 공인어를 사용하더라도 어느 정도의 잡음은 불가피하기 때문에 유용한 예문을 찾기 위해서는 검색결과를 잘 살펴야 한다.
그러므로 공인어는 같이 쓰인 구가 목표의미 이외의 의미를 가질 가능성이 낮을수록 변별력이 크고 변별력이 클수록 좋은 공인어가 된다. 예를 들어 had는 “집들이”를 의미하는 구와 매우 잘 쓰일 것이다. 영어에서 had a ~ party라는 말을 많이 하기 때문이다. 그러나 had는 집들이 외에 다른 파티를 의미하는 어휘들과도 잘 쓰인다. 따라서 had와 같이 쓰였다고 해서 그 구가 집들이를 의미한다고 판단할 수 없다. 즉 had는 변별력이 없으므로 공인어로 별로 유용하지 않다.
공인어를 찾는 가장 손쉬운 방법은 영작하고자 하는 문장 자체에서 찾는 것이다. 즉 검색학습은 대개 영작의 과정에서 사용되는 어휘를 확인하기 위해 이루어지므로 영작하는 문장 중에 그 어휘 (검색어)의 공인어로 쓰일 만한 것이 있는지 찾아보는 것이다.
다음은 공인 검색의 예들이다. 목표의미 옆의 구는 질의구이고 그 옆 화살표는 공인어를 포함하는 검색어를 가리킨다. 각 항목마다 제시된 검색예문이 질의구가 목표의미를 가지고 있음을 명확히 보여준다. “~만 하면”에 해당하는 if only의 경우 좀더 확실히 의미를 확인하기 위해 I want와 will do it 두 개의 인접어로 검색하였다.
집들이 : housewarming party (?) à +“housewarming party” +“new house” (공출어)
Celebration at the New House JOIN US TO CELEBRATE OUR NEW PLACE! JOHN AND MARIA'S HOUSEWARMING PARTY SATURDAY, AUGUST 9TH
공동성명 : joint statement (?) à +“joint statement” +summit (공출어)
송년회 : year-end party (?) à +December +“year-end party” (공출어)
On
~만 하면 : if only (?) à “if only I want” (인접어)
Now I'm actually telling myself I can do it if only I want to. (원하기 만하면 할 수 있다)
~만 하면 : if only (?) à “will do it if only” (인접어)
A well-trained doctor instinctively knows the right thing to do and will do it if only given the necessary freedom and resources. (자유와 자원이 주어지기 만하면 그것을 할 것이다)
~서라도 : if only (?) à “if only for the baby” (인접어)
She said she will give it her best—if only for the baby ... (아기를 위해서라도)
물론 예문을 통한 유추는 질의구의 의미를 완벽하게 보장하기는 어렵다. 최적의 인공어로 면밀히 확인한다 하더라도 질의구의 의미가 사실은 미처 생각지 못한 다른 의미일 가능성은 항상 존재한다. 이것은 검색학습의 한계이다. 그러나 검색학습이 적어도 기존 자료들의 한계를 뛰어넘어 많은 표현들에 대한 중요한 의미의 단서를 제공한다는 점에서 특유의 유용성을 가지고 있다고 하겠다.
복수질의에서는 중요한 것이 질의구의 빈도수이다. 복수의 질의구들이 서로 다른 의미이면 목표의미를 가진 것을 택하지만 같은 의미를 가진 것이 확인되면 그 중 빈도수가 높은 것을 선택하기 때문이다.
빈도수가 의미하는 것은 무엇인가? 언어에서 표현의 옳고 그름은 절대적으로 정해져 있는 것이 아니라 사용 빈도가 높은 것이 결국 바른 표현이 된다. 예를 들어 It’s me는 원래 me의 자리에는 목적격이 쓰일 수 없기 때문에 문법적으로 틀린다. 그러나 원어민들은 It’s me를 틀렸다고 하지 않고 오히려 문법적으로 맞는 It’s I 보다 더 자연스럽게 느끼고 자주 쓴다. Who do you trust? 같은 문장도 원래는 whom이 되어야 하지만 틀렸다고 하지 않는다. 결국 문법적으로 틀리다 하더라도 자주 쓰이다 보면 문법적으로 맞게 되는 것이다. 문법은 언어를 따라가는 것이지 언어를 만드는 것이 아니다.
또 한가지 빈도수가 중요한 것은 웹에 있는 표준/비표준 영어의 비율 때문이다. 웹에는 누구나 글을 올릴 수 있기 때문에 잘못된 비표준 영어도 많다. 그러나 아래 IV.장에 소개된 자료에 의하면 표준 영어의 비율이 비표준 영어보다 월등히 높다. 따라서 이런 요인들을 볼 때 같은 의미를 가지는 표현들이 있을 때 빈도수가 가장 높은 것을 택하면 그것이 바로 올바른 표현인 것이다.
그러면 간단한 예로 “한 귀로 듣고 한 귀로 흘리다”가 go in one ear and out the other인지 아니면 “~으로”는 through이니 through를 붙여서 go in through one ear and out through the other인지를 확인해보자:
한 귀로 듣고 한 귀로 흘리다 : “go in [through] one ear and out [through] the other”
1. go in one ear ... 43,200
... “self-improvement” tapes are ineffective: they go “in-one-ear-and-out- the-other” and are soon forgotten. (테이프가 한 귀로 들어가서 한 귀로 나오고 금방 잊혀진다)
... if it does not apply to you then let it go in one ear and out the other. (한 귀로 들어가서 한 귀로 나오게 하세요)
2. go in through one ear ... 15
... told her again and again that I don't want more children, but the words go in through one ear and out through the other. (말이 한 귀로 들어가서 한 귀로 나온다)
예문들을 보면 두 질의구가 목표의미를 충실히 표현하고 있다. 문맥도 우리가 보통 이 속담을 사용하는 상황 그대로이다. 따라서 두 질의구는 같이 목표의미를 가진다고 볼 수 있다. 그러나 1번의 빈도수가 월등히 높기 때문에 through가 없는 1번을 선택한다.
그러나 복수질의에서도 단수질의와 마찬가지로 질의구만 가지고는 의미 확인이 어려운 경우가 많다. 따라서 역시 공인어의 사용이 필요하다. 예를 들어 신문에 나는 구인광고가 help wanted ad인지 help wanted sign인지를 알고 싶다고 하자. 이 구들만 검색하면 잡다한 예문들이 너무 많이 나와 문제에 대한 답을 찾기가 어렵다. 신문의 구인광고와 같이 잘 쓰이는, 가장 적절한 공인어는 당연히 newspaper일 것이다. 따라서 다음과 같이 검색을 해 보니 요행으로 아래와 같이 분명한 답이 나왔다:
(신문의) 구인광고 : help wanted [ad / sign] à + help wanted sign +newspaper (공출어)
When seeking employees, people often post a Help Wanted sign in your window, or place an ad in the local newspaper (com)
다음은 공인어와 빈도수 만으로 해결이 되는 경우이다. judge와 referee는 모두 우리말로 “심판”으로 번역되는데 체조경기의 심판은 둘 중 어느 것인지가 궁금하다고 하자. 그냥 judge나 referee만 검색하면 무수히 올라오는 각양 각색의 검색예문들을 가지고 이 문제를 해결하기는 불가능하기 때문에 공인어를 사용해야 한다.
“체조심판”이라는 말을 영어에서도 많이 할 것이라는 데 착안하면 간단히 인접어를 찾을 수 있다. 즉 gymnastics를 인접어로 해서 “gymnastics judge”와 “gymnastics referee”를 검색해 보는 것이다. 이 중 체조심판을 의미하는 구는 높은 빈도수를 보일 것이다. 그 검색 결과는 아래와 같다. 검색어에는 잡음을 줄이기 위해 앞에 a를 넣어 주었다. gymnastics judge는 439회의 빈도수를 보이는 반면 gymnastics referee는 제로이다. 따라서 referee는 체조의 심판을 의미하지 않고 그것은 judge라는 결론을 내릴 수 있는 것이다.
(체조) 심판 : judge / referee à “a gymnastics [judge / referee]” (인접어)
1. a gymnastics judge : 439
2. a gymnastics referee : 0
다음은 축구의 심판은 무엇이라고 하는 지를 같은 방식으로 검색해 보았다. 이번에는 soccer judge가 제로에 가까운 빈도수를 보이고 soccer referee와 큰 차이가 나므로 퇴출시키고 referee를 선택한다:
(축구) 심판 : judge / referee à “a soccer [judge / referee]” (인접어)
1. a soccer judge : 5
2. a soccer referee : 25,100
다음은 앞에서 발굴했던 “정회원”의 영어 표현을 검증해보자. 이것도 그냥 full member나 regular member만 검색한 결과로는 전혀 답을 찾을 수 없다. 따라서 공인어를 찾아보면 우리가 “정회원과 준회원”이라는 말을 많이 하는데 영어권에서도 마찬가지일 것이다. 따라서 준회원은 associate member이니 이것을 인접어로 해서 “full members and associate members”와 “regular members and associate members”를 검색해본다.
정회원: [regular/full] member à “[regular/full] members and associate members” (인접어)
1. full members and associate members 695
The EULER Consortium consists of full members and associate members.
2. regular members and associate members 245
There shall be two classes of membership in the Association: Regular Members and Associate Members.
이번에는 두 검색어가 어느 정도의 필적할 만한 빈도수를 보인다. 같은 공인어로 검색된 구들이라 하더라도 서로 의미가 다를 수도 있기 때문에 예문을 잘 보고 의미를 확인하는 것이 중요하다. 예문들을 읽어보면 full member와 regular member가 다 정회원을 의미한다는 것을 알 수 있다. 따라서 이 경우는 일반적으로 빈도수가 높은 full member를 선택하되 regular member가 틀린 표현이라고 할 수는 없다. 상황에 따라 정회원이라도 가득 찬 면을 강조하려면 full member를, 정규적인 면을 강조하려면 regular member를 사용할 수도 있다.
끝으로 “선의의 경쟁”의 영어 표현을 검증해본다. 마땅한 공인어가 생각나지 않으면 한글을 검색해보는 것도 좋은 방법이다. 구글에 “선의의 경쟁”을 검색했더니 (05/11/29) 선의의 경쟁을 “유도”한다는 말이 많이 나왔다.
- 도시별 비교평가는 지방자치단체간의 선의의 경쟁을 유도하여 대중교통정책의 지속적인 투자를 하게 되는 계기가 된다.
- 국가고객만족지수 조사는 공정한 평가를 통해 기업 간의 벤치마킹을 할 수 있는 정보를 제공함으로써 선의의 경쟁을 유도하여 산업과 국가 전체의 경쟁력을 높이는 데...
유도하는 것은 좋은 것이 더 많이 생기게 권장한다는 것이므로 “선의의 경쟁”과 잘 어울리고 영어에서도 이런 말을 많이 할 것이다. “유도하다”는 encourage혹은 induce이므로 이것들을 인접어로 하여 검색을 해본다 (야후 05/11/29):
선의의 경쟁 : [healthy / friendly] competition, competition in good faith à “encourage ~”
1. encourage healthy competition 877
initiative ... would encourage healthy competition among brokerage houses to write quality research...
2. encourage friendly competition 829
a chart showing each classroom's progress to encourage friendly competition to contribute the most to Catholic Charities ...
3. encourage competition in good faith 0
선의의 경쟁 : [healthy / friendly] competition, competition in good faith à “induce ~”
1. induce healthy competition 15
Intentional diversity will increase pressure to meet open standards across all products and will induce healthy competition and serve to lower prices.
2. induce friendly competition 5
Another way to modify this lesson plan is for the teacher to induce friendly competition ...
3. induce competition in good faith 0
1, 2는 매우 대등한 빈도수를 보이는 반면 3은 제로이다. 따라서 한영사전에서 제시한 이 표현은 틀린 것임을 알 수 있다. 예문들을 볼 때 1, 2는 목표의미 “선의의 경쟁”을 충실히 표현하고 있다. 따라서 이 두 표현들은 다 사용 가능하다. 그 단어들의 의미를 살려서 경쟁의 건전성을 강조할 때는 healthy competition을, 친화성을 강조할 때는 friendly competition을 써 줄 수도 있다.
웹에는 누구나 글을 올릴 수 있기 때문에 비표준 영어도 많이 실려있다. 그렇다면 웹의 영어 자료를 얼마나 신뢰할 수 있는가? 이 문제에 답을 하려면 비표준 영어가 웹 영어의 얼마만한 부분을 차지하느냐 하는 것을 알아야 한다. 웹에 있는 자료의 양을 직접 세는 것은 불가능하지만 다음과 같은 간단한 테스트를 통해 대략적인 윤곽은 잡을 수 있다.
아래 표는 2005년 국제 인지언어학회에서 발표한 웹 영어 자료의 질에 대한 테스트이다 (Eu 2005a). 표의 각 구들은 표준형과 문법적 오류인 비표준형을 포함하고 있다. 예를 들어 what does he like는 표준형이고 what do he like는 비표준형이다. 괄호 안의 0은 단어가 없음을 의미한다. 그 옆의 칼럼들은 각 구의 비표준형과 표준형의 검색 빈도수와 상호 백분율을 검색엔진 별로 보여준다. 비율이 낮을수록 비표준형의 비율이 낮으므로 자료의 순도가 높다는 의미가 된다.
웹의 비표준 영어 비율
Grammar phrases |
Google |
Yahoo | ||||
what [do / does] he like |
7 |
6130 |
0.114 |
10 |
4290 |
0.233 |
that the earth [rotate / rotates] |
27 |
8700 |
0.310 |
10 |
6920 |
0.145 |
he will [comes / come] back |
22 |
54600 |
0.040 |
7 |
101000 |
0.007 |
should have [try / tried] it |
11 |
3990 |
0.276 |
4 |
1910 |
0.209 |
I used to [called / call] |
209 |
64200 |
0.326 |
114 |
117000 |
0.097 |
where [are / do] you go to school |
3 |
8820 |
0.034 |
2 |
20600 |
0.010 |
something had to [0 / be] done |
128 |
124000 |
0.103 |
67 |
170000 |
0.039 |
I would [be appreciate / appreciate] if |
482 |
129000 |
0.374 |
96 |
127000 |
0.076 |
Average |
1.577/8 = 0.197 |
0.816/8 = 0.102 |
대체로 비표준 영어 비율이 매우 낮다는 것을 볼 수 있다. 특히 야후의 경우 평균 비율 0.102는 표준형이 1000번 나올 때 비표준형이 한번 나온다는 것을 의미한다. 물론 이것으로 일반적으로 야후에는 표준 영어가 비표준 영어의 천 배라는 결론을 내릴 수는 없다. 비표준형이 테스트에 사용된 외에도 여러 가지가 있을 수 있기 때문이다. 그러나 언어 연구를 위해 표준 영어의 순도를 특별히 배려하여 제작된 Bank of English 코퍼스에 같은 테스트를 적용해 본 결과 평균 비율이 0.382가 나왔다. 오히려 웹의 영어가 코퍼스보다 오히려 순도가 높다는 것을 의미하므로 웹 자료의 질은 상당히 신뢰할 만하다는 결론이 나온다.
그러나 또 한가지 문제는 검색엔진 빈도수의 오류이다. 검색엔진은 빈도수를 산출할 때 문서들을 일일이 세지 않고 복잡한 알고리듬을 통하여 대략적인 추정을 한다. 검색엔진들은 빈도수의 정확도를 중요시하지 않는데 그것은 일반적인 정보 검색에는 빈도수는 별 상관이 없기 때문이다. 심지어는 엔진의 자료 량을 과시하기 위해 빈도수 부풀리기 경쟁을 하기도 한다. 그러나 검색학습에서는 빈도수가 매우 중요하기 때문에 이렇게 상업적으로 맞추어진 검색엔진을 사용하는 것이 문제가 되는 것이다.
Eu (2005b)에서는 구글과 야후의 빈도수 오류에 대한 테스트를 하였다. 그 결과 같은 구를 일주일 내에 재 검색했을 때 두 빈도수의 차이가 최고 90%까지 달하는 일관성의 오류들이 다수 발견되었으나 평균적으로는 일관성이 변화율 10% 내외로 유지되었다. 한편, 구글은 연관된 구들의 빈도수가 상호 모순을 보이는 상대적 오류들도 보였다.
변화율 10%는 그리 의미 있는 변화가 아니므로 검색학습에 지장을 초래하지 않는다. 그리고 야후는 상대적 오류를 보이지 않는다. 따라서 검색엔진을 사용하는 데 있어서 주로 야후를 사용한다면 일반적으로는 안정적인 성능을 기대할 수 있겠지만 간혹 뜻밖의 결과가 나올 경우가 있다는 것도 염두에 두어야 한다. 그럴 때는 검색이 잘못된 것이 아니라 엔진 자체에 문제가 있을 수 있다는 것을 이해하고 시간을 두고 재 검색을 한다던지 다른 엔진을 사용해 본다던지 하는 것이 가능한 해결책이 될 것이다.
본 발표에서는 인터넷을 통한 검색학습에서의 질의와 해결 방안들을 여러 가지 유형으로 소개하였다. 검색학습은 반복적인 훈련을 통해 그 기법이 늘어가고 그렇게 되면 점점 더 많은 내용들을 인터넷에서 찾아낼 수 있게 될 것이다. 인터넷을 마치 영어 개인교사와 같이 활용할 수 있게 되는 것이다. 더욱이 현재 소개된 것은 단순한 구의 검색이지만 인터넷의 가능성은 무궁무진하다. 이보다 더욱 다양하고 고차원적으로 영작, 영역의 문제를 해결할 수 있는 방법들이 얼마든지 연구되어질 수 있다. 이러한 인터넷의 혜택을 많은 학습자와 번역가들이 공유할 수 있기를 기원한다.
위에서 논의한 내용에 따르면 현재로서는 야후가 구글보다 검색학습용으로 더 적합하다고 할 수 있다. 그러나 검색엔진 측에서 비용만 정당화된다면 엔진을 검색학습에 맞게 얼마든지 변화시켜줄 수 있다. 앞으로 검색엔진의 사용이 많은 학습자들에 의해 활성화된다면 이러한 변화도 있으리라 하는 것을 기대해 본다.
끝으로 앞으로 진행될 연구, 개발과 검색학습 프로그램에 학습자, 번역가 분들의 많은 참여를 부탁 드린다. 영작과 번역 현장에서 벌어지는 학습의 실례들은 연구 개발에 귀중한 자료로 쓰이고 있고 또한 학습 프로그램은 자신의 학습 능력을 향상시키는 좋은 기회가 될 것이다. 그리고 아직도 방법론 자체에도 미숙한 부분이 많으므로 많은 조언과 충고를 부탁 드린다. 이러한 작업을 진행하는 장으로 본인이 운영하고 있는 영작 전문 카페 영작사랑을 소개해 드린다: cafe.daum.net/lovewriting
'번역의 세계 > 번역노하우' 카테고리의 다른 글
코퍼스Corpus (0) | 2009.04.08 |
---|---|
'수' 써야 하나 말아야 하나 (0) | 2009.04.08 |
'것' 써야 하나, 말아야 하나 (0) | 2009.04.08 |
안정효 선생님 추천도서 (0) | 2009.04.08 |