Gaois

Spléachadh ar Inneachar Chorpas na Gaeilge Comhaimseartha

Tá idir chur síos agus spaisteoireacht i gCorpas na Gaeilge Comhaimseartha (CGC) i gceist sa bhlagmhír seo ina dtugtar spléachadh ar inneachar an chorpais agus ar na bealaí gur féidir é a chuardach. Tá 33.5 milliún focal in CGC faoi láthair, agus fás ag teacht air i gcónaí de réir mar a chuirtear ábhar nua leis ó na foilseacháin agus na foilsitheoirí atá tar éis a saothar a roinnt linn go fial. Tá CGC á thiomsú ón mbliain 2015 i leith; ní miste súil a chaitheamh ar an gcéad bhlagphostáil mar gheall air anseo, tráth nach raibh ann ach 5 mhillún focal. Corpas téacs lom a bhí ann go dtí bliain ó shin, tráth ar thosaigh foireann taighde Gaois ar an ábhar a chlibeáil. Tá tuilleadh cur síos ar an gclibeáil sin thíos.

In 1964 d’fhoilsigh an Ríordánach a chnuasach filíochta, Brosna agus ina dhán ‘Múscail do Mhisneach’ dúirt:

“Saibhreas geallaim duit más iarla tú,
Gluaiseacht farraige agus stad na gcnoc.”

Rith an t-athfhriotal seo liom toisc go ngealltar saibhreas do na héinne a dhéanann cuardach ar an 33.5 milliún focal atá i CGC, áit a bhfuil nach mór 300,000 téacschomhartha uathúla. (Is ionann téacschomhartha agus foirm an fhocail, faoi mar a fheictear sa chorpas é, ach cuimsíonn an téarma neamhfhocail freisin.) Tá litríocht, nuacht, irisí acadúla, pop-irisí, agus colúin sa chorpas faoi láthair; áit a n-aimseofar gluaiseacht farraige sna focail nuachumtha, agus stad na gcnoc san oidhreacht shaibhir agus sa Ghaeilge thraidisiúnta a fuarthas ón nglúin seo thart.

gach focal clibeáilte lena roinn chainte, lena leama, agus le sonraí moirfeolaíochta an fhocail. Cumasaíonn an phróiseáil agus an chlibeáil seo an anailís theangeolaíoch agus teanga atá ar bun ag foireann taighde Gaois, agus tá sé riachtanach don taighde foclóireachta freisin. Ní féidir leis an bpobal tarraingt ar an gclibeáil seo sa chuardach go fóill toisc go bhfuil ríomhfhorbairtí eile le déanamh leis an gcorpas clibeáilte agus an suíomh a thabhairt in oiriúint dá chéile — obair nach beag. É seo ráite, má roghnaítear “Cuardach leathan” tuigfidh an cuardach méid áirithe leamaí. Is é sin le rá go dtuigfidh sé go mbaineann na téacscomharthaí “dhéanann”, “rinne”, agus “dhein” leis an leama “déan”.

Tá liostáil agus comhaireamh déanta ar na sonraí anseo le spléachadh a thabhairt daoibh ar inneachar an chorpais agus ar an gcineál taighde a d’fhéadfaí a dhéanamh leis amach anseo.

Is iad na focail is airde minicíochta sa chorpas ná na feidhmfhocail, faoi mar a bheifí ag súil leis. Is éard is feidhmfhocal ann ná focal atá ar bheagán brí nuair a léitear ina aonar é, nó atá débhríoch gan aon chomhthéacs, nó a úsáidtear le tuiseal focal a athrú, mar shampla. Tugtar na brífhocail ar na focail eile; is iad sin na briathra, ainmfhocail, aidiachtaí, agus dobhriathra. Is iad na deich bhfocal is airde minicíochta sa chorpas: an, a, ar, agus, na, go, i, ag, le, is. Bítear ag súil leis go mbeidh focail mar seo ag barr na gcairteanna i gcorpas teanga ar bith.

Is é ceann de na cúiseanna a bheifeá ag iarraidh clibeáil a dhéanamh ar chorpas ná le briathra agus le hainmfhocail a scagadh amach as do liosta minicíochta. Sa chás seo breathnófar ar théacscomharthaí. Is éard is téacscomhartha ann ná an t-aonad iomlán is lú atá sa chorpas, mar shampla: focal, uimhir, acrainm, poncaíocht, nó aon ní eile a scartar le dhá spás sa téacs. Is iad seo an 10 dtéacschomhartha is airde minicíochta don dá roinn chainte úd, briathra agus ainmfhocail:

BriatharAinmfhocal
BhíGaeilge
Duine
AtáChuid
BhfuilDaoine
RaibhTeanga
DúirtAm
BheithGaeltachta
DhéanamhBliain
mBeadhDeireadh
BeidhLucht

Tá úsáid á baint as an mbriathar “bí” go rí-mhinic sa chorpas, mar sin, rud a thugann le fios go mbítear ag iarraidh cur síos a dhéanamh ar scéal, eachtra, staid, nó riocht rud éigin níos minice ná eile. An chúis is dóchúla leis seo ná an oiread téacsanna sa chorpas a bailíodh ó na meáin. Ceann de phríomhrólanna na meán ná cur síos a dhéanamh ar scéal, eachtra, staid, nó riocht rud éigin - nó an pobal a choimeád ar an eolas.

Más é sin an chaoi a bhfuiltear ag plé cúrsaí, cad faoina bhfuilimid ag cur agus ag cúiteamh? Tugann an liosta ainmfhocal le fios gurb í an Ghaeilge agus a pobal na coincheapa a bhfuiltear á bplé - toisc go bhfuil na focail “Gaeilge”, “duine”, “daoine”, “teanga”, “Gaeltachta”, agus “lucht” chomh hard seo ar an liosta. Táimid uathúil éagsúil le corpais teangacha eile agus coincheapa dála “Gaeilge” agus “Gaeltacht” in úsáid againn níos minice ná cinn eile. Is sna meáin a bhí an plé seo den chuid is mó in CGC, seachas i saothair litríochta.

Bítear ag súil le focail a thagraíonn do choincheap an duine ag barr na gcairteanna in aon chorpas, leis seo d’áireoinn corpais teangacha eile freisin, mar sin ní aon ionadh go bhfuil “duine”, “daoine”, agus “lucht” sa liosta seo. Coincheap eile a mbítear ag tagairt dó go han-mhinic in aon chorpas ná coincheap an ama, mar sin, ní aon ionadh go bhfuil na focail “am” agus “bliain” sa liosta seo.

Féach an spléachadh seo de na téacscomharthaí is airde minicíochta a bhí rangaithe mar ainmfhocail san Oxford English Corpus (OEC) agus sa Corpus of Contemporary American English (COCA).

FocalRangú de réir minicíochta in OECRangú de réir minicíochta in COCA
One3551
Time5552
People6162
Year6354
Back81108
Two8480
Way9084
Day9890

Aithnítear nach ainmfhocail i gcónaí cuid acu seo, ach rangaigh na corpais úd mar ainmfhocail ar dtús iad nuair a bhí na céad focal is airde minicíochta á bhfoilsiú acu. Bíonn an deacracht chéanna againne sa Ghaeilge le leithéidí “dó”, “déanamh”, “is”, agus focail eile nach iad.

Cé gurb iad seo na focail is airde minicíochta, tá “i bhfad Éireann” (minicíocht: 229) níos mó saibhris ná seo sa chorpas ach do chuardach féin a dhéanamh. Ós rud é gur tuismitheoir mise bím an-tógtha le foinsí caiféine. Dúradh le fada go bhfuil na Gaeil “marbh le tae” (minicíocht: 6) agus marbh gan é, ach tá a fhios ag an saol gur móide na “siopaí caife” (minicíocht uatha: 6, iolra 4) in Éirinn anois ná “seomraí tae” (minicíocht uatha: 6, iolra: 1), go háirithe agus “caiféanna” na hÉireann (minicíocht uatha: 545, iolra 62) á n-áireamh againn.

An fíor, mar sin, go bhfuilimid “marbh le caifé agus marbh gan é” anois? Ní fíor go hiomlán, ach tá athrú ag teacht ar an saol. Tá minicíocht 2,061 ag an leama “tae” sa chorpas agus minicíocht 1,239 ag an leama “caife”. Tá trácht sa chorpas don rooibos agus don earl grey chomh maith le trácht don cappucino, capucino [sic.], latte, latté, agus do cheann nár bhlasas féin fós, an mochachinofappélattémericano.

Tá níos mó samplaí ná seo de ‘gluaiseacht farraige agus stad na gcnoc’ i gCorpas na Gaeilge Comhaimseartha ach iad a chuardach. Beidh foireann taighde Gaois ag leanúint d’anailís agus ionramháil an chorpais, agus súil againn go mbeidh pobal na Gaeilge freisin ag baint oiread úsáide as. Tá muid ag obair go crua ar an mbealach is fearr le liostaí minicíochta iomlána a roinnt leis an bpobal - bígí ag faire amach don nuashonrú sin!

Údar: Mícheál J Ó Meachair