The Concept of Stopwords in Persian Chemistry Articles:
A discussion in Automatic Indexing
Mohammad Reza Falahati Qadimi Fumani
C. S. Ramachandra
University of Mysore
Abstract
While having a close look at the concept of stopwords, the researchers examined 30 chemistry scientific articles published in high ranking Persian journals to find an answer to the following research questions: (1) Should all punctuation marks, numbers, and English letter combinations (letter-number and letter-punctuation-number combinations) be included in the stoplist and thus be eliminated as candidates for indexing? (2) Is it correct to change all upper case letters into lower case letters, i.e., to downcase letters? And (3) Could Persian be dealt with in automatic indexing without making reference to the characteristics of English? The manual analysis of the sample revealed that the omission of all punctuation marks, numbers, etc. will have a negative effect on recall, since punctuation marks, particularly ‘dot’ and ‘hyphen’ appear in the structure of content-bearing elements and even appear abundantly in titles and abstracts of scientific articles. With regard to downcasing, or unifying all upper and lower case letters, the conclusion was that it is much more restricted in Persian compared to English and that some possible places where it may cause problems are the structure of formulas, names of chemical substances, acronyms and proper nouns. Finally, it was found that because of the appearance of English letters, words, numbers, etc. in the body of Persian articles, some characteristics of the English language must also be considered while working on automatic indexing of Persian articles. The overall conclusion was that some sort of compromise is required in labeling numbers, punctuation, acronyms, etc. as either stopwords or content-bearing elements and thus as potential index candidates.
Key terms: computational linguistics, automatic indexing, stopword, stoplist, noise, chemistry articles, punctuation, number, Persian, Farsi, English
Abstracto
Teniendo en cuenta el concepto de las palabras conocidas como “stopwords”, unos investigadores examinaron 30 artículos científicos sobre química publicados en diarios persas competitivos para así poder encontrar una respuesta a las siguientes preguntas: (1) ¿Deberían ser incluidos todos los signos de puntuación, números y combinaciones de letras en inglés (letra con número y letra con signo de puntuación y número) en la “stoplist” y por ende ser eliminados de los índices? (2) ¿Es correcto cambiar todas las letras mayúsculas a minúsculas? Y (3) ¿El persa puede utilizarse en índices automáticos sin hacer referencias a las características del inglés? El manual de análisis de la muestra revela que la omisión de los signos de puntuación, números, etc. tendría un efecto negativo ya que los signos como el punto y el guión aparecen en la estructura de los elementos que incluyen contenido y hasta aparecen de manera abundante en títulos y abstractos en artículos científicos. Con relación a la minusculización de las letras o la unión de las letras mayúsculas y minúsculas, la conclusión fue que la variación es más estricta en el persa que en el inglés y que en algunos casos la estructura de las fórmulas, acrónimos, el uso de nombres propios y los nombres de las sustancias químicas puede resultar problemáticos. Finalmente, se encontró que por la apariencia de las letras en inglés, palabras y números, etc. en el desarrollo de artículos en persa, algunas características del inglés también deben ser consideradas al trabajar con el índice automático de los artículos en persa. La conclusión general fue que algún tipo de compromiso es requerido para categorizar los números, signos de puntuación, acrónimos, etc. como “stopwords” o elementos que contienen contenido y potenciales candidatos de índice.
Palabras clave :lingüística computacional, índice automático, “stopword”, “stoplist”, ruido, artículos de química, puntuación, número, perso, farsi, inglés.
Mohammad Reza Falahati Qadimi Fumani is a PhD Candidate at Department of Studies in Linguistics in University of Mysore, India, and a Faculty of RICeST's Computational Linguistics Research Department, Iran. His research interests are language processing, Computational Linguistics and its sub-disciplines.
Dr C. S. Ramachandra is a Reader in Linguistics at the Department of Studies in Linguistics in University of Mysore, India. His research interests are Linguistics and its sub-disciplines.