Revista Ciencias Holguín

Ciencias Holguín / Revista trimestral / Volumen 21, abril-junio 2015

Posicionamiento en Google Académico y en la WEB de la Revista Ciencias Holguín /Positioning in Google Scholar and on the website of the journal Science Holguin

Jorge González-Alonso(1), Jhony Fabián-Pazmiño(2), Yudeisy Pérez-González(3)

Contactos de los Autores

Correo:jgonzalonso@gmail.com(1), globalservicelge@gmail.com(2), yudeisy200731@gmail.com(3)

Instituciones: RML Consultores(1), Universidad Central del Ecuador(2), Universidad Central del Ecuador(3)

País: Ecuador, Cuba


RESUMEN
Se caracterizó la presencia en Google Scholar y  en la Web de 635 artículos de la Revista Ciencias Holguín publicados entre 1995 y el 2015. La revista ha mantenido un promedio de 4.85 citas por año y de 0.15 citas por artículo. Se realizó el  agrupamiento por clústeres con el algoritmo de DB-Scan lo que permitió caracterizar cuatro grupos en función del número de citas. En uno de los clúster  se agruparon 577 artículos (91% del total analizado) que no han sido referenciados en otras publicaciones. La distribución por años indicó que 2010 y 2011 fueron los años que recibieron el mayor número de citas. Se realizó la minería de textos empleando Rapidminer lo que permitió generar a partir de los títulos de los artículos los términos, con significado léxico, con sus frecuencias y distribución por años. Las nubes de palabras generadas tanto para toda la colección como para el año que más citas recibió (2010) evidencian que en los títulos de los artículos predominan  términos que reflejan contenidos locales (empleo preponderante del término Holguín). Los resultados obtenidos apuntan en la dirección de que la presencia de contenidos locales lejos de disminuir el atractivo científico de la revista lo eleva, y que puede resultar apropiado una reformulación de la Meta descripción del Sitio y de las Meta palabras de la revista basándose en los resultados de la minería de textos realizada con los títulos de los artículos.

PALABRAS CLAVES: GOOGLE ACADÉMICO; MINERÍA DE TEXTOS; RAPIDMINER; ANÁLISIS DE CLÚSTER; ANÁLISIS BIBLIOMÉTRICO.

ABSTRACT
 It was characterized the presence of Google Scholar and on the Web of 635 articles in the journal Science Holguin published between 1995 and 2015. The magazine has maintained an average of 4.85 citations per year and 0.15 citations per article. The grouping was done by clustering algorithm DB-Scan allowing characterize four groups depending on the number of citations. One of the cluster 577 items (91% of total analyzed) that have not been referenced in other publications were pooled. The yearly distribution indicated that 2010 and 2011 were the years who received the highest number of citations. Text mining using RapidMiner allowed to generate terms from the titles of the articles, with lexical meaning, with their frequencies and yearly distribution was made. Clouds of words generated for both the entire collection to the year received more citations (2010) show that in the titles of articles that reflect predominantly local content terms (predominant use of the term Holguin). The results show that the presence of local content far from diminishing the scientific attractiveness of the journal, it raises it instead, and that may be appropriate to a reformulation of the Site Meta description and Meta words of the journal based on results of text mining conducted with the titles of the articles.

KEY WORDS: GOOGLE SCHOLAR; TEXT MINING; RAPIDMINER; CLUSTER ANALYSIS; BIBLIOMETRIC ANALYSIS

INTRODUCCIÓN
Las revistas científicas enfrentan actualmente dos retos importantes; por un lado mantener una calidad en los artículos publicados de forma tal que ello se refleje en su nivel de impacto (Velasco, Bouza, Pinilla, & San Román, 2012). En términos generales se puede señalar que determinados indicadores bibliométricos, como: el índice h (Redner, 2010) o el índice g (Egghe, 2006) reflejan el número de referencias de un artículo y de la revista en su conjunto, en otras publicaciones y se convierten en una medida de si la misma se utiliza o no como una fuente establecida en el mundo científico. Por el otro se encuentra el reto, de Internet, que determina la posibilidad real de que  una publicación sea  visible para un universo cada  día más amplio de lectores. En este sentido el paso de la revista científica impresa a la revista digital conduce a que tengamos que considerar desde un nuevo punto de vista la presencia de una revista digital en Internet y más allá en un nuevo ecosistema de redes sociales (Bar-Ilan et al., 2012).
Dentro de esta problemática el desarrollo de Google Académico ha creado un nuevo espacio para medir la visibilidad y el perfil bibliométrico de los investigadores y de las publicaciones (Cabezas-Clavijo & Torres-Salinas, 2012). El empleo del Google Académico (Alonso & González, 2014) y de otras herramientas asociadas (Harzing, 2015) ha demostrado cómo puede precisarse el denominado “estado del arte“ en el proceso de preparación de artículos científicos. Más allá, los resultados alcanzados han demostrado que el Google Académico puede emplearse incluso para determinar la vigencia de autores clásicos como José Martí, en base al número de citas que sigue recibiendo anualmente su obra (Alonso & González, 2015).
Esta contribución se inscribe en la problemática planteada a partir del análisis de la presencia en Google Académico de la Revista científica “Ciencias Holguín”. Esta revista fue seleccionada en base a su presencia desde 1995 y su carácter de especialización en las Ciencias Técnicas, lo que permitió a la vez poder comprobar la efectividad de herramientas de minería de textos para el  análisis de los títulos de las contribuciones durante veinte años de publicación. A la vez la presencia en la Web se realizó tomando en consideración algunos indicadores usuales para la denominada optimización para motores de búsqueda, en este sentido un estudio reciente (Jiménez & Pérez, 2013) reveló un conjunto de deficiencias importantes en cuanto al posicionamiento de los portales de la prensa cubana lo que posibilita presumir que estas pudieran mantenerse para una revista digital.
MATERIALES Y METODOS
Determinación de registros en Google Académico
Para la determinación de los registros en Google Académico se empleó el denominado Publish or Perish (POP) (Harzing, 2015). La búsqueda se realizó empleando el registro ISSN de la Revista con ello se obtuvieron 635 artículos publicados por la revista y referenciados en el Google Académico; esta se enmarcó en el período 1995 hasta el primer número del 2015.
Agrupamiento en clústeres a partir del número de citas por artículo
La primera clasificación de los artículos de la colección consistió en el  agrupamiento en clústeres en relación con las citas recibidas, para ello se utilizó el RapidMiner Studio Versión 6.3.00 (Rapidminer, 2014). 
El algoritmo empleado fue el de DB Scan; su característica básica está basada en los conceptos de: densidad alcanzable para el clúster y la densidad de la conexión entre los elementos que componen este (Verma, Srivastava, Chack, Diswar, & Gupta, 2012), en este caso no se postula, como en el algoritmo de k-medias, el valor de k para los clústeres a considerar, para el algoritmo empleado se tomaron como valores:
Parámetro épsilon = 1. Este expresa el tamaño de la vecindad en el  clúster
n= 5. Número mínimo de puntos a considerar en el clúster 
El esquema de procesos se muestra en la Figura 1:

.
Figura 1. Procesos para la agrupación de artículos en base al número de citas recibido por cada uno

El Rapidminer permite desarrollar el proceso con dos operadores (Figura 1).
1) Lectura del fichero en Excel
3) Agrupamiento (Clustering). Algoritmo de DB-Scan
Procesos de minería de textos
Para la minería de textos de los títulos de los artículos se realizaron los procesos que se muestran en la Figura 2:

 


Figura 2. Procesos para la minería de textos de los títulos de los artículos

Los  procesos fueron:

  1. Lectura de fichero, en Excel, con los títulos de todos los artículos de la colección.
  2. Procesamiento del documento que consiste en la generación de los vectores correspondientes a partir de los atributos de texto. Este proceso contiene los subprocesos que se describen más abajo en la Figura 3.
  3. Obtención del listado de palabras, que extrae una matriz con palabras, frecuencia de las mismas en total y por años

El procesamiento del documento está integrado por los subprocesos siguientes, para extracción del contenido que se detallan en la Figura 3:


Figura 3. Subprocesos para el procesamiento del documento

Estos consisten:

  1. Tokenización. Es decir separación en tokens o componentes léxicos de la cadena de caracteres, en este caso el título del artículo.
  2. Transformación a minúsculas
  3. Filtrado de palabras de enlace. Dado que en la versión empleada de Rapidminer no está disponible el diccionario en español, se preparó un fichero especial con adverbios, artículos, etc. Es decir las palabras de enlace que carecen de significado para una minería de texto.
  4. Filtrado de los tokens por longitud. Entre 3 a 50 caracteres.
  5. Generación de términos con un peso n. En este caso se realizó el análisis con una longitud de 2.

Determinación de indicadores para el Sitio de la Revista
El Sitio de la revista (http://www.ciencias.holguin.cu) se investigó utilizando SEOquake (SEOquake, 2015), esta es una extensión para navegadores, en este caso Firefox que ofrece todo un conjunto de indicadores, además de un diagnóstico de la Página considerada. Entre estos: Meta descripción, Meta palabras claves, enlaces internos y externos, rango en buscadores: Google, Yahoo, Bing y Alexa y todo un diagnóstico en relación a cumplimento de indicadores de posicionamiento, como: presencia o no de mapa XML del Sitio, Seguimiento en Google Analítica y menciones en redes sociales: Facebook, Twitter y Google +.

RESULTADOS DEL TRABAJO
Agrupamiento de acuerdo con el número de citas
El resumen de  los resultados obtenidos en relación con artículos referidos en el Google Académico (GA) se resume en la Tabla 1:
Tabla 1. Resumen de resultados de indicadores de artículos referidos en GA


Art.

Citas

Años

Citas/Año

Citas/Art

Autores/Art

h Ind.

g Ind

635

97

20

4.85

0.15

2.41

4

4

Los indicadores bibliométricos calculados ubican a la Revista con un valor h = 4 y un valor igual para el indicador g, este último da más relevancia a los artículos que tienen un alto número de citas. El resultado obtenido indica que el número de citas es bajo y en general no se observan artículos con un alto número de citas y por tanto no se marca una diferencia entre ambos indicadores.
Al aplicar el modelo de clusterización para agrupar los artículos en relación con el número de citas, se obtuvo la distribución siguiente, 4 clústeres:

Tabla 2. Número de artículos por clúster y valores por artículo


Clúster

Total Artículos

Total citas

Valores citas

 

 

Máximo

Mínimo

Promedio

0

7

8

3

4.29

1

16

2

2

2

2

35

1

1

1

3

577

0

0

0

La Figura 4 a continuación ilustra la dependencia del promedio de citas por clúster y año e indica que la mayor cantidad de artículos se agrupa en el clúster 3, con 0 citas por artículo y el de mayor número de citas, el clúster 0, con sólo 7 artículos y un promedio de 4.29 citas por artículo.


Figura 4. Distribución de citas por año y clústeres

La distribución por años indica de forma más precisa que los años de mayor número de citas de la revista han sido 2010 y 2011 por ejemplo de los 7 artículos en el clúster 0, el de mayor número de citas, seis corresponden al 2010 y uno al 2011.
Para el proceso de minería de textos realizado (Fig. 2 y 3) se obtuvo la matriz de términos, con significado léxico, con sus frecuencias y distribución por años. En general para los 635 artículos analizados se obtuvieron 573 términos. Esta matriz hace simple (Wordle, 2015) poder obtener una nube de palabras que resulta muy ilustrativa (Tamaño del texto proporcional a la frecuencia encontrada) y que se muestra en la Figura 5 a continuación:


Figura 5. Nube de palabras para los 635 títulos de la Revista Holguín

Esta figura ilustra claramente que la revista ha mantenido en su mayoría títulos que ilustran contenidos locales de la provincia en las áreas de gestión, sistemas y procesos. Para el año que más citas recibió la colección (2010) se obtuvo una concentración en 514 términos
El articulo con más citas de toda la colección es (Borges & Calzadilla, 2010) seguido de  (Peña, Feria, Sánchez, Perdomo, & Mulet, 2010) y (Martínez, Cruz, & López, 2010) todos ellos como se señaló (ver Tabla 2) fueron agrupados en el clúster 0 que es el que mayor número de citas acapara.
La nube de palabras creada para los títulos del año 2010 se presenta a continuación (Figura 6):


Figura 6. Nube de palabras para los títulos del  año 2010

Este resultado obtenido a partir de la matriz con palabras y frecuencia de las mismas para el año en cuestión, ilustra que el año en que más citas obtuvieron los artículos predominaba en los textos de los títulos, contenidos locales (empleo preponderante del término Holguín).
2) Posicionamiento WEB
La visibilidad en la WEB se analizó para el Sitio de alojamiento: http://www.ciencias.holguin.cu/
Los resultados obtenidos y las recomendaciones con el empleo de (SEOquake, 2015) fueron:

  1. Meta descripción del Sitio: 1064 caracteres. Se recomienda mantener entre la longitud optima de 70 a 160 caracteres y reformularla en base a palabras clave de contenidos.
  2. Meta palabras: 8093 caracteres. 418 palabras clave. Debe reducirse aunque actualmente no afecta tanto el posicionamiento en buscadores como Google
  3. Mapa del Sitio en XML. No se detecta
  4. Seguimiento por Google Analytics. No se detecta y no hay cuenta asociada para el seguimiento por esta herramienta de Google.
  5. Redes Sociales. No se detectan menciones en Twitter, Facebook ni Google+
  6. Enlaces externos. Sólo se detectan enlaces externos a: Redalyc, Redciencia.cu y Seriadas.cult.cu

El Sitio aparece con un rango en Alexa (526 8684) y en Google (5) lo que indica que si se colocara periódicamente el Mapa del Sitio, se implementara el seguimiento en Google Analytics y se aumentara el número de enlaces externos, se pudiera mantener e incrementar estos indicadores.

CONCLUSIONES
Los resultados alcanzados permiten caracterizar la presencia en Google Scholar y en la Web de la Revista Holguín; la revista ha mantenido un promedio de 4.85  citas por año y de 0.15 citas por artículo. Los valores de los indicadores h y g son de 4.
El agrupamiento por clústeres realizado demostró que 577 artículos (91 del total analizado) no han recibido citas de otras publicaciones. Sólo 7 artículos se agrupan en el clúster con mayor promedio (4.29) citas por artículo.
La distribución por años indicó que 2010 y 2011 fueron los años que recibieron el mayor número de citas de la revista, por ejemplo de los 7 artículos en el clúster 0, el de mayor número de citas, seis corresponden al 2010 y uno al 2011.
El proceso de minería de textos realizado permitió generar a partir de los títulos de los artículos los términos, con significado léxico, con sus frecuencias y distribución por años; ello permitió generar para los 635 artículos analizados una nube de palabras que ilustra que la revista ha mantenido en su mayoría títulos que muestran contenidos locales de la provincia en las áreas de gestión, sistemas y procesos. Para el año que más citas recibió la colección (2010) se obtuvo una concentración en 514 términos que evidenció que en los títulos de los artículos se encontraban términos que reflejaban contenidos locales (empleo preponderante del término Holguín).
El análisis del  posicionamiento del Sitio de la Revista reveló que esta tiene un buen posicionamiento tanto en Google como en Alexa pero se aprecia la necesidad de aumentar los enlaces externos como parte de una estrategia de posicionamiento.
La revista tiene una presencia casi nula en las redes sociales por lo que  se hace necesario agregar un complemento que permita referir la revista y sus artículos en las redes sociales No se pudo determinar la presencia de un mapa XML del Sitio ni el rastreo del mismo por Google Analytics.
Los resultados obtenidos apuntan en la dirección de que la presencia de contenidos locales lejos de disminuir el atractivo científico de la revista lo eleva y que puede resultar apropiado una reformulación de la Meta descripción del Sitio y de las Meta palabras basándose en los resultados de la minería de textos realizada con los títulos de los artículos. Establecer una estrategia de posicionamiento WEB puede así mejorar la visibilidad de la revista y contribuir a elevar el número de citas por artículo.

 

  •  


BIBLIOGRAFÍA

Fecha de Recepción:13 de abril 2015 Fecha de Aprobación: 21 de mayo 2015 Fecha de Publicación: 29 de mayo 2015

Enlaces refback

  • No hay ningún enlace refback.