Edukira joan | Menura joan | Bilaketara joan

nahia blog

Blog berri bat blogari berri batentzat

Artxiboak: 2007

:: Hurrengo orrialdea >>

Main characteristics of a translation task according to the FEMTI report (Q3)

Main characteristics of a translation task according to the FEMTI report

"The Framework for Machine Translation Evaluation in ISLE is a resource that helps MT evaluators define contextual evaluation plans. FEMTI consists of two interrelated classifications or taxonomies: the first one lists possible characteristics of the contexts of use that are applicable to MT systems. The second one lists the possible characteristics of an MT system, along with the metrics that were proposed to measure them".

The characteristics of the translation task are the follow:

  • Assimilation: “The ultimate purpose of the assimilation task (of which translation forms a part) is to monitor a (relatively) large volume of texts produced by people outside the organization, in (usually) several languages.”
  • Dissemination:  “The ultimate purpose of dissemination is to deliver to others a translation of documents produced inside the organization.”
  • Communication: “The ultimate purpose of the communication task is to support multi-turn dialogues between people who speak different languages. The translation quality must be high enough for painless conversation, despite possible syntactically ill-formed input and idiosyncratic word and format usage. The ultimate purpose of dissemination is to deliver to others a translation of documents produced inside the organization.”

 http://www.issco.unige.ch:8080/cocoon/femti/st-home.html

Translation examples by MT systems (Q3)

Translation examples by MT systems

"Machine translation, sometimes referred to by the acronym MT, is a sub-field of computational linguistics that investigates the use of computer software to translate text or speech from one natural language to another. At its basic level, MT performs simple substitution of words in one natural language for words in another. Using corpus techniques, more complex translations may be attempted, allowing for better handling of differences in linguistic typology, phrase recognition, and translation of idioms, as well as the isolation of anomalies".

 These are some examples of MT systems:

International meetings on Computational Linguistics (Q2)

International meetings on Computational Linguistics

Complete the references and make a general comment on the following international meetings on Computational Linguistics

These are some of the conferences that will take place this year:

- 45th Annual Meeting of the Asocciation for computational Linguistics

These are the demos program of the conference:

 Session 1

  

  1. Demo Proposal for MIMUS: A Multimodal and Multilingual Dialogue System for the Home Domain
    J. Gabriel Amores, Guillermo Pérez and Pilar Manchón
  2. A Translation Aid System with a Stratified Lookup Interface
    Takeshi Abekawa and Kyo Kageura
  3. Multimedia Blog Creation System using Dialogue with Intelligent Robot
    Akitoshi Okumura, Takahiro Ikeda, Toshihiro Nishizawa, Shin-ichi Ando and Fumihiro Adachi
  4. SemTAG: a platform for specifying Tree Adjoining Grammars and performing TAG-based Semantic Construction
    Claire Gardent and Yannick Parmentier
  5. System Demonstration of On-Demand Information Extraction
    Akira Oda and Satoshi Sekine
  6. Multilingual Ontological Analysis of European Directives
    Gianmaria Ajani, Guido Boella, Leonardo Lesmo, Alessandro Mazzei and Piercarlo Rossi

Session 2

  1. zipfR: Word Frequency Modeling in R
    Stefan Evert and Marco Baroni
  2. Linguistically Motivated Large-Scale NLP with C&C and Boxer
    James Curran, Stephen Clark and Johan Bos
  3. Don't worry about metaphor: affect detection for conversational agents
    Catherine Smith, Timothy Rumbell, John Barnden, Robert Hendley, Mark Lee, Alan Wallington and Li Zhang
  4. An efficient algorithm for building a distributional thesaurus (and other Sketch Engine developments)
    Pavel Rychly and Adam Kilgarriff
  5. Semantic enrichment of journal articles using chemical NER
    Colin R. Batchelor and Peter T. Corbett
  6. An API for Measuring the Relatedness of Words in Wikipedia
    Simone Paolo Ponzetto and Michael Strube
  7. NICT-ATR Speech-to-Speech Translation System
    Eiichiro Sumita, Tohru Shimizu and Satoshi Nakamura

http://ufal.mff.cuni.cz/acl2007/

- Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2007)

  

Demos

The Automated Text Adaptation Tool
Jill Burstein, Jane Shore, John Sabatini, Yong-Won Lee, Matthew Ventura
TextRunner: Open Information Extraction on the Web
Alexander Yates, Michele Banko, Matthew Broadhead, Michael Cafarella, Oren Etzioni, Stephen Soderland
Text Comparison Using Machine-Generated Nuggets
Liang Zhou
Voice-Rate: A Dialog System for Consumer Ratings
Geoffrey Zweig, Y.C. Ju, Patrick Nguyen, Dong Yu, Ye-Yi Wang and Alex Acero
OMS-J: An Opinion Mining System for JapaneseWeblog Reviews Using a Combination of Supervised and Unsupervised Approaches
Guangwei Wang, Kenji Araki
The Hidden Information State Dialogue Manager: A Real-World POMDP-Based System
Steve Young, Jost Schatzmann, Blaise Thomson, Karl Weilhammer, Hui Ye
Cedit: Semantic Networks Manual Annotation Tool
Václav Novák
POSSLT: A Korean to English Spoken Language Translation System
Donghyeon Lee, Jonghoon Lee, Gary Geunbae Lee
Adaptive Tutorial Dialogue Systems Using Deep NLP Techniques
Myroslava O. Dzikovska, Charles B. Callaway, Elaine Farrow, Manuel Marques-Pita, Colin Matheson, Johanna D. Moore
Automatic Segmentation and Summarization of Meeting Speech
Pei-Yun (Sabrina) Hsueh, Gabriel Murray, Simon Tucker, Jonathan Kilgour, Jean Carletta, Johanna Moore, Steve Renals
Spoken Dialogue Systems for Language Learning
Stephanie Seneff, Chao Wang, Chih-yu Chao
RavenCalendar: A Multimodal Dialog System for Managing A Personal Calendar
Svetlana Stenchikova, Basia Mucha, Sarah Hoffman, Amanda Stent
Learning to find transliteration on the Web
Chien-Cheng Wu, Jason S. Chang
The CALO Meeting Assistant Demo
Lynn Voss, Patrick Ehlen, and the CALO Meeting Assistant Project Team
Demonstration of PLOW: A Dialogue System for One-Shot Task Learning
James Allen, Nathanael Chambers, George Ferguson, Lucian Galescu, Hyuckchul Jung, Mary Swift, William Taysom
A Conversational In-car Dialog System
Baoshi Yan, Fuliang Weng, Zhe Feng, Florin Ratiu, Madhuri Raya, Yao Meng, Sebastian Varges, Matthew Purver, Annie Lien, Tobias Scheideck, Badri Raghunathan, Feng Lin, Rohit Mishra, Brian Lathrop, Zhaoxia Zhang, Harry Bratt, Stanley Peters

  

  

http://www.cs.rochester.edu/meetings/hlt-naacl07/

Definitions of Human Language Technologies (Q1)

Definitions of Human Language Technologies:

Look for two or more definitions of Human Language Technologies by scholars or relevant sites on the Web. Please, quote the authors properly.

- "Human Language Technologiy (HTL) makes it easier for people to interact with machines. This can benefit a wide range of people - from illiterate farmers in remote villages who want to obtain relevant medical information over a cellphone, to scientist in state-of-the-art laboratories who want to focus on problem-solving with computers".

www.meraka.org.za/humanLanguage.htm


- "Language technology — sometimes also referred to as human language technology — comprises computational methods, computer programs and electronic devices that are specialized for analyzing, producing or modifying texts and speech. These systems must be based on some knowledge of human language. Therefore language technology defines the engineering branch of computational linguistics".  

http://www.dfki.de/lt/lt-general.php

Reasons to study Human Language Technologies (Q2)

Reasons to study Human Language Technologies

Note down and discuss five reasons to study Human Language Technologies. I will give you one: ScholarShips are available on this topic

These are the two different reasons I have found:

- "HLTC is a multidisciplinary research center at the Hong Kong University of Science and Technology (HKUST) whose mission is to lead state-of-the-art research directions that drive the development of new applications in both text and spoken language technology. HLTC is led by seven faculty members from the EEE and the CS departments: Oscar Au, Roland Chin, Pascale Fung, Brian Mak, Bertram Shi, Manhung Siu, and Dekai Wu, specializing in speech and signal processing, statistical and corpus-based natural language processing, machine translation, text mining, information extraction, Chinese language processing, knowledge management, and related fields. Special emphasis is given to machine processing of Chinese language and Chinese information. Systems built at HLTC include automated language translation for the Internet, speech-based web browsing, and speech recognition for the telephone".

http://littera.deusto.es/prof/abaitua/hlt/hlt0607/ScholarShips

- "The capabilities of human language technology (HLT) have grown substantially in recent years, both in the research laboratory and in the commercial marketplace. There is now a wide range of applications for HLT systems such as automatic transcription of meetings, translation between languages (e.g. Arabic and English), automatic answering of questions, text mining (e.g. from the web) and access to information through spoken human-computer dialogue. Systems which use HLT are now in everyday use, through technologies such as internet search engines and mobile phones, and most major international computer and telecoms companies now engage in HLT research and development. As a result, there is strong demand for graduates with the highly-specialised multi-disciplinary skills that are required in HLT, both as practitioners in the development of HLT applications and as researchers into the advanced capabilities required for next-generation HLT systems".

http://www.shef.ac.uk/dcs/postgrad/taught/hlt

European research centres for Human Language Technologies (Q1)

 European research centres for Human Language Technologies

These are the four different centres for Human Language Technologies I have found

- National Centre for Language Technology

http://www.nclt.dcu.ie/index.html

- The Edinburgh Language Technology Group

http://www.ltg.ed.ac.uk/

- Language Technology Documentation Centre in Finland

http://www.ling.helsinki.fi/filt/info/index-en.shtml

- Language Technology Group

http://www.ofai.at/research/nlu/  

 

 

 

Andrés de poza

      Los nuevos proyectos informáticosnos exigen un trabajo diferente al de antes. Ahora se exige un trabajo comunitario, distintos puntos de vista.

      A raiz de distintas reflexiones los textos se renuevan constantemente, (mi texto de hoy no será el mismo que el de mañana).

      Para elavorar un texto hace falta muxo trabajo y consulta de distintas fuentes de información).

      El portal Andrés de Poza es un portal trilingüe, de textos múltiples. Los contenidos están al alcance de todos de modo que todo el mundo lo puede utilizar para sus artículos.

      Los textos están interrelacionados con las características del portal. Se comunican con datos sobre la elavoración del mismo y nos dan una información añadida, sin desviar el tema en absoluto.

      En mi opinión el portal de Andrés de Poza es una herramienta útil de trabajo con la que podemos enriquecer nuestros artículos.

Datos, metadatos, contenidos y metacontenidos

"Un lenguaje de marcado o lenguaje de marcas es una forma de codificar un documento que, junto con el texto, incorpora etiquetas o marcas que contienen información adicional acerca de la estructura del texto o su presentación." (Wikipedia) Un lenguaje de marcado esta compuesto por los términos dato metadato, contenido y metacontenido.

Tras el artículo de debate que elaboré junto a mis compañeras estas son las definiciones que obtuvimos de estos térmios:

* Dato: “es una representación simbólica (numérica, alfabética, etc.), de un atributo (…) El dato no tiene valor semántico en sí mismo”(Wikipedia, 17/01/07) por lo que no tiene significado para los humanos. “Los datos fueron creados para remover el significado subjetivo y los ordenadores pudiesen trabajar con precisión y estricta lógica.” (Alberto La Calle, fecha actualización: 08/08/05).

* Metadato: son datos que aportan información sobre los propios datos. Describen características como la condición, la calidad de los datos y aportan su contenido semántico. (Wikipedia, 17/01/07). “Contextualizan y dan significado explícito suficiente para que un ordenador pueda gestionar datos.” (Alberto La Calle, fecha actualización : 05/08/05).

* Contenido: adaptado al campo informático es todo lo textual, visual o auditivo que forma parte de la experiencia de los usuarios en la red. (Wikipedia, 17/01/07).

* Metacontenido:” información descriptiva apoyada en una colección temática que sirve como guía de un tema, audiencia o finalidad concretos. ” ( Sirsi Rooms, 17/01/07).

Tipos de comunicaciones

Si buscamos en internet por tipo de de comunicaciones podremos encontrar distintas definiciones como por ejemplo: "Según el código que en ellas se ocupe, existen distintos tipos de comunicación:

  • Lingüística escrita: cuando el código empleado es lingüístico escrito. Por ejemplo, la correspondencia por carta.
  • Lingüística oral: cuando el código empleado es lingüístico oral. Por ejemplo, cuando conversamos.
  • No lingüística visual: cuando el código empleado es no lingüístico visual. Por ejemplo, la publicidad.
  • No lingüística gestual: cuando el código empleado es no lingüístico gestual. Por ejemplo, los gestos que utilizamos a diario.
  •  No lingüística acústica: cuando el código empleado es no lingüístico acústico. Por ejemplo, la sirena de la ambulancia." Esto es lo que hasta ahora entendiamos por tipos de comunicacion. Sin embargo, hoy en día y gracias al avance tecnologico debemos añadir a esta lista el término de comunicación digital.

 Una nueva "adquisición" a lo que tipo de comunicación se refiere. " La principal novedad del lenguaje digital es el hipertexto que rompe con la linealidad e implica al lector en la expresión del contenido, cuyo resultado siempre es incierto." (" Escritura espacial"- J.D Bolter)

Debate: Datos, metadatos, contenidos y metacontenidos

Los ordenadores necesitan de un lenguaje específico para mostrarnos la información tal y como la vemos en pantalla, ese tipo de lenguaje se denomina lenguaje de marcado y se compone de:

  • Dato: “es una representación simbólica (numérica, alfabética, etc.), de un atributo (…) El dato no tiene valor semántico en sí mismo”(Wikipedia, 17/01/07) por lo que no tiene significado para los humanos. “Los datos fueron creados para remover el significado subjetivo y los ordenadores pudiesen trabajar con precisión y estricta lógica.” (Alberto La Calle, fecha actualización: 08/08/05).
  • Metadato: son datos que aportan información sobre los propios datos. Describen características como la condición, la calidad de los datos y aportan su contenido semántico. (Wikipedia, 17/01/07). “Contextualizan y dan significado explícito suficiente para que un ordenador pueda gestionar datos.” (Alberto La Calle, fecha actualización : 05/08/05).
  • Contenido: adaptado al campo informático es todo lo textual, visual o auditivo que forma parte de la experiencia de los usuarios en la red. (Wikipedia, 17/01/07).
  • Metacontenido:” información descriptiva apoyada en una colección temática que sirve como guía de un tema, audiencia o finalidad concretos. ” ( Sirsi Rooms, 17/01/07).

Metalenguaje: ” lenguaje usado para hacer referencia a otros lenguajes.” En informática, se manifiesta a través de los lenguajes de programación.

Ejemplos:

  • UML (http://www.programacion.com/tutorial/uml/1/)
  • HTML (http://www.w3schools.com/html/html_intro.asp)
  • XHTML (http://www.w3c.es/Divulgacion/Guiasbreves/XHTML)

“Los metadatos basados en estándares, como es el caso de Dublin Core, son un componente clave para construir repositorios basados en Web y ambientes de aprendizaje electrónico (e-learning) como lo son universidades, museos, dependencias gubernamentales y bibliotecas.” (Conferencia Manzanillo, Colima, México del 3 al 6 de octubre de 2006).

(Debate) Comunicaciones: Tipos

Tradicionalmente las formas de comunicación se han dividido en oral y escrita (wikipedia), aunque recientemente debido a la influencia de las nuevas tecnologías, los límites entre entre ambas se van haciendo más difusas. (Annete Becker, “lenguaje escrito versus lenguaje oral”).
Algunas diferencias entre la comunicación oral, escrita y digital son:

  • Desde el punto de vista del receptor, la comunicación oral es para ser oída, la escrita para ser leída y la digital para ser ojeada.
  • El lenguaje oral tiene mayor capacidad apelativa que el texto escrito y digital, por su sencillez, entonación y mímica que nos ayuda a expresarnos con mayor exactitud. (Wikipedia - “comunicación oral”) .
  • El lenguaje escrito y sobre todo el digital han tenido más prestigio que el oral debido a que requieren un proceso de aprendizaje de la gramática y de la tecnología. (L. A. Díaz - “Lenguaje escrito y lenguaje oral”).
  • La principal novedad del lenguaje digital es el hipertexto que rompe con la linealidad e implica al lector en la expresión del contenido, cuyo resultado siempre es incierto. ( “Escritura espacial” - J.D. Bolter).
  • El hipertexto se basa en el pensamiento asociativo y el texto impreso utiliza el pensamiento lógico casual. (Espéculo, UCM).

Toda escritura es un modo de tecnología, la escritura electrónica sólo es la última etapa de la evolución de las tecnologías de la escritura. (McLuhan).

:: Hurrengo orrialdea >>

This site works better with web standards! Original skin design courtesy of Tristan NITOT.